| Audio Feature |
Wertebereich |
Bedeutung |
| RMS Amplitude | 0 bis 1 |
Der quadratische Mittelwert der Amplitude (RMS=root mean square);
ein Maß für die durchschnittliche Lautstärke des
Signals. |
| Energy | ≥ 0 | Die Summe der quadrierten Amplitudenwerte innerhalb eines Analyse-Fensters. |
| Spectral Centroid | 0 bis halbe Samplefreq. | Der spektrale Schwerpunkt oder "Massemittelpunkt" des Spektrums; korreliert oft mit der wahrgenommenen "Helligkeit" eines Klangs. |
| Zero Crossing Rate | ≥ 0 |
Die Häufigkeit, mit der das Signal die Nullachse schneidet;
ein Indikator für Rauschhaftigkeit oder Helligkeit. |
| Spectral Flatness | 0 bis 1 |
Gibt an, wie "flach" das Spektrum ist. Ein Wert nahe
1 deutet auf Rauschen (weißes Rauschen) hin, ein Wert nahe
0 auf einen tonalen Klang. |
| Spectral Flux | ≥ 0 |
Maß, wie stark sich das Spektrum von Frame zu Frame ändert;
0 = keine Änderung. Kann beliebig hoch werden. |
| Positive Flux | ≥ 0 |
Experimentelles Maß für Tone Onsets; 0 = keine Änderung.
Kann beliebig hoch werden. |
| Spectral Slope | Variabel | Die Steigung des Spektrums, ermittelt durch eine lineare Regression; beschreibt den Abfall der Energie zu hohen Frequenzen hin. |
| Spectral Rolloff | 0 bis halbe Samplefreq. | Die Frequenz, unter der 99% der spektralen Energie liegt. |
| Spectral Spread | ≥ 0 |
Die spektrale Bandbreite oder "Ausbreitung" um den Spectral
Centroid herum = ob das Spektrum mehr tonal (niedrige Werte) oder
verrauscht ist (hohe Werte). |
| Spectral Skewness | Variabel | Die Schiefe der spektralen Verteilung; beschreibt die Asymmetrie des Spektrums um den Mittelwert. |
| Spectral Kurtosis | Variabel |
Die Wölbung (Steilheit) des Spektrums; gibt an, wie stark
das Spektrum von einer Normalverteilung abweicht (0 = weißes
Rauschen, 1 = purer Sinus). |
| Perceptual Sharpness | 0 bis 1 |
Psychoakustische Schärfe nach dem Modell von von Bismarck;
gewichtet höhere Frequenzanteile stärker. 0 = stumpf/weich,
1 = scharf. |
| Perceptual Spread | 0 bis 1 |
Ein psychoakustisches Maß für die wahrgenommene Breite
oder Dichte eines Klangs basierend auf den Bark-Bändern, 0
= "leerer Klang", 1 = "voller Klang". |
| MFCC (113) | Variabel |
Mel-Frequency Cepstral Coefficients; sie beschreiben die grobe
Form der spektralen Hüllkurve und werden oft zur Spracherkennung
genutzt. |
| Chroma (C bis H) | 0 bis 1 |
Die relative Intensität der 12 Halbtöne einer Oktave;
ideal zur Analyse von Harmonik und Tonart. |
| Bark Bands (124) | ≥ 0 |
Die Energieverteilung über die 24 Bark-Gruppen, die der kritischen
Bandbreite des menschlichen Gehörs entsprechen. |
| Loudness (Zwicker) | Sone |
Die Gesamtlautheit basierend auf dem Modell von Zwicker, die die
menschliche Wahrnehmung (Frequenzmaskierung) berücksichtigt. |
| Audio Feature |
Value Range |
Meaning |
| RMS Amplitude | 0 to 1 | Root Mean Square of the amplitude; a measure of the average volume/loudness of the signal. |
| Energy | ≥ 0 | The sum of squared amplitude values within an analysis window. |
| Spectral Centroid | 0 to half sample rate | The spectral center of mass; often correlates with the perceived "brightness" of a sound. |
| Zero Crossing Rate | ≥ 0 |
The rate at which the signal crosses the zero axis; an indicator
of noisiness or brightness. |
| Spectral Flatness | 0 to 1 | Indicates how "flat" the spectrum is. A value near 1 indicates noise (white noise), a value near 0 indicates a tonal sound. |
| Spectral Flux | ≥ 0 | Measure of how quickly the power spectrum changes from frame to frame; 0 = no change. Can be arbitrarily high. |
| Positive Flux | ≥ 0 | Experimental measure for tone onsets; 0 = no change. Can be arbitrarily high. |
| Spectral Slope | Variable | The slope of the spectrum, determined by linear regression; describes the decrease of energy towards high frequencies. |
| Spectral Rolloff | 0 to half sample rate | The frequency below which 99% of the spectral energy is contained. |
| Spectral Spread | ≥ 0 | The spectral bandwidth or "spread" around the Spectral Centroid; indicates whether the spectrum is more tonal (low) or noisy (high). |
| Spectral Skewness | Variable | The skewness of the spectral distribution; describes the asymmetry of the spectrum around its mean. |
| Spectral Kurtosis | Variable | The steepness (kurtosis) of the spectrum; indicates how much the spectrum deviates from a normal distribution (0 = white noise, 1 = pure sine). |
| Perceptual Sharpness | 0 to 1 | Psychoacoustic sharpness according to von Bismarck's model; weighs higher frequency components stronger. 0 = dull/soft, 1 = sharp. |
| Perceptual Spread | 0 to 1 | A psychoacoustic measure of the perceived width or density of a sound based on Bark bands, 0 = "empty sound", 1 = "full sound". |
| MFCC (113) | Variable | Mel-Frequency Cepstral Coefficients; they describe the rough shape of the spectral envelope and are often used in speech recognition. |
| Chroma (C to B) | 0 to 1 | The relative intensity of the 12 semitones of an octave; ideal for analyzing harmony and key. |
| Bark Bands (124) | ≥ 0 | The energy distribution across the 24 Bark bands, corresponding to the critical bands of human hearing. |
| Loudness (Zwicker) | Sone | The overall loudness based on Zwicker's model, taking human perception (frequency masking) into account. |
| 音频特征 |
数值范围 |
含义 |
| RMS Amplitude | 0~1 | 振幅的均方根值;用于表示信号的平均音量或响度。 |
| Energy | ≥ 0 | 一个分析窗口内所有振幅值平方的总和。 |
| Spectral Centroid | 0~采样率的一半 | 频谱的质心;通常与声音感知上的“明亮度”相关。 |
| Zero Crossing Rate | ≥ 0 | 信号穿过零轴的频率;可作为噪声感或明亮度的指标。 |
| Spectral Flatness | 0~1 | 表示频谱的“平坦”程度。数值接近 1 表示噪声(白噪声),数值接近 0 表示有明确音高的声音。 |
| Spectral Flux | ≥ 0 | 衡量功率谱在相邻帧之间变化的速度;0 表示没有变化,数值可以任意增大。 |
| Positive Flux | ≥ 0 | 用于音符起始点的实验性指标;0 表示没有变化,数值可以任意增大。 |
| Spectral Slope | 可变 | 通过线性回归得到的频谱斜率;描述能量向高频方向递减的程度。 |
| Spectral Rolloff | 0~采样率的一半 | 包含 99% 频谱能量以下部分的频率。 |
| Spectral Spread | ≥ 0 | 围绕 Spectral Centroid 的频谱带宽或扩展程度;表示频谱更偏向有明确音高(低值)还是更偏向噪声(高值)。 |
| Spectral Skewness | 可变 | 频谱分布的偏度;描述频谱围绕其均值的不对称性。 |
| Spectral Kurtosis | 可变 | 频谱的峰度或陡峭程度;表示频谱偏离正态分布的程度(0 = 白噪声,1 = 纯正弦波)。 |
| Perceptual Sharpness | 0~1 | 根据 von Bismarck 模型计算的心理声学锐度;对较高频率成分赋予更高权重。0 = 钝/柔和,1 = 尖锐。 |
| Perceptual Spread | 0~1 | 基于 Bark 频带的心理声学指标,用于描述声音感知上的宽度或密度;0 = “空”的声音,1 = “满”的声音。 |
| MFCC (1-13) | 可变 | 梅尔频率倒谱系数;描述频谱包络的大致形状,常用于语音识别。 |
| Chroma (C to B) | 0~1 | 一个八度内 12 个半音的相对强度;适合用于分析和声与调性。 |
| Bark Bands (1-24) | ≥ 0 | 24 个 Bark 频带上的能量分布,对应人类听觉的临界频带。 |
| Loudness (Zwicker) | Sone | 基于 Zwicker 模型的总体响度,考虑了人类感知中的频率掩蔽。 |