| Audio Feature |
Wertebereich |
Bedeutung |
| RMS Amplitude | 0 bis 1 |
Quadratischer Mittelwert der Amplitude; Maß für die
durchschnittliche Lautstärke eines Frames. |
| Zero Crossing Rate | 0 bis 1 |
Die Rate, mit der das Signal die Zeitachse schneidet; ein Maß
für die "Rauschhaftigkeit" und Helligkeit. |
| Time Skewness | Variabel |
Maß für die Asymmetrie der Amplitudenverteilung im
Zeitbereich. |
| Time Kurtosis | Variabel |
Maß für die "Steilheit" oder Ausreißerhäufigkeit
der Amplitudenwerte im Zeitbereich. |
| Temporal Centroid | 0 bis 1 | Der zeitliche Schwerpunkt der Energie innerhalb eines Rahmens (normiert auf die Dauer eines Frames). |
| Loudness (Sones) | > 0 Sone |
Die wahrgenommene Lautheit basierend auf der Aufsummierung der
Bark-Bänder. |
| Sharpness | Variabel |
Psychoakustische Schärfe; gewichtet die Energie in den höheren
Bark-Bändern stärker. |
| F0 / Pitch (Yin, Hz) | ca. 50 bis 2000 Hz |
Grundfrequenz-Schätzung mittels des YIN-Algorithmus; sehr
robust für monophone Signale. |
| MIDI Pitch | 0 bis 127 |
Die auf die naheste MIDI-Notennummer gerundete Tonhöhe der
geschätzten Grundfrequenz. |
| F0, Pitch (HPS, Hz) | ca. 50 bis 2000 Hz |
Grundfrequenz-Schätzung mittels Harmonic Product Spectrum;
erkennt Tonhöhen durch Übereinanderlegen harmonischer
Teiltöne. |
| F0 (Spectral, Hz) | ca. 50 bis 2000 Hz |
Spektrale Grundfrequenz-Schätzung; basiert auf der Identifikation
des stärksten periodischen Anteils im Spektrum. |
| Similarity (Autocorr.) | -1 bis 1 |
Maß für die Selbstähnlichkeit des Signals (Autokorrelation);
hohe Werte deuten auf eine starke Periodizität (Tonhöhe)
hin. |
| Spectral Tilt | Variabel (dB) |
Das Verhältnis der Energie unterhalb von 1000 Hz zu der Energie
oberhalb von 1000 Hz. |
| Spectral Centroid | 0 bis halbe Samplefreq. | Der "Helligkeitsschwerpunkt" des Spektrums in Hertz. |
| Spectral Rolloff (Hz) | 0 bis halbe Samplefreq. | Die Frequenz, unter der 85% der spektralen Energie liegt. |
| Spectral Mean | ≥ 0 | Die durchschnittliche Amplitude aller Frequenzkomponenten im Spektrum. |
| Spectral Spread | ≥ 0 | Beschreibt die spektrale Varianz; also wie stark die Energie um den Schwerpunkt (Centroid) gestreut ist. |
| Spectral Std. Dev | ≥ 0 |
Die spektrale Standardabweichung; ein Maß für die Breite
der spektralen Verteilung. |
| Spectral Skewness | Variabel | Beschreibt die Schiefe der spektralen Form (Asymmetrie um den spektralen Mittelwert). |
| Spectral Kurtosis | Variabel | Beschreibt die "Spitzigkeit" des Spektrums; hohe Werte deuten auf ein Spektrum mit wenigen, dominanten Peaks hin. |
| Spectral Smoothness | ≥ 0 |
Misst die Glattheit der spektralen Einhüllenden; erkennt
abrupte Änderungen zwischen benachbarten Frequenzbändern. |
| Spectral Flatness | 0 bis 1 | Beschreibt die "Flachheit" des Spektrums; hohe Werte deuten auf Rauschen hin. |
| Irregularity (Jensen) | ≥ 0 |
Misst die Varianz zwischen aufeinanderfolgenden Spektralamplituden
(Maß für spektrale Rauigkeit). |
| Irregularity (Krimphoff) | ≥ 0 |
Ein alternatives Maß für die spektrale Unregelmäßigkeit
nach Krimphoff. |
| Spectral Crest Factor | ≥ 0 |
Verhältnis der Spitzenamplitude zum Mittelwert des Spektrums. |
| Noisiness | Variabel |
Das Verhältnis der nichtharmonischen Energie zur harmonischen
Energie (P/H-Ratio). |
| Spectral Slope | Variabel | Gibt die Neigung des Spektrums an (lineare Regression); zeigt, wie schnell die Energie zu hohen Frequenzen hin abnimmt. |
| Spectral Inharmonicity | 0 bis 1 |
Gibt an, wie stark die Obertöne von einer idealen harmonischen
Reihe abweichen. |
| Tonality (HSD) | 0 bis 1 |
Maß für die Tonalität basierend auf der Spectral
Flatness; 1 bedeutet rein tonal, 0 bedeutet Rauschen. |
| Tristimulus (1, 2, 3) | 0 bis 1 |
Drei Koeffizienten, die die Energieverteilung der ersten Teiltöne
beschreiben (ähnlich der Farbmischung): Tristimulus 1 = Energie
des 1. Teiltons (Grundtönigkeit), Tristimulus 2 = Energie des
2.-4. Teiltons (Präsenz), Tristimulus 3 = Energie ab dem 5.
Teilton (in jsXtract: nur der 5. Teilton)(Schärfe). |
| Instr. Formants (F1-F3) | 0 bis halbe Samplefreq. |
Schätzung der ersten drei Formanten (Resonanzbereiche) mittels
Linearer Prädiktion (LPC). |
| LPCC (1-13) | Variabel | Linear Prediction Cepstral Coefficients; beschreiben die Filtercharakteristik des (vokalen) Resonanzraums. |
| MFCC (113) | Variabel |
Mel-Frequency Cepstral Coefficients zur Beschreibung der spektralen
Einhüllenden. |
| Chroma (C bis B) | 0 bis 1 |
Energieverteilung auf die 12 chromatischen Halbtöne; nützlich
für die Harmonieanalyse. |
| Bark Bands (124) | ≥ 0 |
Energieanteile in den 24 kritischen Frequenzgruppen des menschlichen
Gehörs (Bark-Skala). |
| Audio Feature |
Value Range |
Meaning |
| RMS Amplitude | 0 to 1 | QRoot mean square of the amplitude; a measure of the average volume of a frame. |
| Zero Crossing Rate | 0 to 1 | The rate at which the signal crosses the time axis; a measure of "noisiness" and brightness. |
| Time Skewness | Variable | A measure of the asymmetry of the amplitude distribution in the time domain. |
| Time Kurtosis | Variable | A measure of the "Steepness" frequency of outliers in the amplitude values in the time domain. |
| Temporal Centroid | 0 to 1 | The temporal concentration of energy within a frame (normalized to the frame length). |
| Loudness (Sones) | > 0 Sone | Perceived loudness based on the summation of the Bark bands. |
| Sharpness | Variable | Psychoacoustic sharpness; emphasizes the energy in the higher Bark bands. |
| F0 / Pitch (Yin, Hz) | ca. 50 to 2000 Hz | Fundamental frequency estimation using the YIN algorithm; highly robust for monophonic signals. |
| MIDI Pitch | 0 to 127 | The pitch of the estimated fundamental frequency, rounded to the nearest MIDI note number. |
| F0, Pitch (HPS, Hz) | ca. 50 to 2000 Hz | Fundamental frequency estimation using the harmonic product spectrum; identifies pitches by superimposing harmonic components. |
| F0 (Spectral, Hz) | ca. 50 to 2000 Hz | Spectral fundamental frequency estimation; based on the identification of the strongest periodic component in the spectrum. |
| Similarity (Autocorr.) | -1 to 1 | A measure of the signal's self-similarity (autocorrelation); high values indicate strong periodicity (pitch). |
| Spectral Tilt | Variable (dB) | The ratio of energy below 1000 Hz to energy above 1000 Hz. |
| Spectral Centroid | 0 to half the sample rate | The spectral center of mass; often correlates with the perceived "brightness" of a sound.. |
| Spectral Rolloff (Hz) | 0 to half the sample rate | The frequency below which 85% of the spectral energy is contained. |
| Spectral Mean | ≥ 0 | The average amplitude of all frequency components in the spectrum. |
| Spectral Spread | ≥ 0 | Describes the spectral variance; that is, how widely the energy is scattered around the centroid. |
| Spectral Std. Dev | ≥ 0 | The spectral standard deviation; a measure of the width of the spectral distribution. |
| Spectral Skewness | Variable | Describes the skewness of the spectral shape (asymmetry around the spectral mean). |
| Spectral Kurtosis | Variable | Describes the "spikyness" of the spectrum; high values indicate a spectrum with few, dominant peaks. |
| Spectral Smoothness | ≥ 0 | Measures the smoothness of the spectral envelope; detects abrupt changes between adjacent frequency bands. |
| Spectral Flatness | 0 to 1 | Indicates how "flat" the spectrum is. A value near 1 indicates noise (white noise), a value near 0 indicates a tonal sound. |
| Irregularity (Jensen) | ≥ 0 | Measures the variance between consecutive spectral amplitudes (a measure of spectral roughness). |
| Irregularity (Krimphoff) | ≥ 0 | An alternative measure of spectral irregularity according to Krimphoff. |
| Spectral Crest Factor | ≥ 0 | Ratio of the peak amplitude to the spectral mean. |
| Noisiness | Variable | The ratio of non-harmonic energy to harmonic energy (P/H ratio). |
| Spectral Slope | Variable | Indicates the slope of the spectrum (linear regression); shows how rapidly the energy decreases toward higher frequencies. |
| Spectral Inharmonicity | 0 to 1 | Indicates how much the harmonics deviate from an ideal harmonic series. |
| Tonality (HSD) | 0 to 1 | A measure of tonality based on spectral flatness; 1 indicates pure tonality, 0 indicates noise. |
| Tristimulus (1, 2, 3) | 0 to 1 | Three coefficients that describe the energy distribution of the first partials (similar to color mixing): Tristimulus 1 = energy of the 1st partial (fundamental), Tristimulus 2 = energy of the 2nd4th partials (presence), Tristimulus 3 = energy from the 5th partial onward (in jsXtract: only the 5th partial) (brightness). |
| Instr. Formants (F1-F3) | 0 to half the sample rate | Estimation of the first three formants (resonance regions) using Linear Prediction (LPC). |
| LPCC (1-13) | Variable | Linear Prediction Cepstral Coefficients; describe the filter characteristics of the (vocal) resonant cavity. |
| MFCC (113) | Variable | Mel-Frequency Cepstral Coefficients; they describe the rough shape of the spectral envelope and are often used in speech recognition. |
| Chroma (C to B) | 0 to 1 | The relative intensity of the 12 semitones of an octave; ideal for analyzing harmony and key. |
| Bark Bands (124) | ≥ 0 | The energy distribution across the 24 Bark bands, corresponding to the critical bands of human hearing. |
| 音频特征 |
数值范围 |
含义 |
| RMS Amplitude | 0~1 | 振幅的均方根;帧平均音量的度量。 |
| Zero Crossing Rate | 0~1 | 信号穿过时间轴的速率; “噪音”和亮度的衡量标准。 |
| Time Skewness | 可变 | 时域中幅度分布不对称性的度量。 |
| Time Kurtosis | 可变 | 时域幅度值中异常值的“陡度”频率的度量。 |
| Temporal Centroid | 0~1 | 帧内能量的时间集中度(标准化为帧长度)。 |
| Loudness (Sones) | > 0 Sone | 基于 Bark 频带总和的感知响度。 |
| Sharpness | 可变 | 心理声学清晰度;强调较高Bark 频带的能量。 |
| F0 / Pitch (Yin, Hz) | 约 50~2000 Hz | 使用YIN算法进行基频估计;对于单声道信号具有高度鲁棒性。 |
| MIDI Pitch | 0~127 | 估计基频的音高,四舍五入到最接近的 MIDI 音符编号。 |
| F0, Pitch (HPS, Hz) | 约 50~2000 Hz | 使用谐波乘积频谱进行基频估计;通过叠加谐波分量来识别音高。 |
| F0 (Spectral, Hz) | 约 50~2000 Hz | 频谱基频估计;基于频谱中最强周期性分量的识别。 |
| Similarity (Autocorr.) | -1~1 | 信号自相似性(自相关)的度量;高值表示强周期性(音调)。 |
| Spectral Tilt | 可变 (dB) | 1000 Hz 以下的能量与 1000 Hz 以上的能量之比。 |
| Spectral Centroid | 0~采样率的一半 | 频谱质心;通常与声音的感知“亮度”相关。 |
| Spectral Rolloff (Hz) | 0~采样率的一半 | 包含 85% 频谱能量的频率。 |
| Spectral Mean | ≥ 0 | 频谱中所有频率分量的平均幅度。 |
| Spectral Spread | ≥ 0 | 描述频谱方差;也就是说,能量在质心周围分散的范围。 |
| Spectral Std. Dev | ≥ 0 | 频谱标准差;频谱分布宽度的度量。 |
| Spectral Skewness | 可变 | 描述频谱形状的偏度(频谱平均值周围的不对称性)。 |
| Spectral Kurtosis | 可变 | 描述频谱的“尖峰”;高值表示频谱中主峰很少。 |
| Spectral Smoothness | ≥ 0 | 测量频谱包络的平滑度;检测相邻频段之间的突变。 |
| Spectral Flatness | 0~1 | 指示频谱的“平坦”程度。接近 1 的值表示噪声(白噪声),接近 0 的值表示音调声音。 |
| Irregularity (Jensen) | ≥ 0 | 测量连续频谱幅度之间的方差(频谱粗糙度的度量)。 |
| Irregularity (Krimphoff) | ≥ 0 | 根据克里姆霍夫的说法,频谱不规则性的另一种测量方法。 |
| Spectral Crest Factor | ≥ 0 | 峰值幅度与频谱平均值的比率。 |
| Noisiness | 可变 | 非谐波能量与谐波能量之比(P/H 比)。 |
| Spectral Slope | 可变 | 表示频谱的斜率(线性回归);显示能量向更高频率下降的速度有多快。 |
| Spectral Inharmonicity | 0~1 | 指示谐波与理想谐波级数的偏差程度。 |
| Tonality (HSD) | 0~1 | 基于频谱平坦度的音调测量; 1表示纯音调,0表示噪声。 |
| Tristimulus (1, 2, 3) | 0~1 | 描述第一个部分的能量分布的三个系数(类似于颜色混合):三色刺激 1 = 第一个部分的能量(基本),三色刺激 2 = 第二个到第四个部分的能量(存在),三色刺激 3 = 从第 5 个部分开始的能量(在 jsXtract 中:仅第 5 个部分)(亮度)。 |
| Instr. Formants (F1-F3) | 0~采样率的一半 | 使用线性预测 (LPC) 估计前三个共振峰(共振区域)。 |
| LPCC (1-13) | 可变 | 线性预测倒谱系数;描述(人声)谐振腔的滤波器特性。 |
| MFCC (113) | 可变 | 梅尔频率倒谱系数;它们描述了频谱包络的大致形状,通常用于语音识别。 |
| Chroma (C to B) | 0~1 | 一个八度的 12 个半音的相对强度;非常适合分析和声和调。 |
| Bark Bands (124) | ≥ 0 | 24 个 Bark 频段的能量分布,对应于人类听力的关键频段。 |