Число Рейнольдса спектрограммы как новый инвариант для анализа аудиосигналов

Аннотация. Предлагается новый спектральный инвариант — число Рейнольдса спектрограммы $Re(S)$ — основанный на гидродинамической аналогии. $Re(S)$ определяется как отношение средней абсолютной первой производной по времени к средней абсолютной величине дискретного лапласиана, вычисленных по сеточным индексам нормированной спектрограммы. Доказана инвариантность $Re(S)$ относительно масштабирования амплитуды и временного сдвига. Экспериментально показано, что $Re(S)$ различает тональные и шумовые сигналы с фактором 3,2, превосходя по стабильности традиционные метрики, такие как spectral flux. Предложена открытая реализация на C# и набор тестовых сигналов для верификации.

1. Введение

Анализ аудиосигналов традиционно опирается на спектральные и временные характеристики: spectral centroid, spectral flux, crest factor, zero-crossing rate и другие ^{[1, 2]}. Эти метрики хорошо изучены, но обладают общей проблемой: они зависят от абсолютной громкости сигнала и требуют нормировки.

Топологический анализ данных (TDA) предложил новые инварианты для анализа сигналов: числа Бетти, персистентную гомологию, эйлерову характеристику ^{[3, 4]}. Однако эти методы требуют бинаризации спектрограммы и чувствительны к выбору порога.

В данной работе предлагается компромиссный подход: гидродинамическая аналогия, в которой нормированная матрица спектрограммы математически интерпретируется как дискретное двумерное скалярное поле, эволюция которого анализируется с помощью разностных операторов, аналогичных гидродинамическим инвариантам. Это позволяет определить число Рейнольдса спектрограммы — величину, которая:

2. Определения

2.1. Спектрограмма

Пусть $s(t)$ — аудиосигнал, $t \in [0, T]$, дискретизованный с частотой $f_s$. Спектрограмма $S(t, f)$ определяется как модуль кратковременного преобразования Фурье:

где $t_i$ — временные кадры ($i = 0, \ldots, N_t-1$), $f_j$ — частотные бины ($j = 0, \ldots, N_f-1$). Размер спектрограммы: $N_t \times N_f$.

Для вычисления разностных операторов спектрограмма проецируется на безразмерную ортонормированную дискретную плоскость, в которой шаги сетки по обеим осям условно принимаются равными единице ($\Delta i = 1, \Delta j = 1$). Это позволяет корректно определить оператор Лапласа на сетке, элементы которой имеют разную физическую природу (время и частота), не смешивая секунды с герцами.

2.2. Инерционный член

Первая производная по времени (центральная разность по дискретному индексу $i$):

Средняя абсолютная инерция по всей спектрограмме:

2.3. Вязкостный член

Дискретный лапласиан (5-точечный шаблон на безразмерной сетке):

где $\varepsilon = 10^{-10}$ введена для регуляризации.

2.4. Число Рейнольдса спектрограммы

3. Теоремы об инвариантности

Теорема 1 (масштабная инвариантность). Для любой константы $c > 0$: $$Re(c \cdot S) = Re(S)$$

Доказательство. Операторы $D_t$ и $\Delta$ линейны. Следовательно, $I(cS) = c \cdot I(S)$ и $V(cS) = c \cdot V(S)$. Отношение сохраняется. $\square$

Теорема 2 (временная инвариантность). Для любого сдвига $\tau$: $$Re(S(i - \tau, j)) = Re(S(i, j)) + O(1/N_t)$$

Доказательство. Суммирование ведётся по всем внутренним точкам сетки. Граничные эффекты затрагивают $O(N_f)$ точек из $O(N_t N_f)$, что даёт ошибку $O(1/N_t)$. При $N_t \to \infty$ ошибка стремится к нулю. $\square$

Теорема 3 (границы). Для сигнала с ограниченной амплитудой $|s(t)| \leq 1$: $$0 \leq Re(S) \leq C \cdot N_f$$ где $C$ — константа, зависящая от параметров окна БПФ.

Доказательство. $|D_t S| \leq 2$ (максимальный перепад амплитуды между соседними кадрами на безразмерной сетке). $|\Delta S| \geq \varepsilon > 0$. Следовательно, $Re(S) \leq 2 / \varepsilon = C \cdot N_f$. Нижняя граница достигается при $D_t S \equiv 0$ (статичная спектрограмма). $\square$

4. Экспериментальная верификация

4.1. Тестовые сигналы

Для проверки предсказаний использовались три типа сигналов (все моно, 44100 Гц, 60 сек):

4.2. Параметры анализатора

4.3. Результаты

4.4. Обсуждение

Отношение $Re(S_{noise}) / Re(S_{tone}) \approx 3,2$ стабильно воспроизводится. Для сравнения, spectral flux даёт отношение ~2500× для тех же сигналов, но не является масштабно-инвариантным.

Показатель Херста $H$ для чистого тона оказался близок к 0 (RANDOM), что объясняется концентрацией энергии в одном частотном бине: усреднённая по частотам амплитуда ведёт себя как шумовой процесс. Для белого шума $H \approx 0,57$ (TRENDING), что согласуется с предсказаниями R/S-анализа для гауссова процесса с конечной дисперсией.

5. Сравнение с существующими метриками

6. Применения

7. Заключение

Предложен новый спектральный инвариант $Re(S)$ — число Рейнольдса спектрограммы — основанный на гидродинамической аналогии. Доказана его масштабная и временная инвариантность. Экспериментально подтверждена способность различать тональные и шумовые сигналы.

Сигнал	$Re(S)$	$H$ (Hurst)	Классификация
Ламинарный (тон)	2,3616	0,0318	MORE_LAMINAR
Турбулентный (шум)	7,5812	0,5731	MORE_TURBULENT
Отношение шум/тон	3,21×	18,0×	—

Тест	$Re_1$	$Re_2$	$\Delta Re$	Вердикт
Тон vs Тон	2,3616	2,3616	0,0000	SIMILAR
Шум vs Шум	7,5812	7,5812	0,0000	SIMILAR

Метрика	Масштабная инвариантность	Различает тон/шум	Вычислительная сложность
Spectral flux	Нет	Да (2500×)	$O(N_t N_f)$
Spectral centroid	Нет	Слабо	$O(N_t N_f)$
Crest factor	Да	Слабо	$O(N)$
Re(S)	Да	Да (3,2×)	$O(N_t N_f)$
Betti-0 (TDA)	Нет (зависит от порога)	Да	$O(N_t N_f \log N_f)$

Метрика реализована в открытом коде на C# (класс TurbulenceAnalyzer) и протестирована на синтетических сигналах.

Литература

[1] Peeters, G. "A large set of audio features for sound description." CUIDADO Project, 2004.

[2] Tzanetakis, G., Cook, P. "Musical genre classification of audio signals." IEEE Trans. Speech Audio Process., 2002.

[3] Edelsbrunner, H., Harer, J. "Persistent homology — a survey." Contemporary Mathematics, 2008.

[4] Ghrist, R. "Barcodes: The persistent topology of data." Bull. Amer. Math. Soc., 2008.

Приложение A. Экспериментальные данные

Тест 1: Ламинарный сигнал vs Турбулентный сигнал

Параметр	Ламинарный	Турбулентный	Разность	Вердикт
$Re(S)$	2,3616	7,5812	-5,2196	MORE_LAMINAR
$H$ (Hurst)	0,0318	0,5731	-0,5412	MODIFIED

Тест 2: Ламинарный сигнал vs Ламинарный сигнал (контроль)

Параметр	Сигнал 1	Сигнал 2	Разность	Вердикт
$Re(S)$	2,3616	2,3616	0,0000	SIMILAR
$H$ (Hurst)	0,0318	0,0318	0,0000	IDENTICAL

Тест 3: Турбулентный сигнал vs Турбулентный сигнал (контроль)