Число Рейнольдса спектрограммы как новый инвариант для анализа аудиосигналов

Leonid Vityazev
28 июня 2026 г.
Аннотация. Предлагается новый спектральный инвариант — число Рейнольдса спектрограммы $Re(S)$ — основанный на гидродинамической аналогии. $Re(S)$ определяется как отношение средней абсолютной первой производной по времени к средней абсолютной величине дискретного лапласиана, вычисленных по сеточным индексам нормированной спектрограммы. Доказана инвариантность $Re(S)$ относительно масштабирования амплитуды и временного сдвига. Экспериментально показано, что $Re(S)$ различает тональные и шумовые сигналы с фактором 3,2, превосходя по стабильности традиционные метрики, такие как spectral flux. Предложена открытая реализация на C# и набор тестовых сигналов для верификации.

1. Введение

Анализ аудиосигналов традиционно опирается на спектральные и временные характеристики: spectral centroid, spectral flux, crest factor, zero-crossing rate и другие [1, 2]. Эти метрики хорошо изучены, но обладают общей проблемой: они зависят от абсолютной громкости сигнала и требуют нормировки.

Топологический анализ данных (TDA) предложил новые инварианты для анализа сигналов: числа Бетти, персистентную гомологию, эйлерову характеристику [3, 4]. Однако эти методы требуют бинаризации спектрограммы и чувствительны к выбору порога.

В данной работе предлагается компромиссный подход: гидродинамическая аналогия, в которой нормированная матрица спектрограммы математически интерпретируется как дискретное двумерное скалярное поле, эволюция которого анализируется с помощью разностных операторов, аналогичных гидродинамическим инвариантам. Это позволяет определить число Рейнольдса спектрограммы — величину, которая:

2. Определения

2.1. Спектрограмма

Пусть $s(t)$ — аудиосигнал, $t \in [0, T]$, дискретизованный с частотой $f_s$. Спектрограмма $S(t, f)$ определяется как модуль кратковременного преобразования Фурье:

$$S(t_i, f_j) = |\text{STFT}\{s\}(t_i, f_j)|$$

где $t_i$ — временные кадры ($i = 0, \ldots, N_t-1$), $f_j$ — частотные бины ($j = 0, \ldots, N_f-1$). Размер спектрограммы: $N_t \times N_f$.

Для вычисления разностных операторов спектрограмма проецируется на безразмерную ортонормированную дискретную плоскость, в которой шаги сетки по обеим осям условно принимаются равными единице ($\Delta i = 1, \Delta j = 1$). Это позволяет корректно определить оператор Лапласа на сетке, элементы которой имеют разную физическую природу (время и частота), не смешивая секунды с герцами.

2.2. Инерционный член

Первая производная по времени (центральная разность по дискретному индексу $i$):

$$D_t S(i, j) = \frac{S(i+1, j) - S(i-1, j)}{2}$$

Средняя абсолютная инерция по всей спектрограмме:

$$I(S) = \frac{1}{(N_t-2)(N_f-2)} \sum_{i=1}^{N_t-2} \sum_{j=1}^{N_f-2} |D_t S(i, j)|$$

2.3. Вязкостный член

Дискретный лапласиан (5-точечный шаблон на безразмерной сетке):

$$\Delta S(i, j) = \frac{1}{8}\sum_{(k,\ell) \neq (0,0)}^{k,\ell \in \{-1,0,1\}} S(i+k, j+\ell) - S(i, j)$$

Средняя абсолютная вязкость:

$$V(S) = \frac{1}{(N_t-2)(N_f-2)} \sum_{i=1}^{N_t-2} \sum_{j=1}^{N_f-2} |\Delta S(i, j)| + \varepsilon$$

где $\varepsilon = 10^{-10}$ введена для регуляризации.

2.4. Число Рейнольдса спектрограммы

$$Re(S) = \frac{I(S)}{V(S)}$$

3. Теоремы об инвариантности

Теорема 1 (масштабная инвариантность). Для любой константы $c > 0$: $$Re(c \cdot S) = Re(S)$$
Доказательство. Операторы $D_t$ и $\Delta$ линейны. Следовательно, $I(cS) = c \cdot I(S)$ и $V(cS) = c \cdot V(S)$. Отношение сохраняется. $\square$
Теорема 2 (временная инвариантность). Для любого сдвига $\tau$: $$Re(S(i - \tau, j)) = Re(S(i, j)) + O(1/N_t)$$
Доказательство. Суммирование ведётся по всем внутренним точкам сетки. Граничные эффекты затрагивают $O(N_f)$ точек из $O(N_t N_f)$, что даёт ошибку $O(1/N_t)$. При $N_t \to \infty$ ошибка стремится к нулю. $\square$
Теорема 3 (границы). Для сигнала с ограниченной амплитудой $|s(t)| \leq 1$: $$0 \leq Re(S) \leq C \cdot N_f$$ где $C$ — константа, зависящая от параметров окна БПФ.
Доказательство. $|D_t S| \leq 2$ (максимальный перепад амплитуды между соседними кадрами на безразмерной сетке). $|\Delta S| \geq \varepsilon > 0$. Следовательно, $Re(S) \leq 2 / \varepsilon = C \cdot N_f$. Нижняя граница достигается при $D_t S \equiv 0$ (статичная спектрограмма). $\square$

4. Экспериментальная верификация

4.1. Тестовые сигналы

Для проверки предсказаний использовались три типа сигналов (все моно, 44100 Гц, 60 сек):

4.2. Параметры анализатора

4.3. Результаты

Сигнал$Re(S)$$H$ (Hurst)Классификация
Ламинарный (тон)2,36160,0318MORE_LAMINAR
Турбулентный (шум)7,58120,5731MORE_TURBULENT
Отношение шум/тон3,21×18,0×

Контрольные тесты:

Тест$Re_1$$Re_2$$\Delta Re$Вердикт
Тон vs Тон2,36162,36160,0000SIMILAR
Шум vs Шум7,58127,58120,0000SIMILAR

4.4. Обсуждение

Отношение $Re(S_{noise}) / Re(S_{tone}) \approx 3,2$ стабильно воспроизводится. Для сравнения, spectral flux даёт отношение ~2500× для тех же сигналов, но не является масштабно-инвариантным.

Показатель Херста $H$ для чистого тона оказался близок к 0 (RANDOM), что объясняется концентрацией энергии в одном частотном бине: усреднённая по частотам амплитуда ведёт себя как шумовой процесс. Для белого шума $H \approx 0,57$ (TRENDING), что согласуется с предсказаниями R/S-анализа для гауссова процесса с конечной дисперсией.

5. Сравнение с существующими метриками

МетрикаМасштабная инвариантностьРазличает тон/шумВычислительная сложность
Spectral fluxНетДа (2500×)$O(N_t N_f)$
Spectral centroidНетСлабо$O(N_t N_f)$
Crest factorДаСлабо$O(N)$
Re(S)ДаДа (3,2×)$O(N_t N_f)$
Betti-0 (TDA)Нет (зависит от порога)Да$O(N_t N_f \log N_f)$

6. Применения

  1. Классификация сигналов: $Re(S)$ может использоваться как признак для различения тональных, шумовых и импульсных сигналов.
  2. Контроль качества обработки: При identical-тесте $\Delta Re = 0$, что позволяет детектировать нежелательные изменения в сигнале после обработки.
  3. Мониторинг состояния оборудования: Изменение $Re(S)$ может сигнализировать о деградации компонентов аудиотракта.
  4. Творческая обработка: Целенаправленное изменение $Re(S)$ (например, сатурацией) позволяет количественно контролировать «турбулентность» звука.

7. Заключение

Предложен новый спектральный инвариант $Re(S)$ — число Рейнольдса спектрограммы — основанный на гидродинамической аналогии. Доказана его масштабная и временная инвариантность. Экспериментально подтверждена способность различать тональные и шумовые сигналы.

Метрика реализована в открытом коде на C# (класс TurbulenceAnalyzer) и протестирована на синтетических сигналах.

Литература

[1] Peeters, G. "A large set of audio features for sound description." CUIDADO Project, 2004.

[2] Tzanetakis, G., Cook, P. "Musical genre classification of audio signals." IEEE Trans. Speech Audio Process., 2002.

[3] Edelsbrunner, H., Harer, J. "Persistent homology — a survey." Contemporary Mathematics, 2008.

[4] Ghrist, R. "Barcodes: The persistent topology of data." Bull. Amer. Math. Soc., 2008.

Приложение A. Экспериментальные данные

Тест 1: Ламинарный сигнал vs Турбулентный сигнал

ПараметрЛаминарныйТурбулентныйРазностьВердикт
$Re(S)$2,36167,5812-5,2196MORE_LAMINAR
$H$ (Hurst)0,03180,5731-0,5412MODIFIED

Тест 2: Ламинарный сигнал vs Ламинарный сигнал (контроль)

ПараметрСигнал 1Сигнал 2РазностьВердикт
$Re(S)$2,36162,36160,0000SIMILAR
$H$ (Hurst)0,03180,03180,0000IDENTICAL

Тест 3: Турбулентный сигнал vs Турбулентный сигнал (контроль)

ПараметрСигнал 1Сигнал 2РазностьВердикт
$Re(S)$7,58127,58120,0000SIMILAR
$H$ (Hurst)0,57310,57310,0000IDENTICAL