Спектрограмма $S(t, f)$ является стандартным представлением аудиосигнала в частотно-временной области. Традиционно она рассматривается как статичный объект анализа. В данной работе предлагается рассматривать спектрограмму как эволюционирующее скалярное поле, динамика которого может быть описана уравнениями, аналогичными уравнениям гидродинамики.
Аналогия между спектрограммой и полем скоростей в жидкости была предложена в предыдущей работе авторов [1], где было введено число Рейнольдса спектрограммы $Re(S)$. В данной работе эта аналогия расширяется до полного гидродинамического уравнения с пятью параметрами.
Музыкальный сигнал не является свободно эволюционирующей системой — на него действует внешняя сила (аранжировка, композиторская структура). Поэтому модель включает член $F(t, f)$, представляющий аранжировку как внешнее воздействие. Проверяется гипотеза: существуют ли участки музыкального сигнала, на которых гидродинамические члены доминируют над внешней силой?
Пусть $s(t)$ — аудиосигнал, $t \in [0, T]$, дискретизованный с частотой $f_s$. Спектрограмма $S(t, f)$ определяется как модуль кратковременного преобразования Фурье:
где $i = 0, \ldots, N_t-1$ — временные кадры, $j = 0, \ldots, N_f-1$ — частотные бины. Спектрограмма проецируется на безразмерную ортонормированную дискретную плоскость, в которой шаги сетки по обеим осям условно принимаются равными единице ($\Delta i = 1, \Delta j = 1$).
Предлагается следующее уравнение эволюции спектрограммы:
где:
Первая производная по времени (центральная разность):
Первая производная по частоте:
Вторая производная по частоте:
Вторая производная по времени:
Перенесём конвективный и дрейфовый члены в правую часть уравнения (2.2), оставив слева только производную по времени:
Для каждого сегмента спектрограммы решается задача линейной регрессии:
где знаки «минус» перед первыми двумя столбцами матрицы $\mathbf{X}$ соответствуют переносу конвективного и дрейфового членов в правую часть. Вектор коэффициентов $\boldsymbol{\theta} = (\alpha, \eta, \beta, \gamma, \kappa)^T$ находится методом наименьших квадратов:
Для каждого коэффициента вычисляется стандартная ошибка и t-статистика:
где $\sigma^2 = \text{SSE} / (n - 5)$ — несмещённая оценка дисперсии ошибки, $n$ — число точек в сегменте. p-value вычисляется через аппроксимацию t-распределения Стьюдента.
Дополнительно для каждого сегмента вычисляется число Рейнольдса спектрограммы [1]:
где $\Delta S = D_{ff} S + D_{tt} S$ — дискретный лапласиан (5-точечный шаблон), а угловые скобки $\langle \cdot \rangle$ обозначают усреднение по всем внутренним точкам сегмента.
Использовались три музыкальных трека различных жанров (все моно, 44100 Гц):
| Трек | Жанр | Длительность | Описание |
|---|---|---|---|
| Трек 1 | Современная электроника | 120,4 сек | Сложная аранжировка, множество инструментов |
| Трек 2 | Итало-диско | 262,1 сек | Умеренная аранжировка, выраженный бас |
| Трек 3 | Минималистичный | 197,5 сек | Минимум инструментов, разреженная фактура |
| Параметр | Трек 1 | Трек 2 | Трек 3 |
|---|---|---|---|
| Количество сегментов | 119 | 261 | 196 |
| Среднее $R^2$ | 0,0304 | 0,1133 | 0,1546 |
| Максимальное $R^2$ | 0,0986 | 0,2698 | 0,5425 |
| Сегментов с $p < 0{,}05$ | 119 (100%) | 258 (98,9%) | 196 (100%) |
| Среднее $Re(S)$ | 9,92 | 9,73 | 578,79 |
| Средняя $|F|$ | 0,4634 | 0,5670 | 0,3288 |
| $\alpha$ значима | 90 (76%) | 258 (99%) | 194 (99%) |
| $\eta$ значима | 119 (100%) | 235 (90%) | 183 (93%) |
| Глобальный вердикт | STRONG_SUPPORT | STRONG_SUPPORT | STRONG_SUPPORT |
Трек 1 (современная электроника):
| Начало (сек) | $\alpha$ | $\eta$ | $\beta$ | $\gamma$ | $\kappa$ | $R^2$ | $p(\alpha)$ |
|---|---|---|---|---|---|---|---|
| 7,0 | +0,0003 | -0,1854 | +0,0030 | -0,0041 | -0,0042 | 0,099 | <0,001 |
| 14,0 | +0,0006 | -0,2101 | -0,0016 | +0,0048 | +0,0022 | 0,087 | <0,001 |
| 18,0 | +0,0005 | -0,1952 | -0,0003 | +0,0062 | +0,0052 | 0,081 | <0,001 |
| 11,0 | +0,0003 | -0,1627 | +0,0022 | -0,0009 | -0,0011 | 0,078 | <0,001 |
| 117,8 | +0,0006 | -0,1882 | +0,0008 | +0,0009 | -0,0017 | 0,075 | <0,001 |
Трек 2 (итало-диско):
| Начало (сек) | $\alpha$ | $\eta$ | $\beta$ | $\gamma$ | $\kappa$ | $R^2$ | $p(\alpha)$ |
|---|---|---|---|---|---|---|---|
| 0,0 | -0,0009 | -0,1656 | -0,0064 | +0,0150 | +0,0145 | 0,270 | <0,001 |
| 1,0 | -0,0009 | -0,1293 | -0,0028 | -0,0188 | -0,0109 | 0,233 | <0,001 |
| 124,8 | -0,0014 | -0,0680 | -0,0023 | -0,0038 | -0,0001 | 0,204 | <0,001 |
| 2,0 | -0,0010 | -0,1025 | +0,0021 | -0,0067 | -0,0066 | 0,186 | <0,001 |
| 105,8 | -0,0012 | -0,0843 | -0,0025 | -0,0083 | +0,0031 | 0,185 | <0,001 |
Трек 3 (минималистичный):
| Начало (сек) | $\alpha$ | $\eta$ | $\beta$ | $\gamma$ | $\kappa$ | $R^2$ | $p(\alpha)$ |
|---|---|---|---|---|---|---|---|
| 157,8 | -0,0018 | -0,6918 | +0,0387 | -0,0125 | +0,0093 | 0,543 | <0,001 |
| 156,8 | -0,0059 | -0,1938 | +0,0063 | -0,0036 | +0,0019 | 0,390 | <0,001 |
| 158,8 | -0,0083 | +0,0885 | -0,0090 | +0,0004 | +0,0013 | 0,284 | <0,001 |
| 40,9 | -0,0073 | -0,0489 | +0,0022 | -0,0198 | -0,0183 | 0,283 | <0,001 |
| 41,9 | -0,0057 | -0,1333 | +0,0071 | -0,0078 | -0,0023 | 0,263 | <0,001 |
На всех трёх треках модель демонстрирует статистическую значимость на уровне $p < 0{,}05$ для $98{,}9$–$100\%$ сегментов. Это исключает возможность случайного совпадения и подтверждает, что гидродинамические члены действительно присутствуют в эволюции спектрограммы.
Наблюдается монотонная зависимость: чем меньше инструментов в треке, тем выше коэффициент детерминации модели. Трек 3 (минималистичный) имеет среднее $R^2 = 0{,}155$ — в 5 раз выше, чем у Трека 1 (сложная электроника, $R^2 = 0{,}030$). Это согласуется с теоретическим предсказанием: внешняя сила $F$ (аранжировка) доминирует в сложных треках, а в минималистичных гидродинамика проявляется сильнее.
На сегменте 157,8–159,8 сек Трека 3 модель объясняет $54{,}3\%$ дисперсии $\partial S/\partial t$. Это первый случай, когда гидродинамическая модель доминирует над внешней силой для реального музыкального сигнала. Данный сегмент соответствует заключительной части трека с минимальной инструментовкой.
Среднее $Re(S)$ для Треков 1 и 2 составляет $9{,}7$–$9{,}9$ (переходный режим), в то время как для Трека 3 $Re(S) = 579$ — на два порядка выше. Это указывает на принципиально разный характер спектральной динамики: Трек 3 находится в режиме сильно развитой турбулентности, тогда как Треки 1 и 2 — в переходном режиме.
Обнаружено, что знак $\alpha$ различается между треками: Трек 1 имеет преимущественно положительный $\alpha$ (перенос энергии вверх по частотам), тогда как Треки 2 и 3 — отрицательный $\alpha$ (перенос энергии вниз по частотам). Это может быть связано с различиями в спектральном составе: Трек 1 имеет выраженный подъём высоких частот, а Треки 2 и 3 — более плотный низкочастотный спектр.
Дрейфовый член $\eta$ оказался значимым на $90$–$100\%$ сегментов для всех трёх треков, что делает его наиболее универсальным гидродинамическим параметром. Это подтверждает гипотезу о том, что мелодическое движение (направленное изменение спектра) является фундаментальным свойством музыки, аналогичным течению реки под уклон.
В работе предложена и экспериментально верифицирована гидродинамическая модель эволюции спектрограммы музыкальных сигналов. Основные результаты:
Результаты воспроизводятся на всех трёх тестовых сигналах, что исключает возможность статистической флуктуации.
[1] "Число Рейнольдса спектрограммы как новый инвариант для анализа аудиосигналов." Препринт, 2026.
[2] Burgers, J. M. "A mathematical model illustrating the theory of turbulence." Advances in Applied Mechanics, 1948.
[3] Peeters, G. "A large set of audio features for sound description." CUIDADO Project, 2004.
[4] Edelsbrunner, H., Harer, J. "Persistent homology — a survey." Contemporary Mathematics, 2008.
Трек 1 (современная электроника):
| Параметр | Значение |
|---|---|
| $[R^2]_{avg}$ | 0,0304 |
| $[R^2]_{max}$ | 0,0986 |
| $[Re(S)]_{avg}$ | 9,92 |
| $[\alpha]_{significant}$ | 90/119 (76%) |
| $[\eta]_{significant}$ | 119/119 (100%) |
| Глобальный вердикт | STRONG_SUPPORT |
Трек 2 (итало-диско):
| Параметр | Значение |
|---|---|
| $[R^2]_{avg}$ | 0,1133 |
| $[R^2]_{max}$ | 0,2698 |
| $[Re(S)]_{avg}$ | 9,73 |
| $[\alpha]_{significant}$ | 258/261 (99%) |
| $[\eta]_{significant}$ | 235/261 (90%) |
| Глобальный вердикт | STRONG_SUPPORT |
Трек 3 (минималистичный):
| Параметр | Значение |
|---|---|
| $[R^2]_{avg}$ | 0,1546 |
| $[R^2]_{max}$ | 0,5425 |
| $[Re(S)]_{avg}$ | 578,79 |
| $[\alpha]_{significant}$ | 194/196 (99%) |
| $[\eta]_{significant}$ | 183/196 (93%) |
| Глобальный вердикт | STRONG_SUPPORT |