Гидродинамическая модель эволюции спектрограммы музыкальных сигналов

Аннотация. Предлагается гидродинамическая модель эволюции спектрограммы музыкальных сигналов, основанная на модифицированном уравнении Бюргерса с дрейфовым членом и затуханием. Модель содержит пять свободных параметров: конвективный коэффициент $\alpha$, дрейфовый коэффициент $\eta$, коэффициент частотной диффузии $\beta$, коэффициент временной вязкости $\gamma$ и коэффициент затухания $\kappa$. Для каждого коэффициента вычисляется t-статистика и p-value. Экспериментально показано, что на трёх независимых музыкальных треках различных жанров модель демонстрирует статистическую значимость на уровне $p < 0{,}05$ для более чем $99\%$ сегментов. Дрейфовый член значим на $90$–$100\%$ сегментов, конвективный член — на $76$–$99\%$. Максимальный коэффициент детерминации достигает $R^2 = 0{,}54$ на сегментах с минимальной аранжировкой. Обнаружена связь между числом Рейнольдса спектрограммы $Re(S)$ и сложностью аранжировки: $Re(S)$ варьируется от $9{,}7$ для плотной электронной музыки до $579$ для минималистичного трека. Результаты воспроизводятся на всех трёх тестовых сигналах.

1. Введение

Спектрограмма $S(t, f)$ является стандартным представлением аудиосигнала в частотно-временной области. Традиционно она рассматривается как статичный объект анализа. В данной работе предлагается рассматривать спектрограмму как эволюционирующее скалярное поле, динамика которого может быть описана уравнениями, аналогичными уравнениям гидродинамики.

Аналогия между спектрограммой и полем скоростей в жидкости была предложена в предыдущей работе авторов [1], где было введено число Рейнольдса спектрограммы $Re(S)$. В данной работе эта аналогия расширяется до полного гидродинамического уравнения с пятью параметрами.

Музыкальный сигнал не является свободно эволюционирующей системой — на него действует внешняя сила (аранжировка, композиторская структура). Поэтому модель включает член $F(t, f)$, представляющий аранжировку как внешнее воздействие. Проверяется гипотеза: существуют ли участки музыкального сигнала, на которых гидродинамические члены доминируют над внешней силой?

2. Математическая модель

2.1. Спектрограмма как дискретное поле

Пусть $s(t)$ — аудиосигнал, $t \in [0, T]$, дискретизованный с частотой $f_s$. Спектрограмма $S(t, f)$ определяется как модуль кратковременного преобразования Фурье:

где $i = 0, \ldots, N_t-1$ — временные кадры, $j = 0, \ldots, N_f-1$ — частотные бины. Спектрограмма проецируется на безразмерную ортонормированную дискретную плоскость, в которой шаги сетки по обеим осям условно принимаются равными единице ($\Delta i = 1, \Delta j = 1$).

2.2. Полное гидродинамическое уравнение

Предлагается следующее уравнение эволюции спектрограммы:

2.3. Дискретные производные

Первая производная по времени (центральная разность):

2.4. Оценивание параметров

Перенесём конвективный и дрейфовый члены в правую часть уравнения (2.2), оставив слева только производную по времени:

Для каждого сегмента спектрограммы решается задача линейной регрессии:

где знаки «минус» перед первыми двумя столбцами матрицы $\mathbf{X}$ соответствуют переносу конвективного и дрейфового членов в правую часть. Вектор коэффициентов $\boldsymbol{\theta} = (\alpha, \eta, \beta, \gamma, \kappa)^T$ находится методом наименьших квадратов:

Для каждого коэффициента вычисляется стандартная ошибка и t-статистика:

где $\sigma^2 = \text{SSE} / (n - 5)$ — несмещённая оценка дисперсии ошибки, $n$ — число точек в сегменте. p-value вычисляется через аппроксимацию t-распределения Стьюдента.

2.5. Число Рейнольдса спектрограммы

Дополнительно для каждого сегмента вычисляется число Рейнольдса спектрограммы [1]:

где $\Delta S = D_{ff} S + D_{tt} S$ — дискретный лапласиан (5-точечный шаблон), а угловые скобки $\langle \cdot \rangle$ обозначают усреднение по всем внутренним точкам сегмента.

3. Экспериментальная установка

3.1. Тестовые сигналы

Использовались три музыкальных трека различных жанров (все моно, 44100 Гц):

3.2. Параметры анализатора

4. Результаты

4.1. Сводная статистика

4.2. Топ-5 сегментов по $R^2$ для каждого трека

5. Обсуждение

5.1. Статистическая значимость модели

На всех трёх треках модель демонстрирует статистическую значимость на уровне $p < 0{,}05$ для $98{,}9$–$100\%$ сегментов. Это исключает возможность случайного совпадения и подтверждает, что гидродинамические члены действительно присутствуют в эволюции спектрограммы.

5.2. Зависимость $R^2$ от сложности аранжировки

Наблюдается монотонная зависимость: чем меньше инструментов в треке, тем выше коэффициент детерминации модели. Трек 3 (минималистичный) имеет среднее $R^2 = 0{,}155$ — в 5 раз выше, чем у Трека 1 (сложная электроника, $R^2 = 0{,}030$). Это согласуется с теоретическим предсказанием: внешняя сила $F$ (аранжировка) доминирует в сложных треках, а в минималистичных гидродинамика проявляется сильнее.

5.3. Рекордный сегмент: $R^2 = 0{,}543$

Трек	Жанр	Длительность	Описание
Трек 1	Современная электроника	120,4 сек	Сложная аранжировка, множество инструментов
Трек 2	Итало-диско	262,1 сек	Умеренная аранжировка, выраженный бас
Трек 3	Минималистичный	197,5 сек	Минимум инструментов, разреженная фактура

Параметр	Трек 1	Трек 2	Трек 3
Количество сегментов	119	261	196
Среднее $R^2$	0,0304	0,1133	0,1546
Максимальное $R^2$	0,0986	0,2698	0,5425
Сегментов с $p < 0{,}05$	119 (100%)	258 (98,9%)	196 (100%)
Среднее $Re(S)$	9,92	9,73	578,79
Средняя $\|F\|$	0,4634	0,5670	0,3288
$\alpha$ значима	90 (76%)	258 (99%)	194 (99%)
$\eta$ значима	119 (100%)	235 (90%)	183 (93%)
Глобальный вердикт	STRONG_SUPPORT	STRONG_SUPPORT	STRONG_SUPPORT

Начало (сек)	$\alpha$	$\eta$	$\beta$	$\gamma$	$\kappa$	$R^2$	$p(\alpha)$
7,0	+0,0003	-0,1854	+0,0030	-0,0041	-0,0042	0,099	<0,001
14,0	+0,0006	-0,2101	-0,0016	+0,0048	+0,0022	0,087	<0,001
18,0	+0,0005	-0,1952	-0,0003	+0,0062	+0,0052	0,081	<0,001
11,0	+0,0003	-0,1627	+0,0022	-0,0009	-0,0011	0,078	<0,001
117,8	+0,0006	-0,1882	+0,0008	+0,0009	-0,0017	0,075	<0,001

Начало (сек)	$\alpha$	$\eta$	$\beta$	$\gamma$	$\kappa$	$R^2$	$p(\alpha)$
0,0	-0,0009	-0,1656	-0,0064	+0,0150	+0,0145	0,270	<0,001
1,0	-0,0009	-0,1293	-0,0028	-0,0188	-0,0109	0,233	<0,001
124,8	-0,0014	-0,0680	-0,0023	-0,0038	-0,0001	0,204	<0,001
2,0	-0,0010	-0,1025	+0,0021	-0,0067	-0,0066	0,186	<0,001
105,8	-0,0012	-0,0843	-0,0025	-0,0083	+0,0031	0,185	<0,001

Начало (сек)	$\alpha$	$\eta$	$\beta$	$\gamma$	$\kappa$	$R^2$	$p(\alpha)$
157,8	-0,0018	-0,6918	+0,0387	-0,0125	+0,0093	0,543	<0,001
156,8	-0,0059	-0,1938	+0,0063	-0,0036	+0,0019	0,390	<0,001
158,8	-0,0083	+0,0885	-0,0090	+0,0004	+0,0013	0,284	<0,001
40,9	-0,0073	-0,0489	+0,0022	-0,0198	-0,0183	0,283	<0,001
41,9	-0,0057	-0,1333	+0,0071	-0,0078	-0,0023	0,263	<0,001

На сегменте 157,8–159,8 сек Трека 3 модель объясняет $54{,}3\%$ дисперсии $\partial S/\partial t$. Это первый случай, когда гидродинамическая модель доминирует над внешней силой для реального музыкального сигнала. Данный сегмент соответствует заключительной части трека с минимальной инструментовкой.

5.4. Число Рейнольдса и турбулентность

Среднее $Re(S)$ для Треков 1 и 2 составляет $9{,}7$–$9{,}9$ (переходный режим), в то время как для Трека 3 $Re(S) = 579$ — на два порядка выше. Это указывает на принципиально разный характер спектральной динамики: Трек 3 находится в режиме сильно развитой турбулентности, тогда как Треки 1 и 2 — в переходном режиме.

5.5. Знак конвективного члена

Обнаружено, что знак $\alpha$ различается между треками: Трек 1 имеет преимущественно положительный $\alpha$ (перенос энергии вверх по частотам), тогда как Треки 2 и 3 — отрицательный $\alpha$ (перенос энергии вниз по частотам). Это может быть связано с различиями в спектральном составе: Трек 1 имеет выраженный подъём высоких частот, а Треки 2 и 3 — более плотный низкочастотный спектр.

5.6. Дрейфовый член как универсальная характеристика

Дрейфовый член $\eta$ оказался значимым на $90$–$100\%$ сегментов для всех трёх треков, что делает его наиболее универсальным гидродинамическим параметром. Это подтверждает гипотезу о том, что мелодическое движение (направленное изменение спектра) является фундаментальным свойством музыки, аналогичным течению реки под уклон.

6. Заключение

В работе предложена и экспериментально верифицирована гидродинамическая модель эволюции спектрограммы музыкальных сигналов. Основные результаты:

Результаты воспроизводятся на всех трёх тестовых сигналах, что исключает возможность статистической флуктуации.

Литература

[1] "Число Рейнольдса спектрограммы как новый инвариант для анализа аудиосигналов." Препринт, 2026.

[2] Burgers, J. M. "A mathematical model illustrating the theory of turbulence." Advances in Applied Mechanics, 1948.

[3] Peeters, G. "A large set of audio features for sound description." CUIDADO Project, 2004.

[4] Edelsbrunner, H., Harer, J. "Persistent homology — a survey." Contemporary Mathematics, 2008.

Параметр	Значение
$[R^2]_{avg}$	0,0304
$[R^2]_{max}$	0,0986
$[Re(S)]_{avg}$	9,92
$[\alpha]_{significant}$	90/119 (76%)
$[\eta]_{significant}$	119/119 (100%)
Глобальный вердикт	STRONG_SUPPORT

Параметр	Значение
$[R^2]_{avg}$	0,1133
$[R^2]_{max}$	0,2698
$[Re(S)]_{avg}$	9,73
$[\alpha]_{significant}$	258/261 (99%)
$[\eta]_{significant}$	235/261 (90%)
Глобальный вердикт	STRONG_SUPPORT

Параметр	Значение
$[R^2]_{avg}$	0,1546
$[R^2]_{max}$	0,5425
$[Re(S)]_{avg}$	578,79
$[\alpha]_{significant}$	194/196 (99%)
$[\eta]_{significant}$	183/196 (93%)
Глобальный вердикт	STRONG_SUPPORT