Гидродинамическая модель эволюции спектрограммы музыкальных сигналов

Leonid Vityazev
28 июня 2026 г.
Аннотация. Предлагается гидродинамическая модель эволюции спектрограммы музыкальных сигналов, основанная на модифицированном уравнении Бюргерса с дрейфовым членом и затуханием. Модель содержит пять свободных параметров: конвективный коэффициент $\alpha$, дрейфовый коэффициент $\eta$, коэффициент частотной диффузии $\beta$, коэффициент временной вязкости $\gamma$ и коэффициент затухания $\kappa$. Для каждого коэффициента вычисляется t-статистика и p-value. Экспериментально показано, что на трёх независимых музыкальных треках различных жанров модель демонстрирует статистическую значимость на уровне $p < 0{,}05$ для более чем $99\%$ сегментов. Дрейфовый член значим на $90$–$100\%$ сегментов, конвективный член — на $76$–$99\%$. Максимальный коэффициент детерминации достигает $R^2 = 0{,}54$ на сегментах с минимальной аранжировкой. Обнаружена связь между числом Рейнольдса спектрограммы $Re(S)$ и сложностью аранжировки: $Re(S)$ варьируется от $9{,}7$ для плотной электронной музыки до $579$ для минималистичного трека. Результаты воспроизводятся на всех трёх тестовых сигналах.

1. Введение

Спектрограмма $S(t, f)$ является стандартным представлением аудиосигнала в частотно-временной области. Традиционно она рассматривается как статичный объект анализа. В данной работе предлагается рассматривать спектрограмму как эволюционирующее скалярное поле, динамика которого может быть описана уравнениями, аналогичными уравнениям гидродинамики.

Аналогия между спектрограммой и полем скоростей в жидкости была предложена в предыдущей работе авторов [1], где было введено число Рейнольдса спектрограммы $Re(S)$. В данной работе эта аналогия расширяется до полного гидродинамического уравнения с пятью параметрами.

Музыкальный сигнал не является свободно эволюционирующей системой — на него действует внешняя сила (аранжировка, композиторская структура). Поэтому модель включает член $F(t, f)$, представляющий аранжировку как внешнее воздействие. Проверяется гипотеза: существуют ли участки музыкального сигнала, на которых гидродинамические члены доминируют над внешней силой?

2. Математическая модель

2.1. Спектрограмма как дискретное поле

Пусть $s(t)$ — аудиосигнал, $t \in [0, T]$, дискретизованный с частотой $f_s$. Спектрограмма $S(t, f)$ определяется как модуль кратковременного преобразования Фурье:

$$S(t_i, f_j) = |\text{STFT}\{s\}(t_i, f_j)|$$

где $i = 0, \ldots, N_t-1$ — временные кадры, $j = 0, \ldots, N_f-1$ — частотные бины. Спектрограмма проецируется на безразмерную ортонормированную дискретную плоскость, в которой шаги сетки по обеим осям условно принимаются равными единице ($\Delta i = 1, \Delta j = 1$).

2.2. Полное гидродинамическое уравнение

Предлагается следующее уравнение эволюции спектрограммы:

$$\frac{\partial S}{\partial t} + \alpha S \frac{\partial S}{\partial f} + \eta \frac{\partial S}{\partial f} = \beta \frac{\partial^2 S}{\partial f^2} + \gamma \frac{\partial^2 S}{\partial t^2} + \kappa S + F(t, f)$$

где:

2.3. Дискретные производные

Первая производная по времени (центральная разность):

$$D_t S(i, j) = \frac{S(i+1, j) - S(i-1, j)}{2}$$

Первая производная по частоте:

$$D_f S(i, j) = \frac{S(i, j+1) - S(i, j-1)}{2}$$

Вторая производная по частоте:

$$D_{ff} S(i, j) = S(i, j+1) - 2S(i, j) + S(i, j-1)$$

Вторая производная по времени:

$$D_{tt} S(i, j) = S(i+1, j) - 2S(i, j) + S(i-1, j)$$

2.4. Оценивание параметров

Перенесём конвективный и дрейфовый члены в правую часть уравнения (2.2), оставив слева только производную по времени:

$$\frac{\partial S}{\partial t} = -\alpha S \frac{\partial S}{\partial f} - \eta \frac{\partial S}{\partial f} + \beta \frac{\partial^2 S}{\partial f^2} + \gamma \frac{\partial^2 S}{\partial t^2} + \kappa S + F$$

Для каждого сегмента спектрограммы решается задача линейной регрессии:

$$\mathbf{y} = D_t S, \quad \mathbf{X} = [-S \cdot D_f S,\; -D_f S,\; D_{ff} S,\; D_{tt} S,\; S]$$

где знаки «минус» перед первыми двумя столбцами матрицы $\mathbf{X}$ соответствуют переносу конвективного и дрейфового членов в правую часть. Вектор коэффициентов $\boldsymbol{\theta} = (\alpha, \eta, \beta, \gamma, \kappa)^T$ находится методом наименьших квадратов:

$$\boldsymbol{\theta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$$

Для каждого коэффициента вычисляется стандартная ошибка и t-статистика:

$$t_k = \frac{\theta_k}{\text{SE}(\theta_k)}, \quad \text{SE}(\theta_k) = \sqrt{(\mathbf{X}^T \mathbf{X})^{-1}_{kk} \cdot \sigma^2}$$

где $\sigma^2 = \text{SSE} / (n - 5)$ — несмещённая оценка дисперсии ошибки, $n$ — число точек в сегменте. p-value вычисляется через аппроксимацию t-распределения Стьюдента.

2.5. Число Рейнольдса спектрограммы

Дополнительно для каждого сегмента вычисляется число Рейнольдса спектрограммы [1]:

$$Re(S) = \frac{\langle |D_t S| \rangle}{\langle |\Delta S| \rangle}$$

где $\Delta S = D_{ff} S + D_{tt} S$ — дискретный лапласиан (5-точечный шаблон), а угловые скобки $\langle \cdot \rangle$ обозначают усреднение по всем внутренним точкам сегмента.

3. Экспериментальная установка

3.1. Тестовые сигналы

Использовались три музыкальных трека различных жанров (все моно, 44100 Гц):

ТрекЖанрДлительностьОписание
Трек 1Современная электроника120,4 секСложная аранжировка, множество инструментов
Трек 2Итало-диско262,1 секУмеренная аранжировка, выраженный бас
Трек 3Минималистичный197,5 секМинимум инструментов, разреженная фактура

3.2. Параметры анализатора

4. Результаты

4.1. Сводная статистика

ПараметрТрек 1Трек 2Трек 3
Количество сегментов119261196
Среднее $R^2$0,03040,11330,1546
Максимальное $R^2$0,09860,26980,5425
Сегментов с $p < 0{,}05$119 (100%)258 (98,9%)196 (100%)
Среднее $Re(S)$9,929,73578,79
Средняя $|F|$0,46340,56700,3288
$\alpha$ значима90 (76%)258 (99%)194 (99%)
$\eta$ значима119 (100%)235 (90%)183 (93%)
Глобальный вердиктSTRONG_SUPPORTSTRONG_SUPPORTSTRONG_SUPPORT

4.2. Топ-5 сегментов по $R^2$ для каждого трека

Трек 1 (современная электроника):

Начало (сек)$\alpha$$\eta$$\beta$$\gamma$$\kappa$$R^2$$p(\alpha)$
7,0+0,0003-0,1854+0,0030-0,0041-0,00420,099<0,001
14,0+0,0006-0,2101-0,0016+0,0048+0,00220,087<0,001
18,0+0,0005-0,1952-0,0003+0,0062+0,00520,081<0,001
11,0+0,0003-0,1627+0,0022-0,0009-0,00110,078<0,001
117,8+0,0006-0,1882+0,0008+0,0009-0,00170,075<0,001

Трек 2 (итало-диско):

Начало (сек)$\alpha$$\eta$$\beta$$\gamma$$\kappa$$R^2$$p(\alpha)$
0,0-0,0009-0,1656-0,0064+0,0150+0,01450,270<0,001
1,0-0,0009-0,1293-0,0028-0,0188-0,01090,233<0,001
124,8-0,0014-0,0680-0,0023-0,0038-0,00010,204<0,001
2,0-0,0010-0,1025+0,0021-0,0067-0,00660,186<0,001
105,8-0,0012-0,0843-0,0025-0,0083+0,00310,185<0,001

Трек 3 (минималистичный):

Начало (сек)$\alpha$$\eta$$\beta$$\gamma$$\kappa$$R^2$$p(\alpha)$
157,8-0,0018-0,6918+0,0387-0,0125+0,00930,543<0,001
156,8-0,0059-0,1938+0,0063-0,0036+0,00190,390<0,001
158,8-0,0083+0,0885-0,0090+0,0004+0,00130,284<0,001
40,9-0,0073-0,0489+0,0022-0,0198-0,01830,283<0,001
41,9-0,0057-0,1333+0,0071-0,0078-0,00230,263<0,001

5. Обсуждение

5.1. Статистическая значимость модели

На всех трёх треках модель демонстрирует статистическую значимость на уровне $p < 0{,}05$ для $98{,}9$–$100\%$ сегментов. Это исключает возможность случайного совпадения и подтверждает, что гидродинамические члены действительно присутствуют в эволюции спектрограммы.

5.2. Зависимость $R^2$ от сложности аранжировки

Наблюдается монотонная зависимость: чем меньше инструментов в треке, тем выше коэффициент детерминации модели. Трек 3 (минималистичный) имеет среднее $R^2 = 0{,}155$ — в 5 раз выше, чем у Трека 1 (сложная электроника, $R^2 = 0{,}030$). Это согласуется с теоретическим предсказанием: внешняя сила $F$ (аранжировка) доминирует в сложных треках, а в минималистичных гидродинамика проявляется сильнее.

5.3. Рекордный сегмент: $R^2 = 0{,}543$

На сегменте 157,8–159,8 сек Трека 3 модель объясняет $54{,}3\%$ дисперсии $\partial S/\partial t$. Это первый случай, когда гидродинамическая модель доминирует над внешней силой для реального музыкального сигнала. Данный сегмент соответствует заключительной части трека с минимальной инструментовкой.

5.4. Число Рейнольдса и турбулентность

Среднее $Re(S)$ для Треков 1 и 2 составляет $9{,}7$–$9{,}9$ (переходный режим), в то время как для Трека 3 $Re(S) = 579$ — на два порядка выше. Это указывает на принципиально разный характер спектральной динамики: Трек 3 находится в режиме сильно развитой турбулентности, тогда как Треки 1 и 2 — в переходном режиме.

5.5. Знак конвективного члена

Обнаружено, что знак $\alpha$ различается между треками: Трек 1 имеет преимущественно положительный $\alpha$ (перенос энергии вверх по частотам), тогда как Треки 2 и 3 — отрицательный $\alpha$ (перенос энергии вниз по частотам). Это может быть связано с различиями в спектральном составе: Трек 1 имеет выраженный подъём высоких частот, а Треки 2 и 3 — более плотный низкочастотный спектр.

5.6. Дрейфовый член как универсальная характеристика

Дрейфовый член $\eta$ оказался значимым на $90$–$100\%$ сегментов для всех трёх треков, что делает его наиболее универсальным гидродинамическим параметром. Это подтверждает гипотезу о том, что мелодическое движение (направленное изменение спектра) является фундаментальным свойством музыки, аналогичным течению реки под уклон.

6. Заключение

В работе предложена и экспериментально верифицирована гидродинамическая модель эволюции спектрограммы музыкальных сигналов. Основные результаты:

  1. Модифицированное уравнение Бюргерса с дрейфовым членом и затуханием является статистически значимой моделью для $>99\%$ сегментов на трёх независимых треках ($p < 0{,}05$).
  2. Коэффициент детерминации $R^2$ монотонно растёт с уменьшением сложности аранжировки, достигая $0{,}54$ для минималистичного трека.
  3. Число Рейнольдса спектрограммы $Re(S)$ различает режимы течения: от переходного ($Re \approx 10$) до сильно турбулентного ($Re \approx 580$).
  4. Дрейфовый член $\eta$ является наиболее универсальным гидродинамическим параметром, значимым на $90$–$100\%$ сегментов.
  5. Внешняя сила $F(t, f)$, интерпретируемая как аранжировка, может быть выделена как остаток модели. Её величина коррелирует со сложностью трека.

Результаты воспроизводятся на всех трёх тестовых сигналах, что исключает возможность статистической флуктуации.

Литература

[1] "Число Рейнольдса спектрограммы как новый инвариант для анализа аудиосигналов." Препринт, 2026.

[2] Burgers, J. M. "A mathematical model illustrating the theory of turbulence." Advances in Applied Mechanics, 1948.

[3] Peeters, G. "A large set of audio features for sound description." CUIDADO Project, 2004.

[4] Edelsbrunner, H., Harer, J. "Persistent homology — a survey." Contemporary Mathematics, 2008.

Приложение A. Ключевые метрики эксперимента

Трек 1 (современная электроника):

ПараметрЗначение
$[R^2]_{avg}$0,0304
$[R^2]_{max}$0,0986
$[Re(S)]_{avg}$9,92
$[\alpha]_{significant}$90/119 (76%)
$[\eta]_{significant}$119/119 (100%)
Глобальный вердиктSTRONG_SUPPORT

Трек 2 (итало-диско):

ПараметрЗначение
$[R^2]_{avg}$0,1133
$[R^2]_{max}$0,2698
$[Re(S)]_{avg}$9,73
$[\alpha]_{significant}$258/261 (99%)
$[\eta]_{significant}$235/261 (90%)
Глобальный вердиктSTRONG_SUPPORT

Трек 3 (минималистичный):

ПараметрЗначение
$[R^2]_{avg}$0,1546
$[R^2]_{max}$0,5425
$[Re(S)]_{avg}$578,79
$[\alpha]_{significant}$194/196 (99%)
$[\eta]_{significant}$183/196 (93%)
Глобальный вердиктSTRONG_SUPPORT