Математична модель фонеми людського голосу

Більшість сучасних систем розпізнавання мовлення людини засновані на методах, які розбивають запис голосу на фонеми і аналізують їх амплітудно-частотні характеристики з метою пошуку фонем окремих букв на основі класифікації їх за певним наборам частотних характеристик. Такі методи розглядають кожну фонему, як єдину неподільну одиницю звукового сигналу з квазистационарными частотними характеристиками. При такому підході не враховуються характеристики фонеми, динамічно змінюються в часі.

Але такі підходи до аналізу мови можна застосовувати не тільки для її розпізнавання, але і для навчання аналітичного опису фонем, побудови математичної моделі за отриманими даними і синтез звуку, практичний аналогічний оригіналу.

Аналіз складових частин людської мови

Всім зі школи ще відомо, що слово складається з одного або декількох складів, які в свою чергу складаються з однієї або кількох фонем. А фонема – це така мінімальна одиниця мови (найголовніше, що вона смыслоразличительная), вона не має будь-якого лексичного чи граматичного значення, але служить для того, щоб ми могли розуміти елементарні одиниці мови – слова.
Ось так виглядає амплітудно-часова характеристика фонеми літери «О».

Для зручності я зазначив тут три різних часових проміжку:

  • а – процес екскурсії (кожна фонема починається саме з цього процесу)
  • б – процес витримки (те саме «місце» фонеми, яке вимагає опису)
  • в – процес рекскурсии (грубо кажучи – закінчили говорити, закінчився і звук 🙂 )

Я проводив аналіз відрізка часу, протягом якого фонема (її амплітудно-часова характеристика) залишається в квазистационарном стані. Тут же можна припустити, що саме в цей момент часу незмінні (майже) складові спектру звуку.
Для подальшого аналізу і опису, потрібно декомпозировать звук витримки у спектральні складові.

Але фонема, як атом, здавалося б, можна розділити на складові те, що здається неподільним. Але це не так: кожен пік на наведеному вище графіку відповідає одній гармонійної складової фонеми – форманте. Таким чином, кожну фонему можна описати, якщо описати її найпростіші складові. А з останнім проблем виникнути не повинно ні в кого. Якщо ви уважно подивіться на графік, то зможете легко визначити, що форманту описується одночасно двома параметрами: частотою і відносною амплітудою. Відповідно чисто математично ці два параметри формують вектор, а набір таких векторів, що відповідають наявним значущим формантам, відповідає матриці параметрів. Тоді фонема (квазистационарный процес) може характеризуватися наступним набором параметрів:

Тут же наведені параметри і для деяких інших голосних букв. Буква A – амплітуда, відповідно v – частота. Справедливо буде зауважити, що найбільш «складними» літерами є «Е» та «І» – спектр їх фонем ширше, а значущі частоти знаходяться в двох різних проміжках.

Синтез фонем

Для реалізації можливості оцінки якості описаного методу, була запропонована модель реконструкції фонем мови людини за отриманими параметричним матриць: . Тут під знаком суми вказана формальна запис форманти. Відповідно, використовуючи дані з таблиці вище, можна складе модель звуку, наприклад букви «У» і синтезувати його.

Набір параметрів значень матриць залежить від властивостей фонеми. Так, для реалістичної реконструкції звукозапису голосної літери «У» застосована матриця, що складається з вісімнадцяти числових параметрів, що описують дев’ять значущих формант. Для побудови більш точної моделі, необхідно враховувати всі значимі форманти фонеми. Іншою умовою точності порівняння оригінального і синтезованого сигналу є рівна тривалість звучання сигналів.

Висновок

Ви зрозуміли, що фонема – не така вже неподільна одиниця при аналізі мови людини. Так само я вам показав простий спосіб аналітичного опису формант фонем мови людини. В останньому розділі розібрали, що за отриманими параметрами можливо побудувати математичну модель фонеми, а отриману модель в свою чергу можливо використовувати для синтезу фонеми. Сподіваюся даний матеріал вам сподобався. У наступній статті розберемо, чому ж складна емоційне забарвлення голосу і як на неї можна було б побудувати математичні моделі емпірично.

Читайте також  Забули Total.js?

Степан Лютий

Обожнюю технології в сучасному світі. Хоча частенько і замислююся над тим, як далеко вони нас заведуть. Не те, щоб я прям і знаюся на ядрах, пікселях, коллайдерах і інших парсеках. Просто приходжу в захват від того, що може в творчому пориві вигадати людський розум.

You may also like...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *