Beszédfelismerés a XXI. században



A 21. században az életünk nagyobb részét a technológia teszi könnyebbé. Lassan mindenhol már megjelennek a számítógépek és egyéb elektronikus készülékek. Az eszközeinket sokféleképpen tudjuk irányítani, ennek az egyik alapvető módja, hogy billentyűzettel, egérrel vagy egy kijelzőn elhelyezett virtuális nyomógombokkal tesszük. Ennél egy fokkal kényelmesebb megoldások, a hanggal/beszéddel történő irányítás és a gondolattal vagy gesztikulációval történő irányítás.

1 A beszédfelismerésről általánosan

Közismert tény, hogy az ember különböző kommunikációs technikái közül, a természetes hang és beszéd képes egy adott időintervallum alatt a legtöbb információt szolgáltatni, így a kommunikációink közül a beszédnek a legnagyobb az adatátviteli sebessége. A tudósok hosszú idők óta próbálnak e területen tökéletes hangfelismerőt, beszéd-analizátort építeni, programozni.
Mostanra a beszédfelismerés és hanganalizálás eljutott arra a szintre, hogy már önálló tudományágnak tekinthető. Ennek nagy úttörői a Google, a Mac és néhány Android operációs rendszerre fejlesztő cég. Ezen cégek az utóbbi időben saját hangfelismerő motorokat fejlesztettek ki, bár az Android operációs rendszerre fejlesztő cégek többségében a Google felismerő motorjára hagyatkoznak.

1.1 A beszédfelismerés szintjei

A beszédfelismerésnek három szintjét három fő lépcsőfokát különítjük el; az akusztikai szintet, a szintaktikai szintet és a szemantikai szintet.
Az akusztikai szint a beszédjel hullámként való értelmezése. Tulajdonképpen a beszédjel jellemző, kiemelkedő fizikai paramétereit elemezzük, mint például idejét, időtartamát, spektrális eloszlását, amplitúdóját, hangerejét … stb. Ezzel a módszerrel a kapott értékeket, paramétereket elemezve rálátásunk nyílik a beszédjel lényeges jellemzőinek kiemelésére. Ez módszer azonban nem elég a teljes beszédfelismerés megvalósítására, ezzel a szinttel csak becsléseket lehet tenni, mivel fizikai értékekként kezeljük a beszédjelet. Egy akusztikai elemzőprogram leginkább személyenkénti szabályrendszert és kalibrálást igényel, mivel nincs két ugyanúgy beszélő ember a világon.
A fonémák a beszédet alkotó alapszimbólumok. Ezen szimbólumok közti kapcsolatot és kapcsolódási szabályokat foglalja egybe a szintaktikai szint. Szabályok alatt kell érteni a kiejthetőséget, mi szerint egy szintaktikai szinten már nem engedhetünk meg egymás után kiejthetetlen hangzókat. Ezen szinten találhatjuk az adott nyelvek szótárkészletét, azaz a nyelvben szavakként, toldalékokként megengedett szimbólumsorozatokat. A szintaktikai szabályrendszer megalkotásakor figyelembe kell venni az szabályt megfogalmazó személy szubjektivitását.
A szemantikai szinten, a szintaktikai szinten mondhatni elfogadott szimbólumok jelentését vizsgáljuk a valóság tükrében, azaz a közlés értelmét. Összevetve a három szint közül, mindnél feljebb megyünk az elemzési szinten, annál bonyolultabb, komplexebb elemzési problémákkal szembesülünk, melyeknek megoldásában egyre több az önkényesség.

1.2. A beszédfelismerés módszerei

Az első beszédfelismerők egyértelműen a beszédfelismerés lépcsőjének legelső lépcsőfokán kezdték. Akusztikai szinten vizsgálták a beszédet, kizárólag fizikai modellekből próbálták meg megállapítani a beszéd jelentését. Kváziperiodikus hangok formánsait vizsgálva rábírták a kezdeti felismerőket néhány alapvetően egyszerű zöngés mássalhangzó és a magánhangzók felismerésére. Erről kezdetekben azt hitték, hogy elég, de hamar ráébredtek, hogy sajnos ezen a szinten még nem lehet biztonsággal minden hangot felismerni. Nem tudtak megbirkózni a rövid ideig ejtett magánhangzókkal, azaz az átmeneti magánhangzókkal és emellett nem tudták megoldani a beszédfüggetlenséget.

    Erre a problémára a későbbiekben találtak is megoldást. Megfigyelhetjük, hogy az ember alapvetően több hangot képes meghallani és értelmezni, mint amennyit kiejteni. Egy szóval fókuszáljunk arra, hogy milyen hangot képeztünk, nem pedig hogy milyen hangot hallottunk. Ezzel az állásponttal jutottak el, statisztikai beszédfelismerő módszerekig. Ezen felismerők alapvető tulajdonsága, hogy gigantikus adatbázisokban tárolják az adott nyelvek szótárkészletét, mégpedig egy új kiejtési modellben, ezen felül még tárolják a nyelvtani szabályokat. Ezen felismerők működési elvének alapja a valószínűségi rátákról szól, azaz a beérkezett beszédjel mely modellsorozatból épülhet fel a legnagyobb valószínűséggel. Ezen beszédfelismerők fejlődéséhez nagymértékben hozzájárult a fonetikus szimbólumok megalkotása. Ezen szimbólumok egy olyan jelölésrendszer alkotóelemei, melynek célja hogy nemzetközi szakemberek is képesek legyenek egy adott nyelv ismerete nélkül is reprodukálni vagy vizsgálni egy hangot. Az első ilyen jelölésrendszer az IPhA (International Phonetic Alphabet), mely az XX. században keletkezett és mellyel több száz nyelv, szinte össze hangját tökéletesen írja le. Egyértelmű, hogy ha szimbólumokról beszélünk, azoknak létezik valami írásos formája is. Az átlag billentyűzetek ezen szimbólumok bevitelére és kezelésére alkalmatlanok, ezért kifejlesztettek egy újabb módszer, mely sokkal inkább alkalmas írásba foglalni a fonetikus szimbólumokat. Ez a rendszer a SAMPA, melyet a 90-es években fejlesztettek ki. Az európai adatbázisok SAMPA karaktereket használnak. Ám a SAMPA igencsak nyelvfüggő, ezért fejlesztették tovább és alkották meg az X-SAMPA jelölésrendszert, melynek célja, hogy az IPA fonetikai latin betűkkel (pontosabban ASCII-karakterekkel) reprezentálja. Erről láthatunk pár példát az 1A. táblázatban.

Hangzók szimbólumtáblázata //



    A statisztikai beszédfelismerésnél kétféle statisztikai alapú feldolgozási elvet ismerünk, a Rejtett Markov Modellt (Hidden Markov Model - HMM) és a Neurális Hálózatokat (Neural Network - NN). A HMM lényege, hogy a mintaadatbázisban eltárolt mondatokat részekre bontjuk és diszkrét véges automaták sorozataiként eltároljuk. Ez hatalmas adatbázist eredményez. Minden állapotmenetnek van egy valószínűségi rátája és ezen állapotok a fonémák prototípusai. Egyszerűsíthetjük a problémát, ha láncoljuk a listát olyan módon, hogy egy bizonyos fonéma ejtésének valószínűségét az előtte lévő N-1. fonéma határozza meg. Gyakorlatban a háromelemű trigram automaták a használatosak. Ez az automata látható az 1B. ábrán.

Trigram automata //



Egy beszédvizsgálat folytán az algoritmus a vizsgálni kívánt jelsorozatot szakaszokra vágja és elsőlépcsős (akusztikai) vizsgálatot végez rajtuk. Az így nyert fonémaprototípusokat összehasonlítja az adatbázisban tárolt trigramokkal és eközben egy nyelvtani szabályokra támaszkodva felépít egy hasonló trigramokból álló beszédátmeneti gráfot. Ha a gráf elkészült, megkeresi a beszédszakasz elejét és végét, és meghatározza a két gráf-pont közötti legvalószínűbb utat, és a beszédfelismerés eredményeképp azt a fonémasorozatot adja vissza. Összevetve az agyunk működési elvével, ez az algoritmus sorosan működik, láncolva. A beérkezett hangmintán először teljes akusztikai elemzést végez, majd felépít a terjedelmes valószínűségi állapotgráfot, melyet utána még végig kell vizsgálnia. Ez egyértelműen lassabb az agy működésénél, még elvben is. Az agy asszociatív módon dolgozza fel a beérkezett hangmintát és párhuzamosan működik több szintű elemző. Nem végez teljes akusztikai elemzést, csak egy-két kulcshangról asszociál a mintacsoportokra, amikben keresnie kell. Egyszóval sémák alapján szűkíti nagymértékben a keresési csoportokat, majd az akusztikai elemző tovább szűkíti keresés végkimenetelét, hogy mégis mit kellene még hallani a szövegben. Ezen elemzők közben folyamatos visszacsatolásban (feedback) vannak egymással, ez adja az agy gyors, párhuzamos működési elvét. Az agy kis adatbázissal dolgozik, ám rendkívül jól struktúrált és az elemzési szintek párhuzamosan működnek, szorosan kapcsolódva egymáshoz.
    Ezek után a kutatók figyelme a Neurális Hálózatok [1C. ábra] felé irányult, mivel azok sokkalta közelebb állnak az emberi agy működési elvéhez, ám rendkívül nehéz betanítása és matematikai leírások hiánya végett hamar rájöttek, hogy ez nem lesz egyszerű megoldás. Végül a HMM és az NN hibridje adta a megoldást.

Neurális hálózat felépítése /PAOLO PRIORE, DAVID DE LA FUENTE, RAU´L PINO, JAVIER PUENTE: Dynamic scheduling of flexible manufacturing systems using neural networks and inductive learning./



2 A magánhangzók

A magánhangzók képzésekor a leginkább lényeges tulajdonság, hogy a levegő akadálytalanul áramlik keresztül, így egy folyamatosan ejthető, egyetlen kváziperiodikus zönge gerjesztésű, formáns szerkezetű hangot kapunk. A hangszalagok felhangokban dús gerjesztőjeléhez még hozzáadódnak még az orr- és szájüreg valamint a garatüreg rezonátorrendszere felerősített felhangok. Ezen felhangcsoportok tipikusan a kiejtetett hangzókat formálják és kiemelkednek a környezetükből. A 3dB-es lokális maximumokat nevezzük formánsoknak. Ezen formánsoknál mért frekvenciák a formánsfrekvenciák. Értelmezhetőek még a formáns sávszélességek, és a relatív formáns amplitúdók is. Ezek összességében alkotják egy magánhangzó rájellemző formánstruktúráját. Egy magánhangzó kiválóan felismerhető formánsainak kombinációjáról. Egy bizonyos magánhangzóban rengeteg formáns jelenik meg, ám az átlag felhasználásban mi az első 6 formánssal foglalkozunk. Az első három formáns kifejezettem a magánhangzóra jellemző, a következő három pedig magánhangzót kiejtett személyre, ám ezen formánsfrekvenciák nyelvekként különböznek.
    A magánhangzóknak egy számunkra rettentően fontos tulajdonsága, hogy a szabad légáramlásból és erős zöngéből kifolyólag a legtöbb energiát hordázzák az általunk kiejtett beszédhangok közül, ez teszi őket könnyen lokalizálhatóvá.

3 A beszédjel-feldolgozás matematikai háttere

Egy alapszintű beszédfelismerő programhoz számos matematikai algoritmus és módszer ismerete szükséges, melyeket alkalmazni tudni kell. A legalapabbak ezek közül a Fourier transzformáció, mely egy adott hullám időablakban vett frekvenciáját hivatott visszaadni. Ennek alkalmazásával például egy lokalizált magánhangzót vizsgálva meg tudjuk állapítani, hogy a magánhangzónak a formánsai milyen frekvencián rezegnek, és ebből következtetni tudunk magára a magánhangzóra. Informatikai környezetekben a Diszkrét Fourier Transzformációt (DFT) használjuk, mivel mintavételezett, diszkrét jelekről van szó. Ennek egy gyorsított, alacsonyabb számításigényű formája a Gyors Fourier Transzformáció (FFT).

A magánhangzók lokalizálását a gördülő energiaspektrummal lehet véghezvinni. Tisztában vagyunk azzal, hogy minden analóg jelnek vannak fizikai, mérhető paraméterei. Az egyik ilyen paramétere egy hullámnak a gördülő energiája, melyet úgy képzelhetünk el, hogy a kiadott hanghullám adott időpillanatban hordozott abszolút energiamennyisége.
    Ezt a gördülő energiát úgy tudjuk kiszámolni egy adott időpillanatra, hogy attól az időpillanattól visszafele egy meghatározott időablakban vesszük a jel négyzetes integrálját.
Ez diszkrét jeleknél persze ez csak az aktuális értékek négyzetének az összegzését jelenti.

    A választott időablak mértéke nagyban függ attól, hogy pontosan mit is akarunk lokalizálni a beszédjelben. 5-10 ms-os időablakkal tökéletesen lehet nyomon követni egy hangzón belüli energiaváltozást, a 20-30 ms-os időablak a zöngés/zöngétlen detektálására elegendő, ennél nagyobb, 50-100 ms-os időablakkal pedig a beszéd kezdetét végét, beszédszünetet vagy szavak közötti időrés lokalizálását végezhetjük el. Ez persze már egy olyan nagyságú változó, ami nyelvtől és embertől függ.
Az előzőnél kicsit számításigényesebb módszer a gördülő energiaspektrum. Ezen módszer eredményében már közelebb kerülünk a hangfelismeréshez, mivel itt már szépen kirajzolódnak a magánhangzók formánsai, ám a spektrumot sem árt szűrni.

    Mindezek ismerete után kirajzolódik, hogy a beszédfelismerés egy rendkívül kacifántos és bonyolult téma és ezzel az ismeretanyaggal is még csak a felszínét kapargatjuk. Ezzel szemben az idők folyamán rendkívül nagy fejlődésen ment keresztül és hamarosan már szinte tökéletes beszédfelismerő programokkal fogunk találkozni.




A SyncEQ és a VST-k I.


A VST, azaz Virtual Studio Technology a Steinberg Media Technologies GmbH 1996-ban fejlesztett eszköze, amely lehetővé teszi a virtuális hangszerek (VSTi) és virtuális effektek (VSTfx) létrehozását. Még a VSTi-k a különböző hangszerek élethűségre törekvő, esetleg minél szélesebb körben lehetőségeket biztosító szintetizátorok és samplerek tárháza, a VSTfx-ek az elektro-akusztikai gyakorlatban használt effektek (modulációs, pszicho-akusztikai, dinamikai stb. effektek) működését utánozzák. A VST-k jellemzően DAW, azaz Digital Audio Workstation-ök beépülőmoduljai. Eleinte a Steinberg DAW softwareiben voltka használatosak, azonban növekvő számuk miatt más forgalmazók software-i is támogatni kezdték, hála a Steinberg által kiadott dokumentációknak.


Az elektro-akusztikai szinkronizált kiegyenlítő felhasználási lehetőségei


A kiegyenlítők általánosan a jelfolyamok bizonyos torzulásainak javítására használt eszközök. A jelfolyam amikor egy mérőeszközben létrejön és továbbítódik, minden eszközön amin áthalad, az adott pont átviteli karakterisztikája szerint módosul. A kiegyenlítő a jelfolyam spektrumát hivatott módosítani, a mért folyamat eredetijéhez közelítővé alakítani. Természetesen, kifejezetten a zenei-produceri gyakorlatban ettől eltérő célra is használható a kiegyenlítő.


Tizen OS rendszer


A Tizen egy nyílt forráskódú Linux alapú operációs rendszer, mely számos eszközre nyújt fejlesztési lehetőséget.