2019. 02. 28. - 09:30
Jelentősen csökkentek az MI beszédfelismerés hibái
Már csaknem 30 százalékkal mérsékelte a Google mesterséges intelligencia technikája a beszédfelismerési hibákat. A jelek szerint egyre fejlődőképesebb.
Határozottan egyre jobb napjainkban a mesterséges intelligencia beszédfelismerése. A legkorszerűbb modellek közé tartozik az EdgeSpeechNet például, melyről kutatással foglalkozó lapok már 2018-ban részletesen beszámoltak. Ez nagyjából 97 százalékos pontossággal dolgozik.
Ám még a legjobb rendszerek is belebotlanak olykor szokatlan és ritka szavakba. Hogy ezen a problémán segítsenek, a Google tudósai és a Kaliforniai Egyetem szakemberei olyan megközelítést javasoltak, mely szöveges adatokkal képzett, betűzés korrekciós modellt alkalmaz.
Az Arxiv.org oldalon a kutatók leírták a 800 szavas, 960 órás nyelvi modellezés, a LibriSpeech kapcsán szerzett tapasztalataikat – technikájuk 18,6 százalékos javulást mutatott a szavak hibaarányát tekintve.
A mesterséges intelligencia egyre jobban teljesít a beszédfelismerés terén
Bizonyos esetekben pedig 29 százalékos volt a csökkenés.
„A lényeg az, hogy a szöveges adatokkal képzett modult beépítsük a modellbe - azzal a céllal, hogy a rendszer általi hibákat korrigálja. Különösen a kötetlen adatok alkalmazását vizsgáljuk audio (hang) jelek alkalmazásához, szöveg-beszéd (TTS) rendszer használatával, amely a gépi fordításban a visszafordításhoz hasonló folyamat.”
Mint azt a kutatók megjegyzik, a legtöbb automatikus beszédfelismerő rendszer együttesen három összetevőből áll: egy akusztikus modellből, mely megtanulja az audiojelek és a beszédet alkotó nyelvi egységek közötti kapcsolatot, a nyelvmodellből, amely a szavak sorozataihoz valószínűségeket rendel, valamint egy olyan mechanizmusból, mely az akusztikus kereteket és az elismert szimbólumokat igazítja.
Mindhárom egyetlen neurális hálózatot használ – ezek biológiai idegsejtek után modellezett, rétegelt matematikai függvények -, valamint átírt audio-szöveg párokat, s ennek következtében a nyelvi modell általában rosszul teljesít, ha a korpuszban ritka szavakkal találkozik.
Ezért döntöttek úgy a kutatók, hogy a fent említett betűzési-helyesírási korrekciós modellt beépítik az ASR keretrendszerbe. Olyan modellt, amely a bemeneti és kimeneti mondatokat al-szóegységekként dekódolja.
Lényegében megtanították a betűzési korrektort a potenciálisan hibás szavak és mondatok korrigálására, ezzel a beszédfelismerés hibáinak lehetősége csökkent.
Természetesen még finomítanak rajta, a cél a tökéletes modell létrehozása.
László Adrienn