2019. 02. 28. - 09:30

Jelentősen csökkentek az MI beszédfelismerés hibái

Jelentősen csökkentek az MI beszédfelismerés hibái

Már csaknem 30 százalékkal mérsékelte a Google mesterséges intelligencia technikája a beszédfelismerési hibákat. A jelek szerint egyre fejlődőképesebb.

Határozottan egyre jobb napjainkban a mesterséges intelligencia beszédfelismerése. A legkorszerűbb  modellek közé tartozik az EdgeSpeechNet például, melyről kutatással foglalkozó lapok már 2018-ban részletesen beszámoltak. Ez nagyjából 97 százalékos pontossággal dolgozik.
 
Ám még a legjobb rendszerek is belebotlanak olykor szokatlan és ritka szavakba. Hogy ezen a problémán segítsenek, a Google tudósai és a Kaliforniai Egyetem szakemberei olyan megközelítést javasoltak, mely szöveges adatokkal képzett, betűzés korrekciós modellt alkalmaz.
 
Az Arxiv.org oldalon a kutatók leírták a 800 szavas, 960 órás nyelvi modellezés, a LibriSpeech kapcsán szerzett tapasztalataikat – technikájuk 18,6 százalékos javulást mutatott a szavak hibaarányát tekintve.
 
A mesterséges intelligencia egyre jobban teljesít a beszédfelismerés terén
A mesterséges intelligencia egyre jobban teljesít a beszédfelismerés terén
 
Bizonyos esetekben pedig 29 százalékos volt a csökkenés.
 
„A lényeg az, hogy a szöveges adatokkal képzett modult beépítsük a modellbe - azzal a céllal, hogy a rendszer általi hibákat korrigálja. Különösen a kötetlen adatok alkalmazását vizsgáljuk audio (hang) jelek alkalmazásához, szöveg-beszéd (TTS) rendszer használatával, amely a gépi fordításban a visszafordításhoz hasonló folyamat.”
 
Mint azt a kutatók megjegyzik, a legtöbb automatikus beszédfelismerő rendszer együttesen három összetevőből áll: egy akusztikus modellből, mely megtanulja az audiojelek és a beszédet alkotó nyelvi egységek közötti kapcsolatot, a nyelvmodellből, amely a szavak sorozataihoz valószínűségeket rendel, valamint egy olyan mechanizmusból, mely az akusztikus kereteket és az elismert szimbólumokat igazítja.
 
Mindhárom egyetlen neurális hálózatot használ – ezek biológiai idegsejtek után modellezett, rétegelt matematikai függvények -, valamint átírt audio-szöveg párokat, s ennek következtében a nyelvi modell általában rosszul teljesít, ha a korpuszban ritka szavakkal találkozik.
 
Ezért döntöttek úgy a kutatók, hogy a fent említett betűzési-helyesírási korrekciós modellt beépítik az ASR keretrendszerbe. Olyan modellt, amely a bemeneti és kimeneti mondatokat al-szóegységekként dekódolja.
 
Lényegében megtanították a betűzési korrektort a potenciálisan hibás szavak és mondatok korrigálására, ezzel a beszédfelismerés hibáinak lehetősége csökkent.
 
Természetesen még finomítanak rajta, a cél a tökéletes modell létrehozása.
 
László Adrienn

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.

 

gyulai_vafurdo

profight_banner.