2019. 02. 28. - 09:30

Jelentősen csökkentek az MI beszédfelismerés hibái

Már csaknem 30 százalékkal mérsékelte a Google mesterséges intelligencia technikája a beszédfelismerési hibákat. A jelek szerint egyre fejlődőképesebb.

Határozottan egyre jobb napjainkban a mesterséges intelligencia beszédfelismerése. A legkorszerűbb modellek közé tartozik az EdgeSpeechNet például, melyről kutatással foglalkozó lapok már 2018-ban részletesen beszámoltak. Ez nagyjából 97 százalékos pontossággal dolgozik.

Ám még a legjobb rendszerek is belebotlanak olykor szokatlan és ritka szavakba. Hogy ezen a problémán segítsenek, a Google tudósai és a Kaliforniai Egyetem szakemberei olyan megközelítést javasoltak, mely szöveges adatokkal képzett, betűzés korrekciós modellt alkalmaz.

Az Arxiv.org oldalon a kutatók leírták a 800 szavas, 960 órás nyelvi modellezés, a LibriSpeech kapcsán szerzett tapasztalataikat – technikájuk 18,6 százalékos javulást mutatott a szavak hibaarányát tekintve.

A mesterséges intelligencia egyre jobban teljesít a beszédfelismerés terén

Bizonyos esetekben pedig 29 százalékos volt a csökkenés.

„A lényeg az, hogy a szöveges adatokkal képzett modult beépítsük a modellbe - azzal a céllal, hogy a rendszer általi hibákat korrigálja. Különösen a kötetlen adatok alkalmazását vizsgáljuk audio (hang) jelek alkalmazásához, szöveg-beszéd (TTS) rendszer használatával, amely a gépi fordításban a visszafordításhoz hasonló folyamat.”

Mint azt a kutatók megjegyzik, a legtöbb automatikus beszédfelismerő rendszer együttesen három összetevőből áll: egy akusztikus modellből, mely megtanulja az audiojelek és a beszédet alkotó nyelvi egységek közötti kapcsolatot, a nyelvmodellből, amely a szavak sorozataihoz valószínűségeket rendel, valamint egy olyan mechanizmusból, mely az akusztikus kereteket és az elismert szimbólumokat igazítja.

Mindhárom egyetlen neurális hálózatot használ – ezek biológiai idegsejtek után modellezett, rétegelt matematikai függvények -, valamint átírt audio-szöveg párokat, s ennek következtében a nyelvi modell általában rosszul teljesít, ha a korpuszban ritka szavakkal találkozik.

Ezért döntöttek úgy a kutatók, hogy a fent említett betűzési-helyesírási korrekciós modellt beépítik az ASR keretrendszerbe. Olyan modellt, amely a bemeneti és kimeneti mondatokat al-szóegységekként dekódolja.

Lényegében megtanították a betűzési korrektort a potenciálisan hibás szavak és mondatok korrigálására, ezzel a beszédfelismerés hibáinak lehetősége csökkent.

Természetesen még finomítanak rajta, a cél a tökéletes modell létrehozása.

László Adrienn

Jelentősen csökkentek az MI beszédfelismerés hibái

Hírlevél feliratkozás

Új MI-chipet mutattak be: mérföldkőhöz érkezett Kína félvezetőipara

Nem félni kell a mesterséges intelligenciától, hanem szabályozottan használni

Aki rendbe teszi az adatokat, az nyerhet a kkv szektorban

A DeepSeek 74 milliárd dolláros értékelése megmutatja, mennyire drága lett a generatív MI versen...

Az AMD adatközponti fordulata megmutatja, miből épül az MI valódi háttere

A BYD új szabadalma megmutatja, hogyan menthet életet a gépi látás