2018. 09. 20. - 09:35

Egyszerre tanulja az MI a beszéd- és a tárgyfelismerést

Az új gépi tanulási modell abban okosodik, hogyan válasszon ki egy tárgyat a képről – beszéddel történő leírások alapján. A rendszert a Massachusetts-i Technológiai Intézet fejlesztette ki.

Újabb sikert könyvelhet el a Massachusetts-i Technológiai Intézet (Massachusetts Institute of Technology - MIT) a mesterséges intelligencia és a gépi tanulás fejlesztése terén.

A MIT számítógépes tudósai olyan rendszert alkottak, mely megtanul azonosítani tárgyakat egy képről, annak alapján, hogy azt beszéd útján leírták. Aszerint, hogy adnak egy leírást az audiofelvétel alapján, a modell valós időben és releváns módon ismeri fel a tárgyakat.

A gépi tanulás és mesterséges intelligencia fellegvára a MIT

A jelenlegi beszédfelismerési technológiáktól eltérően ez az MI modell nem igényel manuális átírást és megjegyzéseket a példákról, melyek alapján tanították. A szavakat közvetlenül a felvett beszédből tanulja meg, valamint a nyers formában látható objektumok képe alapján, majd összefüggésbe hozza őket egymással.

A gépi tanulási modell jelenleg több száz különböző szó és objektumtípus felismerésére képes, a kutatók azonban bíznak benne, hogy a közeljövőben a kombinált beszéd-objektum felismerő technikájuk rengeteg időt takaríthat meg, manuális módszerek helyett alkalmazva, s új lehetőségeket nyit a beszéd- és a képfelismerés terén.

Az olyan beszédfelismerő rendszerek, mint a Siri és Google Voice példának okáért több ezer órányi felvett beszéd leírását igényli. Ezen adatok felhasználásával tanulja meg a rendszer beszédjelek konkrét szavakkal történő leképezését. A megközelítés különösen problémás, amikor új kifejezések jelennek meg és a rendszert újra kell tanítani.

David Harwath, Computer Science and Artificial Intelligence Laboratory (CSAIL) valamint a Spoken Language Systems Group kutatója elmondta: olyan beszédfelismerést szeretnének, amely természetesebb módon működik, olyan további jelek és információk használatával, melyekhez a de a gépi tanulási algoritmusok jellemzően nem férnek hozzá. „Úgy szeretnénk betanítani a modellt, mint ahogyan egy gyerek elsajátítja a tájékozódást a világban és elmondja, hogy mit lát” – fogalmazott a kutató.

Harwath egyébként társszerzője annak a dokumentumnak, mely leírja a modellt – és amelyet a Számítógépes Látás Európai Konferencián mutattak be.

László Adrienn