2020. 11. 20. - 08:50

100 nyelven képes fordításokat végezni a Facebook mesterséges intelligencia modellje

Nyílt forráskódú, tehát bárki számára hozzáférhető és saját alkalmazásokba építhető az a mesterséges intelligencia alapú modell, amit a Facebook fejlesztett ki. Az új módszer 100 nyelvet támogat, és anélkül fordítja le a tartalmakat, hogy közbeiktatná az angol nyelvet.

Az M2M-100 nevet viselő mesterséges intelligencia modellt 7,5 milliárd mondatpárt magába foglaló adatkészleten tréningezték 100 nyelven, mely mondatokat az internetről gyűjtötték. Természetesen nem privát tartalmakról van szó, a Facebook szerint nyílt forráskódú, nyilvánosan elérhető adatokat használtak fel a folyamathoz.

A kutatók az adatbányászat során olyan nyelvfordításokra fókuszáltak, amelyeket a meglévő statisztikák szerint a leggyakrabban vettek igénybe a felhasználók. Ezzel együtt kerülték a ritkább nyelvpárokat, tehát egyelőre például a szingalézról jávaira történő fordítás nem lehetséges.

A közeljövő fordítási technológiáját készítette el a Facebook a mesterséges intelligencia segítségével

Ezt követően a nyelveket 14 különböző csoportba sorolták nyelvi, földrajzi és kulturális hasonlóságok alapján. Ez a megközelítés azért hasznos, mert azokban az országokban, ahol a beszélt nyelvek rendelkeznek ilyen közös jellemzőkkel, profitálhatnak egymás fordításaiból. Ilyen ország többek között India, ahol egyaránt hivatalosnak számít a hindi, a bengáli és a maráthi nyelv. A megalkotott csoportokon belül aztán az összes lehetséges nyelvpárt megkülönböztették.

A csoportokban szereplő nyelvek kis számú, úgynevezett hídnyelveken keresztül kapcsolódtak egymáshoz. A hindi, a bengáli és a tamil nyelvek például hídnyelvei lettek az indoárja nyelveknek. A mesterséges intelligencia tréningezése pedig ezeknek a hídnyelveknek a kombinálásával történt, így keletkezett a 7,5 milliárd párhuzamos mondatból álló adatkészlet, ami 2200 fordítási iránynak felel meg.

A minőségi fordítási adatokkal nem rendelkező nyelveknél is besegítenek a bányászott adatok, hiszen ezek támogatják a visszafordításnak nevezett módszert a szintetikus fordítások előállításakor.

Az új MI-módszer szerepe azért különösen jelentős, mert ez az első többnyelvű gépi fordítási modell, amely a 100 nyelv bármilyen párosa között képes közvetlenül fordítani anélkül, hogy először a forrásnyelvet angolra, majd az angolt a célnyelvre fordítaná le.

Jelenleg még csak egy kutatási projektet jelent az M2M-100 rendszer, viszont várhatóan a közeljövőben ezzel lehet majd a Facebook-bejegyzéseket is lefordítani. Ez nagy segítség lehet a felhasználóknak, ugyanis közel kétharmaduk nem az angol nyelvet használja a platformon.

- Varga Viktor -

100 nyelven képes fordításokat végezni a Facebook mesterséges intelligencia modellje

Hírlevél feliratkozás

Új MI-chipet mutattak be: mérföldkőhöz érkezett Kína félvezetőipara

Nem félni kell a mesterséges intelligenciától, hanem szabályozottan használni

Aki rendbe teszi az adatokat, az nyerhet a kkv szektorban

A DeepSeek 74 milliárd dolláros értékelése megmutatja, mennyire drága lett a generatív MI versen...

Az AMD adatközponti fordulata megmutatja, miből épül az MI valódi háttere

A BYD új szabadalma megmutatja, hogyan menthet életet a gépi látás