2026. 05. 12. - 09:30

Új GPT mesterséges intelligencia-modellel állt elő az OpenAI: hangban elég erős

Új hangalapú intelligencia funkciókat vezet be API-jában az OpenAI – olyan alkalmazások megalkotásában segít, amelyek képesek beszélni, átírni és lefordítani a felhasználókkal folytatott beszélgetéseket.

Az OpenAI bejelentette, hogy API-ja mostantól számos új hangalapú intelligencia funkciót tartalmaz majd. Célja segíteni a fejlesztőket olyan alkalmazások létrehozásában, amelyek képesek beszélni, átírni és lefordítani a felhasználókkal folytatott beszélgetéseket.

A vállalat új GPT-Realtime-2 egy hangmodell, amelyet valósághű vokális szimuláció létrehozására terveztek, beszélgetni tud a felhasználókkal.

Elődjével (GPT-Realtime-1.5) ellentétben azonban ez a GPT-5 osztályú gondolkodásmóddal készült - az OpenAI szerint ezt a felhasználók bonyolultabb kéréseinek kezelésére hozták létre.

Nem áll egyedül az MI-modell

A vállalat elindítja a GPT-Realtime-Translate-et is: valós idejű fordítási szolgáltatásokat nyújt, amelyek „lépést tartanak” a felhasználóval, beszélgetésszerűen.

A funkció több mint 70 beviteli nyelvet tartalmaz, azokat, amelyeket megért, valamint 13 kimeneti nyelvet – azokat, amelyeket a beszélőnek továbbít. Olvasd el: MI-ügynökök lehetnek applikációk helyett az OpenAI telefonjain

Új GPT mesterséges intelligencia-modellel állt elő az OpenAI: hangban elég erős

A fentiek mellett az OpenAI elindított egy új átírási funkciót is, a GPT-Realtime-Whisper-t: ez élő beszéd-szöveg átalakítási lehetőségeket biztosít a felhasználóknak, amelyeket az interakciók során rögzítenek.

„Az általunk bevezetett modellek együttesen a valós idejű hangot az egyszerű hívás-válasz alapú felületekről a ténylegesen működő hangfelületek felé mozgatják: hallgatni, érvelni, fordítani, átírni és cselekedni a beszélgetés során” – jelezte a vállalat.

Ki tudja igazán kihasználni ezeket a frissítéseket?

Nyilvánvaló célcsoportot jelentenek azok a vállalatok, amelyek bővíteni szeretnék az ügyfélszolgálati képességeiket.

Az OpenAI azonban megjegyzi azonban, hogy új funkciói számos területen segítenek majd, többek között az oktatásban, a médiában, az eseményeken és az alkotói platformokon.

Bármennyire hasznosnak tűnnek ugyanakkor ezek az eszközök vállalati szempontból, valószínűnek tűnik az is, hogy vissza lehet velük élni.

Mint az OpenAI elmondta, védőkorlátokat épített ki annak megakadályozására, hogy új funkcióit spam, csalás vagy más online visszaélések létrehozására használják fel.

Bizonyos triggereket ágyaztak be a rendszerbe, hogy „a beszélgetések leállíthatók legyenek, ha azokat a káros tartalomra vonatkozó irányelveink megsértéseként észlelik” – jelezte a vállalat.

Valamennyi új hangmodell megtalálható egyébként az OpenAI Realtime API-jában. A Translate és a Whisper percdíjas, míg a GPT-Realtime-2 tokenfelhasználás alapján kerül számlázásra.

Olvasd el ezt is: Az ágensek hamarosan önállóan specializálódhatnak egy adott szakmára

B.A.

Új GPT mesterséges intelligencia-modellel állt elő az OpenAI: hangban elég erős

Hírlevél feliratkozás

Lekapcsoltatták az Anthropic legújabb mesterséges intelligenciáját

Befuccsolt a mesterséges intelligencia a randiiparban?

Az önvezető autók versenye új szakaszba lép, már nem csak a Tesla van a piacon

A generatív MI az iskolákban is terjed, de a tanulás nem válhat gyorsított másolássá

A magyar szakembereknek is nagy jelzés az Adobe új fejlesztése

Mesterséges intelligencia került a bevásárlókosarakba