2021. 07. 21. - 09:30

Fejlődik a szöveggenerálás: már GPT-J modell is létezik

Gőzerővel fejlődik a szöveggenerálás: az EleutherAI kutatói nyílt forrású, hatmilliárd paraméteres, természetes nyelvi feldolgozású mesterséges intelligencia-modellel álltak elő, a GPT-3 klónjával, melynek neve GPT-J.

Már nemcsak GPT-3, GPT-J is létezik. Az Eleuther AI kutatócsoportja nyílt forrásból származó GPT-J-t hozott létre, amely egy, a GPT-3-on alapuló hatmilliárdos paraméterű, természetes nyelvi feldolgozással rendelkező (NLP) mesterséges intelligencia-modell.

A modellt egy 800 GB-os nyílt forráskódú szöveges adatkészlettel tanították - hasonló teljesítményű és méretű, mint a GPT-3 modell.

Aran Komatsuzaki fejlesztő blogján számolt be az újdonságról. Az új modellt az EleutherAI Pile adatkészletén képezték ki, a Google Cloud v3-256 TPU-ja segítségével; a képzés körülbelül 5 hetet vett igénybe.

Gőzerővel fejlődik a szöveggenerálás - megérkezett a GPT-J modell is

Az általános NLP, azaz természetes nyelvi feldolgozással rendelkező feladatoknál a GPT-J hasonló pontosságot el, mint korábban az OpenAI által közzétett GPT-3 6.7B paraméteres verziójának eredményei.

Az Eleuther AI kiadása magába foglalja a modell kódot, az előre kiképzett súlyfájlokat, a Colab notebookot és egy bemutató weboldalt.

Aran Komatsuzaki szerint a GPT-J jelenleg a legjobban teljesítő, nyilvánosan elérhető Transformer, azaz nyelvi modell a különféle feladatok zero-shot teljesítménye szempontjából. A zero-shot a gépi tanulás (és mélytanulás) specifikus, különleges felhasználási eseteire utal, amikor a kutatók azt szeretnék, hogy a modell nagyon kevés vagy egyáltalán nem jelölt példa alapján osztályozza az adatokat. Ez menet közbeni osztályozást is jelent.

Az OpenAI 2018-ban publikált először dokumentumot a generatív, előre kiképzett transzformátorokról (GPT) - ez lényegében egy felügyelet nélküli tanulási modell, mely számos NLP-feladat kapcsán a ma legkorszerűbb eredményeket érte el. 2019 elején jelentették be az 1.5B-os GPT-2 nevű modellt, melyet eleinte nem adtak ki, ám később, még abban az esztendőben megjelent.

Az OpenAI 2020-ban jelentkezett ismét, az új, 175B paraméterű modellel – ez már a GPT-3 volt -, a betanított modellfájlokat azonban nem adta ki. Ehelyett biztosított egy API-t (vagyis alkalmazás-programozási felületet), amely lehetővé teszi a fejlesztők számára, hogy webszolgáltatási hívásokon keresztül integrálják a modellt a kódjukba.

A GPT-3 modellről itt olvashatsz bővebben.

A GPT-J kód, illetve a modellek a GitHubon elérhetők. Az EleutherAI honlapján a kutatók interaktív bemutatót is tartanak a modell szöveggeneráló képességeiről.

Olvasd el ezt is: A GPT-3 legjobb felhasználási módjai

L.A.