2018. 01. 30. - 11:15

Mesterséges intelligencia: fotók készülnek szavakból

Mesterséges intelligencia: fotók készülnek szavakból

Egy úttörő szoftver a mesterséges intelligencia használatával került még egy lépéssel közelebb az emberszerű intelligenciához: képeket készít szavak alapján.

Ma már vannak fotók, amelyek teljes mértékben a Microsoft legutóbbi mesterséges intelligencia szoftverének, az AttnGAn-nak a művei. Úgy hozták létre őket, hogy beírtak egy mondatot a rendszerbe.

Például: „ez a madár vörös és fehér, nagyon rövid csőrrel.” Az AttnGAN ezután egy nagymértékben reális, 256 x 256 pixeles képet kreál, gyakorlatilag a semmiből.

Xiaodong He, a projekt vezető kutatója elmondta: 4 esztendővel ezelőtt senki sem hitte volna, hogy egy ilyen dolog megvalósítható.

Valójában az elmúlt 5 évben olyan kutatásokat végzett, melyek képek és szavak kapcsolatát keresik, megtanítva a mesterséges intelligenciát, hogy a feladat minden részét el tudja végezni.

A madár részleteiben is megjelenik a mesterséges intelligencia AttnGAN segítségével

A madár részleteiben is megjelenik a mesterséges intelligencia AttnGAN segítségével

Először egy CaptionBot nevű rendszert hozott létre, amely képes szavakat használni, hogy leírjon egy képet – ez egyébként segít a rosszul látókon és a vakokon: ők jól kihasználhatják ezt a Microsoft terméket.

A kutatást azonban Xiaodong He továbbvitte, létrehozva a mesterséges intelligenciát, amely a képpel kapcsolatos speciális kérdésekre tud válaszolni.

Az AttnGAN elnevezés úgy született, ahogyan a rendszert felépítették – a kutatók két mesterséges intelligenciát „indítottak el” egymás ellen. Mindkettőt kiképezték a nyelvre, valamint óriási mennyiségű fotó ismeretére – de az egyiket képkészítésre alkották, a másikat pedig azoknak kommentálására. Az utóbbi három fázisban történik - a kép elkészül egy egészen homályos kezdeti vázlattól a végső modellig. A folyamatos versenyben kialakították a feljavított AttnGAN-t, annyira, hogy elkészítse a ma már látható fotókat.

A képek reálisak, bár viszonylag alacsony felbontásúak, de a testreszabott részleteket tekintve igen egyediek. Ez adja az AttnGAN elnevezés első felét – mint attention, azaz figyelem.

Egy előnytelen próbálkozás: a pizzát evő lány képe

Egy előnytelen próbálkozás: a pizzát evő lány képe

A szavak alapján ugyanis aprólékosan finomítja a fénykép egyes régióit.

A feljebb említett madárnak például lehet bármilyen színű csőre, vagy egyéb, speciális részletei.

A szürreálisnak tűnő dolgokat ugyanakkor még nem tudja kezelni a mesterséges intelligencia által irányított AttnGAN: ha például azt írják neki, hogy egy „egy vörös emeletes busz lebeg a tó tejetén”, hibázik - mivel az MI szerint a busz nem megy vízen. Ezért hajót rajzol.

Egy másik esetben egy pizzát evő lány képe lett igencsak furcsa, már-már kubista kinézetű.

A kutatók szerint a masinának még tanulnia kell, hogy megfelelő képet nyújtson a bonyolultabb témákról és tárgyakról is. 

Mindkét utóbbi esetben megértette az AttnGAN, mi a kérés, de az alapvető világ-objektum kapcsolat hiányzott nála, ahhoz, hogy meggyőző fotót alkosson.

Fotó: blogs.microsoft.com

B.A.

 

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.