Mesterséges intelligencia: fotók készülnek szavakból
Egy úttörő szoftver a mesterséges intelligencia használatával került még egy lépéssel közelebb az emberszerű intelligenciához: képeket készít szavak alapján.
Ma már vannak fotók, amelyek teljes mértékben a Microsoft legutóbbi mesterséges intelligencia szoftverének, az AttnGAn-nak a művei. Úgy hozták létre őket, hogy beírtak egy mondatot a rendszerbe.
Például: „ez a madár vörös és fehér, nagyon rövid csőrrel.” Az AttnGAN ezután egy nagymértékben reális, 256 x 256 pixeles képet kreál, gyakorlatilag a semmiből.
Xiaodong He, a projekt vezető kutatója elmondta: 4 esztendővel ezelőtt senki sem hitte volna, hogy egy ilyen dolog megvalósítható.
Valójában az elmúlt 5 évben olyan kutatásokat végzett, melyek képek és szavak kapcsolatát keresik, megtanítva a mesterséges intelligenciát, hogy a feladat minden részét el tudja végezni.

A madár részleteiben is megjelenik a mesterséges intelligencia AttnGAN segítségével
Először egy CaptionBot nevű rendszert hozott létre, amely képes szavakat használni, hogy leírjon egy képet – ez egyébként segít a rosszul látókon és a vakokon: ők jól kihasználhatják ezt a Microsoft terméket.
A kutatást azonban Xiaodong He továbbvitte, létrehozva a mesterséges intelligenciát, amely a képpel kapcsolatos speciális kérdésekre tud válaszolni.
Az AttnGAN elnevezés úgy született, ahogyan a rendszert felépítették – a kutatók két mesterséges intelligenciát „indítottak el” egymás ellen. Mindkettőt kiképezték a nyelvre, valamint óriási mennyiségű fotó ismeretére – de az egyiket képkészítésre alkották, a másikat pedig azoknak kommentálására. Az utóbbi három fázisban történik - a kép elkészül egy egészen homályos kezdeti vázlattól a végső modellig. A folyamatos versenyben kialakították a feljavított AttnGAN-t, annyira, hogy elkészítse a ma már látható fotókat.
A képek reálisak, bár viszonylag alacsony felbontásúak, de a testreszabott részleteket tekintve igen egyediek. Ez adja az AttnGAN elnevezés első felét – mint attention, azaz figyelem.

Egy előnytelen próbálkozás: a pizzát evő lány képe
A szavak alapján ugyanis aprólékosan finomítja a fénykép egyes régióit.
A feljebb említett madárnak például lehet bármilyen színű csőre, vagy egyéb, speciális részletei.
A szürreálisnak tűnő dolgokat ugyanakkor még nem tudja kezelni a mesterséges intelligencia által irányított AttnGAN: ha például azt írják neki, hogy egy „egy vörös emeletes busz lebeg a tó tejetén”, hibázik - mivel az MI szerint a busz nem megy vízen. Ezért hajót rajzol.
Egy másik esetben egy pizzát evő lány képe lett igencsak furcsa, már-már kubista kinézetű.
A kutatók szerint a masinának még tanulnia kell, hogy megfelelő képet nyújtson a bonyolultabb témákról és tárgyakról is.
Mindkét utóbbi esetben megértette az AttnGAN, mi a kérés, de az alapvető világ-objektum kapcsolat hiányzott nála, ahhoz, hogy meggyőző fotót alkosson.
Fotó: blogs.microsoft.com
B.A.

