Emberszerűbben látja a tárgyakat az új MI számítógépes rendszer
A Kaliforniai Egyetem kutatói olyan számítógépes látórendszert hoztak létre, mely képes leutánozni, hogyan látja és azonosítja a tárgyakat az ember.
Új számítógépes rendszert alkottak a Los Angelesi Kaliforniai Egyetem kutatói – az egyetem Stanford, illetve Samueli Mérnöki Iskolájának szakemberei bemutatták: a rendszer képes felfedezni és azonosítani a valóságban jelen levő tárgyakat, olyan alapon, ahogyan az ember használja a látását.
A rendszer jelentős haladás a számítógépes látás technológiájában, mely lehetővé teszi a gépek számára, hogy olvassanak és azonosítsanak képeket. Mindez fontos lépés az általános mesterséges intelligencia rendszerek irányába: e gépeknek már tudniuk kell maguktól tanulni, intuitívnak lenni, döntéseket hozni a gondolkodás és érvelés alapján, valamint sokkal emberibb módon interakcióba lépni az emberekkel.
Noha a jelenlegi mesterséges intelligencia látási rendszerek egyre erőteljesebbek és többet tudnak, feladat-specifikusak, vagyis képességük a látásra és azonosításra attól függ, mennyire képezték ki és programozták őket az emberek.
Az új számítógépes látásrendszer már sokkal emberibb módon azonosítja a tárgyakat
A ma létező legjobb számítógépes látásrendszerek nem tudnak teljes képet alkotni tárgyakról, mivel csak bizonyos részeiket látják – ha pedig számukra ismeretlen környezetbe helyezzük őket, megzavarodhatnak.
A mérnökök arra törekedtek, hogy az ezen képességekkel rendelkező számítógépes rendszereket felfejlesszék – olyan módon, ahogyan egy ember megérti, hogy egy kutyát néz, akkor is, ha az eb elbújt a szék mögé és csak a mancsai látszanak ki.
Az ember természetesen könnyedén kitalálja, hol a kutya feje és többi testrésze, ám a legtöbb mesterséges intelligencia rendszer erre még nem képes.
A jelenlegi számítógépes látásrendszereket nem úgy alkották meg, hogy maguktól tanuljanak. Edzeni kell őket arra, hogy pontosan mit tanuljanak, általában az azonosítandó tárgyakról készült több ezer kép megtekintésével.
A Proceedings of the National Academy of Sciences szaklapban megjelentetett tanulmány rámutat, milyen hiányosságok vannak még, miket kell megoldani.
Az új rendszer apró darabokra bontja a képet, ezek a „nézőpontok”. A számítógép megtanulja, hogyan állnak össze ezek a nézőpontok, hogy létrehozzák a szóban forgó tárgyat. Végül azt is felméri, milyen tárgyak vannak a környezetben, s az ezekről szóló információk relevánsak-e az objektum leírásában és azonosításában.
Annak érdekében, hogy az új számítógépes rendszer úgy tanuljon, mint egy ember, a mérnök kutatók egy olyan internetes környezetbe ültették azt, amelyben az emberek élnek.
Vwani Roychowdhury, az egyetem professzora kiemelte: az internet két olyan dolgot nyújt, amely segít az agy-inspirált számítógépes látásrendszereknek emberibb módon tanulni. Rengeteg kép és videó áll rendelkezésre, melyek azonos típusú tárgyakat ábrázolnak, sőt ezeket számos perspektívából is láthatjuk: homályosan, madártávlatból, alulról, felülről és természetesen különböző környezetekben.
Az ún. kontextusos tanulás az emberi agy kulcsfontosságú jellemzője, ez segít határozott modelleket létrehozni a tárgyakról, melyek részei az integrált világnézetnek, ahol minden funkcionálisan összekapcsolódik.
A kutatók nagyjából 9 ezer képpel tesztelték a rendszer, mindegyiken emberek és tárgyak szerepeltek. A számítógépes látásrendszer képes volt részletes modellt alkotni az emberi testről, külső irányítás nélkül. Ezután a mérnökök teszteket végeztek motorbiciklik, kocsik, repülők képeivel is – az új rendszer minden esetben jobban teljesített, mint a hagyományos látásrendszerek, melyeket több éven át edzettek.
László Adrienn