2019. 11. 20. - 10:00

Mi ragadja meg a tekintetet? Megmondja a mesterséges intelligencia

Mi ragadja meg a tekintetet? Megmondja a mesterséges intelligencia

Jelentős előrelépést jelenthet akár az egészségügy terén is a mesterséges intelligencia tudása – a Massachusetts Institute of Technology olyan MI-modellt fejlesztett ki, amely meg tudja mondani, mi ragadja meg az ember agyát egy képen.

Heti rendszerességgel fedeznek fel újdonságot a mesterséges intelligencia-kutatók. A Massachusetts Institute of Technology (MIT) szakemberei most olyan modellt fejlesztettek ki, mely részletesen meg tudja mutatni, mi ragad meg leginkább az ember agyában.
 
A Mona Lisától a Leány gyöngy fülbevalóval című festményig, egyes képek hosszabb ideig fennmaradnak agyunkban, míg mások gyorsabban elhalványulnak. Ha egy művészt kérdezünk meg ennek miértjéről, néhány általánosan elfogadott alapelvet hallhatunk. Napjainkban azonban erről egy mesterséges intelligencia modellt is megkérdezhetünk, amely példát mutat a szituációra.
 
Egy új tanulmány, mely a gépi tanulást használta képek létrehozására, kezdve az emlékezetes sajtburgertől a felejthetőbb kávéscsészéig, részletesen bemutatja, mi tesz egy portrét vagy jelenetet kiemelkedőbbé.
 
A szakemberek egy hamburger képével is próbára tették a mesterséges intelligenciát
A szakemberek egy hamburger képével is próbára tették a mesterséges intelligenciát
 
Azok a képek, amelyekre az emberek jobban emlékeznek, élénk színekkel, egyszerű háttérrel rendelkeznek, s olyan tárgyakkal, amelyek kiemelkedően középen helyezkedtek el a keretben.
 
Az eredményeket a kutatók a héten mutatták be egy számítógépes látásról szóló nemzetközi konferencián. Mint Phillip Isola, a tanulmány társ-szerzője elmondta: a kép többet ér ezer szónál.
 
„Az új MI-módszer lehetővé teszi számunkra, hogy elképzeljük, hogyan néz ki az emlékezet. Vizuális meghatározást ad nekünk valamiről, amelyet nehéz szavakba önteni” – fogalmazott a kutató.
 
A munka egyébként egy korábbi, MemNet nevű modellre épült - mely értékeli a kép emlékezetét és kiemeli a kép azon tulajdonságait, amelyek befolyásolják a döntést.
 
A MemNet előrejelzései egy 60 ezer képből álló online tanulmányon alapulnak, melyeket emberi alanyoknak mutattak meg, majd rangsorolták, mennyire voltak emlékezetesek a számukra.
 
A jelen tanulmányban a GANalyze modell gépi tanulási technikát használ, melyet generatív versenytárs hálózatoknak vagy GAN-eknek neveznek.
 
A három modullal rendelkező GAN drámai változásokat hozott a gyors lejátszású képeknél: a memóriaskála távolabbi pontjára helyezett sajtburger nagyobbnak, élénkebbnek, „ízletesebbnek” tűnt, mint korábbi inkarnációi. A katicabogár fényesebbnek és céltudatosabbnak látszott.
 
A kutatók azt is megvizsgálták, hogy mely tulajdonságok befolyásolják legjobban az emlékezetet. Online kísérletek során az emberi alanyoknak különféle memóriaképeket mutattak, s minden ismétlést meg kellett jelölniük.
 
Azok a másolatok ragadtak meg leginkább, melyeken a tárgyak, állatok közelebbinek tűntek, s nagyobbnak látszottak a keretben. A második legfontosabb tényező az élénk szín volt, valamint a középpontba helyezett objektum, négyzet vagy kör alakú keretben.
 
„Az emberi agy úgy fejlődött, hogy leginkább ezekre a részletekre összpontosít” – magyarázta Lore Goetschalckx, a tanulmány társ-szerzője.
 
Esztétikai és érzelmi szempontok alapján ugyancsak magasabb besorolásúak lettek az élénkebb, színesebb képek, melyek sekély mélységélességgel rendelkeztek.
 
A kutatók szerint a GANalyze számos potenciális felhasználással bírhat. Alkalmazható memóriavesztés észlelésére és kezelésére is - azáltal, hogy objektumokat javít a kibővített valóság rendszerében.
 
László Adrienn

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.

 

gyulai_vafurdo

profight_banner.