2024. 10. 23. - 08:45
Nemcsak látja, érti is a történéseket az új mesterséges intelligencia-kamera

Egy új mesterséges intelligencia-kamera nemcsak videót rögzít, hanem meg is érti, mi történik – jelentették be kutatók a legújabb MI-attrakciót. Az új felfedezésnek hatalmas társadalmi hatása lehet.
Mi a helyzet, ha egy mesterséges intelligencia alapú biztonsági kamera nem csupán videót rögzít, hanem meg is érti, mi történik az orra előtt? Azaz, valós időben különbséget tesz a rutintevékenységek és a potenciálisan veszélyes viselkedés között?
Ilyen lehetőségeket nyújthat a Virginia Egyetem Műszaki és Alkalmazott Tudományok Kara kutatóinak legújabb áttörése. A mesterséges intelligencia által vezérelt intelligens videoelemző példátlan pontossággal és intelligenciával képes észlelni az emberi cselekvéseket a videofelvételeken.
A rendszer neve Semantic and Motion-Aware Spatiotemporal Transformer Network (SMAST), amely társadalmi előnyök széles skáláját ígéri a felügyeleti rendszerek fejlesztésétől és a közbiztonság javításától kezdve a fejlettebb mozgáskövetés lehetővé tételéig, sőt hasznos lesz az egészségügyben és az autonóm járművek bonyolult környezetekben történő navigálásának finomítása is lehetővé válik a segítségével. Olvasd el: Durva - Figyeli az irodai mesterséges intelligencia-kamera, ki mikor áll fel és pörgeti a visszaszámlálót

Nemcsak látja, érti a történéseket az új mesterséges intelligencia-kamera
„Ez a mesterséges intelligencia technológia megnyitja az ajtókat a valós idejű akcióérzékelés előtt a legtöbb igényt támasztó környezetben - fogalmazott Scott T. Acton professzor, az Elektromos és Számítástechnikai Tanszék elnöke, a projekt vezető kutatója. - Ez a fajta fejlesztés segíthet megelőzni a baleseteket, javítani a diagnosztikát és akár életeket is menteni.”
Így működik a mesterséges intelligencia-kamera
A SMAST magját mesterséges intelligencia hajtja. A rendszer két kulcsfontosságú összetevőre támaszkodik az összetett emberi viselkedések észleléséhez és megértéséhez.
Az első egy többfunkciós szelektív figyelemmodell, amely segít az MI-nek a jelenet legfontosabb részeire összpontosítani – például egy személyre vagy tárgyra –, miközben figyelmen kívül hagyja a szükségtelen részleteket. Ezáltal a rendszer pontosabban azonosítja, mi történik, például felismeri, ha valaki labdát dob, ahelyett, hogy csak a karját mozgatná.
A második kulcsfontosságú funkció egy mozgásérzékelő 2D pozíciókódoló algoritmus, amely segít az MI-nek nyomon követni a dolgok időbeli alakulását.
Képzeljünk el egy olyan videót, melyben az emberek folyamatosan változtatják pozíciójukat – ez az eszköz segít a mesterséges intelligencia számára emlékezni ezekre a mozgásokra és megérteni, hogyan kapcsolódnak egymáshoz.
Ezen funkciók integrálásával a SMAST pontosan, valós időben képes felismerni az összetett műveleteket, így hatékonyabbá válik olyan nagy téttel járó forgatókönyvekben, mint a felügyelet, az egészségügyi diagnosztika vagy az autonóm vezetés.
A SMAST lényegében újradefiniálja, hogyan észlelik és értelmezik a gépek az emberi cselekvéseket.
A jelenlegi rendszerek kaotikus, szerkesztetlen, összefüggő videofelvételekkel küszködnek, melyekből gyakran hiányzik az események kontextusa. A SMAST innovatív kialakítása azonban lehetővé teszi, hogy figyelemreméltó pontossággal rögzítse az emberek és tárgyak közötti dinamikus kapcsolatokat - MI-komponensek hajtják, amelyek lehetővé teszik számára, hogy tanuljon az adatokból és alkalmazkodjon.
Hatalmas társadalmi hatás
Ez a technológiai ugrás azt jelenti, hogy a mesterséges intelligencia-rendszer képes azonosítani az olyan műveleteket, mint egy utcán átkelő futó, egy pontos eljárást végrehajtó orvos vagy akár egy biztonsági fenyegetés egy zsúfolt helyen.
A SMAST már felülmúlta a csúcskategóriás megoldásokat a kulcsfontosságú akadémiai benchmarkok terén, beleértve az AVA-t, az UCF101-24-et és az EPIC-Kitchens-t, új mércét felállítva a pontosság és a hatékonyság terén.
„A társadalmi hatás óriási lehet. Izgatottan várjuk, miként alakítja át ez a mesterséges intelligencia technológia az iparágakat, intelligensebbé és valós idejű megértésre képessé téve a videoalapú rendszereket” - mondta Matthew Korban, az Acton laboratóriumának posztdoktori munkatársa, a projekten aktív résztvevője.
B.A.