2025. 12. 10. - 09:10
Új mérföldkőhöz közelít a nagy nyelvi modellek hatékonysága - az MIT-nek hála
Teljesen új módszert mutatott be a Massachusetts-i Technológiai Intézet (MIT) a nagy nyelvi modellek, azaz LLM-ek számítási idejének csökkentésére és a hatékonyság növelésére.
Új módszerrel állt elő a Massachusetts-i Technológiai Intézet (Massachusetts Institute of Technology – MIT) a nagy nyelvi modellek (LLM-ek) számítási idejének csökkentése és a hatékonyság növelése céljából.
Az új technika az LLM-ek esetében lehetővé teszi, hogy a számítást a probléma nehézségéhez igazítsák, csökkentve az energiafelhasználást és megoldva a kisebb modellek számára, hogy hatékonyan kezeljék az összetett feladatokat.
Az MIT kutatói dolgozták ki az új számítási módszert dolgoztak ki nagy nyelvi modellekhez, amely az érvelési idő és a lekérdezés összetettségének összehangolásával érhet el eredményeket.
A példány-adaptív skálázásnak nevezett technikával az LLM-ek a feltett kérdés alapján módosíthatják a számítást - áll a tanulmányban, melyet az MIT kutatói írtak, s azt az MIT-IBM Watson AI Lab, az MIT-Amazon Science Hub, az MIT-Google Számítástechnikai Innovációs Program és a MathWorks támogatta. Olvasd el: A világ sikerének új katalizátora a generatív MI?

Új mérföldkőhöz közelít a nagy nyelvi modellek hatékonysága - az MIT-nek hála
A megoldást újrakalibrált folyamatjutalmazási modellek (PRM) használatával éri el a technika.
A PRM-ek segítenek az LLM-eknek meghatározni a pontosság potenciálját az egyes érvelési lépésekben. Az MIT kutatói azonban felfedezték, hogy a jelenlegi PRM-ek rögzített számú érvelési pályát biztosítanak a lekérdezéstől függetlenül, s gyakran túlbecsülik a siker valószínűségét.
Új módszerükkel a kutatók átdolgozták a PRM-eket, lehetővé téve számukra, hogy az érvelési pályák számát a feltett kérdéshez igazítsák.
Ez megoldja az LLM-ek esetében, hogy a lekérdezés összetettsége alapján használják fel a szükséges számítási igényt, vagyis kevesebb számítási igényt kell felhasználniuk a könnyen megválaszolható lekérdezésekhez, miközben nagyobb érvelési sávszélességet biztosítanak a nehezebb lekérdezésekre.
„Ahogy az emberek a komplex problémákat lebontással, az egyes lépéseken való végiggondolással és a gondolataik felülvizsgálatával közelítik meg, az LLM-ek is profitálhatnak abból, ha több időt kapnak a gondolkodásra a következtetés során” – tudatta a tanulmány.
A kutatók arról is beszámoltak, hogy a számítási igényt a meglévő modellekhez képest a felére csökkentették, miközben összehasonlíthatóan pontos válaszokat adtak. Azt is megállapították, hogy az újrakalibrált PRM-ek teljesítménynövekedést biztosítanak a kisebb LLM-ek esetében.
Tekintettel az eddigi sikerekre, az MIT csapata most szeretné megvizsgálni, hogyan működik a technika más alkalmazásokkal, például kódgenerálással és MI-ágensekkel, valamint további felhasználási lehetőségeket is fel szeretnének tárni a PRM kalibrációs módszer számára, beleértve a megerősítéses tanulást is.
B.A.

