Jelentős előrelépés a hosszú kontextusú AI-ban

A Google Research két új kutatási dokumentumot, a Titans-t és a MIRAS-t mutatta be, amelyek célja a modern AI-rendszerek egyre növekvő korlátainak kezelése: nagyon hosszú információk kezelése anélkül, hogy lelassulna vagy elveszítené a fontos kontextust. A Titans és a MIRAS közösen arra összpontosítanak, hogy a modellek strukturált módon megtartsák azt, ami fontos az idő múlásával, lehetővé téve számukra, hogy nagyobb folytonosság mellett követhessék a kiterjedt dokumentumokat, beszélgetéseket vagy adatfolyamokat.

A titánok építészete

Hosszú távú memória modult használó modellcsalád, amely aktívan tanul, miközben egy meglepetés mérőszámmal dolgozza fel az adatokat.

A meglepetés mérőszáma egy belső hibajelző, egy matematikai módja annak, hogy jelezze: „Ez váratlan!” Ez a jel méri a különbséget aközött, amire a modell jelenleg emlékszik, és amit az új bejövő adatok mondanak neki. Jelzi, ha az információ váratlan vagy elég fontos ahhoz, hogy a hosszú távú tároláshoz prioritást kapjon.

Ennek hatékonnyá tétele érdekében az architektúra az úgynevezett lendületet, a tartós fókuszt használja annak meghatározására, hogy a környező hosszú adatsorokból mennyit rögzít valójában. Ez biztosítja, hogy a modell továbbra is priorizálja a kezdeti jelzőt követő releváns részleteket, még akkor is, ha ezek a későbbi részletek külön-külön nem meglepőek.

Végül a Titans architektúra alkalmazkodó felejtési mechanizmust használ, egy matematikai módszert a régi vagy kevésbé hasznos információk fokozatos törlésére. Ez biztosítja, hogy a modell hosszú adatsorozatokat dolgozzon fel, így elengedheti az elavult részleteket, hogy helyet adjon az új, relevánsabb információknak.

E három elem, a meglepetés mérőszáma (mit kell észrevenni), a lendület (mennyit kell rögzíteni) és a súlycsökkenés (mit kell elfelejteni) kombinálásával a Titans architektúra olyan memóriarendszert hoz létre, amely éles és releváns marad, függetlenül attól, hogy mennyi adatot dolgoz fel.

A MIRAS keretrendszer

Míg a Titans egy speciális modellcsalád, addig a MIRAS a sorozatmodellek tervezésének keretrendszere. Ezeket az architektúrákat asszociatív memóriaként értelmezi, olyan modulokként, amelyek megtanulnak bizonyos adatpontokat egymáshoz társítani egy belső objektív segítségével, amely megmondja a memóriamodulnak, hogy „hogyan” tanulja meg a különböző adatok közötti kapcsolatot.

Egy modell e kereten belüli felépítéséhez a tervezők négy alapvető döntést hoznak:

Memóriastruktúra: magának a memóriának a fizikai architektúrája, amely az egyszerű vektoroktól a Titans-ban használt mély MLP-rétegekig terjedhet.
Figyelemfelhívás: Az a konkrét belső cél, amely meghatározza, hogy a memória hogyan rangsorolja és kapcsolja össze a bejövő információkat.
Memóriastabilitás és -megtartás: Az a mechanizmus, amely egyensúlyba hozza az új információ tanulását a múlt állapotának megőrzésével.
Memória-algoritmus: A memória frissítésére használt tanulási módszer, például a gradiens süllyedési módszerek, amelyek lehetővé teszik a modell számára, hogy a tesztidőben tanuljon.

A probléma: A mesterséges intelligencia képes feldolgozni, de nehezen emlékezik

A modern AI-modellek hatékonyan elemezhetik a közvetlenül előttük lévő információkat. A kihívás akkor kezdődik, amikor a kontextus nagyon szélesre nő. Ahogy a dokumentumok, adatkészletek vagy beszélgetések hosszabbra nyúlnak, a modellek kompromisszumot jelentenek a részletek megőrzése és a számítási költségek kezelhető tartása között.

A modern nyelvi modellek általában kétféle módon kezelik a hosszú szövegkörnyezetet:

Figyelem ablak
Szükség esetén közvetlenül megtekintik a korábbi szöveget, és ismételten visszanéznek a korábbi tokenekre, hogy eldöntsék, mi számít az aktuális lépésnél.
Állami tömörítés
Egy kisebb belső összefoglalóba tömörítik az előzőeket, így tovább haladhatnak, és a hatékonyság érdekében részletesen kereskedhetnek.

Mindkét megközelítés működik, de mindegyik tönkremegy, ahogy a bemenetek hosszabbak. Figyelemfelkeltő ablak esetén a korábbi anyagok ismételt áttekintése egyre nagyobb igénybevételt jelent a számítási erőforrások terén, míg az állapottömörítéssel az előbbiek tömörítése a részletek elvesztését kockáztatja, amelyekről később kiderül, hogy fontosak.

A korlátozás nem a méretarány vagy a sebesség, hanem a memória. A jelenlegi rendszerek a memóriát nem úgy kezelik, mint ami szándékosan kezelhető használat közben. Ehelyett rögzített építészeti mintákra támaszkodnak, akár hátrafelé, akár előre tömörítve, anélkül, hogy strukturált módon döntenék el, mit kell megtartani hosszú szakaszokon.

A titánok és a MIRAS úgy közelítik meg ezt a problémát, hogy a memóriát olyannak tekintik, amelyet a modellek aktívan kezelhetnek, nem pedig passzívan örökölnék az architektúrájukból.

Miért jelenik meg a kutatás két részben

Ennek a korlátozásnak a kiküszöbölése több mint egyetlen technikai változtatást igényel. Az egyik lépés annak bemutatása, hogy a modellek a gyakorlatban valójában másképpen tudják kezelni a memóriát. Egy másik megoldás az ilyen rendszerek tudatos tervezésének kidolgozása, ahelyett, hogy minden új architektúrát egyedi megoldásként kezelnénk.

A két papír ezeket az igényeket tükrözi:

Az egyik egy konkrét módszert mutat be a modellek hosszú távú emlékezetének egy formájára.
A másik keretet biztosít az ötlet megértéséhez és modellek építéséhez.

Titánok: A hosszú távú memória formájának hozzáadása

A Titans a probléma gyakorlati oldalára összpontosít. Olyan architektúrát vezet be, amely lehetővé teszi a modell számára, hogy működése során információkat halmozzon fel. Ahelyett, hogy ismételten újra feldolgozná a korábbi bemenetet, vagy mindent egy kis reprezentációba tömörítene, a modell idővel tovább tudja vinni a kiválasztott információkat.

A hagyományos rendszerekkel ellentétben, amelyek egyszerű, rögzített méretű összefoglalót használnak, ez a modul egy mély neurális hálózat, amely sokkal összetettebb és részletesebb információkat képes rögzíteni.

A cél az, hogy lehetővé tegyük a nagyon hosszú bemenetekkel való munkát anélkül, hogy ismételten átvizsgálnánk a múltat vagy elveszítenék a legfontosabb részleteket. A Titans nem helyettesíti a meglévő modellterveket. Ez egy további réteg, amely kombinálható velük, kiterjesztve a kontextus kezelését, ahelyett, hogy elvetné a már működőt.

MIRAS: keretrendszer memóriavezérelt modellek tervezéséhez

Ahol a Titans egy speciális mechanizmust mutat be, a MIRAS hátralép, és a tágabb tervezési kérdést vizsgálja. A sorozatmodelleket olyan rendszerekként kezeli, amelyek idővel tárolják és frissítik az asszociációkat, és strukturált módot javasol a memória működésére.

Ahelyett, hogy az architektúrákat alapvetően különböző kategóriáknak tekintené, a MIRAS az információk tárolásával, egyeztetésével, frissítésével és megőrzésével kapcsolatos tervezési választási lehetőségek kis csoportja köré szervezi őket.

A MIRAS módot ad az olyan rendszerek értelmezésére, mint a titánok, és újak fejlesztésére anélkül, hogy a nulláról kezdené.

Tesztelje, hogy ez a megközelítés javítja-e a hosszú kontextus kezelését

Annak megállapítására, hogy ez a memória-alapú megközelítés gyakorlati előnyt jelent-e, a kutatók összehasonlították a meglévő tervekhez képest olyan feladatok esetében, ahol a kontextus rendkívül hosszú.

A hosszú kontextusú kiértékelések során a Titans 2 millió token fölé skálázta, miközben megőrizte a tesztelt alapmodelleknél nagyobb visszakeresési pontosságot. A BABILong benchmarkban, amely a hatalmas dokumentumokba temetett tényeken alapuló érvelést igényel, a Titans sokkal nagyobb modelleket teljesített, beleértve a GPT-4-et is, annak ellenére, hogy lényegesen kevesebb paraméterrel rendelkeztek.

A MIRAS dokumentum továbbá azt is bemutatja, hogy ez a siker nem korlátozódik egyetlen modellre. A keretrendszer felhasználásával épített különböző rendszerek tesztelésével a kutatók kimutatták, hogy ezek a tervezési elvek következetesen magas teljesítményű eredményeket hoznak a különböző feladatok során.

Ezek az értékelések együttesen azt mutatják, hogy a strukturált, aktív memória lehetővé teszi a modellek számára, hogy nagy pontosságot tartsanak fenn hatalmas adathalmazokon anélkül, hogy a számítási költségekben szokásos kompromisszumot kellene kötni.

A Titans kutatói így magyarázták eredményeiket:

„Kísérleti értékelésünk a különféle feladatokról igazolja, hogy a Titánok hatékonyabbak, mint a Transformerek és a legújabb modern lineáris visszatérő modellek, különösen
hosszú kontextus. Ez azt jelenti, hogy a Titans az alapvonalaknál nagyobb pontossággal 2 milliónál nagyobb kontextusablak méretre skálázható.

A MIRAS kutatói elmagyarázzák, miért jelent előrelépést a MIRAS:

„Ebben a cikkben bemutatjuk a Miras-t, egy általános keretrendszert, amely elmagyarázza az online optimalizálás és a tesztidő-memorizálás kapcsolatát. A Miras keretrendszer megmagyarázhatja a szakirodalomban található számos szabványos architektúra (pl. felejtőkapu) szerepét, és segít megtervezni a következő generációs architektúrákat, amelyek képesek jobban kezelni a memóriát.

Keretrendszerünkre építve három újszerű szekvenciamodellt mutatunk be, amelyek mindegyikének megvannak a maga (hátrányai) előnyei. Kísérleti értékeléseink azt mutatják, hogy ezek a változatok erősebbek, mint a transzformátorok és a lineáris RNN-ek, különféle downstream feladatokban. Ebben a munkában a Miras segítségével változatos változatokat mutatjuk be.

A jövőben ezeknek az alternatív architektúráknak a feltárása a különböző downstream feladatokhoz érdekes jövőbeli irány.”

A kutatók következtetései

A Titans dokumentuma (PDF) arra a következtetésre jut, hogy a rövid hatótávolságú feldolgozás és a dedikált hosszú távú memória kombinálása javíthatja a modellek kiterjesztett bemenetek kezelését anélkül, hogy pusztán nagyobb figyelemablakra vagy agresszívebb tömörítésre hagyatkozna. Ezt egy kiegészítő képességként mutatja be, amely integrálható a meglévő architektúrákkal, nem pedig helyettesíti azokat.

A MIRAS cikk a sorozatmodelleket memóriavezérelt rendszerekként írja le, amelyek szisztematikusabban tervezhetők és összehasonlíthatók. Keretrendszerének célja az ilyen modellek felépítésének útmutatása azáltal, hogy a memória viselkedését explicit tervezési dimenzióvá teszi.

Mindkét dokumentum úgy kezeli a memóriát, mint amit a modellek szándékosan kezelni tudnak: a Titánok egy olyan mechanizmust adnak hozzá, amely a használat során információkat tárolhat, a MIRAS pedig a memóriavezérelt modellek tervezésének és összehasonlításának keretrendszerét fekteti le.

A Google blogbejegyzése elmagyarázza, mitől fontos a Titans és a MIRAS:

„A Titans és a MIRAS keretrendszer bevezetése jelentős előrelépést jelent a szekvenciamodellezésben. A mély neurális hálózatok memóriamodulként történő alkalmazásával, amelyek megtanulnak memorizálni az adatok beérkezésekor, ezek a megközelítések leküzdik a fix méretű visszatérő állapotok korlátait.

Ezenkívül a MIRAS erőteljes elméleti egyesítést biztosít, felfedi az online optimalizálás, az asszociatív memória és az építészeti tervezés közötti kapcsolatot. A standard euklideszi paradigmán túllépve ez a kutatás megnyitja az ajtót a sorozatmodellek új generációja előtt, amelyek egyesítik az RNN-ek hatékonyságát a hosszú kontextusú AI korszakához szükséges kifejezőerővel.

Együtt demonstrálják, hogy a jobb, hosszú kontextusú teljesítményhez vezető út nem csak a nagyobb ablakokon vagy nagyobb modelleken múlik, hanem abban is, hogy az AI strukturált módon kezelje azt, amire emlékszik.