A Google Research közzétett egy tanulmányt, amely azt vizsgálja, hogyan lehet a generatív AI-rendszereket olyan válaszokra állítani, amelyek többre képesek, mint hogy hihetőnek hangzanak. A kutatók azt mondják, hogy az ALDRIFT-keretrendszerük „izgalmas utakat nyit meg” a pusztán nagy valószínűséggel rendelkező válaszokon való túllépéshez.
A lap, melynek címe „Minta-hatékony optimalizálás a generatív előéletekkel szemben a durva tanulhatóság révén” egy olyan problémát vizsgál, amelyben a generált válaszoknak valószínűnek kell maradniuk egy modell alatt, miközben egy másik cél felé kell haladniuk. A kutatás új utakat mutat az AI plauzibilitási csapdájának kezelésében.
Google ALDRIFT
A dokumentumban található bizonyítékok az ALDRIFT (Algoritmusvezérelt Iterált Célpontillesztés) keretrendszerre összpontosítanak. A módszer ismételten finomítja a generatív modellt az alacsonyabb költségű válaszok felé, és korrekciós lépést használ a folyamat során felhalmozódott hibák csökkentésére.
A cikk bemutatja a „durva tanulhatóságot” is. A kifejezés azt jelenti, hogy a tanult modellnek nem kell tökéletesen megfelelnie az ideális célnak. Elegendő lefedettséget kell tartania a választér fontos részein, hogy a hasznos lehetőségek ne vesszenek el túl korán. Ezzel a feltételezéssel a szerzők bebizonyítják, hogy az ALDRIFT képes közelíteni a céleloszlást polinomiális számú mintával.
Az ALDRIFT kétrészes összeállításon működik
Az ALDRIFT két részből áll:
- A generatív modell azt reprezentálja, hogy milyen válaszok valószínűek a modellben.
- A külső pontozási folyamat azt méri, hogy egy jelölt válasz jól teljesít-e a kitűzött céllal szemben.
A szerzők ezt a pontszámot „költségként” írják le. A „költség” szó a jelölt válaszhoz rendelt mért bírságra utal. Az alacsonyabb költség azt jelenti, hogy a jelölt jobban teljesített az ellenőrzött követelmény szerint. Az ALDRIFT nem egyszerűen olcsó választ keres. Olyan válaszokat keres, amelyek jó eredményeket érnek el, miközben továbbra is valószínűek maradnak a generatív modellben.
Néhány mesterséges intelligencia válasznak egészében kell működnie
A kutatók az olyan problémák mesterséges intelligencia-válaszaira összpontosítanak, ahol a válasznak a való világban kell működnie, például az útvonaltervezés és a konferenciatervezés példáira.
- Útvonaltervezés: A dokumentum kifejti, hogy az LLM értékelheti, hogy az egyes útvonalszakaszok festőiek-e, de nehézségekbe ütközhet annak biztosítása érdekében, hogy ezek a szakaszok érvényes útvonalba kapcsolódjanak.
- Konferenciatervezés: Az LLM csoportosíthatja az üléseket téma szerint, míg egy klasszikus algoritmusra lehet szükség ahhoz, hogy ezeket az üléseket konfliktusok nélkül ütemezze ütemtervbe.
Ezek a példák megmutatják, hogy a dolgozat miért kezeli a elfogadható válaszokat a probléma részeként. A nehezebb kérdés az, hogy olyan válaszokat adjunk, amelyek koherensek maradnak, amikor a különálló részeknek egy teljes megoldásként kell együtt működniük.
A durva tanulhatósági feltételezés
A tanulmány ezt egy olyan problémaként kezeli, amikor egy generatív modellt olyan válaszok felé terelnek, amelyek minden részében összetartanak. A szerzők a problémát a következtetés-idő illesztéshez kötik, ahol a modellt a használat során annak alapján állítják be, hogy egy adott válasz teljes körű megoldásként működik-e. Ez az összefüggés gyakorlati relevanciát ad a kutatásnak, bár a dolgozat hozzájárulása elméleti marad, és a durva tanulhatósági feltételezéstől függ.
A „durva tanulhatósági feltételezés” kifejezés azt jelenti, hogy a dolgozat elmélete azon a feltételezésen múlik, hogy a modell elegendő hasznos lehetőséget tud rendelkezésre tartani, miközben a jobb válaszok felé tolják.
Ez nem jelenti azt, hogy a modellnek tökéletesen meg kell tanulnia a célt. Ez azt jelenti, hogy a modellnek elegendő lefedettséget kell megőriznie a választeret, hogy a folyamat ne akadjon el túl korán, és ne veszítse el a lehetséges jobb válaszokat.
A meglévő optimalizálási módszerek minta-korlátozott hézagokat hagynak maguk után
A cikk számos hiányosságot azonosít a meglévő optimalizálási módszerek értelmezésében:
- A meglévő módszerek korlátozása: A klasszikus modellalapú optimalizálási módszerek „aszimptotikus konvergencia-argumentumokra” támaszkodnak. Ez azt jelenti, hogy elméletileg érthetőek nagyon nagy mennyiségű mintavétel után, de nem feltétlenül gyakorlati körülmények között, korlátozott mintákkal.
- Hiba a kifejező modellekkel: A tanulmány szerint ezek a klasszikus feltételezések „megbomlanak”, ha expresszív generatív modelleket, például neurális hálózatokat használunk.
- Hiány a megértésben: A szerzők szerint az optimalizálás „véges mintás viselkedése” ebben a beállításban „elméletileg nem jellemzett”. Ez azt jelenti, hogy az elmélet nem magyarázza meg teljesen, hogyan viselkednek ezek a módszerek, ha csak korlátozott minták állnak rendelkezésre.
A dolgozat megoldása a „durva tanulhatóság” bevezetése, hogy elmagyarázza, hogyan lehet egy generatív modellt jobb válaszok felé tolni, miközben elegendő hasznos lehetőség áll rendelkezésre az út során.
Az LLM bizonyíték korlátozott
A cikk fő bizonyítéka az analitikus generatív modellekre vonatkozik, amelyek matematikailag könnyebben elemezhetők, mint a modern LLM-ek. Az LLM bizonyítéka szűkebb: a szerzők a GPT-2-t egyszerű ütemezési és grafikonokkal kapcsolatos problémákban használják, olyan viselkedést mutatva be, amely alátámasztja az elképzelést anélkül, hogy bebizonyítaná, hogy ugyanezek a feltételezések érvényesek a modern LLM-ekre is.
A kutatás a jövőkutatás alapítványára mutat
A cikk elméleti alapot kínál annak tanulmányozására, hogy a generatív modellek hogyan kombinálhatók külső ellenőrzési folyamatokkal.
A kutatás azt mutatja, hogy a Google kutatói egy keretrendszert kutatnak a „valószínű válasz” probléma megoldására, és a szerzők azt írják, hogy a „keret izgalmas utakat nyit meg a jövőbeli kutatások számára”. Arra a következtetésre jutottak, hogy ez a kutatás „az adaptív generatív modellek elvi alapja felé mutat”.
Elvitelre
- A „fedezet” követelmény:
A durva tanulhatóság azt jelenti, hogy a modellnek nem kell tökéletesen megtanulnia a célt. El kell kerülnie, hogy elveszítse a választér hasznos területeit, ahol jobb megoldások létezhetnek. - A korrekciós lépés fontos:
Az ALDRIFT korrekciós lépést használ, hogy a keresést közelebb tartsa a tervezett célhoz, miközben a modell a jobb válaszok felé tolódik. - Kétrészes megközelítés:
A keret munkamegosztást alkalmaz. A generatív modell minőségi vagy szemantikai preferenciákat kezel, míg egy külön folyamat ellenőrzi, hogy a válasz komplett megoldásként működik-e. - Korlátozott LLM bizonyíték:
A GPT-2-vel végzett tesztek olyan viselkedést mutattak ki, amely alátámasztja az ötletet egyszerű ütemezési és grafikonokkal kapcsolatos példákban, de nem bizonyítja, hogy ugyanezek a feltételezések érvényesek a modern LLM-ekre. - A valós használat a nagyobb cél:
A kutatás fontos a keresőoptimalizálók és a vállalkozások számára, mert a mesterséges intelligencia válaszaitól egyre inkább többet várnak el, mint az információk összegzését. Olyan döntéseket, terveket és cselekvéseket kell támogatniuk, amelyek a csevegési felületen kívül is összetartanak. Noha a keretrendszert valószínűleg nem használják éles környezetben, ez azt mutatja, hogy a Google haladást tesz a több mint elfogadható válaszok megadása terén.
Olvassa el a kutatási cikket itt:
Minta-hatékony optimalizálás a generatív előéletekkel szemben a durva tanulhatóság (PDF) segítségével
