A mesterséges intelligencia válaszai többre képesek, mint a hang

A Google Research közzétett egy tanulmányt, amely azt vizsgálja, hogyan lehet a generatív AI-rendszereket olyan válaszokra állítani, amelyek többre képesek, mint hogy hihetőnek hangzanak. A kutatók azt mondják, hogy az ALDRIFT-keretrendszerük „izgalmas utakat nyit meg” a pusztán nagy valószínűséggel rendelkező válaszokon való túllépéshez.

A lap, melynek címe „Minta-hatékony optimalizálás a generatív előéletekkel szemben a durva tanulhatóság révén” egy olyan problémát vizsgál, amelyben a generált válaszoknak valószínűnek kell maradniuk egy modell alatt, miközben egy másik cél felé kell haladniuk. A kutatás új utakat mutat az AI plauzibilitási csapdájának kezelésében.

Google ALDRIFT

A dokumentumban található bizonyítékok az ALDRIFT (Algoritmusvezérelt Iterált Célpontillesztés) keretrendszerre összpontosítanak. A módszer ismételten finomítja a generatív modellt az alacsonyabb költségű válaszok felé, és korrekciós lépést használ a folyamat során felhalmozódott hibák csökkentésére.

A cikk bemutatja a „durva tanulhatóságot” is. A kifejezés azt jelenti, hogy a tanult modellnek nem kell tökéletesen megfelelnie az ideális célnak. Elegendő lefedettséget kell tartania a választér fontos részein, hogy a hasznos lehetőségek ne vesszenek el túl korán. Ezzel a feltételezéssel a szerzők bebizonyítják, hogy az ALDRIFT képes közelíteni a céleloszlást polinomiális számú mintával.

Az ALDRIFT kétrészes összeállításon működik

Az ALDRIFT két részből áll:

A generatív modell azt reprezentálja, hogy milyen válaszok valószínűek a modellben.
A külső pontozási folyamat azt méri, hogy egy jelölt válasz jól teljesít-e a kitűzött céllal szemben.

A szerzők ezt a pontszámot „költségként” írják le. A „költség” szó a jelölt válaszhoz rendelt mért bírságra utal. Az alacsonyabb költség azt jelenti, hogy a jelölt jobban teljesített az ellenőrzött követelmény szerint. Az ALDRIFT nem egyszerűen olcsó választ keres. Olyan válaszokat keres, amelyek jó eredményeket érnek el, miközben továbbra is valószínűek maradnak a generatív modellben.

Néhány mesterséges intelligencia válasznak egészében kell működnie

A kutatók az olyan problémák mesterséges intelligencia-válaszaira összpontosítanak, ahol a válasznak a való világban kell működnie, például az útvonaltervezés és a konferenciatervezés példáira.

Útvonaltervezés: A dokumentum kifejti, hogy az LLM értékelheti, hogy az egyes útvonalszakaszok festőiek-e, de nehézségekbe ütközhet annak biztosítása érdekében, hogy ezek a szakaszok érvényes útvonalba kapcsolódjanak.
Konferenciatervezés: Az LLM csoportosíthatja az üléseket téma szerint, míg egy klasszikus algoritmusra lehet szükség ahhoz, hogy ezeket az üléseket konfliktusok nélkül ütemezze ütemtervbe.

Ezek a példák megmutatják, hogy a dolgozat miért kezeli a elfogadható válaszokat a probléma részeként. A nehezebb kérdés az, hogy olyan válaszokat adjunk, amelyek koherensek maradnak, amikor a különálló részeknek egy teljes megoldásként kell együtt működniük.

A durva tanulhatósági feltételezés

A tanulmány ezt egy olyan problémaként kezeli, amikor egy generatív modellt olyan válaszok felé terelnek, amelyek minden részében összetartanak. A szerzők a problémát a következtetés-idő illesztéshez kötik, ahol a modellt a használat során annak alapján állítják be, hogy egy adott válasz teljes körű megoldásként működik-e. Ez az összefüggés gyakorlati relevanciát ad a kutatásnak, bár a dolgozat hozzájárulása elméleti marad, és a durva tanulhatósági feltételezéstől függ.

A „durva tanulhatósági feltételezés” kifejezés azt jelenti, hogy a dolgozat elmélete azon a feltételezésen múlik, hogy a modell elegendő hasznos lehetőséget tud rendelkezésre tartani, miközben a jobb válaszok felé tolják.

Ez nem jelenti azt, hogy a modellnek tökéletesen meg kell tanulnia a célt. Ez azt jelenti, hogy a modellnek elegendő lefedettséget kell megőriznie a választeret, hogy a folyamat ne akadjon el túl korán, és ne veszítse el a lehetséges jobb válaszokat.

A meglévő optimalizálási módszerek minta-korlátozott hézagokat hagynak maguk után

A cikk számos hiányosságot azonosít a meglévő optimalizálási módszerek értelmezésében:

A meglévő módszerek korlátozása: A klasszikus modellalapú optimalizálási módszerek „aszimptotikus konvergencia-argumentumokra” támaszkodnak. Ez azt jelenti, hogy elméletileg érthetőek nagyon nagy mennyiségű mintavétel után, de nem feltétlenül gyakorlati körülmények között, korlátozott mintákkal.
Hiba a kifejező modellekkel: A tanulmány szerint ezek a klasszikus feltételezések „megbomlanak”, ha expresszív generatív modelleket, például neurális hálózatokat használunk.
Hiány a megértésben: A szerzők szerint az optimalizálás „véges mintás viselkedése” ebben a beállításban „elméletileg nem jellemzett”. Ez azt jelenti, hogy az elmélet nem magyarázza meg teljesen, hogyan viselkednek ezek a módszerek, ha csak korlátozott minták állnak rendelkezésre.

A dolgozat megoldása a „durva tanulhatóság” bevezetése, hogy elmagyarázza, hogyan lehet egy generatív modellt jobb válaszok felé tolni, miközben elegendő hasznos lehetőség áll rendelkezésre az út során.

Az LLM bizonyíték korlátozott

A cikk fő bizonyítéka az analitikus generatív modellekre vonatkozik, amelyek matematikailag könnyebben elemezhetők, mint a modern LLM-ek. Az LLM bizonyítéka szűkebb: a szerzők a GPT-2-t egyszerű ütemezési és grafikonokkal kapcsolatos problémákban használják, olyan viselkedést mutatva be, amely alátámasztja az elképzelést anélkül, hogy bebizonyítaná, hogy ugyanezek a feltételezések érvényesek a modern LLM-ekre is.

A kutatás a jövőkutatás alapítványára mutat

A cikk elméleti alapot kínál annak tanulmányozására, hogy a generatív modellek hogyan kombinálhatók külső ellenőrzési folyamatokkal.

A kutatás azt mutatja, hogy a Google kutatói egy keretrendszert kutatnak a „valószínű válasz” probléma megoldására, és a szerzők azt írják, hogy a „keret izgalmas utakat nyit meg a jövőbeli kutatások számára”. Arra a következtetésre jutottak, hogy ez a kutatás „az adaptív generatív modellek elvi alapja felé mutat”.

Elvitelre

A „fedezet” követelmény:
A durva tanulhatóság azt jelenti, hogy a modellnek nem kell tökéletesen megtanulnia a célt. El kell kerülnie, hogy elveszítse a választér hasznos területeit, ahol jobb megoldások létezhetnek.
A korrekciós lépés fontos:
Az ALDRIFT korrekciós lépést használ, hogy a keresést közelebb tartsa a tervezett célhoz, miközben a modell a jobb válaszok felé tolódik.
Kétrészes megközelítés:
A keret munkamegosztást alkalmaz. A generatív modell minőségi vagy szemantikai preferenciákat kezel, míg egy külön folyamat ellenőrzi, hogy a válasz komplett megoldásként működik-e.
Korlátozott LLM bizonyíték:
A GPT-2-vel végzett tesztek olyan viselkedést mutattak ki, amely alátámasztja az ötletet egyszerű ütemezési és grafikonokkal kapcsolatos példákban, de nem bizonyítja, hogy ugyanezek a feltételezések érvényesek a modern LLM-ekre.
A valós használat a nagyobb cél:
A kutatás fontos a keresőoptimalizálók és a vállalkozások számára, mert a mesterséges intelligencia válaszaitól egyre inkább többet várnak el, mint az információk összegzését. Olyan döntéseket, terveket és cselekvéseket kell támogatniuk, amelyek a csevegési felületen kívül is összetartanak. Noha a keretrendszert valószínűleg nem használják éles környezetben, ez azt mutatja, hogy a Google haladást tesz a több mint elfogadható válaszok megadása terén.

Olvassa el a kutatási cikket itt:

Minta-hatékony optimalizálás a generatív előéletekkel szemben a durva tanulhatóság (PDF) segítségével