A Google közzétett egy kutatási tanulmányt arról, hogyan lehet a felhasználói interakciókból kivonni a felhasználói szándékot, amelyet azután autonóm ügynökökhöz lehet használni. Az általuk felfedezett módszer az eszközön található kis modelleket alkalmazza, amelyeknek nem kell visszaküldeniük az adatokat a Google-nak, ami azt jelenti, hogy a felhasználó adatai védettek.
A kutatók felfedezték, hogy két feladatra osztva meg tudták oldani a problémát. Megoldásuk olyan jól működött, hogy képes volt felülmúlni a multimodális nagynyelvi modellek (MLLM) alapteljesítményét a hatalmas adatközpontokban.
Kisebb modellek böngészőkön és eszközökön
A kutatás középpontjában a felhasználói szándék azonosítása áll azon műveletek sorozatán keresztül, amelyeket a felhasználó a mobileszközén vagy böngészőjében hajt végre, miközben ezeket az információkat az eszközön is megőrzi, hogy ne kerüljön vissza információ a Google-nak. Ez azt jelenti, hogy a feldolgozásnak az eszközön kell történnie.
Ezt két szakaszban sikerült megvalósítaniuk.
- Az első szakaszban a modell az eszközön összefoglalja, hogy a felhasználó mit csinált.
- Az összefoglalók sorozatát ezután elküldik egy második modellnek, amely azonosítja a felhasználói szándékot.
A kutatók elmagyarázták:
„…kétlépcsős megközelítésünk kiváló teljesítményt mutat mind a kisebb modellekhez, mind a korszerű, nagy MLLM-hez képest, függetlenül az adatkészlettől és a modelltípustól.
Megközelítésünk természetesen kezeli azokat a zajos adatokat tartalmazó forgatókönyveket is, amelyekkel a hagyományos felügyelt finomhangolási módszerek küzdenek.”
Intent Extraction from UI Interactions
A felhasználói interakciók képernyőképeiből és szöveges leírásaiból való szándékkinyerést 2025-ben javasolták a multimodális nagynyelvi modellek (MLLM) használatával. A kutatók azt mondják, hogy ezt a megközelítést követték a problémájuk megoldásában, de egy továbbfejlesztett felszólítást alkalmaztak.
A kutatók kifejtették, hogy a szándék kivonása nem egy triviális megoldandó probléma, és több hiba is előfordulhat a lépések során. A kutatók a trajektória szót használják a felhasználói út leírására egy mobil- vagy webalkalmazáson belül, interakciók sorozataként.
A felhasználói út (pályája) képletté alakul, amelyben minden interakciós lépés két részből áll:
- Egy megfigyelés
Ez a képernyő (képernyőkép) vizuális állapota, ahol a felhasználó az adott lépésnél tartózkodik. - Egy akció
A felhasználó által az adott képernyőn végrehajtott konkrét művelet (például egy gombra kattintás, szöveg beírása vagy hivatkozásra kattintás).
A jó szándék három tulajdonságát írták le:
- „hűséges: csak azokat a dolgokat írja le, amelyek ténylegesen előfordulnak a pályán;
- átfogó: minden olyan információt megad a felhasználói szándékról, amely a pálya újrajátszásához szükséges;
- és releváns: nem tartalmaz olyan idegen információkat, amelyek az átfogósághoz szükségesek.”
Kihívás a kivont szándékok értékelése
A kutatók kifejtik, hogy a kivont szándék minősítése nehéz, mivel a felhasználói szándékok összetett részleteket (például dátumokat vagy tranzakciós adatokat) tartalmaznak, és a felhasználói szándékok eredendően szubjektívek, kétértelműségeket tartalmaznak, ami nehezen megoldható probléma. A pályák szubjektív oka az, hogy a mögöttes motivációk nem egyértelműek.
Például egy felhasználó az ár vagy a funkciók miatt választott egy terméket? A tettek láthatóak, de a motivációk nem. Korábbi kutatások azt mutatják, hogy az emberek közötti szándékok 80%-ban megegyeztek a webes pályákon és 76%-ban a mobil pályákon, tehát nem úgy van, hogy egy adott pálya mindig konkrét szándékot jelezhet.
Kétlépcsős megközelítés
Miután kizártak más módszereket, mint például a gondolatlánc (CoT) érvelést (mivel a kis nyelvi modellek küszködtek az érveléssel), egy kétlépcsős megközelítést választottak, amely a Gondolatlánc érvelését emulálta.
A kutatók elmagyarázták kétlépcsős megközelítésüket:
„Először a felszólítást használjuk, hogy összefoglalót állítsunk elő minden egyes interakcióhoz (amely egy vizuális képernyőképből és a szöveges műveletábrázolásból áll) egy pályán.
prompt alapú, mivel jelenleg nem állnak rendelkezésre képzési adatok összefoglaló címkékkel az egyes interakciókra vonatkozóan.Másodszor, az összes interakciószintű összefoglalót egy második szakaszbeli modellbe tápláljuk, hogy átfogó szándékleírást hozzunk létre. A második szakaszban finomhangolást alkalmazunk…”
Az első szakasz: Képernyőkép összefoglalása
Az első összefoglaló, az interakció képernyőképéhez két részre osztják az összefoglalót, de van egy harmadik rész is.
- A képernyőn megjelenő tartalmak leírása.
- A felhasználó műveletének leírása.
A harmadik komponens (spekulatív szándék) egy módja annak, hogy megszabaduljunk a felhasználói szándékkal kapcsolatos spekulációktól, ahol a modell alapvetően azt találgatja, hogy mi történik. Ezt a harmadik részt „spekulatív szándékkal” jelölik, és valójában csak megszabadulnak tőle. Meglepő módon, ha hagyjuk a modellt spekulálni, majd megszabadulunk ettől a spekulációtól, az jobb minőségű eredményhez vezet.
A kutatók többféle ösztönzési stratégián keresztül dolgoztak, és ez volt az, amelyik a legjobban működött.
A második szakasz: átfogó szándékleírás generálása
A második szakaszban a kutatók finomhangoltak egy modellt az átfogó szándékleírás generálására. Finomhangolták a modellt a képzési adatokkal, amelyek két részből állnak:
- Összegzések, amelyek a pálya összes interakcióját reprezentálják
- A megfelelő alapigazság, amely leírja az egyes pályák általános szándékát.
A modell kezdetben hallucinációra hajlott, mert az első rész (bemeneti összefoglalók) potenciálisan hiányosak, míg a „célcélok” teljesek. Emiatt a modell megtanulta kitölteni a hiányzó részeket annak érdekében, hogy a bemeneti összefoglalók megfeleljenek a célnak.
Ezt a problémát úgy oldották meg, hogy „finomították” a célt azáltal, hogy eltávolították azokat a részleteket, amelyek nem jelennek meg a bemeneti összefoglalókban. Ez arra tanította a modellt, hogy csak a bemenetek alapján következtessen a szándékokra.
A kutatók négy különböző megközelítést hasonlítottak össze, és e megközelítés mellett döntöttek, mert olyan jól teljesített.
Etikai megfontolások és korlátok
A kutatás azzal zárul, hogy összefoglalja azokat a lehetséges etikai kérdéseket, ahol egy autonóm ügynök olyan lépéseket tehet, amelyek nem a felhasználó érdekét szolgálják, és hangsúlyozta a megfelelő védőkorlátok megépítésének szükségességét.
A szerzők elismerték a kutatás korlátait is, amelyek korlátozhatják az eredmények általánosíthatóságát. Például a tesztelést csak Androidon és webes környezetben végezték el, ami azt jelenti, hogy az eredmények nem általánosíthatók az Apple eszközökre. Egy másik korlát az, hogy a kutatás az Egyesült Államokban élő, angol nyelvű felhasználókra korlátozódott.
A kutatási cikkben vagy a kísérő blogbejegyzésben semmi sem utal arra, hogy ezek a felhasználói szándék kivonására szolgáló eljárások jelenleg használatban vannak. A blogbejegyzés azzal zárul, hogy a leírt megközelítés hasznos:
„Végül, ahogy a modellek teljesítménye javul, és a mobileszközök nagyobb feldolgozási teljesítményre tesznek szert, reméljük, hogy az eszközön belüli szándékok megértése a jövőben a mobileszközök számos kisegítő funkciójának építőkövévé válhat.”
Elvitelre
Sem a kutatásról szóló blogbejegyzés, sem maga a kutatási cikk nem írja le ezeknek a folyamatoknak az eredményeit olyasmiként, amely felhasználható lenne az AI-keresésben vagy a klasszikus keresésben. Megemlíti az autonóm ágensek kontextusát.
A kutatási cikk kifejezetten megemlíti egy autonóm ágens kontextusát az eszközön, amely megfigyeli, hogy a felhasználó hogyan kommunikál a felhasználói felülettel, majd képes lesz arra következtetni, hogy mi a célja (a szándéka) ezeknek a műveleteknek.
A cikk két konkrét alkalmazást sorol fel ennek a technológiának:
- Proaktív segítségnyújtás:
Egy ügynök, amely figyeli, mit tesz a felhasználó a „további személyre szabás” és a „munka hatékonyságának javítása érdekében”. - Személyre szabott memória
A folyamat lehetővé teszi az eszköz számára, hogy „emlékezzen” a múltbeli tevékenységekre későbbi szándékként.
Megmutatja, hogy a Google milyen irányba tart
Bár ez nem feltétlenül használható azonnal, megmutatja, hogy a Google milyen irányba tart, ahol az eszközön lévő kis modellek figyelik a felhasználói interakciókat, és néha beavatkoznak, hogy segítsenek a felhasználóknak szándékuk alapján. A szándékot itt úgy használjuk, hogy megértsük, mit próbál tenni a felhasználó.
Olvassa el a Google blogbejegyzését itt:
Kis modellek, nagy eredmények: Kiváló szándék-kivonás elérése a dekompozíció révén
Olvassa el a PDF kutatási cikket:
Kis modellek, nagy eredmények: Kiváló szándékos kivonás elérése a bomlás révén (PDF)
