A Google Recommender rendszer áttörése észleli a szemantikus szándékot

A Google közzétett egy kutatási tanulmányt arról, hogy segítsen az ajánlórendszereknek megérteni, mire gondolnak a felhasználók, amikor kapcsolatba lépnek velük. Ezzel az új megközelítéssel az a céljuk, hogy leküzdjék a jelenlegi legkorszerűbb ajánlórendszerekben rejlő korlátokat annak érdekében, hogy pontosabban, részletesebben megértsék, mit szeretnének a felhasználók az egyén szintjén olvasni, hallgatni vagy nézni.

Személyre szabott szemantika

Az ajánlórendszerek megjósolják, hogy a felhasználó mit szeretne legközelebb olvasni vagy megnézni. A YouTube, a Google Discover és a Google News olyan ajánlórendszerek, amelyek tartalmat ajánlanak a felhasználóknak. Más típusú ajánlórendszerek a vásárlási ajánlások.

Az ajánlórendszerek általában úgy működnek, hogy adatokat gyűjtenek arról, hogy a felhasználók milyen dolgokra kattintanak, értékelnek, vásárolnak és néznek meg, majd ezen adatok alapján további tartalmakat javasolnak, amelyek megfelelnek a felhasználó preferenciáinak.

A kutatók az ilyen jeleket primitív felhasználói visszajelzéseknek nevezték, mivel nem olyan jók az ajánlásokban, amelyek az egyén szubjektív megítélésén alapulnak arról, hogy mi a vicces, aranyos vagy unalmas.

A kutatás mögött meghúzódó megérzés az, hogy az LLM-ek térnyerése lehetőséget kínál a természetes nyelvi interakciók kiaknázására, hogy a szemantikai szándék azonosítása révén jobban megértsük, mit akar a felhasználó.

A kutatók megmagyarázzák:

„Az interaktív ajánlórendszerek ígéretes paradigmaként jelentek meg a hagyományos ajánlórendszerek által használt primitív felhasználói visszajelzések (pl. kattintások, cikkek fogyasztása, értékelések) korlátainak leküzdésére. Lehetővé teszik a felhasználók számára, hogy gazdagabb módon fejezzék ki szándékukat, preferenciáit, korlátait és összefüggéseit, gyakran természetes nyelvet használva (beleértve a fazettált keresést és párbeszédet).

Mégis további kutatásra van szükség ahhoz, hogy megtaláljuk a visszajelzések leghatékonyabb felhasználási módjait. Az egyik kihívás az, hogy a kívánt elem leírására gyakran használt nyílt végű kifejezésekből vagy attribútumokból következtethetünk a felhasználó szemantikai szándékára. Ez kritikus fontosságú azoknál az ajánlórendszereknél, amelyek támogatni kívánják a felhasználókat a természetes nyelv mindennapi, intuitív használatában az ajánlási eredmények finomítása érdekében.

A Soft Attributes Challenge

A kutatók kifejtették, hogy a kemény tulajdonságok olyan dolgok, amelyeket az ajánlórendszerek megértenek, mivel ezek olyan objektív alapigazságok, mint a „műfaj, művész, rendező”. Amivel problémáik voltak, az másfajta, „puha attribútumoknak” nevezett attribútumokkal volt, amelyek szubjektívek, és amelyeket nem lehetett filmekkel, tartalommal vagy termékelemekkel párosítani.

A kutatási cikk a puha tulajdonságok következő jellemzőit állapítja meg:

„Nincs olyan végleges „alapigazság” forrás, amely ilyen puha tulajdonságokat tételekkel társítana

Magának az attribútumnak lehet pontatlan értelmezése

És lehetnek szubjektív jellegűek (azaz a különböző felhasználók eltérően értelmezhetik őket)

A lágy attribútumok problémája az a probléma, amelynek megoldását a kutatók tűzték ki célul, és miért hívják a kutatási cikket „Personalizált szemantikának felfedezése a lágy attribútumokhoz az ajánlórendszerekben koncepcióaktiváló vektorok segítségével”.

Az aktivációs vektorok (CAV) újszerű használata

A Concept Activation Vectors (CAV-k) az AI-modellek vizsgálatának egyik módja annak érdekében, hogy megértsék a modellek által belsőleg használt matematikai reprezentációkat (vektorokat). Módot biztosítanak az emberek számára, hogy összekapcsolják ezeket a belső vektorokat a fogalmakkal.

Tehát a CAV standard iránya a modell értelmezése. A kutatók ezen az irányon változtattak úgy, hogy a cél most a felhasználók értelmezése legyen, a szubjektív puha attribútumokat matematikai reprezentációkká fordítva az ajánlórendszerek számára. A kutatók felfedezték, hogy a CAV-k adaptálása a felhasználók értelmezésére lehetővé tette a vektoros reprezentációkat, amelyek segítettek az AI-modellekben a finom szándékok és a szubjektív emberi ítéletek felismerésében, amelyek személyre szabottak.

Ahogy írják:

„Bemutatjuk… hogy CAV-ábrázolásunk nemcsak pontosan értelmezi a felhasználók szubjektív szemantikáját, hanem az interaktív elemkritikával javaslatok javítására is használható.”

Például a modell megtanulhatja, hogy a felhasználók különböző dolgokat értenek „vicces” alatt, és jobban ki tudják használni ezt a személyre szabott szemantikát, amikor javaslatokat tesznek.

A kutatók által megoldott probléma az, hogy kitalálják, hogyan lehetne áthidalni az emberek beszédmódja és az ajánlórendszerek „gondolkodása” közötti szemantikai szakadékot.

Az emberek fogalmakban gondolkodnak, homályos vagy szubjektív leírásokat (úgynevezett lágy attribútumokat) használnak.

Az ajánlórendszerek matematikában „gondolkodnak”: vektorokon (számlistán) működnek egy nagy dimenziós „beágyazó térben”.

A probléma ezután azzá válik, hogy a szubjektív emberi beszédet kevésbé kétértelművé tegyük, de anélkül, hogy módosítani kellene vagy át kellene tanítani az ajánlórendszert minden árnyalattal. A CAV-ok ezt a nehéz emelést végzik.

A kutatók megmagyarázzák:

„…a lágy attribútumok szemantikájára következtetünk magának az ajánlórendszer-modellnek a segítségével tanult reprezentációból.”

Megközelítésük négy előnyét sorolják fel:

„(1) Az ajánlórendszer modellkapacitása a felhasználói elemek preferenciáinak előrejelzésére irányul anélkül, hogy további mellékinformációkat (pl. címkéket) próbálna megjósolni, ami gyakran nem javítja az ajánlórendszer teljesítményét.

(2) Az ajánlórendszer-modell könnyen képes befogadni új attribútumokat átképzés nélkül, ha új címkék, kulcsszavak vagy kifejezések forrásai jelennek meg, amelyekből új puha attribútumokat lehet levezetni.

(3) Megközelítésünk lehetőséget kínál annak tesztelésére, hogy bizonyos puha attribútumok relevánsak-e a felhasználói preferenciák előrejelzése szempontjából. Így képesek vagyunk a felhasználó szándékának megragadása szempontjából legrelevánsabb tulajdonságokra összpontosítani a figyelmet (pl. ajánlások magyarázatakor, preferenciák kiváltásakor vagy kritikák megfogalmazásakor).

(4) A puha attribútum/címke szemantikát viszonylag kis mennyiségű címkézett adattal lehet megtanulni, az előképzés és a néhány lépésből álló tanulás jegyében.

Ezután magas szintű magyarázatot adnak a rendszer működéséről:

„Magas szinten a megközelítésünk a következőképpen működik: feltételezzük, hogy megadatott nekünk:

i. együttműködésen alapuló szűrési stílusú modell (pl. valószínűségi mátrixfaktorizálás vagy kettős kódoló), amely az elemeket és a felhasználókat egy látens térbe ágyazza be, a felhasználói elemek értékelése alapján; és

(ii) egy (kis) címkekészlet (azaz lágy attribútumcímkék), amelyeket a felhasználók egy részhalmaza biztosít az elemek egy részhalmazához.

Olyan módszereket fejlesztünk ki, amelyek minden elemhez hozzárendelik, hogy milyen mértékben mutatnak lágy attribútumot, így meghatározva az attribútum szemantikáját. Ezt úgy tesszük, hogy koncepcióaktivációs vektorokat (CAV) alkalmazunk – egy újabb módszert, amelyet a gépi tanulási modellek értelmezhetőségére fejlesztettek ki – a kollaboratív szűrési modellre annak kimutatására, hogy megtanulta-e az attribútum reprezentációját.

Ennek a CAV-nak a beágyazási térben való vetülete (helyi) irányszemantikát biztosít az attribútum számára, amely azután alkalmazható az elemekre (és a felhasználókra). Ezenkívül a technika használható egy attribútum szubjektív természetének azonosítására, különösen arra, hogy a különböző felhasználók eltérő jelentéssel (vagy címkeérzékkel) rendelkeznek-e az adott címke használatakor. A szubjektív tulajdonságok ilyen személyre szabott szemantikája létfontosságú lehet a felhasználó valódi szándékának helyes értelmezéséhez, amikor megpróbálja felmérni preferenciáit.

Működik ez a rendszer?

Az egyik érdekes eredmény az, hogy a mesterséges címkével (páratlan évszám) végzett tesztjük azt mutatta, hogy a rendszer pontossági aránya alig haladta meg a véletlenszerű kiválasztást, ami megerősítette azt a hipotézisüket, hogy „a CAV-ok hasznosak a preferenciával kapcsolatos attribútumok/címkék azonosítására”.

Azt is megállapították, hogy a CAV-k használata az ajánlórendszerekben hasznos volt a „kritikán alapuló” felhasználói viselkedés megértésében, és javította az ilyen típusú ajánlórendszereket.

A kutatók négy előnyt soroltak fel:

„(i) együttműködésen alapuló szűrési ábrázolás használata az ajánlási feladat szempontjából legjelentősebb attribútumok azonosítására;

(ii) az objektív és szubjektív címkehasználat megkülönböztetése;

(iii) személyre szabott, felhasználó-specifikus szemantika azonosítása szubjektív attribútumokhoz; és

(iv) az attribútum-szemantikának a preferencia-reprezentációkhoz való viszonyítása, lehetővé téve ezáltal a lágy attribútumok/címkék használatával történő interakciókat a példakritikálásban és a preferencia-kiváltás egyéb formáiban.

Azt találták, hogy megközelítésük javította az ajánlásokat olyan helyzetekben, ahol fontos a lágy tulajdonságok felfedezése. Ennek a megközelítésnek az olyan helyzetekben való alkalmazása, amelyekben a kemény tulajdonságok általánosabbak, mint például a termékvásárlásnál, egy jövőbeli vizsgálati terület, amely azt vizsgálja, hogy a puha tulajdonságok segítenének-e a termékajánlatok megfogalmazásában.

Elvitelre

A kutatási cikk 2024-ben jelent meg, és alaposan körül kellett ásnom, hogy megtaláljam, ami megmagyarázhatja, hogy általában miért nem vették észre a keresőmarketing közösségben.

A Google e megközelítés egy részét a WALS (Weighted Alternating Least Squares) nevű algoritmussal tesztelte. Ez egy tényleges gyártási kód, amely a Google Cloud fejlesztőknek készült terméke.

A lábjegyzetben és a függelékben található két megjegyzés megmagyarázza:

„A lineáris attribútumokkal rendelkező MovieLens20M adatok CAV-jai olyan beágyazásokat használnak, amelyeket (WALS-on keresztül) tanultak meg belső éles kóddal, amely nem adható ki.”

…A lineáris beágyazások megtanulása (WALS-on keresztül, A.3.1. függelék) belső gyártási kóddal történt, amely nem adható ki.”

A „gyártási kód” olyan szoftverre vonatkozik, amely jelenleg a Google felhasználóbarát termékeiben, jelen esetben a Google Cloudban fut. Valószínűleg nem ez a Google Discover mögöttes motorja, de fontos megjegyezni, mert megmutatja, milyen könnyen integrálható egy meglévő ajánlórendszerbe.

Ezt a rendszert a MovieLens20M adatkészlettel tesztelték, amely egy 20 millió értékelésből álló nyilvános adatkészlet, a tesztek egy részét a Google szabadalmaztatott ajánlási motorjával (WALS) végezték el. Ez hitelessé teszi azt a következtetést, hogy ez a kód használható élő rendszereken anélkül, hogy át kellene tanítani vagy módosítani kellene.

Ebben a kutatási cikkben azt látom, hogy ez lehetővé teszi az ajánlórendszerek számára, hogy kihasználják a puha attribútumokkal kapcsolatos szemantikai adatokat. A Google Discover-t a keresés egy részhalmazának tekinti, és a keresési minták olyan adatok, amelyeket a rendszer a tartalom megjelenítéséhez használ fel. A Google nem árulja el, hogy alkalmaznak-e ilyen módszert, de a pozitív eredmények ismeretében elképzelhető, hogy a Google ajánlórendszereiben ez a megközelítés alkalmazható. Ha ez a helyzet, akkor ez azt jelenti, hogy a Google ajánlásai jobban reagálhatnak a felhasználók szubjektív szemantikájára.

A kutatási cikk a Google Research-t (a kreditek 60%-át), valamint az Amazont, a Midjourney-t és a Meta AI-t jegyzi meg.

A PDF itt érhető el:

Személyre szabott szemantika felfedezése a lágy attribútumokhoz Recommender rendszerekben koncepcióaktiváló vektorok segítségével