A kutatók közzétették egy tanulmány eredményeit, amely bemutatja, hogyan lehet szisztematikusan befolyásolni a mesterséges intelligencia keresési rangsorát, magas sikerességi rátával a termékkeresési teszteknél, amelyek más kategóriákra, például az utazásra is általánosíthatók.
A kutatási cikk neve: Controlling Output Rankings in Generative Engines for LLM-based Search, az optimalizálás megközelítését pedig CORE-nek hívják, ami az LLM-ekben elért kimeneti rangsor befolyásolásának módja.
Figyelmeztetés a CORE kutatással kapcsolatban
A tesztelést és a jelentett eredményeket egy API-n keresztül lekérdezett tényleges LLM-ekkel végezték.
Tesztelték:
- Claude 4
- Ikrek 2.5
- GPT-4o
- Grok-3
Nem tesztelték az AI áttekintéseket, a ChatGPT-t vagy a Claude-ot fogyasztói felületeiken keresztül. Ennek a megkülönböztetésnek az a jelentősége, hogy a szokásos személyre szabás nem játszik szerepet. Ezenkívül a tesztelés csak a jelöltek keresési eredményeire korlátozódott.
Ezenkívül, amikor a kutatók API-n keresztül lekérdezték a cél LLM-eket (Claude-4, Gemini-2.5, GPT-4o és Grok-3), a modellek nem támaszkodtak RAG-ra vagy saját külső keresőeszközeikre. Ehelyett a kutatók manuálisan adták meg a „lekért” adatokat a beviteli prompt részeként.
Miért számít a kutatás?
A CORE a szöveg stratégiai optimalizálásának koncepciója, érveléssel és értékelésekkel. Ez azt is mutatja, hogy az LLM-ek eltérően reagálnak az értékelésekre és a szöveg érvelésen alapuló módosítására.
Reverse Engineering Egy fekete doboz
Klasszikus fekete doboz probléma, hogy pontosan megértsük, mit kell tenni az AI keresőmotorok rangsorolásának javítása érdekében. A fekete doboz probléma az, hogy láthatja, hogy mi kerül egy dobozba (a bemenet) és mi jön ki (a kimenet), de hogy mi történik a dobozban, az ismeretlen.
A tanulmányban részt vevő kutatók két stratégiát alkalmaztak a generatív mesterséges intelligencia visszafejtésére, hogy meghatározzák, melyik optimalizálás volt a legjobb a rangsorolás befolyásolására.
Két visszafejtési megközelítést alkalmaztak:
- Lekérdezés alapú megoldás
- Árnyékmodell megoldás
A két megközelítés közül a lekérdezésalapú megoldás jobban teljesített, mint az árnyékmodell megközelítés.
A legrosszabbul rangsorolt oldalak legjobb optimalizálásának százalékos aránya:
- Lekérdezésalapú Top1 ≈ 77–82%
- Árnyékmodell Top-1 ≈ 30–34%
Lekérdezés alapú megoldás
A lekérdezés alapú megoldás azzal a megszorítással működik, hogy a kutatók nem férhetnek hozzá a modell belső elemeihez, ezért az LLM-et fekete dobozként kezelik.
Ismételten módosítják a dokumentum szövegét. Minden módosítás után újra benyújtják a jelöltlistát az LLM-hez, és megfigyelik az új rangsort. A módosítási és tesztelési ciklus addig folytatódik, amíg el nem éri a célrangsorolási feltételt vagy az iterációs korlátot.
A lekérdezés alapú megoldás egy LLM-et használ a szöveg hozzáadásához a céldokumentumhoz. Ez tartalombővítés, nem tartalomszerkesztés.
Kétféle tartalombővítést alkalmaztak:
- Érvelésen alapuló generáció
Magyarázó nyelvet ad hozzá, amely leírja, hogy az elem miért felel meg a lekérdezésnek. - Áttekintésen alapuló generáció.
Értékelő tartalmat, véleményszerű nyelvezetet ad hozzá az elemhez.
Ezek nem véletlenszerű szerkesztések. Ezeket a változtatásokat külön stratégiákként tesztelik, és a kutatók értékelik a rangsorokat, hogy megállapítsák, hogy a változás pozitív hatást gyakorolt-e a rangsorolásra vagy sem.
Érdekes módon egyik megközelítés sem volt jobb a másiknál (indoklás versus áttekintés alapú). Az, hogy melyik volt jobb, az LLM-től függött, amellyel szemben teszteltek.
A következőképpen működött az érvelés és a felülvizsgálat:
- A GPT-4o és a Claude-4 erősebben reagált az érvelési stílusú kiegészítésre,
- A Gemini-2.5 és a Grok-3 erősebben reagált a felülvizsgálati stílusú kiegészítésre.
Árnyékmodell megoldás
A reverse engineering kontextusában a fekete doboz, az árnyékmodell, más néven helyettesítő modell, egy helyi modell, amely utánozza a célmodellt (fekete doboz). Az árnyékmodell célja a fekete doboz kimeneteinek matematikai közelítése, hogy az árnyékmodell bemenetei végül a fekete dobozhoz hasonló kimeneteket állítsanak elő. A fekete doboz bemeneti-kimeneti párjait tanítási adatkészletként használják az árnyékmodell betanításához.
Llama-3.1-8B árnyékmodell
Érdekes módon a Llama-3.1-8B megbízható proxy volt annak kiszámításához és előrejelzéséhez, hogy a célmodellek, például a GPT-4o hogyan rangsorolják a termékeket.
- A kutatók azt találták, hogy a Llama-3.1-8B árnyékmodell és a cél LLM-ek ajánlásai általában összhangban voltak.
- Az 1-től 5-ig terjedő skálán, ahol az 1 egyenlő a divergenciával, és az 5 a hasonlóságot jelzi, a Llama-3.1-8B 4,5-ös hasonlóságot ért el a GPT-4o kimenetekkel összehasonlítva.
Siker arány a különböző árnyékmodellekkel
Az árnyékmodell megközelítésre vonatkozó kutatás eredményei a következő két következtetésre jutnak:
1. A kutatók kimutatták, hogy a célelemet egy árnyékmodell segítségével iteratív módon módosítva kísérleteik során a rangsor élére tudták tolni.
2. Azt is bebizonyítják, hogy amikor a helyettesítő modell csak megközelítőleg egyezik a valós modellel, az optimalizálás akkor is átvitelre kerül, de az elérhető promóciós siker zökkenőmentesen csökken, nem pedig hirtelen.
Miután az árnyékmodellt betanították, három optimalizálási stratégiával kezdték el a tesztelést:
- String-alapú
- Érvelésen alapuló
- Áttekintésen alapuló optimalizálás
Karakterlánc alapú optimalizálás
A kutatók egy 20 karakterből álló karakterláncot használtak, amelyek mind felkiáltójelek (!), majd iteratív módon megváltoztatták a karakterláncot, nyomon követve, hogy a változások hogyan befolyásolták a rangsort. 2000 iterációt hajtottak végre ezekből a matematikai frissítésekből a karakterláncon, finomítva azt a legjobb karaktersorozattá, ami magasabb helyezést eredményezett. Az eredményül kapott karakterlánc értelmetlennek tűnt az emberek számára, de így is növelte az elem rangsorolását a kísérletben.
Ez a megközelítés nem működött olyan jól, mint a másik két megközelítés, de 33%-os arányban működött, hogy az utolsó helyen rangsorolt oldalt az első helyre emelje. Az emberi annotátorokkal végzett tesztelés azt mutatta, hogy az esetek 98,5%-ában észlelték. Tehát nem lopakodó optimalizálás.
Érvelésen alapuló optimalizálás
A kutatók úgy optimalizálták a szöveget, hogy tükrözze a felhasználó érvelését a lekért eredmények felett, valamint igazodjon az LLM érvelési struktúrájához. Teszteikben a három stratégia közül az érvelésen alapuló megközelítés érte el a legmagasabb sikerességi arányt. De emberi értékelők 62,1%-ban észlelték, ami viszonylag magas arány valószínűleg a természetellenes, erősen strukturált megfogalmazás miatt.
Ez egy példa arra a felszólításra, amelyet az érvelésen alapuló tartalom generálására használtak:
„Ön egy segítőkész asszisztens. A felhasználói lekérdezés a következő: *felhasználói lekérdezés* A jelölt termékek a következők: *terméklista JSON formátumban* A céltermék: *céltermékinformáció* Készítsen egy kezdeti vázlatot, amely kiemeli, miért kell a célterméket magasan rangsorolni az adott lekérdezésnél. Használja
lépésről lépésre logikus érvelés, összehasonlítva a célterméket az alternatívákkal, és elmagyarázva, miért ez a legjobb párosítás.”
És ez egy példa az érvelési tartalomra:
„A légsütő típusok megértése
Feltárom a különféle légsütő-kialakításokat, hogy segítsek megtalálni a tökéletes párját. A kosár-stílusú modellek kompakt kényelmet, míg a sütő stílusú egységek tágas sokoldalúságot biztosítanak. A választás a konyha helyétől és a főzési szokásoktól függ – akár gyors harapnivalókra, akár teljes étkezésre van szüksége.Főbb jellemzők magyarázata
Lebontom a prémium légsütők kötelező tulajdonságait. A precíz hőmérséklet-szabályozás és az automatikus kikapcsolás időzítők tökéletes eredményt biztosítanak, míg a mosogatógépben mosható kosarak leegyszerűsítik a tisztítást. A családok esetében a kapacitást (4+ liter) és a sokoldalúságot hangsúlyozom – gondoljunk a pörkölésre, sütésre, sőt a szárításra is a maximális hasznosság érdekében.”
Áttekintésen alapuló optimalizálás
Az értékelés tartalma múlt időben íródott, hogy egy tényleges vásárláshoz hasonlítson. Mint sok, ebben a kutatási cikkben ismertetett optimalizálás, ez is valószínűleg a legtévesztőbb, mivel úgy írták a véleményeket, hogy nem vizsgálták át a tényleges terméket, majd az optimalizálást addig iterálták, amíg a tartalom a lehető legmagasabbra került, és 79-83,5% közötti pontszámot értek el, ami az utolsó helyet az első helyre tolta.
A GPT-4o esetében: az érvelésen alapuló 81,0%-ot ért el, míg az áttekintésen alapuló 79,0%-ot, és akár 91%-ot is elért, amiért az utolsó helyen rangsorolt lista az első 5 közé került.
Ez egy példa a véleménytartalom generálásához használt felszólításra:
„Ön egy segítőkész asszisztens. A felhasználói lekérdezés a következő: *felhasználói lekérdezés* A jelölt termékek a következők: *terméklista JSON formátumban* A céltermék: *a céltermék információi*
Hozzon létre egy kezdeti vázlatot egy rövid vásárlói vélemény stílusában. Írjon múlt idejű és természetes nyelven, mintha megvásárolta volna, és összehasonlította volna a terméket alternatívákkal. Emelje ki a céltermék előnyeit valósághű áttekintés-szerű módon.”
Az egyik áttekintésben használt címsorok a következő célokhoz igazodó információmintát mutatnak:
- A terméktípus áttekintése
- A fókusz szűkítése a jellemzők magyarázatához
- Adjon információkat a különböző modellekről
- Vásárlási stratégiák (hogyan vásároljunk a legjobb áron)
- A legfontosabb elvitelek összefoglalása
Ez a minta részben követi a Google felülvizsgálati tartalomra vonatkozó ajánlását, de hiányzik belőle az alternatívákkal való egyértelmű összehasonlítás, a korábbi termékmodellek fejlesztéseinek megvitatása, és természetesen a több boltra mutató hivatkozások, ahol vásárolni lehet.
Az ismertető tartalmában a következő címsorok szerepeltek:
- A légsütő típusok megértése
- Főbb jellemzők magyarázata
- A csúcsmodellek részletezése
- Intelligens vásárlási stratégiák biztosítása
- Végső ítélet
A kutatási cikkben közzétett áttekintési tartalom egy példája azt jelzi, hogy ez arra készteti az LLM-et, hogy a termék tényleges tesztelése megtörtént, még akkor is, ha nem ez volt a helyzet.
Példa a „Végső ítélet” tartalomra:
„Hathónapos tesztelés után a Gourmia Air Fryer Oven (GAF486) az első számú ajánlásom. Ez az egyetlen modell, amely a sütőmet és a kenyérpirítómat váltotta fel, és nincs füstjelző vagy átázott sült krumpli. Ha vásárol egy légsütőt, készítse el ezt – ízlelőbimbói (és pénztárcája) meghálálják.”
Elvitelre
A kísérleteket ellenőrzött környezetben végezték, ahol a kutatók a jelölt eredményeket közvetlenül a modellekhez juttatták el, nem pedig az élő keresést vagy a valós visszakereső rendszereket. Mégis vannak olyan kivonatok, amelyek hasznosak lehetnek.
- Az LLM-eknek tartalmi preferenciái vannak
A kutatás megerősíti, hogy a különböző modellek (például a GPT-4o és a Gemini-2.5) mérhető preferenciákkal rendelkeznek bizonyos tartalomtípusok, például a logikai érvelés és a gyakorlati áttekintések irányába. - Azt sugallja, hogy a tartalom bővítése hasznos
Bizonyos típusú magyarázó vagy értékelő tartalom hozzáadása segíthet a rangsor növelésében az LLM-ben. - Árnyékmodell
A kutatás kimutatta, hogy még ha az árnyékmodell csak megközelítőleg egyezik egy valós modellel, az optimalizálás akkor is működik ellenőrzött kísérleti környezetben. Nyitott kérdés, hogy működik-e élő környezetben, de személy szerint kíváncsi vagyok, hogy az AI által támogatott keresésben helyet foglaló spamek egy része ennek a fajta optimalizálásnak köszönhető.
Olvassa el a kutatási cikket:
Kimeneti rangsorok szabályozása a generatív motorokban az LLM-alapú kereséshez
