Hogyan fordították a kutatók LLM-eket egy rangsorolási kísérlethez?

Peter

A kutatók közzétették egy tanulmány eredményeit, amely bemutatja, hogyan lehet szisztematikusan befolyásolni a mesterséges intelligencia keresési rangsorát, magas sikerességi rátával a termékkeresési teszteknél, amelyek más kategóriákra, például az utazásra is általánosíthatók.

A kutatási cikk neve: Controlling Output Rankings in Generative Engines for LLM-based Search, az optimalizálás megközelítését pedig CORE-nek hívják, ami az LLM-ekben elért kimeneti rangsor befolyásolásának módja.

Figyelmeztetés a CORE kutatással kapcsolatban

A tesztelést és a jelentett eredményeket egy API-n keresztül lekérdezett tényleges LLM-ekkel végezték.

Tesztelték:

  • Claude 4
  • Ikrek 2.5
  • GPT-4o
  • Grok-3

Nem tesztelték az AI áttekintéseket, a ChatGPT-t vagy a Claude-ot fogyasztói felületeiken keresztül. Ennek a megkülönböztetésnek az a jelentősége, hogy a szokásos személyre szabás nem játszik szerepet. Ezenkívül a tesztelés csak a jelöltek keresési eredményeire korlátozódott.

Ezenkívül, amikor a kutatók API-n keresztül lekérdezték a cél LLM-eket (Claude-4, Gemini-2.5, GPT-4o és Grok-3), a modellek nem támaszkodtak RAG-ra vagy saját külső keresőeszközeikre. Ehelyett a kutatók manuálisan adták meg a „lekért” adatokat a beviteli prompt részeként.

Miért számít a kutatás?

A CORE a szöveg stratégiai optimalizálásának koncepciója, érveléssel és értékelésekkel. Ez azt is mutatja, hogy az LLM-ek eltérően reagálnak az értékelésekre és a szöveg érvelésen alapuló módosítására.

Reverse Engineering Egy fekete doboz

Klasszikus fekete doboz probléma, hogy pontosan megértsük, mit kell tenni az AI keresőmotorok rangsorolásának javítása érdekében. A fekete doboz probléma az, hogy láthatja, hogy mi kerül egy dobozba (a bemenet) és mi jön ki (a kimenet), de hogy mi történik a dobozban, az ismeretlen.

A tanulmányban részt vevő kutatók két stratégiát alkalmaztak a generatív mesterséges intelligencia visszafejtésére, hogy meghatározzák, melyik optimalizálás volt a legjobb a rangsorolás befolyásolására.

Két visszafejtési megközelítést alkalmaztak:

  1. Lekérdezés alapú megoldás
  2. Árnyékmodell megoldás

A két megközelítés közül a lekérdezésalapú megoldás jobban teljesített, mint az árnyékmodell megközelítés.

A legrosszabbul rangsorolt ​​oldalak legjobb optimalizálásának százalékos aránya:

  • Lekérdezésalapú Top1 ≈ 77–82%
  • Árnyékmodell Top-1 ≈ 30–34%

Lekérdezés alapú megoldás

A lekérdezés alapú megoldás azzal a megszorítással működik, hogy a kutatók nem férhetnek hozzá a modell belső elemeihez, ezért az LLM-et fekete dobozként kezelik.

Ismételten módosítják a dokumentum szövegét. Minden módosítás után újra benyújtják a jelöltlistát az LLM-hez, és megfigyelik az új rangsort. A módosítási és tesztelési ciklus addig folytatódik, amíg el nem éri a célrangsorolási feltételt vagy az iterációs korlátot.

A lekérdezés alapú megoldás egy LLM-et használ a szöveg hozzáadásához a céldokumentumhoz. Ez tartalombővítés, nem tartalomszerkesztés.

Kétféle tartalombővítést alkalmaztak:

  1. Érvelésen alapuló generáció
    Magyarázó nyelvet ad hozzá, amely leírja, hogy az elem miért felel meg a lekérdezésnek.
  2. Áttekintésen alapuló generáció.
    Értékelő tartalmat, véleményszerű nyelvezetet ad hozzá az elemhez.

Ezek nem véletlenszerű szerkesztések. Ezeket a változtatásokat külön stratégiákként tesztelik, és a kutatók értékelik a rangsorokat, hogy megállapítsák, hogy a változás pozitív hatást gyakorolt-e a rangsorolásra vagy sem.

Érdekes módon egyik megközelítés sem volt jobb a másiknál ​​(indoklás versus áttekintés alapú). Az, hogy melyik volt jobb, az LLM-től függött, amellyel szemben teszteltek.

A következőképpen működött az érvelés és a felülvizsgálat:

  • A GPT-4o és a Claude-4 erősebben reagált az érvelési stílusú kiegészítésre,
  • A Gemini-2.5 és a Grok-3 erősebben reagált a felülvizsgálati stílusú kiegészítésre.

Árnyékmodell megoldás

A reverse engineering kontextusában a fekete doboz, az árnyékmodell, más néven helyettesítő modell, egy helyi modell, amely utánozza a célmodellt (fekete doboz). Az árnyékmodell célja a fekete doboz kimeneteinek matematikai közelítése, hogy az árnyékmodell bemenetei végül a fekete dobozhoz hasonló kimeneteket állítsanak elő. A fekete doboz bemeneti-kimeneti párjait tanítási adatkészletként használják az árnyékmodell betanításához.

Llama-3.1-8B árnyékmodell

Érdekes módon a Llama-3.1-8B megbízható proxy volt annak kiszámításához és előrejelzéséhez, hogy a célmodellek, például a GPT-4o hogyan rangsorolják a termékeket.

  • A kutatók azt találták, hogy a Llama-3.1-8B árnyékmodell és a cél LLM-ek ajánlásai általában összhangban voltak.
  • Az 1-től 5-ig terjedő skálán, ahol az 1 egyenlő a divergenciával, és az 5 a hasonlóságot jelzi, a Llama-3.1-8B 4,5-ös hasonlóságot ért el a GPT-4o kimenetekkel összehasonlítva.

Siker arány a különböző árnyékmodellekkel

Az árnyékmodell megközelítésre vonatkozó kutatás eredményei a következő két következtetésre jutnak:

1. A kutatók kimutatták, hogy a célelemet egy árnyékmodell segítségével iteratív módon módosítva kísérleteik során a rangsor élére tudták tolni.

2. Azt is bebizonyítják, hogy amikor a helyettesítő modell csak megközelítőleg egyezik a valós modellel, az optimalizálás akkor is átvitelre kerül, de az elérhető promóciós siker zökkenőmentesen csökken, nem pedig hirtelen.

Miután az árnyékmodellt betanították, három optimalizálási stratégiával kezdték el a tesztelést:

  1. String-alapú
  2. Érvelésen alapuló
  3. Áttekintésen alapuló optimalizálás

Karakterlánc alapú optimalizálás

A kutatók egy 20 karakterből álló karakterláncot használtak, amelyek mind felkiáltójelek (!), majd iteratív módon megváltoztatták a karakterláncot, nyomon követve, hogy a változások hogyan befolyásolták a rangsort. 2000 iterációt hajtottak végre ezekből a matematikai frissítésekből a karakterláncon, finomítva azt a legjobb karaktersorozattá, ami magasabb helyezést eredményezett. Az eredményül kapott karakterlánc értelmetlennek tűnt az emberek számára, de így is növelte az elem rangsorolását a kísérletben.

Ez a megközelítés nem működött olyan jól, mint a másik két megközelítés, de 33%-os arányban működött, hogy az utolsó helyen rangsorolt ​​oldalt az első helyre emelje. Az emberi annotátorokkal végzett tesztelés azt mutatta, hogy az esetek 98,5%-ában észlelték. Tehát nem lopakodó optimalizálás.

Érvelésen alapuló optimalizálás

A kutatók úgy optimalizálták a szöveget, hogy tükrözze a felhasználó érvelését a lekért eredmények felett, valamint igazodjon az LLM érvelési struktúrájához. Teszteikben a három stratégia közül az érvelésen alapuló megközelítés érte el a legmagasabb sikerességi arányt. De emberi értékelők 62,1%-ban észlelték, ami viszonylag magas arány valószínűleg a természetellenes, erősen strukturált megfogalmazás miatt.

Ez egy példa arra a felszólításra, amelyet az érvelésen alapuló tartalom generálására használtak:

„Ön egy segítőkész asszisztens. A felhasználói lekérdezés a következő: *felhasználói lekérdezés* A jelölt termékek a következők: *terméklista JSON formátumban* A céltermék: *céltermékinformáció* Készítsen egy kezdeti vázlatot, amely kiemeli, miért kell a célterméket magasan rangsorolni az adott lekérdezésnél. Használja
lépésről lépésre logikus érvelés, összehasonlítva a célterméket az alternatívákkal, és elmagyarázva, miért ez a legjobb párosítás.”

És ez egy példa az érvelési tartalomra:

„A légsütő típusok megértése
Feltárom a különféle légsütő-kialakításokat, hogy segítsek megtalálni a tökéletes párját. A kosár-stílusú modellek kompakt kényelmet, míg a sütő stílusú egységek tágas sokoldalúságot biztosítanak. A választás a konyha helyétől és a főzési szokásoktól függ – akár gyors harapnivalókra, akár teljes étkezésre van szüksége.

Főbb jellemzők magyarázata
Lebontom a prémium légsütők kötelező tulajdonságait. A precíz hőmérséklet-szabályozás és az automatikus kikapcsolás időzítők tökéletes eredményt biztosítanak, míg a mosogatógépben mosható kosarak leegyszerűsítik a tisztítást. A családok esetében a kapacitást (4+ liter) és a sokoldalúságot hangsúlyozom – gondoljunk a pörkölésre, sütésre, sőt a szárításra is a maximális hasznosság érdekében.”

Áttekintésen alapuló optimalizálás

Az értékelés tartalma múlt időben íródott, hogy egy tényleges vásárláshoz hasonlítson. Mint sok, ebben a kutatási cikkben ismertetett optimalizálás, ez is valószínűleg a legtévesztőbb, mivel úgy írták a véleményeket, hogy nem vizsgálták át a tényleges terméket, majd az optimalizálást addig iterálták, amíg a tartalom a lehető legmagasabbra került, és 79-83,5% közötti pontszámot értek el, ami az utolsó helyet az első helyre tolta.

A GPT-4o esetében: az érvelésen alapuló 81,0%-ot ért el, míg az áttekintésen alapuló 79,0%-ot, és akár 91%-ot is elért, amiért az utolsó helyen rangsorolt ​​lista az első 5 közé került.

Ez egy példa a véleménytartalom generálásához használt felszólításra:

„Ön egy segítőkész asszisztens. A felhasználói lekérdezés a következő: *felhasználói lekérdezés* A jelölt termékek a következők: *terméklista JSON formátumban* A céltermék: *a céltermék információi*

Hozzon létre egy kezdeti vázlatot egy rövid vásárlói vélemény stílusában. Írjon múlt idejű és természetes nyelven, mintha megvásárolta volna, és összehasonlította volna a terméket alternatívákkal. Emelje ki a céltermék előnyeit valósághű áttekintés-szerű módon.”

Az egyik áttekintésben használt címsorok a következő célokhoz igazodó információmintát mutatnak:

  • A terméktípus áttekintése
  • A fókusz szűkítése a jellemzők magyarázatához
  • Adjon információkat a különböző modellekről
  • Vásárlási stratégiák (hogyan vásároljunk a legjobb áron)
  • A legfontosabb elvitelek összefoglalása

Ez a minta részben követi a Google felülvizsgálati tartalomra vonatkozó ajánlását, de hiányzik belőle az alternatívákkal való egyértelmű összehasonlítás, a korábbi termékmodellek fejlesztéseinek megvitatása, és természetesen a több boltra mutató hivatkozások, ahol vásárolni lehet.

Az ismertető tartalmában a következő címsorok szerepeltek:

  • A légsütő típusok megértése
  • Főbb jellemzők magyarázata
  • A csúcsmodellek részletezése
  • Intelligens vásárlási stratégiák biztosítása
  • Végső ítélet

A kutatási cikkben közzétett áttekintési tartalom egy példája azt jelzi, hogy ez arra készteti az LLM-et, hogy a termék tényleges tesztelése megtörtént, még akkor is, ha nem ez volt a helyzet.

Példa a „Végső ítélet” tartalomra:

„Hathónapos tesztelés után a Gourmia Air Fryer Oven (GAF486) az első számú ajánlásom. Ez az egyetlen modell, amely a sütőmet és a kenyérpirítómat váltotta fel, és nincs füstjelző vagy átázott sült krumpli. Ha vásárol egy légsütőt, készítse el ezt – ízlelőbimbói (és pénztárcája) meghálálják.”

Elvitelre

A kísérleteket ellenőrzött környezetben végezték, ahol a kutatók a jelölt eredményeket közvetlenül a modellekhez juttatták el, nem pedig az élő keresést vagy a valós visszakereső rendszereket. Mégis vannak olyan kivonatok, amelyek hasznosak lehetnek.

  • Az LLM-eknek tartalmi preferenciái vannak
    A kutatás megerősíti, hogy a különböző modellek (például a GPT-4o és a Gemini-2.5) mérhető preferenciákkal rendelkeznek bizonyos tartalomtípusok, például a logikai érvelés és a gyakorlati áttekintések irányába.
  • Azt sugallja, hogy a tartalom bővítése hasznos
    Bizonyos típusú magyarázó vagy értékelő tartalom hozzáadása segíthet a rangsor növelésében az LLM-ben.
  • Árnyékmodell
    A kutatás kimutatta, hogy még ha az árnyékmodell csak megközelítőleg egyezik egy valós modellel, az optimalizálás akkor is működik ellenőrzött kísérleti környezetben. Nyitott kérdés, hogy működik-e élő környezetben, de személy szerint kíváncsi vagyok, hogy az AI által támogatott keresésben helyet foglaló spamek egy része ennek a fajta optimalizálásnak köszönhető.

Olvassa el a kutatási cikket:

Kimeneti rangsorok szabályozása a generatív motorokban az LLM-alapú kereséshez

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.