Tények a Google kattintási jeleiről, rangsorolásáról és keresőoptimalizálásáról

A kattintások mint rangsoroláshoz kapcsolódó jelzések több mint húsz éve vita tárgyát képezik, bár manapság a legtöbb keresőoptimalizáló megérti, hogy a kattintások nem közvetlen rangsorolási tényező. A kattintásokkal kapcsolatos egyszerű igazság az, hogy ezek nyers adatok, és meglepő módon az emberi értékelő pontszámaihoz hasonló módon dolgozzák fel őket.

A kattintások nyers jelek

A DOJ Antitröst memorandum 2025. szeptemberi véleménye a kattintásokat a Google által használt „nyers jelként” említi. A tartalmat és a keresési lekérdezéseket is nyers jelek közé sorolja. Ez azért fontos, mert a nyers jel a legalacsonyabb szintű adatpont, amelyet magasabb szintű rangsorolási jelekké dolgoznak fel, vagy olyan modellek betanítására használnak, mint a RankEmbed és utódja, a RankEmbedBERT.

Ezeket nyers jeleknek tekintjük, mert a következők:

Közvetlenül megfigyelhető
De még nem értelmezték és nem használják az edzésadatokhoz

A DOJ dokumentuma idézi James Allan professzort, aki szakértői vallomást tett a Google nevében:

„A jelek összetettsége változó. Vannak „nyers” jelek, például a kattintások száma, a weboldal tartalma és a lekérdezésben szereplő kifejezések.

…Ezek a jelek egyszerű módszerekkel hozhatók létre, mint például az előfordulások számlálása (pl. hányszor kattintottak egy weboldalra egy adott lekérdezés hatására). Id.
2859:3–2860:21 (Allan) (a Navboost jel megvitatása) „

Ezután szembeállítja a nyers jeleket a feldolgozásukkal:

„A spektrum másik végén az innovatív mélytanulási modellek állnak, amelyek olyan gépi tanulási modellek, amelyek összetett mintákat észlelnek nagy adathalmazokban.

A mély modellek hatalmas adatkészletekben találják meg és használják ki a mintákat. Magas költség mellett egyedülálló képességeket adnak hozzá.”

Allan professzor elmagyarázza, hogy a „legfelső szintű jelek” segítségével a weboldal „végső” pontszámát állítják elő, beleértve a népszerűséget és a minőséget.

A nyers jelek további feldolgozásra váró adatok

A 2025. szeptemberi trösztellenes dokumentumban a Navboost többször is szerepel népszerűségi adatként. Nem említik az egyes webhelyeken a rangsorolást befolyásoló kattintások összefüggésében.

A népszerűség és a szándék mérésének módjaként hivatkoznak rá:

„…a népszerűség a felhasználói szándék és a visszajelzési rendszerek, köztük a Navboost/Glue alapján mérve…”

És máshol, annak magyarázatával összefüggésben, hogy a Navboost egyes adatai miért vannak kiváltságosak:

„Népszerűségük a felhasználói szándék és a visszajelzési rendszerek, köztük a Navboost/Glue alapján mérve…”

Annak elmagyarázásával összefüggésben, hogy a Navboost egyes adatai miért vannak kiváltságosak:

„A javasolt jogorvoslat értelmében a Google-nak elérhetővé kell tennie a Minősített Versenyzők számára a következő adatkészleteket:

1. A GLUE statisztikai modell(ek) felépítéséhez, létrehozásához vagy működtetéséhez használt felhasználói oldali adatok;

2. A RankEmbed modell(ek) betanításához, felépítéséhez vagy működtetéséhez használt felhasználói oldali adatok; és

3. A Keresésben használt GenAI-modellek vagy bármely GenAI-termék képzési adataként használt felhasználói oldali adatok, amelyek a Keresés eléréséhez használhatók.

A Google az első két adatkészletet a keresési jelek létrehozására használja, a harmadikat pedig az AI áttekintések és (vitathatatlanul) a Gemini alkalmazás alapjául szolgáló modellek betanítására és finomítására.”

A kattintások, akárcsak az emberi értékelő pontszámai, csak egy nyers jel, amelyet az algoritmusláncban feljebb használnak az AI-modellek betanításához, hogy jobban tudják a weboldalakat a lekérdezésekhez illeszteni, vagy minőségi vagy relevanciajelzést generáljanak, amelyet aztán egy rangsoroló motor vagy egy rangmódosító motor hozzáad a többi rangsorolási jelhez.

70 napos keresési naplók

A DOJ-dokumentum 70 napos keresési naplók használatára hivatkozik. De ez csak tizenegy szó nagyobb összefüggésben.

Íme a gyakran idézett rész:

„70 nap keresési naplók plusz az emberi értékelők által generált pontszámok”

Értem, egyszerű és közvetlen. De ennek több kontextusa is van:

„A RankEmbed és későbbi iterációja, a RankEmbedBERT olyan rangsorolási modellek, amelyek két fő adatforrásra támaszkodnak: [Redacted]A 70 napos keresési naplók és az emberi értékelők által generált pontszámok százaléka, amelyeket a Google használ az organikus keresési eredmények minőségének mérésére.”

A 70 napos keresési naplók nem kattintási adatok, amelyeket a Google, az AI mód vagy a Gemini rangsorolására használnak fel. Az összesített adatok további feldolgozása speciális mesterséges intelligencia modellek, például a RankEmbedBERT képzése érdekében történik, amelyek természetes nyelvi elemzés alapján rangsorolják a weboldalakat.

A DOJ-dokumentum ezen része nem állítja, hogy a Google közvetlenül használja a kattintási adatokat a keresési eredmények rangsorolásához. Ezek olyan adatok, mint az emberi értékelő adatok, amelyeket más rendszerek használnak betanításra vagy további feldolgozásra.

Mi az a Google RankEmbed?

A RankEmbed egy természetes nyelvi megközelítés a releváns dokumentumok azonosítására és rangsorolására.

Ugyanez a DOJ-dokumentum kifejti:

„Maga a RankEmbed modell egy mesterséges intelligencia-alapú, mély tanulási rendszer, amely erősen érti a természetes nyelvet. Ez lehetővé teszi a modell számára, hogy hatékonyabban azonosítsa a legjobban lekérhető dokumentumokat, még akkor is, ha a lekérdezésből hiányoznak bizonyos kifejezések.”

Kevesebb adatra van kiképezve, mint a korábbi modellek. Az adatok részben lekérdezési kifejezésekből és weboldalpárokból állnak:

„…A RankEmbed a korábbi rangsorolási modellek betanításához használt adatok 1/100-ára van kiképezve, mégis jobb minőségű keresési eredményeket biztosít.

…A mögöttes betanítási adatok között szerepelnek a lekérdezéssel kapcsolatos információk, beleértve a Google által a lekérdezésből származó kiemelkedő kifejezéseket és az eredményül kapott weboldalakat.”

Ezek a betanítási adatok egy modell betanításához, hogy felismerje, mennyire relevánsak a lekérdezési kifejezések a weboldalakkal kapcsolatban.

Ugyanez a dokumentum a következőket magyarázza:

„A RankEmbed modellek alapjául szolgáló adatok a kattintás és lekérdezés adatok és a weboldalak emberi értékelők általi pontozásának kombinációja.”

Kristálytiszta, hogy e konkrét szövegrész kontextusában a kattintási adatok (és az emberi értékelő adatok) AI modellek képzésére való felhasználását írja le, nem pedig a rangsorolás közvetlen befolyásolására.

Mi a helyzet a Google kattintási rangsorolási szabadalmával?

Még 2006-ban a Google szabadalmat nyújtott be a kattintásokkal kapcsolatban: A keresési eredmények rangsorának módosítása implicit felhasználói visszajelzések alapján. A találmány a kattintások összesített nyers adataiból (többes számban) „relevancia-mérték” létrehozására szolgáló matematikai képletről szól.

A szabadalom megkülönbözteti a jel létrehozását és magát a rangsorolást. A „relevancia mértéke” egy rangsoroló motorhoz kerül, amely azután hozzáadhatja a meglévő rangsorolási pontszámokhoz, hogy rangsorolja a keresési eredményeket az új kereséseknél.

Íme, amit a szabadalom leír:

„A rangsorolási alrendszer tartalmazhat egy rangmódosító motort, amely implicit felhasználói visszajelzéseket használ a keresési eredmények újrarangsorolásához a végső rangsor javítása érdekében.
egy információkereső rendszer felhasználójának bemutatva.

A felhasználók által kiválasztott keresési eredmények (kattintási adatok) nyomon követhetők, és kattintási töredékké alakíthatók, amelyek felhasználhatók a jövőbeli keresési eredmények átsorolására.”

Ez a „kattintási hányad” a relevancia mértéke. A szabadalomban leírt találmány nem a kattintás nyomon követéséről szól; a matematikai mértékről (kattintási törtről) van szó, amely az egyes kattintások összevonásából származik. Ez magában foglalja a rövid kattintást, a közepes kattintást, a hosszú kattintást és az utolsó kattintást.

Technikailag LCIC (hosszú kattintás osztva kattintással) törtnek hívják. A „kattintások” többes szám, mert a döntéseket sok kattintás összege (összesített) alapján hozza meg, nem pedig az egyes kattintások alapján.

Ez a kattintási hányad összesített, mert:

Összegzés:
A rangsoroláshoz használt „első szám” egy adott lekérdezés-dokumentum pár egyéni súlyozott kattintásának összege.
Normalizálás:
Kiveszi ezt az összeget, és elosztja az összes kattintás teljes számával (a „második szám”).
Statisztikai simítás:
A rendszer „simító tényezőket” alkalmaz erre az összesített számra, hogy biztosítsa, hogy egy „ritka” lekérdezésre egyetlen kattintás ne torzítsa el igazságtalanul az eredményeket, különösen a spamküldők esetében.

A 2006-os szabadalom a következőképpen írja le a súlyozási képletet:

„Az alap LCC kattintási töredék a következőképpen definiálható:

LCC_BASE=[#WC(Q,D)]/[#C(QD)+S0)[#C(QD)+S0)

ahol iWC(QD) a súlyozott kattintások összege egy lekérdezési URL… pár esetén, iC(QD) a kattintások teljes száma (sorrendi szám, nem súlyozva) a lekérdezés-URL párnál, S0 pedig egy simító tényező.”

Ez a képlet leírja a sok felhasználó adatainak összegzését és felosztását, hogy egyetlen pontszámot hozzon létre egy dokumentumhoz. A „lekérdezés-URL” pár egy olyan adatgyűjtő, amely minden olyan felhasználó kattintási viselkedését tárolja, aki valaha beírta az adott lekérdezést, és rákattintott az adott keresési eredményre. A simító tényező a levélszemét-ellenes rész, amely magában foglalja a ritka keresési lekérdezések egyetlen kattintásának figyelmen kívül hagyását.

Még 2006-ban is a kattintások csak nyers adatok, amelyek az összesítés több szakaszán keresztül tovább alakulnak a láncban a relevancia statisztikai mérőszámává, mielőtt elérnék a rangsorolási szakaszt. Ebben a szabadalomban maguk a kattintások nem rangsorolási tényezők, amelyek közvetlenül befolyásolják, hogy egy webhely rangsorolva van-e vagy sem. Ezeket összesítve használták a relevancia mértékeként, amelyet viszont egy másik motorba tápláltak be a rangsoroláshoz.

Mire az információ eléri a rangsoroló motort, a nyers adatok az egyéni felhasználói műveletekből a relevancia összesített mértékévé alakulnak.

A kattintásokról a rangsoroláshoz kapcsolódóan gondolkodni nem olyan egyszerű, mint a kattintások a keresési rangsoroláshoz.
A kattintások csak nyers adatok.
A kattintásokat az AI-rendszerek, például a RankEmbedBert betanítására használják.
A kattintások közvetlenül nem befolyásolják a keresési eredményeket. Mindig is nyers adatok voltak, a kiindulópontja azoknak a rendszereknek, amelyek az adatokat összesítve használják fel egy jel létrehozására, amelyet aztán a Google rangsoroló döntéshozó rendszereibe kevernek.
Tehát igen, az emberi értékelő adatokhoz hasonlóan a nyers adatokat is feldolgozzák a jel létrehozása vagy az AI-rendszerek betanítása céljából.

Olvassa el a DOJ memorandumát PDF formátumban itt.

Olvasson négy kutatási cikkről a CTR-ről.

Olvassa el a Google 2006-os szabadalmát, A keresési eredmények rangsorának módosítása implicit felhasználói visszajelzések alapján.