Tények a Google kattintási jeleiről, rangsorolásáról és keresőoptimalizálásáról

Peter

A kattintások mint rangsoroláshoz kapcsolódó jelzések több mint húsz éve vita tárgyát képezik, bár manapság a legtöbb keresőoptimalizáló megérti, hogy a kattintások nem közvetlen rangsorolási tényező. A kattintásokkal kapcsolatos egyszerű igazság az, hogy ezek nyers adatok, és meglepő módon az emberi értékelő pontszámaihoz hasonló módon dolgozzák fel őket.

A kattintások nyers jelek

A DOJ Antitröst memorandum 2025. szeptemberi véleménye a kattintásokat a Google által használt „nyers jelként” említi. A tartalmat és a keresési lekérdezéseket is nyers jelek közé sorolja. Ez azért fontos, mert a nyers jel a legalacsonyabb szintű adatpont, amelyet magasabb szintű rangsorolási jelekké dolgoznak fel, vagy olyan modellek betanítására használnak, mint a RankEmbed és utódja, a RankEmbedBERT.

Ezeket nyers jeleknek tekintjük, mert a következők:

  • Közvetlenül megfigyelhető
  • De még nem értelmezték és nem használják az edzésadatokhoz

A DOJ dokumentuma idézi James Allan professzort, aki szakértői vallomást tett a Google nevében:

„A jelek összetettsége változó. Vannak „nyers” jelek, például a kattintások száma, a weboldal tartalma és a lekérdezésben szereplő kifejezések.

…Ezek a jelek egyszerű módszerekkel hozhatók létre, mint például az előfordulások számlálása (pl. hányszor kattintottak egy weboldalra egy adott lekérdezés hatására). Id.
2859:3–2860:21 (Allan) (a Navboost jel megvitatása) „

Ezután szembeállítja a nyers jeleket a feldolgozásukkal:

„A spektrum másik végén az innovatív mélytanulási modellek állnak, amelyek olyan gépi tanulási modellek, amelyek összetett mintákat észlelnek nagy adathalmazokban.

A mély modellek hatalmas adatkészletekben találják meg és használják ki a mintákat. Magas költség mellett egyedülálló képességeket adnak hozzá.”

Allan professzor elmagyarázza, hogy a „legfelső szintű jelek” segítségével a weboldal „végső” pontszámát állítják elő, beleértve a népszerűséget és a minőséget.

A nyers jelek további feldolgozásra váró adatok

A 2025. szeptemberi trösztellenes dokumentumban a Navboost többször is szerepel népszerűségi adatként. Nem említik az egyes webhelyeken a rangsorolást befolyásoló kattintások összefüggésében.

A népszerűség és a szándék mérésének módjaként hivatkoznak rá:

„…a népszerűség a felhasználói szándék és a visszajelzési rendszerek, köztük a Navboost/Glue alapján mérve…”

És máshol, annak magyarázatával összefüggésben, hogy a Navboost egyes adatai miért vannak kiváltságosak:

„Népszerűségük a felhasználói szándék és a visszajelzési rendszerek, köztük a Navboost/Glue alapján mérve…”

Annak elmagyarázásával összefüggésben, hogy a Navboost egyes adatai miért vannak kiváltságosak:

„A javasolt jogorvoslat értelmében a Google-nak elérhetővé kell tennie a Minősített Versenyzők számára a következő adatkészleteket:

1. A GLUE statisztikai modell(ek) felépítéséhez, létrehozásához vagy működtetéséhez használt felhasználói oldali adatok;

2. A RankEmbed modell(ek) betanításához, felépítéséhez vagy működtetéséhez használt felhasználói oldali adatok; és

3. A Keresésben használt GenAI-modellek vagy bármely GenAI-termék képzési adataként használt felhasználói oldali adatok, amelyek a Keresés eléréséhez használhatók.

A Google az első két adatkészletet a keresési jelek létrehozására használja, a harmadikat pedig az AI áttekintések és (vitathatatlanul) a Gemini alkalmazás alapjául szolgáló modellek betanítására és finomítására.”

A kattintások, akárcsak az emberi értékelő pontszámai, csak egy nyers jel, amelyet az algoritmusláncban feljebb használnak az AI-modellek betanításához, hogy jobban tudják a weboldalakat a lekérdezésekhez illeszteni, vagy minőségi vagy relevanciajelzést generáljanak, amelyet aztán egy rangsoroló motor vagy egy rangmódosító motor hozzáad a többi rangsorolási jelhez.

70 napos keresési naplók

A DOJ-dokumentum 70 napos keresési naplók használatára hivatkozik. De ez csak tizenegy szó nagyobb összefüggésben.

Íme a gyakran idézett rész:

„70 nap keresési naplók plusz az emberi értékelők által generált pontszámok”

Értem, egyszerű és közvetlen. De ennek több kontextusa is van:

„A RankEmbed és későbbi iterációja, a RankEmbedBERT olyan rangsorolási modellek, amelyek két fő adatforrásra támaszkodnak: [Redacted]A 70 napos keresési naplók és az emberi értékelők által generált pontszámok százaléka, amelyeket a Google használ az organikus keresési eredmények minőségének mérésére.”

A 70 napos keresési naplók nem kattintási adatok, amelyeket a Google, az AI mód vagy a Gemini rangsorolására használnak fel. Az összesített adatok további feldolgozása speciális mesterséges intelligencia modellek, például a RankEmbedBERT képzése érdekében történik, amelyek természetes nyelvi elemzés alapján rangsorolják a weboldalakat.

A DOJ-dokumentum ezen része nem állítja, hogy a Google közvetlenül használja a kattintási adatokat a keresési eredmények rangsorolásához. Ezek olyan adatok, mint az emberi értékelő adatok, amelyeket más rendszerek használnak betanításra vagy további feldolgozásra.

Mi az a Google RankEmbed?

A RankEmbed egy természetes nyelvi megközelítés a releváns dokumentumok azonosítására és rangsorolására.

Ugyanez a DOJ-dokumentum kifejti:

„Maga a RankEmbed modell egy mesterséges intelligencia-alapú, mély tanulási rendszer, amely erősen érti a természetes nyelvet. Ez lehetővé teszi a modell számára, hogy hatékonyabban azonosítsa a legjobban lekérhető dokumentumokat, még akkor is, ha a lekérdezésből hiányoznak bizonyos kifejezések.”

Kevesebb adatra van kiképezve, mint a korábbi modellek. Az adatok részben lekérdezési kifejezésekből és weboldalpárokból állnak:

„…A RankEmbed a korábbi rangsorolási modellek betanításához használt adatok 1/100-ára van kiképezve, mégis jobb minőségű keresési eredményeket biztosít.

…A mögöttes betanítási adatok között szerepelnek a lekérdezéssel kapcsolatos információk, beleértve a Google által a lekérdezésből származó kiemelkedő kifejezéseket és az eredményül kapott weboldalakat.”

Ezek a betanítási adatok egy modell betanításához, hogy felismerje, mennyire relevánsak a lekérdezési kifejezések a weboldalakkal kapcsolatban.

Ugyanez a dokumentum a következőket magyarázza:

„A RankEmbed modellek alapjául szolgáló adatok a kattintás és lekérdezés adatok és a weboldalak emberi értékelők általi pontozásának kombinációja.”

Kristálytiszta, hogy e konkrét szövegrész kontextusában a kattintási adatok (és az emberi értékelő adatok) AI modellek képzésére való felhasználását írja le, nem pedig a rangsorolás közvetlen befolyásolására.

Mi a helyzet a Google kattintási rangsorolási szabadalmával?

Még 2006-ban a Google szabadalmat nyújtott be a kattintásokkal kapcsolatban: A keresési eredmények rangsorának módosítása implicit felhasználói visszajelzések alapján. A találmány a kattintások összesített nyers adataiból (többes számban) „relevancia-mérték” létrehozására szolgáló matematikai képletről szól.

A szabadalom megkülönbözteti a jel létrehozását és magát a rangsorolást. A „relevancia mértéke” egy rangsoroló motorhoz kerül, amely azután hozzáadhatja a meglévő rangsorolási pontszámokhoz, hogy rangsorolja a keresési eredményeket az új kereséseknél.

Íme, amit a szabadalom leír:

„A rangsorolási alrendszer tartalmazhat egy rangmódosító motort, amely implicit felhasználói visszajelzéseket használ a keresési eredmények újrarangsorolásához a végső rangsor javítása érdekében.
egy információkereső rendszer felhasználójának bemutatva.

A felhasználók által kiválasztott keresési eredmények (kattintási adatok) nyomon követhetők, és kattintási töredékké alakíthatók, amelyek felhasználhatók a jövőbeli keresési eredmények átsorolására.”

Ez a „kattintási hányad” a relevancia mértéke. A szabadalomban leírt találmány nem a kattintás nyomon követéséről szól; a matematikai mértékről (kattintási törtről) van szó, amely az egyes kattintások összevonásából származik. Ez magában foglalja a rövid kattintást, a közepes kattintást, a hosszú kattintást és az utolsó kattintást.

Technikailag LCIC (hosszú kattintás osztva kattintással) törtnek hívják. A „kattintások” többes szám, mert a döntéseket sok kattintás összege (összesített) alapján hozza meg, nem pedig az egyes kattintások alapján.

Ez a kattintási hányad összesített, mert:

  • Összegzés:
    A rangsoroláshoz használt „első szám” egy adott lekérdezés-dokumentum pár egyéni súlyozott kattintásának összege.
  • Normalizálás:
    Kiveszi ezt az összeget, és elosztja az összes kattintás teljes számával (a „második szám”).
  • Statisztikai simítás:
    A rendszer „simító tényezőket” alkalmaz erre az összesített számra, hogy biztosítsa, hogy egy „ritka” lekérdezésre egyetlen kattintás ne torzítsa el igazságtalanul az eredményeket, különösen a spamküldők esetében.

A 2006-os szabadalom a következőképpen írja le a súlyozási képletet:

„Az alap LCC kattintási töredék a következőképpen definiálható:

LCC_BASE=[#WC(Q,D)]/[#C(QD)+S0)[#C(QD)+S0)

ahol iWC(QD) a súlyozott kattintások összege egy lekérdezési URL… pár esetén, iC(QD) a kattintások teljes száma (sorrendi szám, nem súlyozva) a lekérdezés-URL párnál, S0 pedig egy simító tényező.”

Ez a képlet leírja a sok felhasználó adatainak összegzését és felosztását, hogy egyetlen pontszámot hozzon létre egy dokumentumhoz. A „lekérdezés-URL” pár egy olyan adatgyűjtő, amely minden olyan felhasználó kattintási viselkedését tárolja, aki valaha beírta az adott lekérdezést, és rákattintott az adott keresési eredményre. A simító tényező a levélszemét-ellenes rész, amely magában foglalja a ritka keresési lekérdezések egyetlen kattintásának figyelmen kívül hagyását.

Még 2006-ban is a kattintások csak nyers adatok, amelyek az összesítés több szakaszán keresztül tovább alakulnak a láncban a relevancia statisztikai mérőszámává, mielőtt elérnék a rangsorolási szakaszt. Ebben a szabadalomban maguk a kattintások nem rangsorolási tényezők, amelyek közvetlenül befolyásolják, hogy egy webhely rangsorolva van-e vagy sem. Ezeket összesítve használták a relevancia mértékeként, amelyet viszont egy másik motorba tápláltak be a rangsoroláshoz.

Mire az információ eléri a rangsoroló motort, a nyers adatok az egyéni felhasználói műveletekből a relevancia összesített mértékévé alakulnak.

  • A kattintásokról a rangsoroláshoz kapcsolódóan gondolkodni nem olyan egyszerű, mint a kattintások a keresési rangsoroláshoz.
  • A kattintások csak nyers adatok.
  • A kattintásokat az AI-rendszerek, például a RankEmbedBert betanítására használják.
  • A kattintások közvetlenül nem befolyásolják a keresési eredményeket. Mindig is nyers adatok voltak, a kiindulópontja azoknak a rendszereknek, amelyek az adatokat összesítve használják fel egy jel létrehozására, amelyet aztán a Google rangsoroló döntéshozó rendszereibe kevernek.
  • Tehát igen, az emberi értékelő adatokhoz hasonlóan a nyers adatokat is feldolgozzák a jel létrehozása vagy az AI-rendszerek betanítása céljából.

Olvassa el a DOJ memorandumát PDF formátumban itt.

Olvasson négy kutatási cikkről a CTR-ről.

Olvassa el a Google 2006-os szabadalmát, A keresési eredmények rangsorának módosítása implicit felhasználói visszajelzések alapján.

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.