A kattintások mint rangsoroláshoz kapcsolódó jelzések több mint húsz éve vita tárgyát képezik, bár manapság a legtöbb keresőoptimalizáló megérti, hogy a kattintások nem közvetlen rangsorolási tényező. A kattintásokkal kapcsolatos egyszerű igazság az, hogy ezek nyers adatok, és meglepő módon az emberi értékelő pontszámaihoz hasonló módon dolgozzák fel őket.
A kattintások nyers jelek
A DOJ Antitröst memorandum 2025. szeptemberi véleménye a kattintásokat a Google által használt „nyers jelként” említi. A tartalmat és a keresési lekérdezéseket is nyers jelek közé sorolja. Ez azért fontos, mert a nyers jel a legalacsonyabb szintű adatpont, amelyet magasabb szintű rangsorolási jelekké dolgoznak fel, vagy olyan modellek betanítására használnak, mint a RankEmbed és utódja, a RankEmbedBERT.
Ezeket nyers jeleknek tekintjük, mert a következők:
- Közvetlenül megfigyelhető
- De még nem értelmezték és nem használják az edzésadatokhoz
A DOJ dokumentuma idézi James Allan professzort, aki szakértői vallomást tett a Google nevében:
„A jelek összetettsége változó. Vannak „nyers” jelek, például a kattintások száma, a weboldal tartalma és a lekérdezésben szereplő kifejezések.
…Ezek a jelek egyszerű módszerekkel hozhatók létre, mint például az előfordulások számlálása (pl. hányszor kattintottak egy weboldalra egy adott lekérdezés hatására). Id.
2859:3–2860:21 (Allan) (a Navboost jel megvitatása) „
Ezután szembeállítja a nyers jeleket a feldolgozásukkal:
„A spektrum másik végén az innovatív mélytanulási modellek állnak, amelyek olyan gépi tanulási modellek, amelyek összetett mintákat észlelnek nagy adathalmazokban.
A mély modellek hatalmas adatkészletekben találják meg és használják ki a mintákat. Magas költség mellett egyedülálló képességeket adnak hozzá.”
Allan professzor elmagyarázza, hogy a „legfelső szintű jelek” segítségével a weboldal „végső” pontszámát állítják elő, beleértve a népszerűséget és a minőséget.
A nyers jelek további feldolgozásra váró adatok
A 2025. szeptemberi trösztellenes dokumentumban a Navboost többször is szerepel népszerűségi adatként. Nem említik az egyes webhelyeken a rangsorolást befolyásoló kattintások összefüggésében.
A népszerűség és a szándék mérésének módjaként hivatkoznak rá:
„…a népszerűség a felhasználói szándék és a visszajelzési rendszerek, köztük a Navboost/Glue alapján mérve…”
És máshol, annak magyarázatával összefüggésben, hogy a Navboost egyes adatai miért vannak kiváltságosak:
„Népszerűségük a felhasználói szándék és a visszajelzési rendszerek, köztük a Navboost/Glue alapján mérve…”
Annak elmagyarázásával összefüggésben, hogy a Navboost egyes adatai miért vannak kiváltságosak:
„A javasolt jogorvoslat értelmében a Google-nak elérhetővé kell tennie a Minősített Versenyzők számára a következő adatkészleteket:
1. A GLUE statisztikai modell(ek) felépítéséhez, létrehozásához vagy működtetéséhez használt felhasználói oldali adatok;
2. A RankEmbed modell(ek) betanításához, felépítéséhez vagy működtetéséhez használt felhasználói oldali adatok; és
3. A Keresésben használt GenAI-modellek vagy bármely GenAI-termék képzési adataként használt felhasználói oldali adatok, amelyek a Keresés eléréséhez használhatók.
A Google az első két adatkészletet a keresési jelek létrehozására használja, a harmadikat pedig az AI áttekintések és (vitathatatlanul) a Gemini alkalmazás alapjául szolgáló modellek betanítására és finomítására.”
A kattintások, akárcsak az emberi értékelő pontszámai, csak egy nyers jel, amelyet az algoritmusláncban feljebb használnak az AI-modellek betanításához, hogy jobban tudják a weboldalakat a lekérdezésekhez illeszteni, vagy minőségi vagy relevanciajelzést generáljanak, amelyet aztán egy rangsoroló motor vagy egy rangmódosító motor hozzáad a többi rangsorolási jelhez.
70 napos keresési naplók
A DOJ-dokumentum 70 napos keresési naplók használatára hivatkozik. De ez csak tizenegy szó nagyobb összefüggésben.
Íme a gyakran idézett rész:
„70 nap keresési naplók plusz az emberi értékelők által generált pontszámok”
Értem, egyszerű és közvetlen. De ennek több kontextusa is van:
„A RankEmbed és későbbi iterációja, a RankEmbedBERT olyan rangsorolási modellek, amelyek két fő adatforrásra támaszkodnak: [Redacted]A 70 napos keresési naplók és az emberi értékelők által generált pontszámok százaléka, amelyeket a Google használ az organikus keresési eredmények minőségének mérésére.”
A 70 napos keresési naplók nem kattintási adatok, amelyeket a Google, az AI mód vagy a Gemini rangsorolására használnak fel. Az összesített adatok további feldolgozása speciális mesterséges intelligencia modellek, például a RankEmbedBERT képzése érdekében történik, amelyek természetes nyelvi elemzés alapján rangsorolják a weboldalakat.
A DOJ-dokumentum ezen része nem állítja, hogy a Google közvetlenül használja a kattintási adatokat a keresési eredmények rangsorolásához. Ezek olyan adatok, mint az emberi értékelő adatok, amelyeket más rendszerek használnak betanításra vagy további feldolgozásra.
Mi az a Google RankEmbed?
A RankEmbed egy természetes nyelvi megközelítés a releváns dokumentumok azonosítására és rangsorolására.
Ugyanez a DOJ-dokumentum kifejti:
„Maga a RankEmbed modell egy mesterséges intelligencia-alapú, mély tanulási rendszer, amely erősen érti a természetes nyelvet. Ez lehetővé teszi a modell számára, hogy hatékonyabban azonosítsa a legjobban lekérhető dokumentumokat, még akkor is, ha a lekérdezésből hiányoznak bizonyos kifejezések.”
Kevesebb adatra van kiképezve, mint a korábbi modellek. Az adatok részben lekérdezési kifejezésekből és weboldalpárokból állnak:
„…A RankEmbed a korábbi rangsorolási modellek betanításához használt adatok 1/100-ára van kiképezve, mégis jobb minőségű keresési eredményeket biztosít.
…A mögöttes betanítási adatok között szerepelnek a lekérdezéssel kapcsolatos információk, beleértve a Google által a lekérdezésből származó kiemelkedő kifejezéseket és az eredményül kapott weboldalakat.”
Ezek a betanítási adatok egy modell betanításához, hogy felismerje, mennyire relevánsak a lekérdezési kifejezések a weboldalakkal kapcsolatban.
Ugyanez a dokumentum a következőket magyarázza:
„A RankEmbed modellek alapjául szolgáló adatok a kattintás és lekérdezés adatok és a weboldalak emberi értékelők általi pontozásának kombinációja.”
Kristálytiszta, hogy e konkrét szövegrész kontextusában a kattintási adatok (és az emberi értékelő adatok) AI modellek képzésére való felhasználását írja le, nem pedig a rangsorolás közvetlen befolyásolására.
Mi a helyzet a Google kattintási rangsorolási szabadalmával?
Még 2006-ban a Google szabadalmat nyújtott be a kattintásokkal kapcsolatban: A keresési eredmények rangsorának módosítása implicit felhasználói visszajelzések alapján. A találmány a kattintások összesített nyers adataiból (többes számban) „relevancia-mérték” létrehozására szolgáló matematikai képletről szól.
A szabadalom megkülönbözteti a jel létrehozását és magát a rangsorolást. A „relevancia mértéke” egy rangsoroló motorhoz kerül, amely azután hozzáadhatja a meglévő rangsorolási pontszámokhoz, hogy rangsorolja a keresési eredményeket az új kereséseknél.
Íme, amit a szabadalom leír:
„A rangsorolási alrendszer tartalmazhat egy rangmódosító motort, amely implicit felhasználói visszajelzéseket használ a keresési eredmények újrarangsorolásához a végső rangsor javítása érdekében.
egy információkereső rendszer felhasználójának bemutatva.A felhasználók által kiválasztott keresési eredmények (kattintási adatok) nyomon követhetők, és kattintási töredékké alakíthatók, amelyek felhasználhatók a jövőbeli keresési eredmények átsorolására.”
Ez a „kattintási hányad” a relevancia mértéke. A szabadalomban leírt találmány nem a kattintás nyomon követéséről szól; a matematikai mértékről (kattintási törtről) van szó, amely az egyes kattintások összevonásából származik. Ez magában foglalja a rövid kattintást, a közepes kattintást, a hosszú kattintást és az utolsó kattintást.
Technikailag LCIC (hosszú kattintás osztva kattintással) törtnek hívják. A „kattintások” többes szám, mert a döntéseket sok kattintás összege (összesített) alapján hozza meg, nem pedig az egyes kattintások alapján.
Ez a kattintási hányad összesített, mert:
- Összegzés:
A rangsoroláshoz használt „első szám” egy adott lekérdezés-dokumentum pár egyéni súlyozott kattintásának összege. - Normalizálás:
Kiveszi ezt az összeget, és elosztja az összes kattintás teljes számával (a „második szám”). - Statisztikai simítás:
A rendszer „simító tényezőket” alkalmaz erre az összesített számra, hogy biztosítsa, hogy egy „ritka” lekérdezésre egyetlen kattintás ne torzítsa el igazságtalanul az eredményeket, különösen a spamküldők esetében.
A 2006-os szabadalom a következőképpen írja le a súlyozási képletet:
„Az alap LCC kattintási töredék a következőképpen definiálható:
LCC_BASE=[#WC(Q,D)]/[#C(QD)+S0)[#C(QD)+S0)
ahol iWC(QD) a súlyozott kattintások összege egy lekérdezési URL… pár esetén, iC(QD) a kattintások teljes száma (sorrendi szám, nem súlyozva) a lekérdezés-URL párnál, S0 pedig egy simító tényező.”
Ez a képlet leírja a sok felhasználó adatainak összegzését és felosztását, hogy egyetlen pontszámot hozzon létre egy dokumentumhoz. A „lekérdezés-URL” pár egy olyan adatgyűjtő, amely minden olyan felhasználó kattintási viselkedését tárolja, aki valaha beírta az adott lekérdezést, és rákattintott az adott keresési eredményre. A simító tényező a levélszemét-ellenes rész, amely magában foglalja a ritka keresési lekérdezések egyetlen kattintásának figyelmen kívül hagyását.
Még 2006-ban is a kattintások csak nyers adatok, amelyek az összesítés több szakaszán keresztül tovább alakulnak a láncban a relevancia statisztikai mérőszámává, mielőtt elérnék a rangsorolási szakaszt. Ebben a szabadalomban maguk a kattintások nem rangsorolási tényezők, amelyek közvetlenül befolyásolják, hogy egy webhely rangsorolva van-e vagy sem. Ezeket összesítve használták a relevancia mértékeként, amelyet viszont egy másik motorba tápláltak be a rangsoroláshoz.
Mire az információ eléri a rangsoroló motort, a nyers adatok az egyéni felhasználói műveletekből a relevancia összesített mértékévé alakulnak.
- A kattintásokról a rangsoroláshoz kapcsolódóan gondolkodni nem olyan egyszerű, mint a kattintások a keresési rangsoroláshoz.
- A kattintások csak nyers adatok.
- A kattintásokat az AI-rendszerek, például a RankEmbedBert betanítására használják.
- A kattintások közvetlenül nem befolyásolják a keresési eredményeket. Mindig is nyers adatok voltak, a kiindulópontja azoknak a rendszereknek, amelyek az adatokat összesítve használják fel egy jel létrehozására, amelyet aztán a Google rangsoroló döntéshozó rendszereibe kevernek.
- Tehát igen, az emberi értékelő adatokhoz hasonlóan a nyers adatokat is feldolgozzák a jel létrehozása vagy az AI-rendszerek betanítása céljából.
Olvassa el a DOJ memorandumát PDF formátumban itt.
Olvasson négy kutatási cikkről a CTR-ről.
Olvassa el a Google 2006-os szabadalmát, A keresési eredmények rangsorának módosítása implicit felhasználói visszajelzések alapján.
