Érdekes dolgokat találtam a DOJ vs. Google próba legújabb dokumentumában. A Google fellebbezett a döntés ellen, amely szerint védett információkat kell átadniuk a versenytársaknak.
Legfontosabb elvitelek:
- A Google-t arra utasították, hogy adjon információkat a versenytársaknak, hogy ne legyen illegális monopólium. A Google nem akarja kiadni kiterjedt felhasználói oldali adatait.
- A Google oldal minőségére és frissességére vonatkozó adatai védettek. Nem akarják odaadni.
- Az indexelt oldalak megjegyzésekkel vannak megjelölvebeleértve a spam oldalakat azonosító jeleket.
- Ha a spamküldők megragadják ezeket a spamjeleket, az megnehezítené a levélszemét megállítását.
- A felhasználói adatok fontosak a Google Glue rendszerében amely információkat tárol minden keresett lekérdezésről, arról, hogy mit látott a felhasználó, és hogyan reagált a keresési eredményekre.
- A felhasználói adatok fontosak a RankEmbed BERT képzéséhez – az egyik mély tanulási rendszer a Search mögött.
Oké, térjünk rá az érdekes dolgokra!
A Google saját oldalminőségi és frissességi jelekkel rendelkezik
Ez tényleg nem meglepetés. Érdekesnek találtam, hogy a frissesség jelei a Google saját titkainak középpontjában állnak.

Ismét itt van még többet a Google szabadalmaztatott frissességi jelzéseinek fontosságáról:

A feltérképezett oldalakat „Tulajdonjogosult oldalmagyarázó megjegyzésekkel” jelölik
A Google indexében minden oldal megjegyzésekkel van megjelölve, hogy segítse az oldal megértését. Ide tartoznak a spam és az ismétlődő oldalak azonosítására szolgáló jelek. Korábban már írtam arról, hogyan az index minden oldala rendelkezik spam-pontszámmal.

A levélszemét-pontszámokat fel lehet használni a mérnöki rangsorolási rendszerek visszafordításához
A Google nem akar információkat megosztani versenytársaival ezekről a pontszámokról.

Ha a spam pontszámok kikerülnek, az több spamhez vezethet, és a Google számára nehezebb lesz a spam elleni küzdelem.

A Google ezekből a megjelölt oldalakból állítja össze az indexet
Azok az oldalak, amelyekhez a Google oldalértelemző megjegyzéseket adott hozzá, aszerint vannak rendezve, hogy a Google elvárásai szerint milyen gyakran kell majd elérni a tartalmat, és mennyire frissnek kell lennie a tartalomnak.

Csak az oldalak töredéke kerül be a Google indexébe
A Google azzal érvel, hogy az indexelt URL-ek listájának megadása a versenytársaknak lehetővé teszi számukra, hogy „elhagyjanak a nagyobb web feltérképezéséről és elemzéséről, és ehelyett a Google által az indexébe felvett oldalak töredékének feltérképezésére összpontosítsák erőfeszítéseiket”. Ennek az indexnek az elkészítése rengeteg időbe és pénzbe kerül a Google-nak. Ezt nem akarják ingyen adni.

A felhasználói adatok szerepe a Google rangsorolási rendszerében
Ez a legérdekesebb rész. Úgy érzem, nem fordítunk kellő figyelmet arra, hogy a Google hogyan használja fel a felhasználói adatokat. (Maradjon velünk YouTube csatorna mivel hamarosan kiadok egy nagyon érdekes videót arról, hogy a felhasználói oldali adatok mennyire fontosak – valószínűleg ez a LEGFONTOSABB tényező a Google rangsorolási rendszerében.)
A felhasználói adatokat GLUE és RankEmbed modellek készítéséhez használják fel
A Google Glue a felhasználói tevékenységek hatalmas táblázata. Összegyűjti a keresett lekérdezések szövegét, a felhasználó nyelvét, tartózkodási helyét és eszköztípusát, valamint információkat arról, hogy mi jelent meg a SERP-n, mire kattintott a felhasználó, mire vitte az egérmutatót, mennyi ideig tartózkodott a SERP-n stb.
A RankEmbed BERT még érdekesebb. A RankEmbed BERT az egyik mély tanulási rendszer, amely alátámasztja a keresést. A Pandu Nayak tanúvallomásból megtudtuk, hogy a RankEmbed BERT-et a hagyományos rangsorolási rendszerek által visszaadott eredmények átsorolására használják. A RankEmbed BERT képzésben részesül a tényleges felhasználók kattintási és lekérdezési adataiban.
A keresés mögött álló mesterséges intelligencia-rendszerek folyamatosan tanulnak, hogy javítsák a keresők számára kielégítő eredményeket. A Google megvizsgálja, hogy mire kattintanak, és hogy visszatérnek-e a SERP-hez vagy sem. A Google élő kísérleteket is futtat, amelyek azt vizsgálják, hogy a keresők mire kattintanak, és mire maradnak. Ezek a műveletek segítenek a RankEmbed BERT képzésében. A minőséget értékelők értékelései tovább finomítják. Hamarosan többet publikálok erről. A kiinduló pont, amelyre szeretnék rávilágítani, az az, hogy a felhasználói elégedettség messze a legfontosabb dolog, amire optimalizálnunk kell!
A Liz Reid-dokumentumból, amelyet ma elemzünk, láthatjuk, hogy a felhasználói adatokat a RankEmbed modellek betanításához, felépítéséhez és működtetéséhez használják fel.

Ismét megtudjuk, hogy a modellek betanításához használt felhasználói adatok magukban foglalják a lekérdezést, a helyet, a keresés idejét, valamint azt, hogy a felhasználó hogyan lépett kapcsolatba a számukra megjelenítettekkel.

Ez azokról a műveletekről szól, amelyeket a felhasználók a Google Keresés találatai között hajtanak végre. Amit igazán tudni szeretnék, az az, hogy a Chrome-adatok mekkora szerepet töltenek be. A Google megvizsgálja, hogy az emberek foglalkoznak-e az oldalaival, kitöltik-e az űrlapjait, elkészítik-e a receptjeit és így tovább? Szerintem igen. A a tárgyalás ítéletének összefoglalója utal arra, hogy Chrome-adatokat használnak a rangsorolási rendszerekben, de nem sok részletet osztanak meg.

A Google azt mondja, hogy ha valakinek megvan a ragasztója, és beágyazhatná a felhasználói adatokat, kiképezhetne egy LLM-et.
Ezek a felhasználói adatok a Google sikerének kulcsa.

Érdemes az egészet elolvasni Liz Reid nyilatkozata.
Ez a bejegyzés eredetileg a Marie Haynes Consulting oldalon jelent meg.
