A Google elmagyarázza a Googlebot bájtkorlátait és a feltérképezési architektúrát

A Google munkatársa, Gary Illyes blogbejegyzést tett közzé, amelyben elmagyarázza a Googlebot feltérképező rendszereinek működését. A bejegyzés a bájtkorlátokról, a részleges lekérési viselkedésről és a Google feltérképezési infrastruktúrájának felépítéséről szól.

A bejegyzés a Search Off the Record podcast 105. epizódjára hivatkozik, ahol Illyes és Martin Splitt ugyanazokat a témákat tárgyalta. Illyes további részleteket ad a feltérképezési architektúráról és a bájtszintű viselkedésről.

Újdonságok

A Googlebot a megosztott platform egyik kliense

Illyes úgy írja le a Googlebotot, mint „csak felhasználója valaminek, ami egy központosított feltérképező platformra hasonlít”.

A Google Shopping, az AdSense és más termékek ugyanazon a rendszeren keresztül küldik el a feltérképezési kérelmeiket, különböző robotneveken. Minden ügyfél beállítja a saját konfigurációját, beleértve a felhasználói ügynök karakterláncot, a robots.txt tokeneket és a bájtkorlátokat.

Amikor a Googlebot megjelenik a szervernaplókban, az a Google Keresés. A többi kliens a saját bejárónevük alatt jelenik meg, amelyet a Google felsorakoztat a robotok dokumentációs webhelyén.

Hogyan működik a 2 MB-os korlát a gyakorlatban

A Googlebot akár 2 MB-ot is lekér bármely URL-hez, kivéve a PDF-eket. A PDF-ek 64 MB-os korlátot kapnak. Olyan bejárók, amelyek nem határoznak meg alapértelmezett 15 MB-os korlátot.

Illyes néhány részlettel kiegészíti a bájtszinten történõ eseményeket.

Azt mondja, hogy a HTTP-kérés fejlécei beleszámítanak a 2 MB-os korlátba. Ha egy oldal meghaladja a 2 MB-ot, a Googlebot nem utasítja el. A bejáró megáll a határértéknél, és elküldi a csonkolt tartalmat a Google indexelő rendszereinek és a Web Rendering Service (WRS) szolgáltatásnak.

Ezek a rendszerek úgy kezelik a csonkolt fájlt, mintha az teljes lenne. A 2 MB-nál régebbieket soha nem kéri le, jeleníti meg vagy indexeli.

A HTML-ben hivatkozott minden külső erőforrás, például a CSS- és JavaScript-fájlok, saját külön bájtszámlálóval kerülnek lehívásra. Ezek a fájlok nem számítanak bele a szülőoldal 2 MB-jába. A médiafájlokat, a betűtípusokat és a Google által „néhány egzotikus fájlnak” nevezett fájlokat a WRS nem tölti le.

Rendering After The Fetch

A WRS feldolgozza a JavaScriptet, és végrehajtja az ügyféloldali kódot, hogy megértse az oldal tartalmát és szerkezetét. Behúzza a JavaScript, CSS és XHR kéréseket, de nem kér képeket vagy videókat.

Illyes azt is megjegyzi, hogy a WRS állapotmentesen működik, törli a helyi tárhelyet és a munkamenet-adatokat a kérések között. A Google JavaScript-hibaelhárítási dokumentációja lefedi a JavaScript-függő webhelyekkel kapcsolatos következményeket.

Bevált gyakorlatok a limit alatt maradáshoz

A Google azt javasolja, hogy a nehéz CSS-t és JavaScriptet helyezze át külső fájlokra, mivel ezeknek saját bájtkorlátjuk van. A metacímkéknek, címcímkéknek, linkelemeknek, kanonikusoknak és strukturált adatoknak magasabban kell megjelenniük a HTML-ben. A nagy oldalakon a dokumentumban alacsonyabban elhelyezett tartalom a határérték alá esik.

Az Illyes megjelöli a beágyazott base64 képeket, a soron belüli CSS vagy JavaScript nagy blokkjait és a túlméretezett menüket, mint példákat arra, hogy az oldalakat 2 MB fölé tolja.

A 2 MB-os korlát „nincs kőbe vésve, és idővel változhat, ahogy a web fejlődik és a HTML-oldalak mérete nő.”

Miért számít ez?

A 2 MB-os és a 64 MB-os PDF-korlátot először februárban dokumentálták Googlebot-specifikus adatokként. A HTTP-archívum adatai szerint a legtöbb oldal jóval a küszöb alá esik. Ez a blogbejegyzés hozzáadja a számok mögött meghúzódó technikai kontextust.

A platform leírása elmagyarázza, hogy a különböző Google-robotok miért viselkednek eltérően a szervernaplókban, és miért tér el az alapértelmezett 15 MB a Googlebot 2 MB-os korlátjától. Ezek külön beállítások a különböző ügyfelek számára.

A HTTP-fejléc részletei fontosak a korlát közelében lévő oldalak esetében. A Google szerint a fejlécek a 2 MB-os korlát egy részét fogyasztják a HTML-adatok mellett. A legtöbb webhelyet ez nem érinti, de előfordulhat, hogy a nagy fejlécekkel és dagadt jelöléssel rendelkező oldalak hamarabb elérik a korlátot.

Előre tekintve

A Google két hónapon belül lefedi a Googlebot feltérképezési korlátait a dokumentáció frissítésével, egy podcast-epizóddal és egy dedikált blogbejegyzéssel. Illyes megjegyzése, hogy a határ idővel változhat, arra utal, hogy ezek a számok nem állandóak.

A szabványos HTML-oldalakat tartalmazó webhelyek esetében a 2 MB-os korlát nem aggodalomra ad okot. A súlyos beágyazott tartalommal, beágyazott adatokkal vagy túlméretezett navigációval rendelkező oldalaknak ellenőrizniük kell, hogy a kritikus tartalom a válasz első 2 MB-ján belül van-e.