A Google elmagyarázza a Googlebot bájtkorlátait és a feltérképezési architektúrát

Peter

A Google munkatársa, Gary Illyes blogbejegyzést tett közzé, amelyben elmagyarázza a Googlebot feltérképező rendszereinek működését. A bejegyzés a bájtkorlátokról, a részleges lekérési viselkedésről és a Google feltérképezési infrastruktúrájának felépítéséről szól.

A bejegyzés a Search Off the Record podcast 105. epizódjára hivatkozik, ahol Illyes és Martin Splitt ugyanazokat a témákat tárgyalta. Illyes további részleteket ad a feltérképezési architektúráról és a bájtszintű viselkedésről.

Újdonságok

A Googlebot a megosztott platform egyik kliense

Illyes úgy írja le a Googlebotot, mint „csak felhasználója valaminek, ami egy központosított feltérképező platformra hasonlít”.

A Google Shopping, az AdSense és más termékek ugyanazon a rendszeren keresztül küldik el a feltérképezési kérelmeiket, különböző robotneveken. Minden ügyfél beállítja a saját konfigurációját, beleértve a felhasználói ügynök karakterláncot, a robots.txt tokeneket és a bájtkorlátokat.

Amikor a Googlebot megjelenik a szervernaplókban, az a Google Keresés. A többi kliens a saját bejárónevük alatt jelenik meg, amelyet a Google felsorakoztat a robotok dokumentációs webhelyén.

Hogyan működik a 2 MB-os korlát a gyakorlatban

A Googlebot akár 2 MB-ot is lekér bármely URL-hez, kivéve a PDF-eket. A PDF-ek 64 MB-os korlátot kapnak. Olyan bejárók, amelyek nem határoznak meg alapértelmezett 15 MB-os korlátot.

Illyes néhány részlettel kiegészíti a bájtszinten történõ eseményeket.

Azt mondja, hogy a HTTP-kérés fejlécei beleszámítanak a 2 MB-os korlátba. Ha egy oldal meghaladja a 2 MB-ot, a Googlebot nem utasítja el. A bejáró megáll a határértéknél, és elküldi a csonkolt tartalmat a Google indexelő rendszereinek és a Web Rendering Service (WRS) szolgáltatásnak.

Ezek a rendszerek úgy kezelik a csonkolt fájlt, mintha az teljes lenne. A 2 MB-nál régebbieket soha nem kéri le, jeleníti meg vagy indexeli.

A HTML-ben hivatkozott minden külső erőforrás, például a CSS- és JavaScript-fájlok, saját külön bájtszámlálóval kerülnek lehívásra. Ezek a fájlok nem számítanak bele a szülőoldal 2 MB-jába. A médiafájlokat, a betűtípusokat és a Google által „néhány egzotikus fájlnak” nevezett fájlokat a WRS nem tölti le.

Rendering After The Fetch

A WRS feldolgozza a JavaScriptet, és végrehajtja az ügyféloldali kódot, hogy megértse az oldal tartalmát és szerkezetét. Behúzza a JavaScript, CSS és XHR kéréseket, de nem kér képeket vagy videókat.

Illyes azt is megjegyzi, hogy a WRS állapotmentesen működik, törli a helyi tárhelyet és a munkamenet-adatokat a kérések között. A Google JavaScript-hibaelhárítási dokumentációja lefedi a JavaScript-függő webhelyekkel kapcsolatos következményeket.

Bevált gyakorlatok a limit alatt maradáshoz

A Google azt javasolja, hogy a nehéz CSS-t és JavaScriptet helyezze át külső fájlokra, mivel ezeknek saját bájtkorlátjuk van. A metacímkéknek, címcímkéknek, linkelemeknek, kanonikusoknak és strukturált adatoknak magasabban kell megjelenniük a HTML-ben. A nagy oldalakon a dokumentumban alacsonyabban elhelyezett tartalom a határérték alá esik.

Az Illyes megjelöli a beágyazott base64 képeket, a soron belüli CSS vagy JavaScript nagy blokkjait és a túlméretezett menüket, mint példákat arra, hogy az oldalakat 2 MB fölé tolja.

A 2 MB-os korlát „nincs kőbe vésve, és idővel változhat, ahogy a web fejlődik és a HTML-oldalak mérete nő.”

Miért számít ez?

A 2 MB-os és a 64 MB-os PDF-korlátot először februárban dokumentálták Googlebot-specifikus adatokként. A HTTP-archívum adatai szerint a legtöbb oldal jóval a küszöb alá esik. Ez a blogbejegyzés hozzáadja a számok mögött meghúzódó technikai kontextust.

A platform leírása elmagyarázza, hogy a különböző Google-robotok miért viselkednek eltérően a szervernaplókban, és miért tér el az alapértelmezett 15 MB a Googlebot 2 MB-os korlátjától. Ezek külön beállítások a különböző ügyfelek számára.

A HTTP-fejléc részletei fontosak a korlát közelében lévő oldalak esetében. A Google szerint a fejlécek a 2 MB-os korlát egy részét fogyasztják a HTML-adatok mellett. A legtöbb webhelyet ez nem érinti, de előfordulhat, hogy a nagy fejlécekkel és dagadt jelöléssel rendelkező oldalak hamarabb elérik a korlátot.

Előre tekintve

A Google két hónapon belül lefedi a Googlebot feltérképezési korlátait a dokumentáció frissítésével, egy podcast-epizóddal és egy dedikált blogbejegyzéssel. Illyes megjegyzése, hogy a határ idővel változhat, arra utal, hogy ezek a számok nem állandóak.

A szabványos HTML-oldalakat tartalmazó webhelyek esetében a 2 MB-os korlát nem aggodalomra ad okot. A súlyos beágyazott tartalommal, beágyazott adatokkal vagy túlméretezett navigációval rendelkező oldalaknak ellenőrizniük kell, hogy a kritikus tartalom a válasz első 2 MB-ján belül van-e.


A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.