A Google munkatársai, Gary Ilyes és Martin Splitt megvitatták a Googlebot feltérképezési korlátait, további részleteket adva arról, hogy miért léteznek korlátok, és új információkat árultak el arról, hogyan lehet ezeket a korlátokat felfelé vagy lecsökkenteni az igények függvényében, és mit kell elérni.
Részletek a Googlebot korlátozásairól
Gary Illyes részleteket osztott meg arról, hogy mi történik a Google kulisszái mögött, amelyek a különböző feltérképezési korlátokat szabályozzák, kezdve a Googlebot 15 megabájtos korlátjával.
Azt mondta, hogy a Google-on belül minden feltérképező robot rendelkezik 15 megabájtos korláttal, és kifejezetten azt mondta, hogy ez a korlát felülbírálható vagy kikapcsolható. Valójában azt mondta, hogy a Google-on belüli csapatok rendszeresen felülírják ezt a határt. A Google Search példáját használta, amely felülírja ezt a korlátot azzal, hogy két megabájtra csökkenti.
Illyés elmagyarázta:
„Úgy értem, van egy csomó dolog, ami a saját védelmünket vagy az infrastruktúránk védelmét szolgálja. Például a hírhedt 15 megabájtos alapértelmezett korlát, amelyet az infrastruktúra szintjén állítanak be.
És alapvetően minden olyan bejáró, amely nem írja felül ezt a beállítást, 15 megabájtos korláttal rendelkezik. Alapvetően elkezdi lekérni a bájtokat a szerverről vagy bármiről, amit a szerver küld. És akkor van egy belső számláló. Aztán amikor elérte a 15 megabájtot, akkor gyakorlatilag leállítja a bájtok fogadását.
Nem tudom, hogy ez megszakítja-e a kapcsolatot vagy sem. Szerintem ez nem zárja le a kapcsolatot. Csak azt a választ küldi a szervernek, hogy rendben, most leállíthatod. jól vagyok.
De az egyes csapatok ezt felülírhatják. És ez megtörténik. Eléggé előfordul. És például a Google Keresőnél, konkrétan a Google keresésnél a korlátot két megabájtra írják felül.”
A Googlebot korlátai az infrastruktúra védelmét szolgálják
Illyes ezután megosztott egy példát, ahol a 15 megabájtos korlát felülírása megnöveli a feltérképezési korlátot, ebben az esetben a PDF-ek esetében. Itt említi a Googlebot korlátait azzal összefüggésben, hogy megvédi a Google infrastruktúráját a túl sok adattól.
További részleteket közölt:
„Nos, többnyire mindent. Például a PDF-eknél ez, nem tudom, 64-es, vagy bármi más. Mert a PDF-ek képesek, mint a HTTP szabvány, ha PDF-ként exportálod, azt hiszem, azt mondtad, hogy ha PDF-ként exportálod, akkor 96 megabájt vagy ilyesmi.
De ez azt jelenti, hogy túlterhelné az infrastruktúránkat, ha lekérnénk az egészet, majd konvertálnánk HTML-be, bla, bla, majd elkezdnénk feldolgozni.
Olyan, mintha elsöprő lenne, mert rengeteg adat van benne.És ugyanez vonatkozik a HTML-re is. Ez a HTML életszínvonala. Mintha 14 megabájtja lenne, azt nem fogjuk lekérni. Az egyes oldalakat fogjuk lekérni, mert szerencsére nekik is volt elég agyi erejük ahhoz, hogy a HTML egyes funkcióihoz külön oldalak legyenek. Le tudjuk tölteni ezeket az oldalakat, de a HTML-szabvány 14 megabájtos egylapozójából semmi hasznosat nem kapunk.”
A többi Google feltérképező robotnak más korlátai vannak
Ezen a ponton Illyes felfedte, hogy más Google-robotoknak eltérő korlátai vannak, és hogy a dokumentált korlátok nem szigorúak a Google összes feltérképező robotjára vonatkozóan.
Így folytatta:
„Tehát igen, és a többi bejárón soha nem dolgoztam más bejárókon, de biztos vagyok benne, hogy más bejárókon más beállítások vannak. El tudnám képzelni, hogy például akár az egyes projektekben is különböző beállítások lehetnek ugyanarra a dologra.
Például el tudom képzelni, hogy ha valamit nagyon gyorsan kell indexelnünk, akkor a csonkolási határ például egy megabájt lehet. Nem tudom, hogy így van-e, de el tudom képzelni, hogy így van. Mert ha másodperceken belül át kell nyomni valamit az indexelési folyamaton, akkor könnyebb kezelni a kevés adatot.”
A Google feltérképező infrastruktúrája nem monolitikus
A Search Off The Record epizód ezen része azzal zárult, hogy Martin Splitt megerősítette, hogy a Google feltérképező infrastruktúrája rugalmas és sokkal változatosabb, mint amit a Google dokumentációjában leírtak, mondván, hogy nem monolitikus. A monolit szó szerint hatalmas kősziklát jelent, és valami változatlan és következetes dolgot ír le. Azzal, hogy a Google feltérképező robotjai nem monolitikusak, a Splitt megerősíti, hogy rugalmasak a lekérési korlátok és egyéb konfigurációk tekintetében.
Azt is nullázta, hogy a Google feltérképező infrastruktúráját szoftverként, mint szolgáltatásként írja le.
Splitt összefoglalta az elviteleket:
„Ez igaz. Ez igaz. Általában véve hasznosnak tartom tisztázni ezt az elképzelést, hogy a feltérképezés csak olyan, mint egy monolitikus dolog. Ez inkább egy szoftver, mint szolgáltatás, amely a keresés, vagy konkrétan a webes keresés, egy kliens, és nem szereti a monolitikus dolgokat.
És ahogy mondtad, a konfiguráció változhat. Még a Googleboton belül is változhat. Ha képet keresek, valószínűleg megengedjük, hogy a képek 2 megabájtnál nagyobbak legyenek, mert a képek könnyen nagyobbak 2 megabájtnál. PDF-ek, engedélyezve 64. Bármi is van dokumentálva, a dokumentációt összekapcsoljuk. De szerintem ez teljesen logikus.
És ha úgy gondolja, hogy ez egy olyan szolgáltatás, amelyet egy csomó paraméterrel hívunk, akkor sokkal értelmesebb látni, rendben van, tehát más konfigurációk vannak. Ez a konfiguráció pedig kérésre változhat, nem feltétlenül csak like-on, a Googlebot mindig ugyanaz.”
Hallgassa meg a Search Off The Record epizódot a 20. perctől:
