A Google azt állítja, hogy több száz dokumentálatlan feltérképező robotot telepít

Peter

A Google munkatársa, Gary Illyes és Martin Splitt podcastot tettek közzé a Googlebotról, és elmagyarázzák, hogy ez nem csak egy önálló dolog, hanem több száz feltérképező robot különböző termékeken és szolgáltatásokon, amelyek többsége nincs nyilvánosan dokumentálva.

Mi az a Googlebot

Gary tisztázza, hogy a „Googlebot” név egy történelmi név, amely a korai időkből származik, amikor a Google-nak csak egyetlen robotja volt. Ez már nem így van, mert a Google sok feltérképező robotot működtet különböző termékek között, de a Googlebot név megragadt, bár ez már nem egy dolog.

Továbbá elmagyarázza, hogy a Googlebot nem maga a feltérképező infrastruktúra, vagy nem egy egyedi rendszer. A Googlebot valójában egy olyan ügyfél, amely egy nagyobb belső feltérképezési szolgáltatással, az infrastruktúrával lép kapcsolatba.

Martin Splitt megkérdezte:

„Hogyan tudom elképzelni a Googlebotot? Hogyan néz ki nagyjából a feltérképező infrastruktúránk?”

Gary válaszolt:

„Úgy értem, hogy Googlebotnak hívták, ez téves elnevezés. És ez valami olyasmi, ami régen, talán a 2000-es évek elején, jól működött, mert akkoriban valószínűleg egy robotunk volt, mert egy termékünk volt. De aztán nem sokkal azután, hogy megjelent egy másik termék, azt hiszem, az az AdWords. Aztán elkezdtünk több feltérképező robotot, majd több terméket, majd több robotot, majd több feltérképező robotot.

De a Googlebot név valahogy megragadt. Általában, amikor általában a feltérképező infrastruktúránkról beszéltünk, akkor hajlamosak voltunk Googlebotnak hívni, de ez nagyon pontatlan volt, mert a Googlebot csak egy olyan dolog, amely kommunikált feltérképező infrastruktúránkkal.”

A feltérképező infrastruktúrának van neve

Gary ezután elmagyarázza, hogy a feltérképező infrastruktúrának van egy belső neve a Google-on belül, de nem volt hajlandó megmondani, mi ez a név.

Így folytatta:

„A Googlebot nem a mi bejáró-infrastruktúránk. A bejáró-infrastruktúránknak nincs külső neve. Van belső neve. Nem számít, mi az. Nevezzük Jacknek. És az, nem tudom, hogyan kell megfogalmazni. Ez egy szoftver, mint szolgáltatás, ha úgy tetszik. SaaS. Ugye, tehát a Jack-nek vannak API-végpontjai, hogy úgy mondjam. És akkor a végpontokból hívhatja az internetes API-t.

És amikor ezeket az API-hívásokat végrehajtja, meg kell adnia néhány paramétert is, például, hogy mennyi ideig hajlandó várni, a bájtok visszatérésére vagy mi az a felhasználói ügynök, amelyet el szeretne küldeni? Mi az a robots.txt terméktoken, amelynek engedelmeskedni szeretne, és mindezen paraméterek.

És beállítunk egy alapértelmezett paramétert a legtöbb dologhoz, nem mindegyikhez, de a legtöbbhez. Tehát általában kihagyhatod őket, ami szerintem egyszerűbbé teszi ezeket a hívásokat, mert nem kell minden dolgot megadnod. De egyébként ez tényleg csak egy API-hívás valamire a felhőben vagy valamilyen véletlenszerű adatközpontban. És akkor ez végrehajtja a letöltést Önnek, mint szoftverfejlesztőnek vagy terméknek.

Tehát ez a termék, mert jelenleg terméknek nevezhetjük, még ha belső is, ez már nagyon-nagyon-nagyon-nagyon régóta létezik. …De lényegében mindig ugyanazt csinálta. Alapvetően az a lényeg, hogy elmondod, lekérsz valamit az internetről anélkül, hogy megszakítanád az internetet. És akkor ezt megteszi, ha az oldal korlátozásai ezt lehetővé teszik. Ennyi. Mintha egy mondatban akarnám megfogalmazni, az lenne az.”

Több száz keresőrobot, amelyet keresőoptimalizáló nem ismer

Nem minden Googlebot robot van dokumentálva, sok olyan van, amelyről a keresőoptimalizálók nem tudnak. Gary elmondta, hogy sok belső Google-csapat különböző célokra használja a feltérképező infrastruktúrát. Azt mondta, hogy potenciálisan több tucat vagy száz belső bejáró létezik, de csak a fő bejárók vannak nyilvánosan dokumentálva.

A kisebb vagy kis volumenű bejárókat gyakorlati korlátok miatt gyakran nem dokumentálják, de ha egy bejáró elég nagy lesz, akkor felülvizsgálható és dokumentálható.

Gary folytatta a több ügyfél (feltérképező robot) témáját:

„…megpróbáljuk dokumentálni ezek nagy részét, de a Google egy nagy cég, így sok csapat van, amelyik az internetről szeretne letölteni. Tehát sok a bejáró, sok a névvel ellátott bejáró, ami azt jelenti, hogy több tucat, ha nem több száz különböző bejárót vagy speciális bejárót vagy letöltést kell dokumentálnunk.”

Gary elmagyarázza, hogy a több száz bejáró dokumentálása nem kivitelezhető.

„És egy egyszerű HTML-oldalon ez valahogy kivitelezhetetlen. Tehát megpróbálunk egy vonalat húzni, és azt mondjuk, hogy ha a bejáró nagyon kicsi, vagyis nem tölt le túl sokat az internetről, akkor igyekszünk nem dokumentálni, mert a bejáró webhelyen lévő ingatlanok, a developers.google.com slash crawlerek valójában meglehetősen értékesek.

Megpróbálhatnánk ezt másként kezelni, de jelenleg alapvetően csak a nagyobb bejárók, speciális bejárók és letöltések vannak dokumentálva, mert szó szerint a helyhiány miatt.

Különbség a feltérképezők és a lekérők között

Gary elmagyarázza, hogy vannak olyan feltérképező robotok és lekérők, amelyek a Googlebot kategóriába tartoznak, de valójában más dolgok.

Elmagyarázza, mi a különbség:

„Tehát a legegyszerűbb módja annak, hogy elmagyarázzuk, hogy a feltérképező robotok kötegben végzik a munkát, majd a lekérők egyéni URL-ek alapján dolgoznak, ami azt jelenti, hogy megadsz egy URL-t a Fetchernek, és az csak egy URL-t fog lekérni. Nem adhatsz neki egy listát a lekérendő URL-ekről.

A feltérképező robotok esetében ez egy állandó URL-folyam, amely folyamatosan fut a csapata számára, és lekéri a csapatot az internetről.

És belsőleg is megvan ez a házirend, amely szerint a lekéréseknek valamilyen módon a felhasználó által irányítottnak kell lenniük. Alapvetően van valaki a másik oldalon, aki a fogadó válaszára vár.

Míg a bejárókkal olyan, mintha csak akkor csinálnád, amikor van időd.”

Martin és Gary azt mondják, hogy sok olyan bejárót és lekérőt használnak belsőleg, amelyek nincsenek dokumentálva. Gary elmagyarázta, hogy van egy eszköze, amely riasztást vált ki, ha egy bejáró és lekérő átlépi a napi feltérképezések és lehívások meghatározott küszöbét, amelyet ezután követni fog a feltérképezésekért felelős csapattal, hogy lássa, mit és miért csinál, valamint ellenőrizze, hogy nem csinál-e valamit véletlenül. Ha egy robotról van szó, amely észrevehető módon sok URL-t kér le, akkor ő dönti el, hogy dokumentálja-e vagy sem, hogy a webes ökoszisztéma értesülhessen róla.

Hallgassa meg a Search Off The Record podcastot itt:

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.