A Google kibővítheti a nem támogatott Robots.txt szabályok listáját

Peter

A Google kiterjesztheti a nem támogatott robots.txt-szabályok listáját a dokumentációjában a HTTP-archívum segítségével gyűjtött valós robots.txt-adatok elemzése alapján.

Gary Illyes és Martin Splitt a Search Off the Record legújabb epizódjában ismertette a projektet. A munka azután kezdődött, hogy a közösség egyik tagja lekérést nyújtott be a Google robots.txt tárházához, amelyben két új címke hozzáadását javasolta a nem támogatott listára.

Illyes elmagyarázta, hogy a csapat miért bővítette ki a hatókört a PR két címkéjén túl:

„Megpróbáltuk nem önkényesen csinálni a dolgokat, hanem adatokat gyűjteni.”

Ahelyett, hogy csak a két javasolt címkét adná hozzá, a csapat úgy döntött, hogy megvizsgálja a 10 vagy 15 leggyakrabban használt nem támogatott szabályt. Illyes szerint a cél „megfelelő kiindulópont, tisztességes kiindulópont” volt a vadon leggyakoribb nem támogatott címkék dokumentálásához.

Hogyan működött a kutatás

A csapat HTTP Archívum segítségével tanulmányozta, hogy a webhelyek milyen szabályokat alkalmaznak a robots.txt fájljaikban. A HTTP Archívum havi feltérképezést hajt végre több millió URL-en a WebPageTest segítségével, és az eredményeket a Google BigQuery szolgáltatásban tárolja.

Az első próbálkozás falnak ütközött. A csapat „gyorsan rájött, hogy valójában senki sem kér robots.txt fájlokat” az alapértelmezett feltérképezés során, ami azt jelenti, hogy a HTTP Archívum adatkészletei általában nem tartalmaznak robots.txt tartalmat.

Barry Pollarddal és a HTTP Archívum közösségével folytatott konzultációt követően a csapat egy egyéni JavaScript-elemzőt írt, amely soronként kibontja a robots.txt szabályait. Az egyéni mérőszámot a februári feltérképezés előtt egyesítették, és az eredményül kapott adatok már elérhetők a BigQuery custom_metrics adatkészletében.

Mit mutatnak az adatok

Az elemző minden olyan sort kivont, amely egy mező-kettőspont-érték mintának felelt meg. Illyes leírta a kapott eloszlást:

„Az engedélyezés és tiltás, valamint a felhasználói ügynök után a visszaesés rendkívül drasztikus.”

E három mezőn túl a szabályhasználat a kevésbé gyakori direktívák hosszú farkába esik, plusz a hibás fájlokból származó kéretlen adatokra, amelyek egyszerű szöveg helyett HTML-t adnak vissza.

A Google jelenleg négy mezőt támogat a robots.txt fájlban. Ezek a mezők: user-agent, enable, disallow és sitemap. A dokumentáció szerint más mezők „nem támogatottak”, anélkül, hogy felsorolnák, mely nem támogatott mezők a leggyakoribbak a vadonban.

A Google tisztázta, hogy a nem támogatott mezőket figyelmen kívül hagyja. A jelenlegi projekt kiterjeszti ezt a munkát azáltal, hogy meghatározza a Google által dokumentálni kívánt konkrét szabályokat.

A 10-15 leggyakrabban használt szabály a négy támogatott mezőn túl várhatóan felkerül a Google nem támogatott szabályok listájára. Illyes nem említett konkrét szabályokat, amelyek belekerülnének.

A típushiba-tűrés bővülhet

Illyes szerint az elemzés során a tiltó szabály gyakori elírásai is felszínre kerültek:

„Valószínűleg bővíteni fogom az általunk elfogadott elírási hibákat.”

A megfogalmazása arra utal, hogy az elemző már elfogad néhány elírást. Illyes nem kötelezte el magát egy idővonal mellett, és nem nevez meg konkrét elírási hibákat.

Miért számít ez?

A Search Console már megjelenít néhány fel nem ismert robots.txt címkét. Ha a Google több nem támogatott direktívát dokumentál, akkor a nyilvános dokumentációja jobban tükrözheti azokat az ismeretlen címkéket, amelyeket az emberek már látnak a Search Console-ban.

Előre tekintve

A tervezett frissítés hatással lesz a Google nyilvános dokumentációjára és a tiltó elírások kezelésére. Bárki, aki olyan robots.txt fájlt karbantart, amely a felhasználói ügynökön, engedélyezésen, tiltáson és webhelytérképen túlmutató szabályokat is tartalmaz, ellenőriznie kell azokat az utasításokat, amelyek soha nem működtek a Google számára.

A HTTP-archívum adatai nyilvánosan lekérdezhetők a BigQuery szolgáltatásban mindenki számára, aki közvetlenül szeretné megvizsgálni a terjesztést.


A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.