A Google kibővítheti a nem támogatott Robots.txt szabályok listáját

A Google kiterjesztheti a nem támogatott robots.txt-szabályok listáját a dokumentációjában a HTTP-archívum segítségével gyűjtött valós robots.txt-adatok elemzése alapján.

Gary Illyes és Martin Splitt a Search Off the Record legújabb epizódjában ismertette a projektet. A munka azután kezdődött, hogy a közösség egyik tagja lekérést nyújtott be a Google robots.txt tárházához, amelyben két új címke hozzáadását javasolta a nem támogatott listára.

Illyes elmagyarázta, hogy a csapat miért bővítette ki a hatókört a PR két címkéjén túl:

„Megpróbáltuk nem önkényesen csinálni a dolgokat, hanem adatokat gyűjteni.”

Ahelyett, hogy csak a két javasolt címkét adná hozzá, a csapat úgy döntött, hogy megvizsgálja a 10 vagy 15 leggyakrabban használt nem támogatott szabályt. Illyes szerint a cél „megfelelő kiindulópont, tisztességes kiindulópont” volt a vadon leggyakoribb nem támogatott címkék dokumentálásához.

Hogyan működött a kutatás

A csapat HTTP Archívum segítségével tanulmányozta, hogy a webhelyek milyen szabályokat alkalmaznak a robots.txt fájljaikban. A HTTP Archívum havi feltérképezést hajt végre több millió URL-en a WebPageTest segítségével, és az eredményeket a Google BigQuery szolgáltatásban tárolja.

Az első próbálkozás falnak ütközött. A csapat „gyorsan rájött, hogy valójában senki sem kér robots.txt fájlokat” az alapértelmezett feltérképezés során, ami azt jelenti, hogy a HTTP Archívum adatkészletei általában nem tartalmaznak robots.txt tartalmat.

Barry Pollarddal és a HTTP Archívum közösségével folytatott konzultációt követően a csapat egy egyéni JavaScript-elemzőt írt, amely soronként kibontja a robots.txt szabályait. Az egyéni mérőszámot a februári feltérképezés előtt egyesítették, és az eredményül kapott adatok már elérhetők a BigQuery custom_metrics adatkészletében.

Mit mutatnak az adatok

Az elemző minden olyan sort kivont, amely egy mező-kettőspont-érték mintának felelt meg. Illyes leírta a kapott eloszlást:

„Az engedélyezés és tiltás, valamint a felhasználói ügynök után a visszaesés rendkívül drasztikus.”

E három mezőn túl a szabályhasználat a kevésbé gyakori direktívák hosszú farkába esik, plusz a hibás fájlokból származó kéretlen adatokra, amelyek egyszerű szöveg helyett HTML-t adnak vissza.

A Google jelenleg négy mezőt támogat a robots.txt fájlban. Ezek a mezők: user-agent, enable, disallow és sitemap. A dokumentáció szerint más mezők „nem támogatottak”, anélkül, hogy felsorolnák, mely nem támogatott mezők a leggyakoribbak a vadonban.

A Google tisztázta, hogy a nem támogatott mezőket figyelmen kívül hagyja. A jelenlegi projekt kiterjeszti ezt a munkát azáltal, hogy meghatározza a Google által dokumentálni kívánt konkrét szabályokat.

A 10-15 leggyakrabban használt szabály a négy támogatott mezőn túl várhatóan felkerül a Google nem támogatott szabályok listájára. Illyes nem említett konkrét szabályokat, amelyek belekerülnének.

A típushiba-tűrés bővülhet

Illyes szerint az elemzés során a tiltó szabály gyakori elírásai is felszínre kerültek:

„Valószínűleg bővíteni fogom az általunk elfogadott elírási hibákat.”

A megfogalmazása arra utal, hogy az elemző már elfogad néhány elírást. Illyes nem kötelezte el magát egy idővonal mellett, és nem nevez meg konkrét elírási hibákat.

Miért számít ez?

A Search Console már megjelenít néhány fel nem ismert robots.txt címkét. Ha a Google több nem támogatott direktívát dokumentál, akkor a nyilvános dokumentációja jobban tükrözheti azokat az ismeretlen címkéket, amelyeket az emberek már látnak a Search Console-ban.

Előre tekintve

A tervezett frissítés hatással lesz a Google nyilvános dokumentációjára és a tiltó elírások kezelésére. Bárki, aki olyan robots.txt fájlt karbantart, amely a felhasználói ügynökön, engedélyezésen, tiltáson és webhelytérképen túlmutató szabályokat is tartalmaz, ellenőriznie kell azokat az utasításokat, amelyek soha nem működtek a Google számára.

A HTTP-archívum adatai nyilvánosan lekérdezhetők a BigQuery szolgáltatásban mindenki számára, aki közvetlenül szeretné megvizsgálni a terjesztést.