A Google kiterjesztheti a nem támogatott robots.txt-szabályok listáját a dokumentációjában a HTTP-archívum segítségével gyűjtött valós robots.txt-adatok elemzése alapján.
Gary Illyes és Martin Splitt a Search Off the Record legújabb epizódjában ismertette a projektet. A munka azután kezdődött, hogy a közösség egyik tagja lekérést nyújtott be a Google robots.txt tárházához, amelyben két új címke hozzáadását javasolta a nem támogatott listára.
Illyes elmagyarázta, hogy a csapat miért bővítette ki a hatókört a PR két címkéjén túl:
„Megpróbáltuk nem önkényesen csinálni a dolgokat, hanem adatokat gyűjteni.”
Ahelyett, hogy csak a két javasolt címkét adná hozzá, a csapat úgy döntött, hogy megvizsgálja a 10 vagy 15 leggyakrabban használt nem támogatott szabályt. Illyes szerint a cél „megfelelő kiindulópont, tisztességes kiindulópont” volt a vadon leggyakoribb nem támogatott címkék dokumentálásához.
Hogyan működött a kutatás
A csapat HTTP Archívum segítségével tanulmányozta, hogy a webhelyek milyen szabályokat alkalmaznak a robots.txt fájljaikban. A HTTP Archívum havi feltérképezést hajt végre több millió URL-en a WebPageTest segítségével, és az eredményeket a Google BigQuery szolgáltatásban tárolja.
Az első próbálkozás falnak ütközött. A csapat „gyorsan rájött, hogy valójában senki sem kér robots.txt fájlokat” az alapértelmezett feltérképezés során, ami azt jelenti, hogy a HTTP Archívum adatkészletei általában nem tartalmaznak robots.txt tartalmat.
Barry Pollarddal és a HTTP Archívum közösségével folytatott konzultációt követően a csapat egy egyéni JavaScript-elemzőt írt, amely soronként kibontja a robots.txt szabályait. Az egyéni mérőszámot a februári feltérképezés előtt egyesítették, és az eredményül kapott adatok már elérhetők a BigQuery custom_metrics adatkészletében.
Mit mutatnak az adatok
Az elemző minden olyan sort kivont, amely egy mező-kettőspont-érték mintának felelt meg. Illyes leírta a kapott eloszlást:
„Az engedélyezés és tiltás, valamint a felhasználói ügynök után a visszaesés rendkívül drasztikus.”
E három mezőn túl a szabályhasználat a kevésbé gyakori direktívák hosszú farkába esik, plusz a hibás fájlokból származó kéretlen adatokra, amelyek egyszerű szöveg helyett HTML-t adnak vissza.
A Google jelenleg négy mezőt támogat a robots.txt fájlban. Ezek a mezők: user-agent, enable, disallow és sitemap. A dokumentáció szerint más mezők „nem támogatottak”, anélkül, hogy felsorolnák, mely nem támogatott mezők a leggyakoribbak a vadonban.
A Google tisztázta, hogy a nem támogatott mezőket figyelmen kívül hagyja. A jelenlegi projekt kiterjeszti ezt a munkát azáltal, hogy meghatározza a Google által dokumentálni kívánt konkrét szabályokat.
A 10-15 leggyakrabban használt szabály a négy támogatott mezőn túl várhatóan felkerül a Google nem támogatott szabályok listájára. Illyes nem említett konkrét szabályokat, amelyek belekerülnének.
A típushiba-tűrés bővülhet
Illyes szerint az elemzés során a tiltó szabály gyakori elírásai is felszínre kerültek:
„Valószínűleg bővíteni fogom az általunk elfogadott elírási hibákat.”
A megfogalmazása arra utal, hogy az elemző már elfogad néhány elírást. Illyes nem kötelezte el magát egy idővonal mellett, és nem nevez meg konkrét elírási hibákat.
Miért számít ez?
A Search Console már megjelenít néhány fel nem ismert robots.txt címkét. Ha a Google több nem támogatott direktívát dokumentál, akkor a nyilvános dokumentációja jobban tükrözheti azokat az ismeretlen címkéket, amelyeket az emberek már látnak a Search Console-ban.
Előre tekintve
A tervezett frissítés hatással lesz a Google nyilvános dokumentációjára és a tiltó elírások kezelésére. Bárki, aki olyan robots.txt fájlt karbantart, amely a felhasználói ügynökön, engedélyezésen, tiltáson és webhelytérképen túlmutató szabályokat is tartalmaz, ellenőriznie kell azokat az utasításokat, amelyek soha nem működtek a Google számára.
A HTTP-archívum adatai nyilvánosan lekérdezhetők a BigQuery szolgáltatásban mindenki számára, aki közvetlenül szeretné megvizsgálni a terjesztést.
