Miért indexeli a Google a blokkolt weboldalakat?

Peter

A Google munkatársa, John Mueller válaszolt arra a kérdésre, hogy a Google miért indexeli azokat az oldalakat, amelyek feltérképezését a robots.txt nem engedélyezi, és miért biztonságos figyelmen kívül hagyni a Search Console kapcsolódó jelentéseit ezekről a feltérképezésekről.

Bot forgalom a lekérdezési paraméter URL-jére

A kérdést feltevő Rick Horst (LinkedIn-profil) dokumentálta, hogy a robotok nem létező lekérdezési paraméter-URL-ekre (?q=xyz) mutató hivatkozásokat hoztak létre olyan oldalakra, amelyek noindex metacímkéket tartalmaznak, amelyek szintén le vannak tiltva a robots.txt fájlban. A kérdést az adta, hogy a Google feltérképezi az ezekre az oldalakra mutató linkeket, és a robots.txt blokkolja őket (anélkül, hogy látna egy noindex robots metacímkét), majd a Google Search Console az „Indexelt, bár a robots.txt által blokkolva” jelzést kap.

A személy a következő kérdést tette fel:

„De itt a nagy kérdés: miért indexelné a Google az oldalakat, amikor még a tartalmat sem látják? Mi ennek az előnye?”

John Mueller, a Google megerősítette, hogy ha nem tudják feltérképezni az oldalt, akkor nem látják a noindex metacímkét. Érdekes említést tesz a site:search operátorról is, és azt tanácsolja, hogy hagyja figyelmen kívül az eredményeket, mert az „átlagos” felhasználók nem látják ezeket az eredményeket.

Azt írta:

„Igen, igazad van: ha nem tudjuk feltérképezni az oldalt, akkor nem látjuk a noindexet sem. Ez azt jelenti, hogy ha nem tudjuk feltérképezni az oldalakat, akkor nem kell sokat indexelnünk. Tehát bár előfordulhat, hogy lát néhány olyan oldalt, amelyekben célzott site:-lekérdezés található, az átlagos felhasználó nem fogja látni őket, így nem foglalkoznék vele. A Noindex is rendben van (a robots.txt tiltása nélkül), ez csak azt jelenti, hogy az URL-ek feltérképezése megtörténik (és a Search Console feltérképezve/nem indexelve jelentésébe kerül – egyik állapot sem okoz problémát a webhely többi részén). . Az a fontos, hogy ne tegye őket feltérképezhetővé + indexelhetővé.”

Összefüggő: A Google emlékezteti a webhelyeket, hogy a Robots.txt fájlt használják a műveleti URL-ek blokkolására

Elvitel:

1. A webhely korlátozásának megerősítése: Keresés

Mueller válasza megerősíti a Site:search speciális keresési operátor diagnosztikai célú használatának korlátait. Ennek egyik oka az, hogy nem kapcsolódik a normál keresési indexhez, ez egy teljesen különálló dolog.

John Mueller, a Google 2021-ben így nyilatkozott a webhelykereső operátorról:

„A rövid válasz az, hogy a site: lekérdezés nem teljes, és nem használható diagnosztikai célokra.

A webhelylekérdezés egy bizonyos típusú keresés, amely az eredményeket egy bizonyos webhelyre korlátozza. Ez alapvetően csak a webhely szó, egy kettőspont, majd a webhely domainje.

Ez a lekérdezés egy adott webhelyre korlátozza az eredményeket. Ez nem az adott webhely összes oldalának átfogó gyűjteménye.”

A webhely operátora nem tükrözi a Google keresési indexét, így megbízhatatlanná teszi annak megértését, hogy a Google mely oldalakat indexelte vagy milyen megjegyzéseket indexelt. A Google egyéb speciális keresési operátoraihoz hasonlóan ezek sem megbízhatóak, mint eszközök annak megértéséhez, hogy a Google hogyan rangsorolja vagy indexeli a tartalmat.

2. A robots.txt használata nélküli Noindex címke megfelelő az ilyen helyzetekben, amikor egy bot nem létező oldalakra hivatkozik, amelyeket a Googlebot fedez fel. Azokon az oldalakon található noindex címkék, amelyeket nem blokkol a robots.txt fájl tiltása, lehetővé teszik a Google számára, hogy feltérképezze az oldalt és elolvassa a noindex direktívát, így biztosítva, hogy az oldal ne jelenjen meg a keresési indexben, ami előnyösebb, ha a cél egy oldalt a Google keresési indexéből.

3. A noindex címkét tartalmazó URL-ek „feltérképezett/nem indexelt” bejegyzést generálnak a Search Console-ban, és nincs negatív hatással a webhely többi részére.
Ezek a Search Console-bejegyzések a szándékosan letiltott oldalak kontextusában csak azt jelzik, hogy a Google feltérképezte az oldalt, de nem indexelte, lényegében azt mondják, hogy ez történt, nem pedig (ebben a konkrét összefüggésben), hogy valami hiba van, amit javítani kell.

Ez a bejegyzés akkor hasznos, ha figyelmezteti a megjelenítőket azokra az oldalakra, amelyeket véletlenül blokkolt egy noindex címke, vagy más ok miatt, amely megakadályozza az oldal indexelését. Akkor van mit vizsgálni

4. Hogyan kezeli a Googlebot a noindex címkéket tartalmazó URL-eket, amelyek feltérképezését a robots.txt tiltja, de a linkek is felfedezhetik.
Ha a Googlebot nem tud feltérképezni egy oldalt, akkor nem tudja beolvasni és alkalmazni a noindex címkét, így előfordulhat, hogy az oldal továbbra is indexelve lesz egy belső vagy külső linkről származó URL-felderítés alapján.

A Google noindex metacímkével kapcsolatos dokumentációja figyelmeztetést tartalmaz arra vonatkozóan, hogy a robots.txt segítségével letiltja azokat az oldalakat, amelyek metaadataiban noindex címkét tartalmaznak:

„A noindex szabály hatékony működéséhez az oldalt vagy az erőforrást nem blokkolhatja robots.txt fájl, és más módon is elérhetőnek kell lennie a robot számára. Ha az oldalt egy robots.txt fájl blokkolja, vagy a bejáró nem tud hozzáférni az oldalhoz, a robot soha nem fogja látni a noindex szabályt, és az oldal továbbra is megjelenhet a keresési eredmények között, például ha más oldalak hivatkoznak rá.”

5. Hogyan különböznek a webhelyen végzett keresések a szokásos keresésektől a Google indexelési folyamatában
Webhely: a keresések egy adott domainre korlátozódnak, és nem kapcsolódnak az elsődleges keresési indexhez, így nem tükrözik a Google tényleges keresési indexét, és kevésbé hasznosak az indexelési problémák diagnosztizálásában.

Olvassa el a kérdést és a választ a LinkedIn-en:

Miért indexelné a Google az oldalakat, amikor még a tartalmat sem látják?

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.