Miért indexeli a Google a blokkolt weboldalakat?

A Google munkatársa, John Mueller válaszolt arra a kérdésre, hogy a Google miért indexeli azokat az oldalakat, amelyek feltérképezését a robots.txt nem engedélyezi, és miért biztonságos figyelmen kívül hagyni a Search Console kapcsolódó jelentéseit ezekről a feltérképezésekről.

Bot forgalom a lekérdezési paraméter URL-jére

A kérdést feltevő Rick Horst (LinkedIn-profil) dokumentálta, hogy a robotok nem létező lekérdezési paraméter-URL-ekre (?q=xyz) mutató hivatkozásokat hoztak létre olyan oldalakra, amelyek noindex metacímkéket tartalmaznak, amelyek szintén le vannak tiltva a robots.txt fájlban. A kérdést az adta, hogy a Google feltérképezi az ezekre az oldalakra mutató linkeket, és a robots.txt blokkolja őket (anélkül, hogy látna egy noindex robots metacímkét), majd a Google Search Console az „Indexelt, bár a robots.txt által blokkolva” jelzést kap.

A személy a következő kérdést tette fel:

„De itt a nagy kérdés: miért indexelné a Google az oldalakat, amikor még a tartalmat sem látják? Mi ennek az előnye?”

John Mueller, a Google megerősítette, hogy ha nem tudják feltérképezni az oldalt, akkor nem látják a noindex metacímkét. Érdekes említést tesz a site:search operátorról is, és azt tanácsolja, hogy hagyja figyelmen kívül az eredményeket, mert az „átlagos” felhasználók nem látják ezeket az eredményeket.

Azt írta:

„Igen, igazad van: ha nem tudjuk feltérképezni az oldalt, akkor nem látjuk a noindexet sem. Ez azt jelenti, hogy ha nem tudjuk feltérképezni az oldalakat, akkor nem kell sokat indexelnünk. Tehát bár előfordulhat, hogy lát néhány olyan oldalt, amelyekben célzott site:-lekérdezés található, az átlagos felhasználó nem fogja látni őket, így nem foglalkoznék vele. A Noindex is rendben van (a robots.txt tiltása nélkül), ez csak azt jelenti, hogy az URL-ek feltérképezése megtörténik (és a Search Console feltérképezve/nem indexelve jelentésébe kerül – egyik állapot sem okoz problémát a webhely többi részén). . Az a fontos, hogy ne tegye őket feltérképezhetővé + indexelhetővé.”

Összefüggő: A Google emlékezteti a webhelyeket, hogy a Robots.txt fájlt használják a műveleti URL-ek blokkolására

Elvitel:

1. A webhely korlátozásának megerősítése: Keresés

Mueller válasza megerősíti a Site:search speciális keresési operátor diagnosztikai célú használatának korlátait. Ennek egyik oka az, hogy nem kapcsolódik a normál keresési indexhez, ez egy teljesen különálló dolog.

John Mueller, a Google 2021-ben így nyilatkozott a webhelykereső operátorról:

„A rövid válasz az, hogy a site: lekérdezés nem teljes, és nem használható diagnosztikai célokra.

A webhelylekérdezés egy bizonyos típusú keresés, amely az eredményeket egy bizonyos webhelyre korlátozza. Ez alapvetően csak a webhely szó, egy kettőspont, majd a webhely domainje.

Ez a lekérdezés egy adott webhelyre korlátozza az eredményeket. Ez nem az adott webhely összes oldalának átfogó gyűjteménye.”

A webhely operátora nem tükrözi a Google keresési indexét, így megbízhatatlanná teszi annak megértését, hogy a Google mely oldalakat indexelte vagy milyen megjegyzéseket indexelt. A Google egyéb speciális keresési operátoraihoz hasonlóan ezek sem megbízhatóak, mint eszközök annak megértéséhez, hogy a Google hogyan rangsorolja vagy indexeli a tartalmat.

2. A robots.txt használata nélküli Noindex címke megfelelő az ilyen helyzetekben, amikor egy bot nem létező oldalakra hivatkozik, amelyeket a Googlebot fedez fel. Azokon az oldalakon található noindex címkék, amelyeket nem blokkol a robots.txt fájl tiltása, lehetővé teszik a Google számára, hogy feltérképezze az oldalt és elolvassa a noindex direktívát, így biztosítva, hogy az oldal ne jelenjen meg a keresési indexben, ami előnyösebb, ha a cél egy oldalt a Google keresési indexéből.

3. A noindex címkét tartalmazó URL-ek „feltérképezett/nem indexelt” bejegyzést generálnak a Search Console-ban, és nincs negatív hatással a webhely többi részére.
Ezek a Search Console-bejegyzések a szándékosan letiltott oldalak kontextusában csak azt jelzik, hogy a Google feltérképezte az oldalt, de nem indexelte, lényegében azt mondják, hogy ez történt, nem pedig (ebben a konkrét összefüggésben), hogy valami hiba van, amit javítani kell.

Ez a bejegyzés akkor hasznos, ha figyelmezteti a megjelenítőket azokra az oldalakra, amelyeket véletlenül blokkolt egy noindex címke, vagy más ok miatt, amely megakadályozza az oldal indexelését. Akkor van mit vizsgálni

4. Hogyan kezeli a Googlebot a noindex címkéket tartalmazó URL-eket, amelyek feltérképezését a robots.txt tiltja, de a linkek is felfedezhetik.
Ha a Googlebot nem tud feltérképezni egy oldalt, akkor nem tudja beolvasni és alkalmazni a noindex címkét, így előfordulhat, hogy az oldal továbbra is indexelve lesz egy belső vagy külső linkről származó URL-felderítés alapján.

A Google noindex metacímkével kapcsolatos dokumentációja figyelmeztetést tartalmaz arra vonatkozóan, hogy a robots.txt segítségével letiltja azokat az oldalakat, amelyek metaadataiban noindex címkét tartalmaznak:

„A noindex szabály hatékony működéséhez az oldalt vagy az erőforrást nem blokkolhatja robots.txt fájl, és más módon is elérhetőnek kell lennie a robot számára. Ha az oldalt egy robots.txt fájl blokkolja, vagy a bejáró nem tud hozzáférni az oldalhoz, a robot soha nem fogja látni a noindex szabályt, és az oldal továbbra is megjelenhet a keresési eredmények között, például ha más oldalak hivatkoznak rá.”

5. Hogyan különböznek a webhelyen végzett keresések a szokásos keresésektől a Google indexelési folyamatában
Webhely: a keresések egy adott domainre korlátozódnak, és nem kapcsolódnak az elsődleges keresési indexhez, így nem tükrözik a Google tényleges keresési indexét, és kevésbé hasznosak az indexelési problémák diagnosztizálásában.

Olvassa el a kérdést és a választ a LinkedIn-en:

Miért indexelné a Google az oldalakat, amikor még a tartalmat sem látják?