A Google Mueller elmagyarázza a „Tartalom nélkül indexelt oldal” hibát

John Mueller, a Google keresési tanácsadója válaszolt a Search Console „Oldalindexelve tartalom nélkül” hibájával kapcsolatos kérdésre, és kifejtette, hogy a probléma jellemzően a szerver- vagy CDN-blokkolásból ered, nem pedig a JavaScriptből.

A cserére a Redditen került sor, miután egy felhasználó bejelentette, hogy honlapja az 1. pozícióból a 15. pozícióba esett a hiba megjelenését követően.

Mi történik?

Mueller tisztázott egy általános tévhitet a Search Console-ban az „Oldal indexelve tartalom nélkül” okáról.

Mueller írta:

„Általában ez azt jelenti, hogy a szervere/CDN-je blokkolja a Google-t abban, hogy bármilyen tartalmat fogadjon. Ez nem kapcsolódik semmi JavaScripthez. Ez általában meglehetősen alacsony szintű blokkolás, néha a Googlebot IP-címe alapján, így valószínűleg lehetetlen lesz tesztelni a Search Console tesztelőeszközein kívülről.”

A Reddit felhasználó már több diagnosztikai lépést is megkísérelt. Curl parancsokat futtattak az oldal lekérésére Googlebotként, ellenőrizték a JavaScript-blokkolást, és tesztelték a Google Rich Results Testével. Az asztali ellenőrző eszközök „Valami elromlott” hibákat adtak vissza, miközben a mobileszközök megfelelően működtek.

Mueller megjegyezte, hogy a szabványos külső tesztelési módszerek nem fogják fel ezeket a blokkokat.

Hozzátette:

„Ez azt is jelentené, hogy webhelyének oldalai (hamarosan vagy már) kiesnek az indexből, ezért célszerű ezt sürgős dologként kezelni.”

Az érintett webhely a Webflow-t használja CMS-ként és a Cloudflare-t CDN-ként. A felhasználó arról számolt be, hogy a kezdőlap normál módon indexelve volt, a webhelyen a közelmúltban nem történt változás.

Miért számít ez?

Az évek során többször is foglalkoztam ezzel a típusú problémával. A CDN- és szerverkonfigurációk véletlenül blokkolhatják a Googlebotot anélkül, hogy ez befolyásolná a normál felhasználókat vagy a szabványos tesztelőeszközöket. A blokkok gyakran meghatározott IP-tartományokat céloznak meg, ami azt jelenti, hogy a curl tesztek és a harmadik féltől származó bejárók nem reprodukálják a problémát.

Akkor foglalkoztam vele, amikor a Google először hozzáadta a „tartalom nélkül indexelt” kifejezést az Indexlefedettség jelentéshez. A Google akkori súgódokumentációja megjegyezte, hogy az állapot azt jelenti, hogy „a Google valamiért nem tudta elolvasni a tartalmat”, és megadta, hogy „ez nem a robots.txt blokkolása”. A kiváltó ok szinte mindig valami alacsonyabb a veremben.

A Cloudflare részlet felkeltette a figyelmemet. Hasonló mintáról számoltam be, amikor Mueller tanácsot adott egy webhelytulajdonosnak, akinek a feltérképezése egyszerre több domainben is leállt. Az összes érintett oldal a Cloudflare-t használta, és Mueller a „megosztott infrastruktúrát” jelölte meg valószínű bűnösként. A minta itt ismerősnek tűnik.

Legutóbb egy novemberi Cloudflare-kimaradásról írtam, amely 5xx-es kiugrást váltott ki, ami befolyásolta a feltérképezést. Ez egy széles körben elterjedt esemény volt. Ez az eset célzottabbnak tűnik, valószínűleg egy botvédelmi szabály vagy tűzfalbeállítás, amely a Googlebot IP-címeit másként kezeli, mint a többi forgalom.

A Search Console URL-ellenőrző eszköze és az Élő URL-teszt továbbra is az elsődleges módszer ezeknek a blokkoknak az azonosítására. Ha ezek az eszközök hibákat adnak vissza, miközben a külső tesztek sikeresek, akkor a szerverszintű blokkolás lesz a valószínű ok. Mueller augusztusban hasonló álláspontra helyezkedett, amikor a feltérképezési gyakoriság csökkentésével kapcsolatos tanácsokat adott, és azt javasolta a webhelytulajdonosoknak, hogy „kétszer ellenőrizzék, mi is történt valójában”, és ellenőrizzék, „egy CDN-e valóban blokkolta-e a Googlebotot”.

Összefüggő: 8 gyakori Robots.txt-probléma és megoldásuk

Előre tekintve

Ha az „Oldal indexelve tartalom nélkül” hibaüzenetet látja, ellenőrizze a CDN- és a szerverkonfigurációban, hogy vannak-e olyan szabályok, amelyek befolyásolják a Googlebot IP-tartományait. A Google közzéteszi feltérképező robotjának IP-címeit, amelyek segíthetnek azonosítani, hogy a biztonsági szabályok célozzák-e őket.

A Search Console URL-ellenőrző eszköze a legmegbízhatóbb módja annak, hogy megtudja, mit kap a Google az oldal feltérképezésekor. A külső tesztelőeszközök nem fogják fel azokat az IP-alapú blokkokat, amelyek csak a Google infrastruktúráját érintik.

A Cloudflare-felhasználók esetében ellenőrizze a botkezelési beállításokat, a tűzfalszabályokat és az IP-alapú hozzáférés-szabályozást. A konfiguráció manuális módosítások helyett automatikus frissítések vagy új alapértelmezett beállítások miatt módosult.

Lásd még: A Google elmagyarázza a feltérképezés nem indexelésének okait