A Google Mueller elmagyarázza a „Tartalom nélkül indexelt oldal” hibát

Peter

John Mueller, a Google keresési tanácsadója válaszolt a Search Console „Oldalindexelve tartalom nélkül” hibájával kapcsolatos kérdésre, és kifejtette, hogy a probléma jellemzően a szerver- vagy CDN-blokkolásból ered, nem pedig a JavaScriptből.

A cserére a Redditen került sor, miután egy felhasználó bejelentette, hogy honlapja az 1. pozícióból a 15. pozícióba esett a hiba megjelenését követően.

Mi történik?

Mueller tisztázott egy általános tévhitet a Search Console-ban az „Oldal indexelve tartalom nélkül” okáról.

Mueller írta:

„Általában ez azt jelenti, hogy a szervere/CDN-je blokkolja a Google-t abban, hogy bármilyen tartalmat fogadjon. Ez nem kapcsolódik semmi JavaScripthez. Ez általában meglehetősen alacsony szintű blokkolás, néha a Googlebot IP-címe alapján, így valószínűleg lehetetlen lesz tesztelni a Search Console tesztelőeszközein kívülről.”

A Reddit felhasználó már több diagnosztikai lépést is megkísérelt. Curl parancsokat futtattak az oldal lekérésére Googlebotként, ellenőrizték a JavaScript-blokkolást, és tesztelték a Google Rich Results Testével. Az asztali ellenőrző eszközök „Valami elromlott” hibákat adtak vissza, miközben a mobileszközök megfelelően működtek.

Mueller megjegyezte, hogy a szabványos külső tesztelési módszerek nem fogják fel ezeket a blokkokat.

Hozzátette:

„Ez azt is jelentené, hogy webhelyének oldalai (hamarosan vagy már) kiesnek az indexből, ezért célszerű ezt sürgős dologként kezelni.”

Az érintett webhely a Webflow-t használja CMS-ként és a Cloudflare-t CDN-ként. A felhasználó arról számolt be, hogy a kezdőlap normál módon indexelve volt, a webhelyen a közelmúltban nem történt változás.

Miért számít ez?

Az évek során többször is foglalkoztam ezzel a típusú problémával. A CDN- és szerverkonfigurációk véletlenül blokkolhatják a Googlebotot anélkül, hogy ez befolyásolná a normál felhasználókat vagy a szabványos tesztelőeszközöket. A blokkok gyakran meghatározott IP-tartományokat céloznak meg, ami azt jelenti, hogy a curl tesztek és a harmadik féltől származó bejárók nem reprodukálják a problémát.

Akkor foglalkoztam vele, amikor a Google először hozzáadta a „tartalom nélkül indexelt” kifejezést az Indexlefedettség jelentéshez. A Google akkori súgódokumentációja megjegyezte, hogy az állapot azt jelenti, hogy „a Google valamiért nem tudta elolvasni a tartalmat”, és megadta, hogy „ez nem a robots.txt blokkolása”. A kiváltó ok szinte mindig valami alacsonyabb a veremben.

A Cloudflare részlet felkeltette a figyelmemet. Hasonló mintáról számoltam be, amikor Mueller tanácsot adott egy webhelytulajdonosnak, akinek a feltérképezése egyszerre több domainben is leállt. Az összes érintett oldal a Cloudflare-t használta, és Mueller a „megosztott infrastruktúrát” jelölte meg valószínű bűnösként. A minta itt ismerősnek tűnik.

Legutóbb egy novemberi Cloudflare-kimaradásról írtam, amely 5xx-es kiugrást váltott ki, ami befolyásolta a feltérképezést. Ez egy széles körben elterjedt esemény volt. Ez az eset célzottabbnak tűnik, valószínűleg egy botvédelmi szabály vagy tűzfalbeállítás, amely a Googlebot IP-címeit másként kezeli, mint a többi forgalom.

A Search Console URL-ellenőrző eszköze és az Élő URL-teszt továbbra is az elsődleges módszer ezeknek a blokkoknak az azonosítására. Ha ezek az eszközök hibákat adnak vissza, miközben a külső tesztek sikeresek, akkor a szerverszintű blokkolás lesz a valószínű ok. Mueller augusztusban hasonló álláspontra helyezkedett, amikor a feltérképezési gyakoriság csökkentésével kapcsolatos tanácsokat adott, és azt javasolta a webhelytulajdonosoknak, hogy „kétszer ellenőrizzék, mi is történt valójában”, és ellenőrizzék, „egy CDN-e valóban blokkolta-e a Googlebotot”.

Összefüggő: 8 gyakori Robots.txt-probléma és megoldásuk

Előre tekintve

Ha az „Oldal indexelve tartalom nélkül” hibaüzenetet látja, ellenőrizze a CDN- és a szerverkonfigurációban, hogy vannak-e olyan szabályok, amelyek befolyásolják a Googlebot IP-tartományait. A Google közzéteszi feltérképező robotjának IP-címeit, amelyek segíthetnek azonosítani, hogy a biztonsági szabályok célozzák-e őket.

A Search Console URL-ellenőrző eszköze a legmegbízhatóbb módja annak, hogy megtudja, mit kap a Google az oldal feltérképezésekor. A külső tesztelőeszközök nem fogják fel azokat az IP-alapú blokkokat, amelyek csak a Google infrastruktúráját érintik.

A Cloudflare-felhasználók esetében ellenőrizze a botkezelési beállításokat, a tűzfalszabályokat és az IP-alapú hozzáférés-szabályozást. A konfiguráció manuális módosítások helyett automatikus frissítések vagy új alapértelmezett beállítások miatt módosult.

Lásd még: A Google elmagyarázza a feltérképezés nem indexelésének okait

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.