A Google felsorol 9 forgatókönyvet, amelyek elmagyarázzák, hogyan választja ki a kanonikus URL-eket

A Google munkatársa, John Mueller válaszolt egy kérdésre a Redditen, hogy miért választja a Google egyik weboldalt a másikkal szemben, ha több oldal ismétlődő tartalommal rendelkezik, és azt is megmagyarázza, miért tűnik úgy, hogy a Google néha rossz URL-t választ kanonikusként.

Kanonikus URL-ek

A kanonikus szót korábban többnyire vallási értelemben használták arra, hogy milyen írásokat vagy hiedelmeket ismertek el mérvadónak. A SEO közösségben ezt a szót arra használják, hogy melyik URL a valódi weboldal, amikor több weboldal azonos vagy hasonló tartalommal rendelkezik.

A Google a rel=canonical nevű HTML-attribútum használatával lehetővé teszi a webhelytulajdonosok és keresőoptimalizálók számára, hogy utalást adjanak arra vonatkozóan, hogy melyik URL a kanonikus. A keresőoptimalizálók gyakran HTML-elemként hivatkoznak a rel=canonical-ra, de nem az. A rel=canonical a elem. A HTML-elem egy weboldal építőköve. Az attribútum egy jelölés, amely módosítja az elemet.

Miért választ a Google egyik URL-t a másik helyett?

A Redditen egy személy arra kérte Muellert, hogy fejtse ki mélyebben az okokat, hogy a Google miért választja az egyik URL-t a másik helyett.

Megkérdezték:

„Hé John, megkérhetlek, hogy menj kicsit mélyebbre ebben? Tegyük fel, hogy szeretném megérteni, hogy a Google miért gondolja úgy, hogy két oldal duplikált, és miért választja az egyiket a másik helyett, és az ok nem igazán látható. Mit lehet tenni annak érdekében, hogy jobban megértsük, miért választanak egy oldalt a másikkal szemben, ha különböző témákat fednek le? Például IDK, vörös panda és „rendes” panda. TY!!”

Mueller körülbelül kilenc különböző okkal válaszolt arra vonatkozóan, hogy a Google miért választja egyik oldalt a másikkal szemben, beleértve azokat a technikai okokat is, amelyek miatt úgy tűnik, hogy a Google téved, de a valóságban ez olykor olyasmi miatt van, amit a webhely tulajdonosa figyelmen kívül hagyott a SEO-n keresztül.

Íme a kilenc ok, amelyekre a kanonikus választások mellett hivatkozott:

Pontosan ismétlődő tartalom
Az oldalak teljesen azonosak, és nem hagynak értelmes jelet az egyik URL-nek a másiktól való megkülönböztetésére.
Jelentős megkettőzés a fő tartalomban
Az elsődleges tartalom nagy része átfedi az oldalakat, például ugyanaz a cikk több helyen is megjelenik.
Túl kevés egyedi főtartalom a sablontartalomhoz képest
Az oldal egyedi tartalma minimális, így az ismétlődő elemek, például a navigáció, a menük vagy az elrendezés dominálnak, és az oldalak gyakorlatilag egyformának tűnnek.
Az URL-paraméter-minták ismétlődésként következtetnek be
Ha ismert, hogy több paraméterezett URL ugyanazt a tartalmat adja vissza, a Google általánosíthatja ezt a mintát, és a hasonló paraméterváltozatokat ismétlődésként kezelheti.
Összehasonlításként használt mobil verzió
Előfordulhat, hogy a Google a mobil verziót értékeli az asztali verzió helyett, ami a manuálisan ellenőrzötttől eltérő párhuzamos értékelésekhez vezethet.
Az értékeléshez használt Googlebot által látható verzió
A kanonikus döntések azon alapulnak, amit a Googlebot ténylegesen kap, nem feltétlenül azon, amit a felhasználók látnak.
A Googlebot alternatív vagy nem tartalmi oldalainak kiszolgálása
Ha a Googlebot számára bot-kihívások, pszeudohiba-oldalak vagy egyéb általános válaszok jelennek meg, ezek megegyezhetnek a korábban látott tartalommal, és ismétlődőként kezelhetők.
Nem sikerült a JavaScript-tartalom megjelenítése
Ha a Google nem tudja megjeleníteni az oldalt, akkor az alap HTML-héjra támaszkodhat, amely az oldalak között azonos lehet, és duplikációt válthat ki.
Kétértelműség vagy téves besorolás a rendszerben
Egyes esetekben előfordulhat, hogy egy URL-t ismétlődőként kezelnek, mert „rossz helyen” tűnik, vagy a rendszer által a hasonlóság értelmezésének korlátai miatt.

Íme Mueller teljes válasza:

„Nincs olyan eszköz, amely megmondaná, miért tekintenek valamit duplikáltnak – az évek során az emberek gyakran megérzik, de ez nem mindig nyilvánvaló. Matt videója „Hogyan kezeli a Google a duplikált tartalmat?” most is jó kezdés.

Néhány ok, amiért a dolgok duplikáltnak minősülnek (ezeket mind említik különböző helyeken – ha úgy tetszik, duplikált tartalom a duplikált tartalomról :-)): pontos duplikáció (minden duplikált), részleges egyezés (nagy része duplikált, például ha két blogon van ugyanaz a bejegyzés; néha nincs is sok tartalom, amihez hozzáférhet, például ha ez a hatalmas blog, és ha van egy -ti isnyer bejegyzés), Úgy tűnik, hogy az URL ismétlődő lenne a webhelyen máshol található ismétlődések alapján (ha például a /page?tmp=1234 és a /page?tmp=3458 azonos, valószínűleg a /page?tmp=9339 is az – ez trükkös lehet, és több paraméternél hibás lehet, vajon /page?tmp=1234&city=detro? /page?tmp=2123&city=chicago ?).

Két ok, amiért láttam, hogy az emberek kidobnak, a következő: a mobil verziót használjuk (az emberek általában az asztali számítógépen ellenőrzik), és azt a verziót használjuk, amelyet a Googlebot lát (és ha a Googlebotnak egy bot-kihívást vagy más álhiba-oldalt jelenít meg, akkor valószínű, hogy ezt már láttuk, és másodpéldánynak tekinthetjük). Emellett a renderelt verziót is használjuk – de ez azt jelenti, hogy képesnek kell lennünk az oldal megjelenítésére, ha a tartalomhoz JS-keretrendszert használ (ha nem tudjuk renderelni, előfordulhat, hogy a bootstrap HTML-oldalt használjuk, és valószínűleg duplikált lesz).

Előfordul, hogy ezek a rendszerek nem tökéletesek a duplikált tartalom kiválasztásában, néha az is előfordul, hogy az alternatív URL nyilvánvalóan rossz helyen van. Néha ez idővel rendeződik (mivel rendszereink felismerik, hogy a dolgok valóban eltérőek), néha pedig nem.

Ha hasonló tartalomról van szó, akkor a felhasználók továbbra is megtalálják az utat, így általában nem olyan szörnyű. Elég ritka, hogy a végén rossz másolatot hozunk létre – az évek során a csapatok fantasztikus munkát végeztek ezekkel a rendszerekkel; a legtöbb fura problémamentes, gyakran csak valami furcsa hibaoldalról van szó, amit nehéz észrevenni.”

Elvihető

Mueller mélyrehatóan belemerült abba, hogy a Google miért választja a kanonikusokat. A kanonikusok kiválasztásának folyamatát úgy jellemezte, mint egy átfedő jelekből felépülő fuzzy rendezési rendszert, amelyben a Google összehasonlítja a tartalmat, az URL-mintákat, a renderelt kimenetet és a robot által látható verziókat, míg a határvonali besorolások („furcsák”) engedélyt kapnak, mert nem jelentenek problémát.