A legutóbbi Search Off the Record podcaston John Mueller és Martin Splitt műsorvezetők visszaszorították a mesterséges intelligencia-optimalizálók által hirdetett ötletet, miszerint a lecsupaszított, csak tartalmat tartalmazó verziók jobb módja az AI-keresés optimalizálásának. Kifejtették, hogy minden olyan dolog, amit a mesterséges intelligencia-optimalizálók el akarnak távolítani, valóban hasznosak a rangsoroláshoz.
A weboldalak nem tartalmi részei számítanak
Ennek a résznek a TL;DR-je az, hogy a HTML a böngészők számára készült, hogy az emberek számára látható oldalt jelenítsen meg, valamint a képernyőolvasók számára.
Martin Splitt azzal kezdi a vitát, hogy elmagyarázza, miért nem tűnik úgy, hogy a sima HTML az ideális módja az AI-ügynökök és LLM-ek tartalomszolgáltatásának. Az ötlet az, hogy a tartalom mellett sok más kód is található a HTML-ben, amelyek irrelevánsak egy LLM vagy AI ügynök számára, aki esetleg felkeres egy webhelyet a tartalomért.
A markdown vonzereje tehát abban rejlik, hogy a tartalmat oly módon tudja biztosítani, hogy megszabaduljon minden olyan HTML-től, amely arra szolgál, hogy egy weboldalt az emberek számára láthatóvá, vagy a képernyőolvasó által olvashatóvá tegyen.
Splitt elmagyarázza:
„És azt hiszem, ezért is gondolják az emberek, hogy ez jó az LLM-eknek, mert kevesebb a cuccod, kevesebb a token. És ha megnézel egy HTML-fájlt anélkül, hogy böngésző renderelné, ha csak a sima HTML-t nézed egy szövegszerkesztőben, akkor alapvetően nehéz elolvasni a tartalmat, mert olyan sok a durvaság, annyi HTML van benne, és ez a sok fajta HTML, és még az összes ilyen stílus. cuccokból.”
A markdownt is dicséri, hogy továbbra is képes kommunikálni a tartalom lényegét:
„De ha a Markdown renderelés meghibásodik, és megnézi a Markdown fájlt egy szövegszerkesztőben, az továbbra is strukturált és olvasható. Mint a hivatkozás a hivatkozás szövegének szava, mint a horgonyszöveg, majd szögletes zárójelben, majd normál zárójelben. Valószínűleg ezt tenném, ha csak szöveg lenne, ami elérhető lenne.
Ha e-mailt írnék anélkül, hogy ténylegesen linkelhetnék dolgokat, akkor valószínűleg megjelölnék valamiféle linkszöveget, majd valamilyen módon azt mondanám, hogy tetszik, és ide kell menned, hogy ezt valóban láthasd.
És szerintem ez a minimalizmus az, ami miatt az emberek azt gondolják, igen, ez nagyszerű egy olyan gép számára, amelynek meg kell értenie ezt a tartalmat, ellentétben a HTML-lel.”
A HTML szöveggé konvertálása triviális
Mueller és Splitt megjegyezte, hogy annak ellenére, hogy a HTML milyen bonyolultnak tűnik, a feltérképezése és értelmesítése triviális és nagyon könnyen elvégezhető. Ezen a ponton teljesen megbomlik az értékesítési pont az LLM-eknél történő leértékelés használatában, hogy leegyszerűsíti a tartalom feltérképezését és indexelését.
John Mueller elmagyarázza:
„Szerintem az a nagy dolog, hogy a HTML-t és mindent tartalmazó web már nagyon régóta létezik, régebb óta, mint a Markdown. És az összes feltérképező robot már gyakorolta a HTML-t. A HTML szöveggé konvertálása pedig triviális. Rengeteg könyvtár létezik, amely ezt megteheti helyetted. Tehát ha belegondolsz, hogy egy átlagos webrobot mit kereshet, vagy talán meg kell találnia egy oldalon, hogy ezt megértse.”
A Markdown sikertelen a tartalomfelfedezéshez
A felfedezés az, amikor bármely robot felkeres egy weboldalt, és más weboldalakat fedez fel egyetlen webhelyen belül, illetve webhelyről webhelyre.
Splitt azt mondta, hogy a leértékelés a tartalomnak csak egy részére összpontosít: magára a tartalomra. Kifejtette, hogy ez megnehezíti a keresőmotorok számára, hogy egy weboldalt abban a kontextusban lássanak, hogy az hogyan kapcsolódik a webhely többi tartalmához linkeken keresztül, ami segíti a felfedezést.
Elmagyarázta:
„Igen, és úgy értem, a másik dolog az, hogy igen, jó, hogy a Markdown általában egy tartalomra összpontosít, de a HTML a linkekkel, a navigációval, a fejlécekkel és minden ilyesmivel, ami kikerül a Markdown-fájlokból, amelyek a webhelyet teszik, fontosak ahhoz, hogy megértsük a szerkezetet és azt, hogy ez hogyan kapcsolódik a webhely többi részéhez.
Szóval szerintem ez is rossz dolog. Ha ezt elveszítenénk, az valószínűleg nem lenne jó a Discoveryben való kúszáshoz, igaz? „
Elvihető
A szabadalmak és a kutatási közlemények olvasása során világossá válik, hogy a keresőmotorok egy weboldalt egyes weboldalak gyűjteményének, de oldalak csoportjainak, szekciókhoz és kategóriákhoz tartozó csoportjainak, valamint magát a webhely egészét tekintik. Kicsinyítéssel a webhely csak egy pont a több ezer és ezer más webhely között, a webhelyek szomszédságában, amelyeket linkek kategóriákba és minőségi szintekbe szerveznek.
A SEO esetében meg kell értenünk a webhelyet mind a kicsinyített, mind a nagyított nézetből, hogy elképzeljük, hogyan illeszkedik egymáshoz az összes elem. Ennek az az oka, hogy a keresőmotorok ezt teszik.
Úgy tűnik, hogy a mesterséges intelligencia-alapú keresőoptimalizálás azon dolgozik, hogy megkönnyítse az LLM-ek és az AI-ügynökök számára a tartalom feltérképezését és indexelését. A feltérképezés és az indexelés jogos aggályok. Ám azáltal, hogy ragaszkodnak a leértékelési fájlok használatához, nem veszik figyelembe a felfedezés alapjait, és azt, hogy mennyire triviális tartalom kinyerése egy HTML weboldalról, ami feleslegessé teszi a leértékelési fájlokat.
A fenti kérdéseken kívül van még a megbízhatóság kérdése is. Régen volt egy kulcsszó metatag, amelyet egyes keresőmotorok arra használtak, hogy tippeket kapjanak arról, hogy miről szól egy weboldal. Természetesen a webhelytulajdonosok és a keresőoptimalizálók azt használták, hogy kiírják az összes kulcsszót, amelyre rangsorolni akartak, függetlenül a tartalomtól.
Nem azt mondom, hogy a keresőoptimalizálók és a webhelytulajdonosok megbízhatatlanok, de a keresési forgalom pénz, és az emberek azt fogják tenni, amit tenni fognak. Tehát az utolsó szempont az, hogy a keresőmotorok soha nem bíznak meg a leértékelt tartalomban, és azt kanonikusként használják, amikor triviális dolog feltérképezni és kivonni az eredeti tartalmat a HTML-ből.
Visszakanyarodva arra, amit Mueller és Splitt megvitattak, a Google ragaszkodik ahhoz, hogy az AI SEO ragaszkodása a leértékeléshez jelentős mennyiségű kontextust eltávolít.
Nézze meg a Search Off The Record 111. epizódját itt:
