Az AI rendszerek és az LLM-ek megjeleníthetik a JavaScriptet a „rejtett” tartalom olvasásához?

Az eheti Ask An SEO kapcsán egy olvasó megkérdezte:

„Van-e különbség aközött, hogy a mesterséges intelligencia rendszerek hogyan kezelik a JavaScript által megjelenített vagy interaktívan rejtett tartalmat a hagyományos Google indexeléshez képest? Milyen technikai ellenőrzésekkel ellenőrizhetik a keresőoptimalizálók, hogy minden oldalkritikus információ elérhető-e a gépek számára?”

Ez egy nagyszerű kérdés, mert az LLM-optimalizálás felhajtásán túl komoly technikai kihívás is van: annak biztosítása, hogy a tartalmat az LLM-ek valóban megtalálják és elolvassák.

A keresőoptimalizálókat már évek óta eléggé bátorítja a Googlebot azon fejlesztései, amelyek képesek feltérképezni és megjeleníteni a JavaScriptet erősen tartalmazó oldalakat. Előfordulhat azonban, hogy az új mesterséges intelligencia bejárókkal ez nem így van.

Ebben a cikkben megvizsgáljuk a két robottípus közötti különbségeket, és megvizsgáljuk, hogyan biztosítható, hogy a kritikus weboldal tartalma mindkettő számára elérhető legyen.

Hogyan jeleníti meg a Googlebot JavaScript-tartalmat?

A Googlebot három fő szakaszban dolgozza fel a JavaScriptet: feltérképezés, megjelenítés és indexelés. Egy alapvető és egyszerű magyarázatban az egyes szakaszok így működnek:

Csúszó

A Googlebot sorba állítja a feltérképezendő oldalakat, amikor felfedezi őket az interneten. Nem minden sorba kerülő oldal kerül feltérképezésre, mivel a Googlebot ellenőrzi, hogy engedélyezett-e a feltérképezés. Például látni fogja, hogy a robots.txt fájlban található disallow paranccsal letiltották-e az oldal feltérképezését.

Ha az oldal nem alkalmas a feltérképezésre, akkor a Googlebot kihagyja, és lemond a HTTP-kérésről. Ha egy oldal feltérképezhető, akkor az elmozdul a tartalom megjelenítéséhez.

Rendering

A Googlebot ellenőrzi, hogy az oldal alkalmas-e az indexelésre, például egy noindex metacímke segítségével, így biztosítva, hogy az indexből ne kerüljön sor az oldal megtartására. A Googlebot sorba állítja a megjelenítendő oldalt. A renderelés történhet másodperceken belül, vagy hosszabb ideig is a sorban maradhat. A renderelés erőforrás-igényes folyamat, és mint ilyen, nem biztos, hogy azonnali.

Eközben a bot megkapja a DOM választ; ez az a tartalom, amely a JavaScript végrehajtása előtt jelenik meg. Ez általában az oldal HTML-kódja, amely az oldal feltérképezése után azonnal elérhető lesz.

A JavaScript végrehajtása után a Googlebot megkapja a teljesen elkészített oldalt, a „böngésző megjelenítését”.

Indexelés

A jogosult oldalak és információk a Google indexében lesznek tárolva, és elérhetővé válnak keresési eredményként a felhasználói lekérdezés helyén.

Hogyan kezeli a Googlebot az interaktívan rejtett tartalmat?

Nem minden tartalom érhető el a felhasználók számára, amikor először landolnak egy oldalon. Például előfordulhat, hogy át kell kattintania a lapokra, hogy kiegészítő tartalmat találjon, vagy ki kell bontania egy harmonikát az összes információ megtekintéséhez.

A Googlebot nem tud váltani a lapok között, vagy kattintással kinyitni egy harmonikát. Ezért fontos annak biztosítása, hogy képes legyen elemezni az oldal összes információját.

Ennek módja az, hogy az oldal első betöltésekor megbizonyosodjon arról, hogy az információ a DOM-ban található. Ez azt jelenti, hogy a tartalom „elrejthető a nézet elől” a kezelőfelületen, mielőtt egy gombra kattintana, de ez nincs elrejtve a kódban.

Képzelje el a következőképpen: A HTML-tartalom „dobozban van elrejtve”; a JavaScript a kulcs a doboz megnyitásához. Ha a Googlebotnak ki kell nyitnia a dobozt, előfordulhat, hogy nem látja azonnal a tartalmat. Ha azonban a szerver kinyitotta a dobozt, mielőtt a Googlebot kérte volna, akkor a DOM-on keresztül hozzá kell férnie az adott tartalomhoz.

Hogyan növelheti annak valószínűségét, hogy a Googlebot képes lesz olvasni az Ön tartalmait

A kulcs annak biztosításához, hogy a tartalmat a Googlebot elemezni tudja, az az, hogy elérhetővé tegyük anélkül, hogy a botnak elő kellene írnia a JavaScriptet. Ennek egyik módja az, hogy a renderelést magán a szerveren kényszerítjük.

A szerveroldali renderelés az a folyamat, amelynek során egy weboldalt a kiszolgálón jelenít meg, nem pedig a böngészőben. Ez azt jelenti, hogy egy HTML-fájlt elkészítenek és elküldenek a felhasználó böngészőjének (vagy a keresőrobotnak), és az oldal tartalma elérhetővé válik a számára anélkül, hogy meg kellene várnia a JavaScript betöltését. Ennek az az oka, hogy a szerver lényegében olyan fájlt hozott létre, amely már tartalmazott tartalmat; a HTML és a CSS azonnal elérhető. Eközben a szerveren tárolt JavaScript-fájlokat a böngésző letöltheti.

Ez ellentétben áll az ügyféloldali megjelenítéssel, amely megköveteli, hogy a böngésző lekérje és lefordítsa a JavaScriptet, mielőtt a tartalom elérhetővé válik a weboldalon. Ez sokkal kisebb emelkedést jelent a szerver számára, ezért a webhelyfejlesztők gyakran kedvelik, de ez azt jelenti, hogy a robotok nehezen látják az oldal tartalmát anélkül, hogy először megjelenítenék a JavaScriptet.

Hogyan jelenítik meg az LLM Botok a JavaScriptet?

Tekintettel arra, amit most tudunk arról, hogy a Googlebot hogyan jeleníti meg a JavaScriptet, miben különbözik ez az AI-botoktól?

A legfontosabb tudnivaló az alábbiakkal kapcsolatban, hogy a Googlebottal ellentétben nincs „egyetlen” irányító testület, amely az „LLM robotok” alá tartozó összes robotot képviselné. Ez azt jelenti, hogy amire egy bot képes lehet, nem feltétlenül lesz mindenki számára szabvány.

Azok a robotok, amelyek a webet az LLM-ek tudásbázisának működtetése érdekében kaparják fel, nem azonosak azokkal a robotokkal, amelyek felkeresnek egy oldalt, hogy a keresőmotoron keresztül időszerű információkat küldjenek a felhasználónak.

És Claude robotjai nem rendelkeznek ugyanolyan képességekkel, mint az OpenAI-é.

Amikor azt fontolgatjuk, hogyan biztosítsuk, hogy az AI-botok hozzáférhessenek tartalmainkhoz, a legalacsonyabb képességű robotokat kell figyelembe vennünk.

Kevesebbet tudunk arról, hogy az LLM botok hogyan jelenítik meg a JavaScriptet, főként azért, mert a Google-lel ellentétben az AI-botok nem osztják meg ezt az információt. Néhány nagyon okos ember azonban teszteket futtatott annak megállapítására, hogy az egyes fő LLM-botok hogyan kezelik ezt.

A Vercel még 2024-ben publikált egy vizsgálatot a fő LLM-botok JavaScript-megjelenítési képességeiről, beleértve az OpenAI-t, az Anthropic-ot, a Meta-t, a ByteDance-t és a Perplexity-t. Tanulmányuk szerint egyik robot sem volt képes JavaScriptet megjeleníteni. Az egyetlenek a Gemini (a Googlebot infrastruktúráját kihasználva), az Applebot és a CommonCrawl CCbotja voltak.

Nemrég Glenn Gabe megerősítette Vercel megállapításait saját mélyreható elemzésével arról, hogy a ChatGPT, a Perplexity és a Claude hogyan kezeli a JavaScriptet. Azt is végigvezeti, hogyan tesztelheti saját webhelyét az LLM-ekben, hogy megtudja, hogyan kezelik a tartalmat.

Ezek a legismertebb robotok, az ezen a területen leginkább finanszírozott AI-cégek közül. Magától értetődik, hogy ha a JavaScript-el küszködnek, akkor a kevésbé finanszírozott vagy több résbe tartozó is.

Hogyan kezelik az AI-botok az interaktívan rejtett tartalmat?

Nem jól. Ez azt jelenti, hogy ha az interaktív tartalom némi JavaScript-végrehajtást igényel, nehézségekbe ütközhet annak elemzése.

Annak biztosítása érdekében, hogy a robotok láthassák a fülek mögé vagy harmonikában rejtett tartalmat, célszerű gondoskodni arról, hogy a tartalom teljes mértékben betöltődik a DOM-ban anélkül, hogy JavaScriptet kellene futtatni. Az emberi látogatók továbbra is interakcióba léphetnek a tartalommal, hogy felfedjék azt, de a robotoknak erre nincs szükségük.

JavaScript-megjelenítési problémák ellenőrzése

Két nagyon egyszerű módja van annak ellenőrzésére, hogy a Googlebot képes-e megjeleníteni az oldal összes tartalmát:

Ellenőrizze a DOM-ot a fejlesztői eszközökön keresztül

A DOM (Document Object Model) egy felület egy weboldalhoz, amely a HTML-oldalt „csomópontok” és „objektumok” sorozataként jeleníti meg. Lényegében összekapcsolja a weboldal HTML-forráskódját a JavaScript-szel, ami lehetővé teszi a weboldal funkcionalitásának működését. Egyszerűen fogalmazva, képzelje el a weboldalt családfának. A weboldal minden eleme egy „csomópont” a fán. Tehát egy fejléc címke

és maga az oldal törzse

mind csomópontok a családfán.

Amikor egy böngésző betölt egy weboldalt, beolvassa a HTML-kódot, és a családfává (DOM) alakítja.

Hogyan ellenőrizhető

A Chrome Fejlesztői Eszközök példájával végigvezetem ezen.

Egy oldal DOM-ját a böngészőjében ellenőrizheti. A Chrome használatával kattintson a jobb gombbal, és válassza az „Ellenőrzés” lehetőséget. Innentől győződjön meg arról, hogy az „Elemek” lapon van.

Ha szeretné megnézni, hogy a tartalom látható-e a weboldalán anélkül, hogy JavaScriptet kellene futtatnia, itt kereshet rá. Ha az oldal első betöltésekor teljesen a DOM-on belül találja a tartalmat (és nem lép vele tovább), akkor annak láthatónak kell lennie a Googlebot és az LLM robotok számára.

Használja a Google Search Console-t

A Google Search Console segítségével ellenőrizheti, hogy a tartalom kifejezetten a Googlebot számára látható-e.

Válassza ki a tesztelni kívánt oldalt, és illessze be a „Minden URL vizsgálata” mezőbe. A Search Console ezután egy másik oldalra viszi, ahol „Tesztelheti az élő URL-t”. Amikor tesztel egy élő oldalt, egy másik képernyő jelenik meg, ahol kiválaszthatja a „Tesztelt oldal megtekintése” lehetőséget.

Hogyan ellenőrizhető, hogy egy LLM-bot látja-e az Ön tartalmát

Glenn Gabe kísérletei szerint megkérdezheti magukat az LLM-ektől, hogy mit olvashatnak egy adott weboldalról. Például megkérheti őket, hogy olvassák el egy cikk szövegét. Magyarázattal válaszolnak, ha a JavaScript miatt nem tudnak.

A HTML forráskód megtekintése

Ha a legalacsonyabb közös nevezőre dolgozunk, akkor megfontoltan feltételezzük, hogy az LLM-ek ezen a ponton nem tudnak tartalmat olvasni JavaScriptben. Annak érdekében, hogy a tartalom elérhető legyen egy weboldal HTML-kódjában, hogy a robotok biztosan hozzáférhessenek, feltétlenül győződjön meg arról, hogy az oldal tartalma olvasható ezeknek a robotoknak. Győződjön meg arról, hogy a forrás HTML-ben van. Ennek ellenőrzéséhez lépjen a Chrome-ba, és kattintson a jobb gombbal az oldalra. A menüből válassza az „Oldal forrásának megtekintése” lehetőséget. Ha „megtalálja” a szöveget ebben a kódban, akkor tudja, hogy az az oldal forrás-HTML-jében van.

Mit jelent ez az Ön webhelye számára?

Lényegében a Googlebotot az évek során úgy fejlesztették, hogy sokkal jobban tudja kezelni a JavaScriptet, mint az újabb LLM robotok. Azonban nagyon fontos megérteni, hogy az LLM robotok nem úgy próbálják feltérképezni és megjeleníteni az internetet, mint a Googlebot. Ne feltételezze, hogy valaha is megpróbálják utánozni a Googlebot viselkedését. Ne tekintse őket a Googlebot „mögötte”. Teljesen más vadállatok.

Webhelye esetében ez azt jelenti, hogy ellenőriznie kell, hogy az oldal első betöltésekor minden lényeges információt betölt-e a DOM-ban, hogy kielégítse a Googlebot igényeit. Az LLM robotok esetében ellenőrizze a statikus HTML-kódot, hogy biztosan elérhető legyen a tartalom.