További webhelyek, amelyek blokkolják az LLM feltérképezését

Peter

A Hostinger kiadott egy elemzést, amely kimutatta, hogy a vállalkozások blokkolják a nagy nyelvi modellek betanítására használt mesterséges intelligencia rendszereket, miközben lehetővé teszik az AI-asszisztensek számára, hogy további webhelyeket olvassanak és összegezzenek. A vállalat 66,7 milliárd bot interakciót vizsgált meg 5 millió webhelyen, és megállapította, hogy az olyan eszközök által használt mesterséges intelligencia asszisztens robotok, mint a ChatGPT, már több webhelyet érnek el, még akkor is, ha a vállalatok korlátozzák az AI-hozzáférés más formáit.

Hostinger elemzés

A Hostinger egy webtárhely, és egy kód nélküli, mesterséges intelligencia-ügynök által vezérelt platform online vállalkozások építéséhez. A vállalat azt mondta, hogy anonimizált webhelynaplókat elemzett annak mérésére, hogy az ellenőrzött feltérképező robotok miként férnek hozzá a webhelyekhez, lehetővé téve a keresőmotorok és az AI-rendszerek online tartalmak lekérésének változásait.

Az általuk közzétett elemzés azt mutatja, hogy a mesterséges intelligencia asszisztens feltérképező robotjai öt hónap alatt kiterjesztették elérésüket a webhelyekre. Az adatokat három hatnapos ablakban gyűjtöttük, 2025 júniusában, augusztusában és novemberében.

Az OpenAI SearchBot-ja a webhelyek 52 százalékáról 68 százalékra növelte a lefedettséget, míg az Applebot (amely az Apple keresési funkcióinak működéséhez szükséges tartalmat indexeli) 17 százalékról 34 százalékra duplázott. Ugyanebben az időszakban a hagyományos keresőrobotok lényegében változatlanok maradtak. Az adatok azt mutatják, hogy az AI-asszisztensek új réteget adnak ahhoz, hogy az információk hogyan jutnak el a felhasználókhoz, ahelyett, hogy egyenesen lecserélnék a keresőmotorokat.

Ugyanakkor az adatok azt mutatják, hogy a vállalatok jelentősen csökkentették a mesterséges intelligencia kiképző robotjainak hozzáférését. Az OpenAI GPTBot-ja augusztusban a webhelyek 84 százalékánál novemberre 12 százalékra csökkent. A Meta ExternalAgent lefedettsége 60 százalékról 41 százalékra csökkent. Ezek a feltérképező robotok idővel adatokat gyűjtenek, hogy javítsák a mesterséges intelligencia modelleket és frissítsék paraméteres tudásukat, de sok vállalkozás blokkolja ezeket, akár az adathasználat korlátozása, akár a szerzői jogok megsértésétől való félelem miatt.

Paraméteres tudás

A Parametrikus tudás, más néven Parametrikus Memória, az az információ, amely az edzés során „keménybe van kódolva” a modellbe. „Paraméteresnek” nevezik, mert a tudás a modell paramétereiben (súlyokban) tárolódik. A paraméteres tudás hosszú távú memória entitásokról, például emberekről, dolgokról és vállalatokról.

Amikor egy személy kérdést tesz fel egy LLM-nek, az LLM felismerhet egy entitást, például egy vállalkozást, majd lekérheti a kapcsolódó vektorokat (tényeket), amelyeket a képzés során tanult meg. Tehát, ha egy vállalkozás vagy vállalat letilt egy oktatóbotot a webhelyéről, akkor megakadályozza, hogy az LLM bármit is megtudjon róluk, ami nem biztos, hogy a legjobb dolog egy olyan szervezet számára, amely aggódik az AI láthatóságáért.

Ha megengedi, hogy egy mesterséges intelligencia oktatóbot feltérképezzen egy vállalati webhelyet, lehetővé teszi a vállalat számára, hogy bizonyos mértékig kontrollt gyakoroljon a felett, hogy az LLM mit tud róla, beleértve azt, hogy mit csinál, a márkaépítést, bármit, ami a Rólunk oldalon található, és lehetővé teszi az LLM számára, hogy tájékozódjon a kínált termékekről vagy szolgáltatásokról. Egy információs webhelynek hasznos lehet, ha a válaszokat idézik.

A vállalkozások kilépnek a paraméteres tudásból

A Hostinger elemzése azt mutatja, hogy a vállalkozások „agresszíven” blokkolják a mesterséges intelligencia kiképző robotokat. Bár a Hostinger kutatása ezt nem említi, az AI oktatóbotok blokkolásának hatása az, hogy a vállalkozások lényegében lemondanak az LLM paraméteres tudásáról, mivel az LLM nem tanulhat közvetlenül a belső tartalomból a képzés során, így a webhely nem képes saját történetet elmondani, és arra kényszeríti az LLM-et, hogy harmadik féltől származó adatokra vagy tudásgrafikonokra támaszkodjon.

A Hostinger kutatása szerint:

66,7 milliárd bot interakció nyomon követése 5 millió webhelyen alapulva a Hostinger egy jelentős paradoxont ​​tárt fel:

A vállalatok agresszíven blokkolják az AI-oktatóbotokat, azokat a rendszereket, amelyek tartalmat kaparnak az AI modellek felépítéséhez. Az OpenAI GPTBot-ja három hónap alatt a webhelyek 84%-ról 12%-ra esett vissza.

A mesterséges intelligencia asszisztens robotok, a technológia, amelyet a ChatGPT, az Apple stb. használ az ügyfelek kérdéseinek megválaszolására, azonban gyorsan terjeszkednek. Az OpenAI SearchBot-ja a webhelyek 52%-áról 68%-ra nőtt; Az Applebot megduplázódott, 34%-ra.

A Redditen egy nemrégiben megjelent bejegyzés bemutatja, hogy az LLM tartalomhoz való hozzáférésének blokkolása hogyan normalizálódik, és hogyan értelmezhető a szellemi tulajdon (IP) védelme érdekében.

A bejegyzés egy kezdeti kérdéssel kezdődik, amely azt kérdezi, hogyan lehet blokkolni az AI-t:

„Győződjön meg arról, hogy webhelyem továbbra is indexelve marad a Google Keresésben, de nem szeretném, ha a Gemini, a ChatGPT vagy mások lekaparják és felhasználják a tartalmamat.

Mi a legjobb módja ennek?”

Képernyőkép egy Reddit beszélgetésről

Később ebben a szálban valaki megkérdezte, hogy letiltják-e az LLM-eket a szellemi tulajdonuk védelme érdekében, és az eredeti poszter igennel válaszolt, hogy ez volt az oka.

A beszélgetést elindító személy így válaszolt:

„Egyedi tartalmakat teszünk közzé, amelyek máshol nem igazán léteznek. Az LLM-ek gyakran tőlünk tanulnak az ebben az apró résben lévő dolgokról. Tehát szükségünk van a Google-forgalomra, de nem az LLM-ekre.”

Ez lehet alapos indok. Egy olyan webhely, amely egyedi oktató információkat tesz közzé egy olyan szoftvertermékről, amely máshol nem létezik, meg akarhatja akadályozni az LLM-t abban, hogy indexelje tartalmát, mert ha nem teszik meg, akkor az LLM válaszolni tud a kérdésekre, miközben szükségtelenné teszi a webhely felkeresését.

Más, kevésbé egyedi tartalommal rendelkező webhelyek esetében azonban, például egy termékismertető és -összehasonlító webhely vagy egy e-kereskedelmi webhely esetében, nem biztos, hogy a legjobb stratégia blokkolni az LLM-eket abban, hogy információkat adjanak hozzá ezekről a webhelyekről a parametrikus memóriájukba.

A márkaüzeneteket elvesztették az LLM-ek számára

Mivel az AI-asszisztensek közvetlenül válaszolnak a kérdésekre, a felhasználók anélkül kaphatnak információkat, hogy fel kellene keresniük egy webhelyet. Ez csökkentheti a közvetlen forgalmat, és korlátozhatja a vállalkozás árinformációinak, a termékkörnyezetnek és a márkaüzeneteknek az elérhetőségét. Lehetséges, hogy az ügyfelek útja az AI felületen belül ér véget, és azok a vállalkozások, amelyek megakadályozzák az LLM-eket abban, hogy ismereteket szerezzenek cégeikről és ajánlatairól, alapvetően a keresőrobotra és a keresési indexre hagyatkoznak, hogy kitöltsék ezt a hiányt (és talán működik?).

Az AI-asszisztensek növekvő használata hatással van a marketingre, és kiterjed a bevétel-előrejelzésre is. Amikor a mesterséges intelligencia rendszerek összefoglalják az ajánlatokat és ajánlásokat, az LLM-eket blokkoló vállalatok kevésbé tudják befolyásolni az árak és az érték megjelenését. A hirdetési erőfeszítések a döntési folyamat korai szakaszában veszítenek láthatóságból, és az e-kereskedelmi hozzárendelés nehezebbé válik, ha a vásárlások a mesterséges intelligencia által generált válaszokat követik, nem pedig a közvetlen webhelylátogatásokat.

A Hostinger szerint egyes szervezetek egyre szelektívebbek abban, hogy milyen tartalom érhető el a mesterséges intelligencia számára, különösen az AI-asszisztensek számára.

Tomas Rasymas, a Hostinger mesterséges intelligenciájának vezetője megjegyezte:

„Mivel az AI-asszisztensek egyre gyakrabban válaszolnak közvetlenül a kérdésekre, a web a kattintásvezérelt modellről az ügynökök által közvetített modellre vált át. A vállalkozások valódi kockázatát nem maga az AI-hozzáférés jelenti, hanem az, hogy elveszítik az irányítást az árak, a pozicionálás és az érték megjelenítése felett a döntések meghozatalakor.”

Elvihető

Az LLM-ek letiltása abban, hogy a webhelyadatokat képzésre használják fel, nem igazán az alapértelmezett álláspont, még akkor is, ha sokan valódi dühöt és bosszúságot éreznek az LLM-képzés gondolata miatt. Hasznos lehet megfontoltabb választ adni, amely mérlegeli az előnyöket a hátrányokkal szemben, és azt is mérlegelni, hogy ezek a hátrányok valósak vagy vélt.

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.