További webhelyek, amelyek blokkolják az LLM feltérképezését

A Hostinger kiadott egy elemzést, amely kimutatta, hogy a vállalkozások blokkolják a nagy nyelvi modellek betanítására használt mesterséges intelligencia rendszereket, miközben lehetővé teszik az AI-asszisztensek számára, hogy további webhelyeket olvassanak és összegezzenek. A vállalat 66,7 milliárd bot interakciót vizsgált meg 5 millió webhelyen, és megállapította, hogy az olyan eszközök által használt mesterséges intelligencia asszisztens robotok, mint a ChatGPT, már több webhelyet érnek el, még akkor is, ha a vállalatok korlátozzák az AI-hozzáférés más formáit.

Hostinger elemzés

A Hostinger egy webtárhely, és egy kód nélküli, mesterséges intelligencia-ügynök által vezérelt platform online vállalkozások építéséhez. A vállalat azt mondta, hogy anonimizált webhelynaplókat elemzett annak mérésére, hogy az ellenőrzött feltérképező robotok miként férnek hozzá a webhelyekhez, lehetővé téve a keresőmotorok és az AI-rendszerek online tartalmak lekérésének változásait.

Az általuk közzétett elemzés azt mutatja, hogy a mesterséges intelligencia asszisztens feltérképező robotjai öt hónap alatt kiterjesztették elérésüket a webhelyekre. Az adatokat három hatnapos ablakban gyűjtöttük, 2025 júniusában, augusztusában és novemberében.

Az OpenAI SearchBot-ja a webhelyek 52 százalékáról 68 százalékra növelte a lefedettséget, míg az Applebot (amely az Apple keresési funkcióinak működéséhez szükséges tartalmat indexeli) 17 százalékról 34 százalékra duplázott. Ugyanebben az időszakban a hagyományos keresőrobotok lényegében változatlanok maradtak. Az adatok azt mutatják, hogy az AI-asszisztensek új réteget adnak ahhoz, hogy az információk hogyan jutnak el a felhasználókhoz, ahelyett, hogy egyenesen lecserélnék a keresőmotorokat.

Ugyanakkor az adatok azt mutatják, hogy a vállalatok jelentősen csökkentették a mesterséges intelligencia kiképző robotjainak hozzáférését. Az OpenAI GPTBot-ja augusztusban a webhelyek 84 százalékánál novemberre 12 százalékra csökkent. A Meta ExternalAgent lefedettsége 60 százalékról 41 százalékra csökkent. Ezek a feltérképező robotok idővel adatokat gyűjtenek, hogy javítsák a mesterséges intelligencia modelleket és frissítsék paraméteres tudásukat, de sok vállalkozás blokkolja ezeket, akár az adathasználat korlátozása, akár a szerzői jogok megsértésétől való félelem miatt.

Paraméteres tudás

A Parametrikus tudás, más néven Parametrikus Memória, az az információ, amely az edzés során „keménybe van kódolva” a modellbe. „Paraméteresnek” nevezik, mert a tudás a modell paramétereiben (súlyokban) tárolódik. A paraméteres tudás hosszú távú memória entitásokról, például emberekről, dolgokról és vállalatokról.

Amikor egy személy kérdést tesz fel egy LLM-nek, az LLM felismerhet egy entitást, például egy vállalkozást, majd lekérheti a kapcsolódó vektorokat (tényeket), amelyeket a képzés során tanult meg. Tehát, ha egy vállalkozás vagy vállalat letilt egy oktatóbotot a webhelyéről, akkor megakadályozza, hogy az LLM bármit is megtudjon róluk, ami nem biztos, hogy a legjobb dolog egy olyan szervezet számára, amely aggódik az AI láthatóságáért.

Ha megengedi, hogy egy mesterséges intelligencia oktatóbot feltérképezzen egy vállalati webhelyet, lehetővé teszi a vállalat számára, hogy bizonyos mértékig kontrollt gyakoroljon a felett, hogy az LLM mit tud róla, beleértve azt, hogy mit csinál, a márkaépítést, bármit, ami a Rólunk oldalon található, és lehetővé teszi az LLM számára, hogy tájékozódjon a kínált termékekről vagy szolgáltatásokról. Egy információs webhelynek hasznos lehet, ha a válaszokat idézik.

A vállalkozások kilépnek a paraméteres tudásból

A Hostinger elemzése azt mutatja, hogy a vállalkozások „agresszíven” blokkolják a mesterséges intelligencia kiképző robotokat. Bár a Hostinger kutatása ezt nem említi, az AI oktatóbotok blokkolásának hatása az, hogy a vállalkozások lényegében lemondanak az LLM paraméteres tudásáról, mivel az LLM nem tanulhat közvetlenül a belső tartalomból a képzés során, így a webhely nem képes saját történetet elmondani, és arra kényszeríti az LLM-et, hogy harmadik féltől származó adatokra vagy tudásgrafikonokra támaszkodjon.

A Hostinger kutatása szerint:

66,7 milliárd bot interakció nyomon követése 5 millió webhelyen alapulva a Hostinger egy jelentős paradoxont tárt fel:

A vállalatok agresszíven blokkolják az AI-oktatóbotokat, azokat a rendszereket, amelyek tartalmat kaparnak az AI modellek felépítéséhez. Az OpenAI GPTBot-ja három hónap alatt a webhelyek 84%-ról 12%-ra esett vissza.

A mesterséges intelligencia asszisztens robotok, a technológia, amelyet a ChatGPT, az Apple stb. használ az ügyfelek kérdéseinek megválaszolására, azonban gyorsan terjeszkednek. Az OpenAI SearchBot-ja a webhelyek 52%-áról 68%-ra nőtt; Az Applebot megduplázódott, 34%-ra.

A Redditen egy nemrégiben megjelent bejegyzés bemutatja, hogy az LLM tartalomhoz való hozzáférésének blokkolása hogyan normalizálódik, és hogyan értelmezhető a szellemi tulajdon (IP) védelme érdekében.

A bejegyzés egy kezdeti kérdéssel kezdődik, amely azt kérdezi, hogyan lehet blokkolni az AI-t:

„Győződjön meg arról, hogy webhelyem továbbra is indexelve marad a Google Keresésben, de nem szeretném, ha a Gemini, a ChatGPT vagy mások lekaparják és felhasználják a tartalmamat.

Mi a legjobb módja ennek?”

Képernyőkép egy Reddit beszélgetésről

Később ebben a szálban valaki megkérdezte, hogy letiltják-e az LLM-eket a szellemi tulajdonuk védelme érdekében, és az eredeti poszter igennel válaszolt, hogy ez volt az oka.

A beszélgetést elindító személy így válaszolt:

„Egyedi tartalmakat teszünk közzé, amelyek máshol nem igazán léteznek. Az LLM-ek gyakran tőlünk tanulnak az ebben az apró résben lévő dolgokról. Tehát szükségünk van a Google-forgalomra, de nem az LLM-ekre.”

Ez lehet alapos indok. Egy olyan webhely, amely egyedi oktató információkat tesz közzé egy olyan szoftvertermékről, amely máshol nem létezik, meg akarhatja akadályozni az LLM-t abban, hogy indexelje tartalmát, mert ha nem teszik meg, akkor az LLM válaszolni tud a kérdésekre, miközben szükségtelenné teszi a webhely felkeresését.

Más, kevésbé egyedi tartalommal rendelkező webhelyek esetében azonban, például egy termékismertető és -összehasonlító webhely vagy egy e-kereskedelmi webhely esetében, nem biztos, hogy a legjobb stratégia blokkolni az LLM-eket abban, hogy információkat adjanak hozzá ezekről a webhelyekről a parametrikus memóriájukba.

A márkaüzeneteket elvesztették az LLM-ek számára

Mivel az AI-asszisztensek közvetlenül válaszolnak a kérdésekre, a felhasználók anélkül kaphatnak információkat, hogy fel kellene keresniük egy webhelyet. Ez csökkentheti a közvetlen forgalmat, és korlátozhatja a vállalkozás árinformációinak, a termékkörnyezetnek és a márkaüzeneteknek az elérhetőségét. Lehetséges, hogy az ügyfelek útja az AI felületen belül ér véget, és azok a vállalkozások, amelyek megakadályozzák az LLM-eket abban, hogy ismereteket szerezzenek cégeikről és ajánlatairól, alapvetően a keresőrobotra és a keresési indexre hagyatkoznak, hogy kitöltsék ezt a hiányt (és talán működik?).

Az AI-asszisztensek növekvő használata hatással van a marketingre, és kiterjed a bevétel-előrejelzésre is. Amikor a mesterséges intelligencia rendszerek összefoglalják az ajánlatokat és ajánlásokat, az LLM-eket blokkoló vállalatok kevésbé tudják befolyásolni az árak és az érték megjelenését. A hirdetési erőfeszítések a döntési folyamat korai szakaszában veszítenek láthatóságból, és az e-kereskedelmi hozzárendelés nehezebbé válik, ha a vásárlások a mesterséges intelligencia által generált válaszokat követik, nem pedig a közvetlen webhelylátogatásokat.

A Hostinger szerint egyes szervezetek egyre szelektívebbek abban, hogy milyen tartalom érhető el a mesterséges intelligencia számára, különösen az AI-asszisztensek számára.

Tomas Rasymas, a Hostinger mesterséges intelligenciájának vezetője megjegyezte:

„Mivel az AI-asszisztensek egyre gyakrabban válaszolnak közvetlenül a kérdésekre, a web a kattintásvezérelt modellről az ügynökök által közvetített modellre vált át. A vállalkozások valódi kockázatát nem maga az AI-hozzáférés jelenti, hanem az, hogy elveszítik az irányítást az árak, a pozicionálás és az érték megjelenítése felett a döntések meghozatalakor.”

Elvihető

Az LLM-ek letiltása abban, hogy a webhelyadatokat képzésre használják fel, nem igazán az alapértelmezett álláspont, még akkor is, ha sokan valódi dühöt és bosszúságot éreznek az LLM-képzés gondolata miatt. Hasznos lehet megfontoltabb választ adni, amely mérlegeli az előnyöket a hátrányokkal szemben, és azt is mérlegelni, hogy ezek a hátrányok valósak vagy vélt.