Új szabványokat dolgoznak ki a Robots Exclusion Protocol és a Meta Robots címkék kiterjesztésére, lehetővé téve számukra, hogy megakadályozzák az összes mesterséges intelligencia bejáró számára a nyilvánosan elérhető webes tartalmak képzési célú használatát. A Krishna Madhavan, a Microsoft mesterséges intelligencia fő termékmenedzsere és Fabrice Canel, a Microsoft Bing fő termékmenedzsere által kidolgozott javaslat megkönnyíti az összes főbb AI Training bejáró blokkolását egyetlen egyszerű szabállyal, amely minden egyes bejáróra alkalmazható.
Gyakorlatilag minden legitim bejáró betartja a Robots.txt és a Meta Robots címkéket, ami ezt a javaslatot valóra váltja a kiadók számára, akik nem akarják, hogy tartalmukat mesterséges intelligencia képzési célokra használják fel.
Internet Engineering Task Force (IETF)
Az Internet Engineering Task Force (IETF) egy 1986-ban alapított nemzetközi internetes szabványalkotó csoport, amely olyan szabványok kidolgozását és kodifikációját koordinálja, amelyekben mindenki önkéntesen megállapodik. Például a Robots Exclusion Protocolt 1994-ben önállóan hozták létre, és 2019-ben a Google azt javasolta, hogy az IETF fogadja el hivatalos szabványként, egyeztetett definíciókkal. 2022-ben az IETF közzétett egy hivatalos robotkizárási protokollt, amely meghatározza, hogy mi az, és kiterjeszti az eredeti protokollt.
Három módszer az AI oktatóbotok blokkolására
Az AI-oktatóbotok blokkolására vonatkozó javaslattervezet három módszert javasol a robotok blokkolására:
- Robots.txt protokollok
- Meta Robots HTML elemek
- Alkalmazásréteg válaszfejléc
1. Robots.Txt AI robotok blokkolásához
A javaslattervezet további szabályokat kíván létrehozni, amelyek kiterjesztik a Robots Exclusion Protocolt (Robots.txt) az AI Training Robotokra. Ez némi rendet teremt, és választási lehetőséget ad a megjelenítőknek, hogy milyen robotok térképezhetik fel webhelyeiket.
A Robots.txt protokoll betartása önkéntes, de minden törvényes bejáró hajlamos engedelmeskedni ennek.
A tervezet elmagyarázza az új Robots.txt szabályok célját:
„Míg a Robots Exclusion Protocol lehetővé teszi a szolgáltatástulajdonosok számára annak szabályozását, hogy a robotok néven ismert automatizált kliensek hogyan férhessenek hozzá a szolgáltatásaik URI-ihez, ha egyáltalán hozzáférnek [RFC8288]a protokoll nem szabályozza, hogy a szolgáltatásuk által visszaadott adatok hogyan használhatók fel a generatív AI-alapmodellek betanításához.
Az alkalmazásfejlesztőket felkérjük, hogy tartsák tiszteletben ezeket a címkéket. A címkék azonban nem egyfajta hozzáférési jogosultság.”
Az új robots.txt szabályok és a meta robots HTML-elemek egyik fontos tulajdonsága, hogy a legális mesterséges intelligencia oktató robotjai hajlamosak önként beleegyezni ezeknek a protokolloknak a követésébe, amit minden legitim bot megtesz. Ez leegyszerűsíti a botblokkolást a megjelenítők számára.
Az alábbiak a javasolt Robots.txt szabályok:
- DisallowAITraining – utasítja az elemzőt, hogy ne használja fel az adatokat az AI betanítási nyelvi modellhez.
- AllowAITraining – utasítja az elemzőt, hogy az adatok felhasználhatók az AI képzési nyelvi modellhez.
2. HTML elem (Robots Meta Tag)
A javasolt metarobotok irányelvei a következők:
3. Alkalmazási réteg válaszfejléc
Az alkalmazási réteg válaszfejléceit a szerver küldi válaszul a böngésző weboldalra vonatkozó kérésére. A javaslat új szabályok hozzáadását javasolja a robotok alkalmazási rétegbeli válaszfejlécéhez:
„DisallowAITraining – utasítja az elemzőt, hogy ne használja fel az adatokat az AI képzési nyelvi modellhez.
AllowAITraining – utasítja az elemzőt, hogy az adatokat fel lehet használni az AI képzési nyelvi modellhez.”
Nagyobb irányítást biztosít
Az AI-cégeket sikertelenül perelték be a bíróságon nyilvánosan elérhető adatok felhasználása miatt. Az AI-cégek kijelentették, hogy méltányos a nyilvánosan elérhető webhelyek feltérképezése, ahogyan azt a keresőmotorok tették évtizedek óta.
Ezek az új protokollok lehetővé teszik a webes megjelenítők számára, hogy irányítsák azokat a bejárókat, amelyek célja a betanítási adatok fogyasztása, így a bejárókat a keresőrobotokkal összehangolják.
Olvassa el a javaslatot az IETF-en:
Robots Exclusion Protocol Extension az AI-tartalom használatának kezelésére