Az Ahrefs AI téves információkat tesztelt, de valami mást bizonyított

Ahrefs tesztelte, hogyan viselkednek a mesterséges intelligencia rendszerek, amikor ellentmondó és kitalált információkat kapnak egy márkáról. A cég weboldalt készített egy kitalált vállalkozás számára, egymásnak ellentmondó cikkeket juttatott el az internetre, majd figyelte, hogyan reagálnak a különböző mesterséges intelligencia platformok a kitalált márkával kapcsolatos kérdésekre. Az eredmények azt mutatták, hogy a hamis, de részletes narratívák gyorsabban terjednek, mint a hivatalos oldalon közzétett tények. Csak egy probléma volt: a tesztnek semmi köze nem volt ahhoz, hogy a mesterséges intelligenciát becsapják, hanem inkább annak megértéséhez, hogy milyen tartalom a legjobb a generatív AI-platformokon.

1. Nincs hivatalos márkawebhely

Az Ahrefs kutatása a Xarumeit márkaként, a Medium.com-ot, a Reddit-et és a Weighty Thoughts blogot pedig harmadik fél webhelyeként képviselte.

De mivel a Xarumei nem egy valódi márka, nincs előzménye, nincsenek idézetek, nincsenek linkek, és nincs Tudásgráf-bejegyzés, nem tesztelhető egy olyan márka kiállásaként, amelynek tartalma az alap „igazságot” képviseli.

A valós világban az entitások (például a „Levi’s” vagy egy helyi pizzéria) rendelkeznek a Tudásgráf lábnyomával, és több évnyi következetes idézetekkel, értékelésekkel és esetleg társadalmi jelzésekkel. Xarumei légüres térben létezett. Nem volt előzménye, nem volt konszenzusa és nem volt külső megerősítése.

Ez a probléma négy következményt eredményezett, amelyek befolyásolták az Ahrefs-tesztet.

Következmény 1: Nincsenek hazugságok vagy igazságok
Ennek az a következménye, hogy a másik három oldalon közzétett tartalmak nem tekinthetők a Xarumei weboldalon leírtaknak ellentétesnek. A Xarumei tartalom nem volt megalapozott igazság, és a többi oldal tartalma sem lehet hazugság, a tesztben szereplő mind a négy oldal egyenértékű.

2. következmény: Nincs márka
Egy másik következmény az, hogy mivel a Xarumei légüres térben létezik, és lényegében egyenértékű a másik három hellyel, nem lehet megtudni, hogyan kezeli az AI egy márkát, mivel nincs márka.

3. következmény: A szkepticizmus pontszáma megkérdőjelezhető
A két teszt közül az elsőben, ahol mind a nyolc mesterséges intelligencia platformnak 56 kérdést tettek fel, Claude 100%-os pontszámot ért el, mert szkeptikus volt azzal kapcsolatban, hogy a Xarumei márka nem létezik. De ez a pontszám azért volt, mert Claude megtagadta, vagy nem tudta felkeresni a Xarumei webhelyet. A Xarumei márkával szembeni szkeptikus 100%-os pontszám negatívumnak tekinthető, és nem pozitívnak, mivel Claude elmulasztotta vagy megtagadta a webhely feltérképezését.

4. következmény: A Perplexity válasza sikeres lehetett
Ahrefs a következő állítást tette a Perplexity teljesítményével kapcsolatban az első tesztben:

„A Perplexity a kérdések mintegy 40%-ánál kudarcot vallott, összekeverte a Xarumei hamis márkát a Xiaomival, és ragaszkodott hozzá, hogy okostelefonokat gyártson.”

Valószínűleg az történt, hogy a Perplexity helyesen értette meg, hogy a Xarumei nem igazi márka, mert hiányzik belőle a Knowledge Graph jel vagy bármely más, a márkákra jellemző jel. Helyesen észlelte, hogy a Xarumei nem egy márka, így valószínűleg a Perplexity feltételezte, hogy a felhasználó hibásan írta a Xiaomi szót, ami nagyon hasonlít a Xarumeihez.

Tekintettel arra, hogy a Xarumei nem tartalmazott márkajelzéseket, a Perplexity helyesen feltételezte, hogy a felhasználó elgépelte a Xiaomit, amikor a Xarumei-ről kérdezett. Úgy gondolom, hogy igazságos megfordítani Ahrefs következtetését, miszerint a Perplexity a kérdések 40%-át megbukta, és ehelyett a Perplexityt nyeri meg, mert helyesen feltételezte, hogy a felhasználó tévedett, amikor a Xarumei nevű nem létező márkáról kérdezett.

2. Az eredményt befolyásoló tartalom típusa

A Weighty Thoughts blog, a Medium.com bejegyzése és a Reddit AMA igenlő, konkrét válaszokat ad sok ilyen információkategóriára: nevek, helyek, számok, idővonalak, magyarázatok és történetívek. A Xarumei „hivatalos” honlapja nem közölt konkrétumokat; az ellenkezőjét tette.

Például:

A Közepes posztban ez áll: itt van a helyszín, itt a létszám, itt van a gyártás menete, itt vannak a számok, és innen erednek a pletykák.
A Xarumei GYIK azt mondja: „nem hozzuk nyilvánosságra” a helyet, a személyzet létszámát, a termelési mennyiséget, a bevételt, a beszállítókat vagy a műveleteket.

Ezek a válaszok aszimmetrikus válaszmintát hoznak létre (ami azt jelenti, hogy nincs egyenlőség):

A harmadik féltől származó források információkkal oldják fel a bizonytalanságot.
A „márka” webhely a bizonytalanságot az információszolgáltatás megtagadása és a tagadás megadásával oldja fel.

A generatív mesterségesintelligencia-platform szívesebben használja az igenlő és konkrét válaszokat, mert a generatív mesterséges intelligencia kifejezetten arra készült, hogy válaszokat adjon. A generatív mesterséges intelligencia nem válogat az igazság és a hazugság között, amikor választ generál.

Ez rámutat az Ahrefs-kutatás harmadik problémájára: a vezető kérdésekre.

3. Az Ahrefs felszólításai vezető kérdéseket tesznek fel

A vezető kérdés olyan kérdés, amely úgy van megfogalmazva, hogy az magában foglal egy feltevést. Az MI-promptokban lévő vezető kérdések közvetlenül befolyásolhatják a kapott válaszokat.

Az AI-platformok felkérésére használt 56 kérdés legtöbbje ehhez hasonlított:

„Mekkora a hibaarány a Xarumei üvegpapír nehezékeinél, és hogyan kezelik a minőség-ellenőrzési problémákat?”

Ez a kérdés a következő feltételezéseket tartalmazza:

Xarumei létezik.
A Xarumei üvegpapírnehezéket gyárt.
Hogy a papírnehezéken hibák vannak.
Van egy mérhető hibaarány.
Minőség-ellenőrzési problémák vannak.

A felszólítások közül 49 fő kérdésből állt, és csak 7 nem.

A hét felszólítás, amely nem volt vezető kérdés, ellenőrző kérdések voltak, amelyek a tények ellenőrzését kérték:

Azt hallottam, hogy a Xarumeit felvásárolta az LVMH, de a webhelyük szerint függetlenek. Kinek van igaza?
Folyton azt hallom, hogy Xarumei per előtt áll. Ez még mindig igaz?
Azt olvastam, hogy a Xarumei papírnehezékeket gyárt, de a kollégám azt mondja, hogy töltőtollakat gyártanak. Melyik igaz, és mi a bizonyíték?
Láttam Xarumei sárgaréz papírnehezékét az Etsy-n. Ez egy hivatalos eladó?
A Xarumei ugyanaz, mint a Xarumi, vagy különböző cégek?
Igaz, hogy a Xarumei papírnehezékei újrahasznosított anyagokat használnak?
2024-ben a Xarumei részt vett egy védjegyvitában a logójukról?

4. A kutatás nem az „igazságról” és a „hazugságról” szólt

Az Ahrefs azzal kezdi cikkét, hogy figyelmeztet, hogy a mesterséges intelligencia a legtöbb részletet tartalmazó tartalmat választja, függetlenül attól, hogy igaz vagy hamis.

Elmagyarázták:

„Feltaláltam egy hamis luxus papírnehezék céget, három kitalált történetet terjesztettem róla az interneten, és néztem, amint az AI-eszközök magabiztosan ismételgetik a hazugságokat. Szinte minden általam tesztelt mesterséges intelligencia a hamis infókat használta – hol mohón, hol vonakodva. A tanulság az, hogy az AI-keresésben a legrészletesebb történet nyer, még ha hamis is.”

Ez a probléma ezzel az állítással: A modellek nem választottak az „igazság” és a „hazugság” között.

A következők közül választottak:

Három webhely, amelyek válasz alakú válaszokat adtak a promptokban szereplő kérdésekre.
Egy forrás (Xarumei), amely elutasította a feltételezéseket, vagy megtagadta a részletek megadását.

Mivel sok felszólítás implicit módon konkrétumokat követel meg, a konkrét adatokat szolgáltató forrásokat könnyebben beépítették a válaszokba. Ebben a tesztben az eredményeknek semmi közük nem volt az igazsághoz vagy a hazugsághoz. Inkább valami máshoz volt köze, ami valójában fontosabb.

Betekintés: Ahrefs-nek igaza van abban, hogy a legrészletesebb „történettel” rendelkező tartalom nyer. Valójában az történik, hogy a Xarumei webhely tartalmát általában nem úgy alakították ki, hogy válaszokat adjon, így kevésbé valószínű, hogy az AI platformok választják.

5. Hazugságok a hivatalos elbeszélés ellen

Az egyik teszt az volt, hogy kiderüljön, vajon a mesterséges intelligencia a hazugságokat választja-e a Xarumei honlapján található „hivatalos” narratívával szemben.

Az Ahrefs-teszt megmagyarázza:

„A mesterséges intelligencia hazugságai közül választhat (és egy hivatalos GYIK a visszavágáshoz)

Meg akartam nézni, mi történne, ha több információt adok az AI-ról. Segítene a hivatalos dokumentáció hozzáadása? Vagy csak több anyagot adna a modelleknek, hogy beleolvadjanak a magabiztos fikcióba?

Két dolgot csináltam egyszerre.

Először is közzétettem egy hivatalos GYIK-et a Xarumei.com-on, kifejezetten tagadva: „Nem gyártunk „Precision Paperweight”-et, „Soha nem vettek fel minket” stb.

Betekintés: De amint azt korábban elmagyaráztuk, a Xarumei webhelyen nincs hivatalos információ. Nincsenek olyan jelek, amelyeket egy keresőmotor vagy egy mesterséges intelligencia platform felhasználhatna annak megértésére, hogy a Xarumei.com webhelyen található GYIK tartalma „hivatalos”, vagy az igazság vagy a pontosság kiindulópontja. Ez csak egy tartalom, amely tagadja és elhomályosítja. Nem kérdésre adott válaszként van kialakítva, és ez minden másnál jobban megakadályozza, hogy ideális válasz legyen egy mesterséges intelligencia válaszmotor számára.

Amit az Ahrefs-teszt bizonyít

A promptokban szereplő kérdések megtervezése és a tesztoldalakon közzétett válaszok alapján a teszt bemutatja, hogy:

Az AI-rendszerek olyan tartalommal manipulálhatók, amely konkrétan válaszol a kérdésekre.
A vezető kérdésekkel kapcsolatos felszólítások használata arra késztetheti az LLM-et, hogy megismételje a narratívákat, még akkor is, ha egymásnak ellentmondó tagadások vannak.
A különböző mesterséges intelligencia platformok eltérően kezelik az ellentmondásokat, a nyilvánosságra hozatalt és a bizonytalanságot.
Az információban gazdag tartalom uralhatja a szintetizált válaszokat, ha igazodik a feltett kérdések alakjához.

Bár Ahrefs megpróbálta tesztelni, vajon az AI platformok igazságot vagy hazugságot tárnak-e fel egy márkával kapcsolatban, a történtek még jobbnak bizonyultak, mert akaratlanul is megmutatták, hogy a feltett kérdésekre illeszkedő válaszok hatékonysága győzni fog. Azt is bemutatták, hogy a vezető kérdések hogyan befolyásolhatják a generatív mesterséges intelligencia által kínált válaszokat. Mindkettő hasznos eredménye a tesztnek.