A Google kutatása megmutatja, hogyan észlelhető az AI spam

A Google kutatói új tanulmányt tettek közzé, amely bemutatja, hogyan lehet elkapni a spamküldőket, akik generatív mesterséges intelligencia segítségével árasztják el spammel a Google platformját, és túlterhelik annak minőségi szűrőit. Míg a kutatás a videotartalom-spam azonosítására összpontosít, a leírt technikák ötletet adhatnak azokról a módszerekről, amelyeket a Google használhat webes tartalom spam esetén. Valójában a kutatási cikk egy szövegalapú generatív AI-azonosító rendszert tárgyal.

Az új rendszer állítólag „nagyon pontos védelem” a koordinált generatív mesterséges intelligencia spam ellen, ami azt jelenti, hogy elképzelhető, hogy ilyesmi használatban van. Az új rendszer neve Scalable Cluster Termination System (S-CTS) és a kutatási cikk, Az ellenséges szintetikus lecsúszás és az összehangolt médiahasználat skálázható észlelése: LoRA-kompatibilis multimodális védelmi rendszer.

Használható ez a rendszer mesterséges intelligencia által generált szöveges spamekhez?

A rendszer sikeres, mert egy támadás szervezeti felépítését keresi, ami egy adott szemantikus narratív sablon tömeges újrafelhasználása ahelyett, hogy egyenként értékelné ki az elszigetelt videókat.

A kutatási cikk a szövegbeágyazások, a kiemelkedő kifejezések és a sablonos narratívák használatát is leírja tartalmi osztályozójuk részeként. Ha egy infrastruktúra-fürt fiókjainak nagy százaléka ugyanazokat a mesterséges intelligencia által generált szöveg-/médiasablonokat használja, akkor a teljes fürt megszűnik.

Gyorsan alkalmazkodva az új típusú mesterséges intelligencia spamekhez

A cikk szerint amikor a támadók új generatív modelleket alkalmaznak, a Google gyorsabban adaptálhatja szintetikus levélszemét-észlelő rendszerét az alacsony rangú adaptáció (LoRA) és az automatikus prompt optimalizálás (APO) használatával, ahelyett, hogy egy hatalmas mesterségesintelligencia-modellt tanítana át.

Azt írják:

„A 2. szakasz osztályozója szintetikus trendérzékelésre specializálódott, paraméter-hatékony finomhangolási (PEFT) technikákkal, különösen az alacsony rangú adaptációval (LoRA) és az automatikus prompt optimalizálással (APO).

…Ez a megközelítés lehetővé teszi a nagy szabadalmaztatott LLM (pl. Gemini 2.0 Flash) hatékony adaptálását a teljes finomhangolás túl magas számítási költsége nélkül. Pontosabban, a LoRA jelentősen csökkenti a betanítható paraméterek számát és jelentősen csökkenti a memóriaigényt, lehetővé téve a gyors, költséghatékony végrehajtást és párhuzamos következtetéseket a skálázható TPU infrastruktúráról.

…Az APO lehetővé teszi számunkra, hogy olyan utasításokat tervezzünk, amelyek gyorsabban alkalmazkodnak az új „Slop” trendekhez, mint egy sűrű modell átképzése. Gyorsan újra betaníthatjuk a LoRA-adaptert, amikor egy új GenAI-modellt (mint például a Sora vagy a Kling) kiadnak a támadók.”

Mondat-BERT (S-BERT) A mesterséges intelligencia által generált szöveg azonosítására

Valószínűleg az lesz a legérdekesebb, hogy a kutatók elismerik a Sentence-BERT (SBERT) használatát a szemantikailag hasonló mondatok azonosítására.

A Sentence-BERT-re hivatkoznak, hogy igazolják tanulmányuk alapvető feltételezését: az automatizált, mesterséges intelligencia által generált szöveg külön matematikai lábnyomot („szövegbeágyazódást”) hagy, amely észlelhető.

Ezután az S-BERT-ről váltanak, hogy rávilágítsanak arra, miért jelent előrelépést a rendszerük (S-CTS): mert nem áll meg a szövegbeágyazás egyeztetésénél. Multimodális, kétlépcsős LLM architektúrára skálázódik, amely ezeket a szövegmintákat az infrastruktúra szintű bot-net adatok mellett értékeli.

A kutatók ezt írják:

„Szövegalapú tartalom esetén olyan módszereket használnak, mint például a Sentence-BERT modellek által generált szövegbeágyazások a szkriptelt mesterséges intelligencia narratívák észlelésére. A multimédia esetében a hagyományos technikák közé tartozik az észlelési hash. A generatív mesterséges intelligencia azonban egyedi kihívásokat vet fel; rendszerünk szabadalmaztatott algoritmusokat alkalmaz, amelyek mind a szöveges, mind a multimédiás tartalmakat elemzik, hogy azonosítsák a megosztott csatornák „generatív termelési jelzőit”.

Van másik kutatási cikk a Sentence-BERT-ről (PDF), és így magyarázzák el annak előnyeit:

„Ebben a kiadványban bemutatjuk a Sentence-BERT-t (SBERT), az előre betanított BERT-hálózat egy olyan módosítását, amely sziámi és triplet hálózati struktúrákat használ a szemantikailag értelmes mondatbeágyazások származtatására, amelyeket koszinusz-hasonlósággal lehet összehasonlítani. Ez csökkenti a BERT / RoBERTa leghasonlóbb pár megtalálásának erőfeszítését a BERT-vel / RoBERTa-val 65 óráról körülbelül 5 másodpercre a SBERTTura karbantartása mellett.

A SBERT-et és a SRoBERTa-t a közös STS-feladatokon értékeljük, és átadjuk a tanulási feladatokat, ahol felülmúlja a többi korszerű mondatbeágyazási módszert.”

A SEO szempontjából az S-BERT említése a generatív AI szöveges spam azonosítására rendkívül érdekes, mert a SEO iparág nem igazán tud róla. Ez bővíti ismereteinket a szövegalapú generatív mesterséges intelligencia spamek azonosítására használt algoritmusok fajtáiról.

Most jöjjön az érdekes rész: az S-BERT hét éve létezik, és a SEO-ipar nem igazán tudta róla, hogy a szöveges levélszemét azonosítására használható. Ez nem jelenti azt, hogy a Google hét éve használja. Tekintettel arra, hogy a generatív mesterséges intelligencia csak néhány éve érhető el széles körben, előfordulhat, hogy a Sentence-BERT-et csak a közelmúltban használták olyan keresőmotorok, mint a Google, a mesterséges intelligencia által generált szöveges spam elkapására.

Probléma megoldás alatt

A kutatók három okot azonosítanak, amiért a generatív mesterséges intelligencia spam kikerült az irányítás alól, és a jelenlegi módszerek túlnyomórészt az alacsony minőségű tartalom észlelésére.

Az alacsony minőségű mesterséges intelligencia által generált tartalom problémája „exponenciális kihívássá” vált az észlelés és elfogás terén.
A cikk elismeri a jelenlegi mérséklési stratégiák korlátait.
A mesterséges intelligencia által generált spam tartalomszintű észlelésére való összpontosítás egyre gyakrabban sikertelen a „minőségi szűrők túlterhelésére” tervezett skála miatt.

A kutatók megmagyarázzák:

„Az online videóplatformok exponenciális kihívással néznek szembe az AI által generált „slop” és a szintetikus spam özönének észlelésében és mérséklésében, amelyeket összehangolt rosszindulatú szereplők folytatnak.

Ezt a tartalmat egyre inkább úgy tervezték, hogy kihasználja a hagyományos médiakriminalisztika korlátait, gyakran generatív mesterséges intelligenciát használva a káros vagy gyenge minőségű anyagok egyedi, lokalizált változatainak méretarányos előállítására.

A hagyományos tartalomközpontú moderálás kudarcot vall ezzel az összehangolt, ellenséges generációs stratégiával szemben.”

Ez a „lokalizált változatok” kifejezés azért érdekes, mert „egyedi ujjlenyomatok létrehozására funkcionálisan azonos tartalomhoz” utal.

A tanulmány olyan kifejezéseket használ, mint:

„egyedi, lokalizált változatok”
„funkcionálisan azonos tartalom”
„a funkcionálisan azonos spam végtelen, egyedi változatai”

Ez több, mint a tartalom itt-ott apró módosítása. Arról beszélnek, hogy a spammerek végtelenül egyedi, „funkcionálisan azonos” tartalmat telepítenek a hagyományos tartalomelemzési és csökkentési stratégiák megkerülésére. Pontosan ezért kicsinyítenek, hogy fiókcsoportokat nézzenek meg, hogy azonosítsák a spamküldők tényleges ujjlenyomatait vagy automatizálását.

A tanulmány az AI által generált videospam azonosítására összpontosít, de felteszi a kérdést: használható-e valami ilyesmi az AI által generált szöveges spam azonosítására? Mindenképpen megfontolandó dolog.

Hogyan győzheti le az AI-Slop a minőségi szűrőket?

Érdekes tény, amelyet a kutatók megosztanak, az az, hogy a hatalmas léptékben generált mesterséges intelligencia lecsapódása túlterhelheti a minőségi szűrőket. A kutatók arra is felhívják a figyelmet, hogy a spammerek „ellenálló alkalmazkodást” alkalmaznak a minőségi szűrők megkerülésére. Az ellenséges alkalmazkodás azt jelenti, hogy folyamatosan frissítik a spameket, hogy azonosítsák azokat a mintákat, amelyek lehetővé teszik, hogy a platform „sértési küszöbe” alá csússzon.

A Megoldás

A kutatók egy olyan rendszert javasolnak, amely távolítja el az egyes levélszemét-incidensek azonosítását annak érdekében, hogy a közös eredetet jelző levélszemétcsoportok észlelésére összpontosítson.

A kutatók ezt írják:

„Ez a cikk egy új, méretezhető védelmi rendszert mutat be, amelyet online videoplatformokhoz (OVP) terveztek, hogy azonosítsák és megszüntessék az egymással ellentétes jellegű szintetikus tartalmat mutató, összehangolt fiókok klasztereit.”

És ezt úgy teszik, hogy két szemszögből nézik:

A tartalomminta komponens
Ez egy gépi tanulási komponens, amely „az AI által generált „slop” és „AI által generált szkriptekben” (értsd: szöveg/párbeszéd) gyakori ismétlődő, sablonos narratívákat keres. Kifejezetten a skálát vizsgálják az „automatizált szkriptekre jellemző nem emberi, nagyfrekvenciás közzétételi viselkedések” azonosításával.
Az infrastruktúra komponens
Ez a Google algoritmusait használja a „védett infrastruktúra jeleinek” elemzésére, hogy azonosítsa azokat a fiókcsoportokat, amelyek statisztikailag valószínűleg ugyanabból a szervezetből vagy automatizálási szoftverszkriptből származnak.

A méretezhető fürtlezáró rendszer (S-CTS) részletei

Ahelyett, hogy egyetlen gyanús videót külön-külön nézne meg, a rendszer kétirányú gépi tanulási megközelítést alkalmaz az automatizált fiókok („bot-hálózatok”) teljes hálózatának észlelésére, amelyek rossz minőségű, mesterséges intelligencia által generált spammel árasztják el a platformot. Így a cél az egyedi kéretlen levelek azonosításáról több különálló fiók azonosítására változik, amelyek ugyanazon spamküldőkhöz vagy automatizált szoftverszkriptekhez tartoznak.

A rendszer az „infrastruktúra-szintű jeleket és szervetlen viselkedési mintákat” vizsgálja, hogy a kapcsolódó fiókokat „generációs klaszterekbe” csoportosítsa. A generálási fürtök olyan fiókcsoportok, amelyek valószínűleg ugyanazt az API-t vagy szkriptet használják.

A lap kifejti:

„A megközelítés egy sokoldalú architektúrát használ, amely két alapvető gépi tanulási komponenst foglal magában:

robusztus koordinált bot-háló detektor (a fiókkapcsolaton keresztül)

és egy szintetikus mintaosztályozó.

Kulcsfontosságú, hogy bevezetünk egy fejlett mesterséges intelligencia-bővítő réteget, amely nagy nyelvi modelleket (LLM) használ, és amely az alacsony szintű adaptációra (LoRA) és az automatikus azonnali optimalizálásra (APO) specializálódott, hogy gyors, nagy pontosságú szemantikai megértést érjünk el az újonnan megjelenő szintetikus spamtrendekről.”

Működik az S-CTS?

Igen, a tesztadatok azt mutatják, hogy a rendszer „jelentős hatást” eredményez a levélszemét „fürteinek” nagy pontosságú (precíz) felfogásában.

Azt írják:

„A tesztadatok bizonyítják a rendszer jelentős hatását, ami a szintetikus spamgenerátorok csatornáit tartalmazó fürtök nagy pontosságú sikeres lezárását eredményezi.

Ezenkívül az LLM-vezérelt automatizálás jelentősen javítja a működési hatékonyságot, ami jelentős humán ellenőrzési hatékonyságnövekedést eredményez. Ez a munka egy olyan kritikus rendszertervet részletez, amely alapvető skálázhatóságot és ellenséges ellenállást biztosít a kifinomult generatív támadásokkal szemben.”

Elvitelre

Néhány érdekes tény ebben a kutatási cikkben:

A minőségi szűrőket eláraszthatja a spam áradata.
A Sentence-BERT-et a mesterséges intelligencia által generált spam elkapására használják.
A skálázható fürtlezáró rendszer egyedülálló megközelítés a spamek fürtszintű azonosítására.
A Google gyorsan tud alkalmazkodni a mesterséges intelligencia által generált spamekhez az alacsony rangú adaptációval (LoRA) és az automatikus promptoptimalizálással (APO).

Ez a kutatás, az Adversarial Synthetic Slop and Coordinated Media Abuse: A LoRA-kompatibilis multimodális védelmi rendszer (PDF) skálázható detektálása, bemutatja a Google által az AI által generált levélszemét (beleértve a szöveges és videós spamet) azonosítására szolgáló különféle technikákat.