LLM-ek „nem léteznének” Reddit adatok nélkül

Peter

A Reddit vezérigazgatója, Steve Huffman szerint a nagy nyelvi modellek „nem léteznének úgy, ahogyan ismerjük” a Reddit tartalma nélkül. A platform felhasználó által generált adatait „modern olajnak” nevezte az AI számára.

Huffman a Fast Company leginnovatívabb vállalatok csúcstalálkozóján adott interjújában tette ezt a megjegyzést.

Mit mondott Huffman a Reddit értékéről a mesterséges intelligencia számára?

Huffman leírta a Reddit adatainak pozícióját az AI ökoszisztémában.

Huffman azt mondta:

„Az általunk ismert LLM-ek nem léteznének a Reddit nélkül. A Reddit az egyik legnagyobb képzési adatforrás az LLM-ek számára, és a Reddit továbbra is a képzési adatok egyik elsődleges forrása, és mi vagyunk a legtöbbet idézett, a legtöbbet idézett platform az összes modell között.”

Az idézetet a Profoundnak tulajdonította, egy olyan cégnek, amely nyomon követi a mesterséges intelligencia idézési adatait.

Huffman elmagyarázta, hogy az AI-cégek miért függnek a tartalomtól.

„Nincs mesterséges intelligencia tényleges intelligencia nélkül. Végső soron ezek a modellek meglehetősen egyszerűek. Abszolút nagy léptékben visszatorlaszolják azt, amit máshol fogyasztottak, és ennek a fogyasztásnak a nagy része valójában csak az emberi beszélgetés a Redditen, mert ez természetes, és gyakorlatilag minden elképzelhető témát lefed.”

Egyeseknek ajánlatok, másoknak perek

A Reddit 2024-ben bejelentette, hogy adatlicenc-megállapodásokat kötött a Google-lal és az OpenAI-val. Huffman ezeket a Reddit eredeti két mesterségesintelligencia-adatügyletének nevezte, és nem jelentett be további megállapodásokat.

„Amióta megkötöttük az eredeti két megállapodást a Google-lal és az OpenAI-val, ami több mint két éve volt, így sokat tanultunk. Sokat tanultak. Az egész világ sokat tanult. Pontosabban, hogy a Reddit adatai mennyire értékesek és mennyire hasznosak. És ezért azt hiszem, nagyon megfontoltak és szelektívek vagyunk ott. De igen, nyitottak és nyitottak vagyunk az üzletre.”

Azok a cégek, amelyek nem fogadták el a licencfeltételeket, a Reddit jogi lépéseket tett. A cég beperelte az Anthropicot a kaliforniai felsőbb bíróságon, a Reddit-tartalom jogosulatlan felhasználására és a Reddit feltételeinek megsértésére hivatkozva. A Reddit szövetségi keresetet nyújtott be a Perplexity ellen New York déli kerületében, valamint három adatkaparó céget, állítólagos DMCA kijátszásellenes megsértésére és kapcsolódó követelésekre hivatkozva.

Huffman határvonalat húzott a két csoport között.

„Az olyan cégek, mint a Google és az OpenAI, ahol jó kapcsolatokat ápoltunk, ténylegesen alkut köthetünk, és bizonyos korlátokat állíthatunk fel a felhasználók nevében az adatainkhoz való hozzáféréshez, de aztán együttműködhetünk az internet következő generációjának termékeinek elkészítésében.”

Hozzátette: „nem minden cég hajlandó együttműködő partner lenni, ezért sajnos a másik utat kell választanunk, a pereket”.

Huffman elmondta a közönségnek, hogy a Reddit álláspontja a kereskedelmi felhasználással kapcsolatban egyszerű. „Adataink kereskedelmi felhasználásához kereskedelmi feltételekre van szükség” – mondta. A Reddit 2023-ban kezdett díjat fizetni a kereskedelmi API-hozzáférésért, ami megelőzte a jelenlegi licencszerződéseket.

Huffman elmondta, hogy a Reddit továbbra is ingyenes hozzáférést biztosít az adatokhoz a kutatók és az egyetemek számára, és igyekszik rugalmas maradni a nem kereskedelmi használatra.

Mi változtatta meg a Reddit nyitottságát?

Huffman szerint a Reddit hajlandósága az adatok szabad megosztására megváltozott, amikor az AI-ipar eltávolodott a nyílt kutatástól. Amint arról a SEJ korábban beszámolt, a Reddit számos keresőrobot számára korlátozta a hozzáférést, míg a Google továbbra is kivétel volt.

„Történelmileg a Reddit olyan volt, mintha a nyílt internet szülöttei lettünk volna, és a Reddit nyitott és nagyon megengedő volt az adataihoz való hozzáférés tekintetében. És őszintén szólva, azt hiszem, ma más helyzetben lennénk, ha az AI-cégek továbbra is alapvetően nyílt és nyílt forráskódúak lennének, és nyílt kutatást végeznének.”

Huffman szerint a probléma az volt, hogy a Reddit már nem tudta nyomon követni, hogyan használják fel adatait. „Az emberek használják az adatainkat, és nem tudjuk, mire használták őket” – mondta a hallgatóságnak.

A kereskedelmi feltételeken túl Huffman elmondta, hogy a Reddit meg akarja akadályozni, hogy adatait a felhasználók azonosítására, hirdetésekkel való megcélzására, illetve a platform cseréjére vagy szétválasztására használják fel.

A Reddit saját mesterséges intelligencia erőfeszítései

Huffman elismerte, amit „paradoxonnak” nevezett. A Reddit tartalma külső mesterségesintelligencia-rendszereket működtet, de a vállalat az AI-t is használja platformján.

A leglátványosabb termék a Reddit Answers, egy LLM-alapú keresési funkció. Beolvassa a bejegyzéseket és a megjegyzéseket, majd szó szerinti felhasználói idézetek alapján válaszokba rendezi őket. Huffman megjegyezte, hogy határozott válasz nélküli kérdésekre tervezték.

„A Reddit Answers néhány olyan dolgot tesz, amelyek a Redditre jellemzőek. Az egyik, hogy alapvetően csak szó szerint válaszol valódi emberektől. A második dolog pedig az, hogy megpróbál többféle nézőpontot bemutatni, mert a lényeg, ha a Redditen van, az emberi nézőpontot akarja.”

A színfalak mögött a Reddit mesterséges intelligenciát használ a tartalom moderálására és osztályozására. Az LLM-ek ki tudják értékelni, hogy egy megjegyzés átlép-e zaklatásba, amit Huffman korábban nehéznek minősített a benne rejlő szubjektivitás miatt.

Huffman a mesterséges intelligencia moderálását a legrosszabb tartalomnak való kitettség csökkentésének módjaként mutatta be, nem pedig a Reddit közösségi moderálási modelljének helyettesítésére.

„A legrosszabb munka az interneten az volt, hogy az internet legrosszabb tartalmait nézegettük, és eldöntöttük, hogy az online lehet-e vagy sem” – mondta Huffman. – Ez a munka egyszerűen megszűnik.

A mesterséges intelligencia által írt bejegyzések szürke területe

Huffman azzal a kihívással is foglalkozott, hogy a felhasználók AI-eszközökkel tartalmat írjanak, majd beillesszék a Redditbe. Ez különbözik az automatizált bottevékenységtől – hangsúlyozta.

„A legbosszantóbb dolog, amit nem csak a Redditen látok, hanem az egész interneten, hogy valaki megírta a bejegyzését vagy megjegyzését a ChatGPT-vel, majd beillesztette a Redditbe. Például ez egy bot? Biztosan botnak érzem magam, de az ötlet mögött ember áll.”

Huffman szándékosságként fogalmazta meg a kérdést. „Nagyon fontos számunkra, hogy egy ember álljon az ötlet, a tartalom és a felszólítás mögött” – mondta Huffman. De azt is megjegyezte, hogy „az írás szívás”, amikor a felhasználók az AI-ra hagyatkoznak bejegyzéseik megírásakor.

Ahelyett, hogy irányelvet dolgozna ki a probléma megoldására, Huffman jelezte, hogy a Reddit hagyja, hogy közössége kezelje a problémát. A felhasználók már most negatívan értékelik az AI által írt tartalmat, és kommentben felhívják őket. Huffman szerint a Reddit „jobban feljogosítja a felhasználókat és az alredditeket arra, hogy teljesen elutasítsák az ilyen jellegű tartalmakat”.

A tágabb kérdést a matematika órán lévő számológépekhez hasonlította. „A gyerekek manapság még csak megtanulnak írni mesterséges intelligencia segítségével. Mit fogunk tenni ez ellen?” – mondta. „Úgy gondolom, hogy tanulnunk kell mindenkivel együtt.”

Miért számít ez?

Huffman megjegyzései megerősítik a Reddit álláspontját, miszerint a felhasználói megbeszélések az AI-rendszerek alapvető inputját jelentik.

A Huffman által leírt, mesterséges intelligencia által írt tartalomprobléma egy olyan SEJ, amelyre egy szélesebb körű YouTube AI-kutatás részeként került sor. A Reddit döntése, miszerint a közösségi szavazást engedélyezi a mesterséges intelligencia által generált bejegyzések kezelésének, ahelyett, hogy észlelőeszközöket építene ki, más út, mint az automatizált címkézést alkalmazó platformok.

Előre tekintve

Huffman azt mondta a Fast Company-nak, hogy a Reddit „a piacon állandóan beszél az emberekkel” az új adatüzletekről, bár nem utalt egy harmadik megállapodásra.

A Reddit Anthropic és Perplexity ellen indított perei folyamatban vannak. Az Anthropic-ügy márciusban a szövetségi bíróság előzetes letartóztatásának tárgyát képezte.

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.