LLM-ek „nem léteznének” Reddit adatok nélkül

A Reddit vezérigazgatója, Steve Huffman szerint a nagy nyelvi modellek „nem léteznének úgy, ahogyan ismerjük” a Reddit tartalma nélkül. A platform felhasználó által generált adatait „modern olajnak” nevezte az AI számára.

Huffman a Fast Company leginnovatívabb vállalatok csúcstalálkozóján adott interjújában tette ezt a megjegyzést.

Mit mondott Huffman a Reddit értékéről a mesterséges intelligencia számára?

Huffman leírta a Reddit adatainak pozícióját az AI ökoszisztémában.

Huffman azt mondta:

„Az általunk ismert LLM-ek nem léteznének a Reddit nélkül. A Reddit az egyik legnagyobb képzési adatforrás az LLM-ek számára, és a Reddit továbbra is a képzési adatok egyik elsődleges forrása, és mi vagyunk a legtöbbet idézett, a legtöbbet idézett platform az összes modell között.”

Az idézetet a Profoundnak tulajdonította, egy olyan cégnek, amely nyomon követi a mesterséges intelligencia idézési adatait.

Huffman elmagyarázta, hogy az AI-cégek miért függnek a tartalomtól.

„Nincs mesterséges intelligencia tényleges intelligencia nélkül. Végső soron ezek a modellek meglehetősen egyszerűek. Abszolút nagy léptékben visszatorlaszolják azt, amit máshol fogyasztottak, és ennek a fogyasztásnak a nagy része valójában csak az emberi beszélgetés a Redditen, mert ez természetes, és gyakorlatilag minden elképzelhető témát lefed.”

Egyeseknek ajánlatok, másoknak perek

A Reddit 2024-ben bejelentette, hogy adatlicenc-megállapodásokat kötött a Google-lal és az OpenAI-val. Huffman ezeket a Reddit eredeti két mesterségesintelligencia-adatügyletének nevezte, és nem jelentett be további megállapodásokat.

„Amióta megkötöttük az eredeti két megállapodást a Google-lal és az OpenAI-val, ami több mint két éve volt, így sokat tanultunk. Sokat tanultak. Az egész világ sokat tanult. Pontosabban, hogy a Reddit adatai mennyire értékesek és mennyire hasznosak. És ezért azt hiszem, nagyon megfontoltak és szelektívek vagyunk ott. De igen, nyitottak és nyitottak vagyunk az üzletre.”

Azok a cégek, amelyek nem fogadták el a licencfeltételeket, a Reddit jogi lépéseket tett. A cég beperelte az Anthropicot a kaliforniai felsőbb bíróságon, a Reddit-tartalom jogosulatlan felhasználására és a Reddit feltételeinek megsértésére hivatkozva. A Reddit szövetségi keresetet nyújtott be a Perplexity ellen New York déli kerületében, valamint három adatkaparó céget, állítólagos DMCA kijátszásellenes megsértésére és kapcsolódó követelésekre hivatkozva.

Huffman határvonalat húzott a két csoport között.

„Az olyan cégek, mint a Google és az OpenAI, ahol jó kapcsolatokat ápoltunk, ténylegesen alkut köthetünk, és bizonyos korlátokat állíthatunk fel a felhasználók nevében az adatainkhoz való hozzáféréshez, de aztán együttműködhetünk az internet következő generációjának termékeinek elkészítésében.”

Hozzátette: „nem minden cég hajlandó együttműködő partner lenni, ezért sajnos a másik utat kell választanunk, a pereket”.

Huffman elmondta a közönségnek, hogy a Reddit álláspontja a kereskedelmi felhasználással kapcsolatban egyszerű. „Adataink kereskedelmi felhasználásához kereskedelmi feltételekre van szükség” – mondta. A Reddit 2023-ban kezdett díjat fizetni a kereskedelmi API-hozzáférésért, ami megelőzte a jelenlegi licencszerződéseket.

Huffman elmondta, hogy a Reddit továbbra is ingyenes hozzáférést biztosít az adatokhoz a kutatók és az egyetemek számára, és igyekszik rugalmas maradni a nem kereskedelmi használatra.

Mi változtatta meg a Reddit nyitottságát?

Huffman szerint a Reddit hajlandósága az adatok szabad megosztására megváltozott, amikor az AI-ipar eltávolodott a nyílt kutatástól. Amint arról a SEJ korábban beszámolt, a Reddit számos keresőrobot számára korlátozta a hozzáférést, míg a Google továbbra is kivétel volt.

„Történelmileg a Reddit olyan volt, mintha a nyílt internet szülöttei lettünk volna, és a Reddit nyitott és nagyon megengedő volt az adataihoz való hozzáférés tekintetében. És őszintén szólva, azt hiszem, ma más helyzetben lennénk, ha az AI-cégek továbbra is alapvetően nyílt és nyílt forráskódúak lennének, és nyílt kutatást végeznének.”

Huffman szerint a probléma az volt, hogy a Reddit már nem tudta nyomon követni, hogyan használják fel adatait. „Az emberek használják az adatainkat, és nem tudjuk, mire használták őket” – mondta a hallgatóságnak.

A kereskedelmi feltételeken túl Huffman elmondta, hogy a Reddit meg akarja akadályozni, hogy adatait a felhasználók azonosítására, hirdetésekkel való megcélzására, illetve a platform cseréjére vagy szétválasztására használják fel.

A Reddit saját mesterséges intelligencia erőfeszítései

Huffman elismerte, amit „paradoxonnak” nevezett. A Reddit tartalma külső mesterségesintelligencia-rendszereket működtet, de a vállalat az AI-t is használja platformján.

A leglátványosabb termék a Reddit Answers, egy LLM-alapú keresési funkció. Beolvassa a bejegyzéseket és a megjegyzéseket, majd szó szerinti felhasználói idézetek alapján válaszokba rendezi őket. Huffman megjegyezte, hogy határozott válasz nélküli kérdésekre tervezték.

„A Reddit Answers néhány olyan dolgot tesz, amelyek a Redditre jellemzőek. Az egyik, hogy alapvetően csak szó szerint válaszol valódi emberektől. A második dolog pedig az, hogy megpróbál többféle nézőpontot bemutatni, mert a lényeg, ha a Redditen van, az emberi nézőpontot akarja.”

A színfalak mögött a Reddit mesterséges intelligenciát használ a tartalom moderálására és osztályozására. Az LLM-ek ki tudják értékelni, hogy egy megjegyzés átlép-e zaklatásba, amit Huffman korábban nehéznek minősített a benne rejlő szubjektivitás miatt.

Huffman a mesterséges intelligencia moderálását a legrosszabb tartalomnak való kitettség csökkentésének módjaként mutatta be, nem pedig a Reddit közösségi moderálási modelljének helyettesítésére.

„A legrosszabb munka az interneten az volt, hogy az internet legrosszabb tartalmait nézegettük, és eldöntöttük, hogy az online lehet-e vagy sem” – mondta Huffman. – Ez a munka egyszerűen megszűnik.

A mesterséges intelligencia által írt bejegyzések szürke területe

Huffman azzal a kihívással is foglalkozott, hogy a felhasználók AI-eszközökkel tartalmat írjanak, majd beillesszék a Redditbe. Ez különbözik az automatizált bottevékenységtől – hangsúlyozta.

„A legbosszantóbb dolog, amit nem csak a Redditen látok, hanem az egész interneten, hogy valaki megírta a bejegyzését vagy megjegyzését a ChatGPT-vel, majd beillesztette a Redditbe. Például ez egy bot? Biztosan botnak érzem magam, de az ötlet mögött ember áll.”

Huffman szándékosságként fogalmazta meg a kérdést. „Nagyon fontos számunkra, hogy egy ember álljon az ötlet, a tartalom és a felszólítás mögött” – mondta Huffman. De azt is megjegyezte, hogy „az írás szívás”, amikor a felhasználók az AI-ra hagyatkoznak bejegyzéseik megírásakor.

Ahelyett, hogy irányelvet dolgozna ki a probléma megoldására, Huffman jelezte, hogy a Reddit hagyja, hogy közössége kezelje a problémát. A felhasználók már most negatívan értékelik az AI által írt tartalmat, és kommentben felhívják őket. Huffman szerint a Reddit „jobban feljogosítja a felhasználókat és az alredditeket arra, hogy teljesen elutasítsák az ilyen jellegű tartalmakat”.

A tágabb kérdést a matematika órán lévő számológépekhez hasonlította. „A gyerekek manapság még csak megtanulnak írni mesterséges intelligencia segítségével. Mit fogunk tenni ez ellen?” – mondta. „Úgy gondolom, hogy tanulnunk kell mindenkivel együtt.”

Miért számít ez?

Huffman megjegyzései megerősítik a Reddit álláspontját, miszerint a felhasználói megbeszélések az AI-rendszerek alapvető inputját jelentik.

A Huffman által leírt, mesterséges intelligencia által írt tartalomprobléma egy olyan SEJ, amelyre egy szélesebb körű YouTube AI-kutatás részeként került sor. A Reddit döntése, miszerint a közösségi szavazást engedélyezi a mesterséges intelligencia által generált bejegyzések kezelésének, ahelyett, hogy észlelőeszközöket építene ki, más út, mint az automatizált címkézést alkalmazó platformok.

Előre tekintve

Huffman azt mondta a Fast Company-nak, hogy a Reddit „a piacon állandóan beszél az emberekkel” az új adatüzletekről, bár nem utalt egy harmadik megállapodásra.

A Reddit Anthropic és Perplexity ellen indított perei folyamatban vannak. Az Anthropic-ügy márciusban a szövetségi bíróság előzetes letartóztatásának tárgyát képezte.