A Google kutatói bevezettek egy módszert az AI-keresés és az asszisztensek javítására azáltal, hogy javítják a visszakeresési generációs (RAG) modellek azon képességét, hogy felismerjék, amikor a visszakeresett információknak nincs elegendő kontextus a lekérdezés megválaszolásához. Ha megvalósítják, ezek az eredmények segíthetnek az AI által generált válaszok elkerülésében a hiányos információkra és a válasz megbízhatóságának javítására. Ez a váltás arra is ösztönözheti a kiadókat, hogy tartalmat hozzanak létre elegendő kontextusban, így az oldalak hasznosabbak az AI által generált válaszokhoz.
Kutatásuk szerint az olyan modellek, mint a Gemini és a GPT, gyakran megkísérelnek válaszolni a kérdésekre, amikor a letöltött adatok nem tartalmaznak elegendő kontextust, ami a tartózkodás helyett hallucinációkhoz vezet. Ennek kezelése érdekében kifejlesztettek egy rendszert a hallucinációk csökkentésére az LLMS meghatározásával, hogy a letöltött tartalom elegendő információt tartalmaz a válasz alátámasztásához.
A visszakereséssel ellátott generációs (RAG) rendszerek kiegészítik az LLM-eket a külső kontextusban a kérdés-válasz pontosság javítása érdekében, de hallucinációk továbbra is előfordulnak. Nem volt egyértelműen, hogy ezek a hallucinációk az LLM téves értelmezéséből vagy az elégtelen visszakeresési kontextusból származnak -e. A kutatási cikk bemutatja a megfelelő kontextus fogalmát, és leír egy módszert annak meghatározására, hogy mikor áll rendelkezésre elegendő információ egy kérdés megválaszolásához.
Elemzésük szerint a szabadalmaztatott modellek, mint például a Gemini, a GPT és a Claude, hajlamosak helyes válaszokat adni, ha elegendő kontextust kapnak. Ha azonban a kontextus nem elegendő, akkor a tartózkodás helyett néha hallucinálnak, de az idő 35–65% -át is helyesen válaszolják. Ez a legutóbbi felfedezés újabb kihívást jelent: annak ismerete, hogy mikor kell beavatkozni a tartózkodás kényszerítése érdekében (hogy ne válaszoljon), és mikor bízza meg a modellt, hogy helyes legyen.
A megfelelő kontextus meghatározása
A kutatók elegendő kontextust határoznak meg úgy, hogy azaz a visszakeresett információk (a RAG -ból) tartalmazzák az összes szükséges részletet a helyes válasz levezetéséhez. Az a besorolás, amelynek valami elegendő kontextust tartalmaz, nem követeli meg, hogy ellenőrzött válasz legyen. Csak annak felmérése, hogy a válasz valószínűleg származtatható -e a megadott tartalomból.
Ez azt jelenti, hogy az osztályozás nem igazolja a helyességet. Felbecsüli, hogy a lekérdezett információk ésszerű alapot nyújtanak -e a lekérdezés megválaszolásához.
Az elégtelen kontextus azt jelenti, hogy a visszakeresett információk hiányosak, félrevezetőek vagy hiányoznak a válasz felépítéséhez szükséges kritikus részletek.
Elegendő kontextus autorater
A megfelelő kontextusú autorater egy LLM-alapú rendszer, amely a lekérdezés-kontextuspárokat úgy osztályozza, mint elegendő vagy elégtelen kontextus. A legjobban teljesítő autorater modell a Gemini 1,5 Pro (1-Shot) volt, elérve a 93% -os pontossági arányt, felülmúlva más modelleket és módszereket.
A hallucinációk csökkentése szelektív generációval
A kutatók felfedezték, hogy a RAG-alapú LLM-válaszok képesek voltak helyesen megválaszolni a kérdéseket az idő 35–62% -ánál, amikor a visszakeresett adatok nem voltak elegendő kontextusban. Ez azt jelentette, hogy a pontosság javításához nem mindig volt szükség elegendő kontextusra, mivel a modellek az idő 35-62% -a nem tudták visszaadni a helyes választ.
Felfedezték ezt a viselkedést egy szelektív generációs módszer létrehozásához, amely megbízhatósági pontszámokat (önértékelési valószínűségeket alkalmazhat, hogy a válasz helyes lehet), és elegendő kontextusjelzéssel dönthet úgy, hogy mikor kell válaszolni, és mikor tartózkodik (hogy elkerüljük a helytelen nyilatkozatok és a hallucinálást). Ez eléri az egyensúlyt az LLM lehetővé tétele között, hogy válaszoljon egy kérdésre, ha erős bizonyosság van, hogy helyes, miközben lehetővé teszi a tartózkodást, ha elegendő vagy elégtelen kontextus van a kérdés megválaszolásához.
A kutatók leírják, hogyan működik:
„… Ezeket a jeleket egy egyszerű lineáris modell kiképzésére használjuk a hallucinációk előrejelzésére, majd a lefedettség-pontossági kompromisszumküszöbök beállításához.
Ez a mechanizmus különbözik a tartózkodás két kulcsfontosságú javításának más stratégiáitól. Először, mivel a nemzedéktől függetlenül működik, enyhíti a nem szándékos downstream effektusokat. Másodszor, ellenőrzhető mechanizmust kínál a tartózkodás hangolására, amely lehetővé teszi a különböző alkalmazások különböző működési beállításait, például a szigorú pontossági megfelelést az orvosi területeken vagy a kreatív generációs feladatok maximális lefedettségét. ”
Elvitel
Mielőtt bárki elkezdi azt állítani, hogy a kontextus-elégség rangsorolási tényező, fontos megjegyezni, hogy a kutatási cikk nem állítja, hogy az AI mindig prioritást élvez a jól strukturált oldalakon. A kontextus-elégség az egyik tényező, de ezzel a konkrét módszerrel a konfidencia pontszámok befolyásolják az AI által generált válaszokat is azáltal, hogy beavatkoznak a tartózkodási döntésekkel. A tartózkodás küszöbértékei dinamikusan beállítják ezen jelek alapján, ami azt jelenti, hogy a modell nem válaszolhat, ha a bizalom és az elégség egyaránt alacsony.
Míg a teljes és jól strukturált információkkal rendelkező oldalak nagyobb valószínűséggel tartalmaznak elegendő kontextust, más tényezők, például az, hogy az AI hogyan választja ki és rangsorolja a releváns információkat, a rendszer, amely meghatározza, hogy mely forrásokat kapják meg, és az LLM képzésének módja is szerepet játszik. Egy tényezőt nem lehet elkülöníteni anélkül, hogy figyelembe venné a szélesebb rendszert, amely meghatározza, hogy az AI hogyan szerez be és válaszokat generál.
Ha ezeket a módszereket egy AI asszisztensbe vagy chatbotba valósítják meg, az AI által generált válaszokhoz vezethet, amelyek egyre inkább a weboldalakra támaszkodnak, amelyek teljes, jól felépített információt szolgáltatnak, mivel ezek valószínűleg elegendő kontextust tartalmaznak a lekérdezés megválaszolásához. A kulcs az, hogy elegendő információt nyújtson egyetlen forrásban, hogy a válasz értelme legyen további kutatások nélkül.
Mik azok az oldalak, amelyek nem megfelelő kontextusban vannak?
- Hiányzik elegendő részlet a lekérdezés megválaszolásához
- Félrevezető
- Befejezetlen
- Ellentmondásos
- Hiányos információ
- A tartalom előzetes ismereteket igényel
A válasz befejezéséhez szükséges információk a különböző szakaszokon szétszóródnak, ahelyett, hogy egységes válaszban mutatnák be.
A Google harmadik fél Quality Raters irányelvei (QRG) olyan fogalmakkal rendelkeznek, amelyek hasonlóak a kontextus elégségéhez. Például a QRG az alacsony minőségű oldalakat úgy határozza meg, mint azok, amelyek nem érik jól a céljukat, mivel nem adják meg a szükséges hátteret, részleteket vagy releváns információkat a témához.
A Minőségi Raters iránymutatásainak részei:
„Az alacsony minőségű oldalak nem érik jól céljukat, mert hiányoznak egy fontos dimenzióban, vagy problematikus szempontból vannak”
„Egy oldal, melynek címe:„ Hány centiméter van egy méterben? ” Nagy mennyiségű témán kívüli és nem haszontalan tartalommal, hogy nehéz megtalálni a nagyon kis mennyiségű hasznos információt. ”
„Egy kézműves útmutató és a tetején sok haszontalan„ töltőanyag ”készítésére vonatkozó útmutató, például a szükséges készletekről vagy más nem rajzolási információkról szóló közismert tényekről szóló utasításokkal.
„… Nagy mennyiségű” töltőanyag „vagy értelmetlen tartalom…”
Még akkor is, ha a Google Ikrek vagy AI áttekintései nem hajtják végre a találmányokat ebben a kutatási cikkben, a benne ismertetett fogalmak közül sokan vannak a Google Minőség -értékelői irányelveiben szereplő analógok, amelyek maguk írják le a magas színvonalú weboldalak fogalmát, amelyeket a SEO -k és a rangsoroló kiadóknak internalizálniuk kell.
Olvassa el a kutatási papírt:
Elegendő kontextus: Új lencse a kinyerés kibővített generációs rendszereiről