A Google Gary Illyes válaszolt a kérdésekre a közelmúltbeli Search Central Live Deep Dive során Ázsiában arról, hogy használják -e az új többvektor -visszakeresést fix -dimenziós kódolások (MUVERA) visszakeresési módszerrel, és ha grafikon alapítvány modelleket használnak.
Muvera
A Google a közelmúltban bejelentette a MUVERA-t egy blogbejegyzésben és egy kutatási cikkben: egy olyan módszer, amely javítja a visszakeresést azáltal, hogy a komplex multi-vektor keresést gyors egyvektoros keresésré alakítja. Tömöríti a token beágyazási halmazát rögzített dimenziós vektorokba, amelyek szorosan megközelítik eredeti hasonlóságukat. Ez lehetővé teszi, hogy optimalizált egyvektoros keresési módszereket használjon a jó jelöltek gyors megtalálásához, majd a pontos multi-vektor-hasonlóság felhasználásával. A régebbi rendszerekhez képest, mint például a Plaid, a Muvera gyorsabb, kevesebb jelöltet szerez be, és továbbra is javítja a visszahívást, így ez gyakorlati megoldás a nagyszabású visszakereséshez.
A MUVERA -ról szóló legfontosabb pontok a következők:
- A MUVERA rögzített dimenziós kódolásokkal (FDES) konvertálja a multi-vektorkészleteket rögzített vektorokká, amelyek a többvektorkészletek egy vektor ábrázolása.
- Ezek az FDE-k (rögzített dimenziós kódolás) elég szorosan megegyeznek az eredeti multi-vektor-összehasonlításokkal, hogy támogassák a pontos visszakeresést.
- A MUVERA -visszakeresés a MIPS -t (maximális belső termékkeresés) használja, a visszakereséshez használt bevált keresési technikát, amely megkönnyíti a méretarányos telepítést.
- Reranking: Miután a gyors egyvektoros keresés (MIPS) használata a legvalószínűbb egyezések gyors szűkítéséhez, a Muvera újból renkálja őket a Chamfer hasonlósággal, egy részletesebb multi-vektor-összehasonlító módszerrel. Ez az utolsó lépés visszaállítja a többvektor visszakeresésének teljes pontosságát, így a sebességet és a pontosságot is megkapja.
- A Muvera többet tud megtalálni a pontosan releváns dokumentumokat, amelyek alacsonyabb feldolgozási idővel rendelkeznek, mint a legmodernebb visszakeresési alapvonal (Plaid), amelyet összehasonlítottak.
A Google megerősíti, hogy a muverát használják
José Manuel Morgal (LinkedIn Profil) a kérdését a Google Gary Illyes -hez tartotta, és válasza az volt, hogy viccelődve megkérdezte, hogy mi volt Muvera, majd megerősítette, hogy egy verzióját használják:
Így írta le a kérdést és a választ José:
„Egy cikket tettek közzé a Google Research -ben a MUVERA -ról, és van egy társult cikk. Jelenleg a gyártás alatt áll?
Válasza az volt, hogy megkérdezte tőlem, mi Muvera haha, majd megjegyezte, hogy valami hasonlót használnak a mvera -hoz, de nem nevezik így.
Használja -e a Google a Graph Foundation Models (GFMS)?
A Google nemrégiben közzétett egy blog bejelentést egy AI áttörésről, az úgynevezett Graph Foundation Model -nek.
A Google Graph Foundation Model (GFM) egy olyan AI -típusa, amely a relációs adatbázisokból tanul, grafikonokká alakítva, ahol a sorok csomópontokká válnak, és a táblák közötti kapcsolatok szélekké válnak.
A régebbi modellektől (gépi tanulási modellek és gráf neurális hálózatok (GNNS)) ellentétben, amelyek csak egy adatkészleten működnek, a GFM -ek képesek kezelni az új adatbázisokat, különböző struktúrákkal és funkciókkal, anélkül, hogy az új adatok átképzésére kerülnének. A GFM -ek egy nagy AI modellt használnak annak megtanulására, hogy az adatpontok hogyan kapcsolódnak a táblák között. Ez lehetővé teszi, hogy a GFM -ek olyan mintákat találjanak, amelyeket a rendszeres modellek hiányoznak, és sokkal jobban teljesítenek olyan feladatokban, mint például a spam észlelése a Google skálázott rendszereiben. A GFM-ek nagy előrelépés, mivel az alap-modell rugalmasságot hoznak az összetett strukturált adatokhoz.
A Graph Foundation modellek jelentős eredményt képviselnek, mivel fejlesztéseik nem növekményesek. Ezek nagyságrendű javítás, az átlagos pontosságú teljesítménynövekedés 3x-40x.
José ezt követően megkérdezte Illyes -t, hogy a Google használ -e a Graph Foundation modelleket, és Gary ismét viccelődött, hogy nem tudta, miről beszél José.
Elkötötte a kérdést és a választ:
„Egy cikket tettek közzé a Google Research -ben az adatok grafikus alapjairól, ezúttal nincs hozzá kapcsolódó papír. Jelenleg a gyártásban van -e?
Válasza ugyanaz volt, mint korábban, és megkérdezte tőlem, hogy milyen grafikus alapvető modellek volt az adatokra, és azt gondolta, hogy nem a gyártásban. Nem tudta, mert nincsenek társult papír, és másrészt kommentálta, hogy nem ellenőrizte a Google Research Blogban közzétett eseményeket. ”
Gary kifejezte véleményét, miszerint a Graph Foundation modellt jelenleg nem használták a keresés során. Ezen a ponton ez a legjobb információnk.
Lásd még: A Google új Graph Foundation modellje akár 40x -rel javítja a pontosságot
Készen áll -e a GFM a skálázott telepítésre?
A Hivatalos Graph Foundation Model bejelentése szerint egy belső feladatban, az ADS spam -észlelésében tesztelték, amely határozottan azt sugallja, hogy valódi belső rendszereket és adatokat használtak, nem csak az akadémiai referenciaértékeket vagy a szimulációkat.
Íme, amire a Google bejelentése vonatkozik:
„A Google Scale -nál való működés azt jelenti, hogy milliárd csomópont és él grafikonjainak feldolgozása, ahol a JAX környezetünk és a skálázható TPU -infrastruktúra különösen ragyog. Az ilyen adatmennyiségek alkalmazhatók a generációs modellek képzéséhez, tehát több belső osztályozási feladatra vizsgáltuk a GFM -et, például a spam -detektálást, amely tucatnyi nagy és összekapcsolt relációs táblázatokra vonatkozik. Tipikus bázisarkás, az Albeit, az Albeit, a nem figyelembe véve a nagy és összekapcsolt relációs táblát. Táblázatok, és ezért hiányoznak olyan kontextus, amely hasznos lehet a pontos előrejelzésekhez.
Elvitel
A Google Gary Illyes megerősítette, hogy a MUVERA egyik formája a Google -on használható. Úgy tűnt, hogy a GFM -ről szóló válasza véleményként fejeződött ki, tehát valamivel kevésbé világos, mivel Gary azt állítja, hogy szerinte nem a gyártásban.