A Google bejelentette egy új multi-vektor-visszakeresési algoritmust, amelyet Muvera hív, amely felgyorsítja a visszakeresést és a rangsorolást, és javítja a pontosságot. Az algoritmus felhasználható kereséshez, ajánlási rendszerekhez (mint például a YouTube) és a természetes nyelvfeldolgozáshoz (NLP).
Noha a bejelentés nem kifejezetten azt mondta, hogy a keresés során használják, a kutatási cikk egyértelművé teszi, hogy a MUVERA lehetővé teszi a többvektor-visszakeresést webes skálán, különösen azáltal, hogy kompatibilis a meglévő infrastruktúrával (MIPS-en keresztül), és csökkenti a késés és a memória lábnyomát.
Vektor beágyazás a keresésbe
A vektor beágyazása a szavak, a témák és a kifejezések közötti kapcsolatok többdimenziós ábrázolása. Ez lehetővé teszi a gépek számára, hogy megértsék a hasonlóságot olyan mintákon keresztül, mint például az ugyanazon kontextusban megjelenő szavak vagy olyan mondatok, amelyek ugyanazokat a dolgokat jelentik. A kapcsolódó szavak és kifejezések elfoglalt tereket foglalnak el, amelyek közelebb állnak egymáshoz.
- A „Lear király” szavak közel állnak a „Shakespeare tragédia” kifejezéshez.
- A „A Midsummer Night’s Dream” szavak egy helyet foglalnak el a „Shakespeare komédia” közelében.
- Mind a „Lear király”, mind a „Midsummer Night’s Dream” Shakespeare közelében található térben található.
A szavak, a kifejezések és a fogalmak közötti távolság (technikailag matematikai hasonlósági intézkedés) meghatározza, hogy az egyesek mennyire szorosan kapcsolódnak a másikhoz. Ezek a minták lehetővé teszik a gép számára, hogy hasonlóságokat vonjon le közöttük.
A MUVERA megoldja a multi-vektor beágyazásának velejáró problémáját
A Muvera kutatási cikk kimondja, hogy a neurális beágyazások tíz éve az információmegkeresés jellemzője, és a Colbert Multi-Vector Model kutatási dokumentumát 2020-tól áttörésként idézi, de ez azt mondja, hogy egy szűk keresztmetszet szenved, amely kevésbé teszi ideálissá.
„A közelmúltban, kezdve a mérföldkőnek számító Colbert-papírral, a többvektoros modellek, amelyek adatpontonként beágyazódnak, jelentősen kiváló teljesítményt értek el az IR-feladatoknál. Sajnos ezeknek a modelleknek az IR-hez való felhasználása számítási szempontból drága, a többvektor-visszakeresés és a pontozás megnövekedett összetettsége miatt.”
A Google bejelentése a MUVERA -ról visszhangozza ezeket a hátrányokat:
„… A közelmúltban elért haladások, különösen a több vektoros modellek, például a Colbert bevezetése, jelentősen javították a teljesítményt az IR-feladatokban. Noha ez a multi-vektor megközelítés növeli a pontosságot, és lehetővé teszi a relevánsabb dokumentumok lekérését, jelentős számítási kihívásokat vezet be. Különösen a megnövekedett beágyazások száma és a multi-vektoros hasonlóság bonyolultságának komplexitása.”
Lehet, hogy utódja a Google Rankembed technológiájának?
Az Egyesült Államok Igazságügyi Minisztériuma (DOJ) monopóliumellenes peres eljárás olyan bizonyságtételhez vezetett, amely kimutatta, hogy a keresőmotor eredményoldalak (SERP) létrehozásához használt egyik jelet Rankembednek hívják, amelyet így írtak le:
„A Rankembed egy kettős kódoló modell, amely beágyazódik mind a lekérdezés, mind a dokumentum beágyazási helybe. A hely beágyazása figyelembe veszi a lekérdezés és a dokumentum szemantikai tulajdonságait más jelek mellett.
A Muvera egy olyan technikai előrelépés, amely foglalkozik a többvektoros rendszerek teljesítmény- és méretezési korlátaival, amelyek maguk egy lépéssel túlmutatnak a kettős kódoló modelleken (mint például a Rankembed), nagyobb szemantikai mélységgel és a farok lekérdezési teljesítményének kezelésére.
Az áttörés egy rögzített dimenziós kódolás (FDE) nevű technika, amely a beágyazási helyet szakaszokra osztja, és egyesíti az egyes szakaszokba eső vektorokat, hogy egyetlen, rögzített hosszúságú vektorot hozzon létre, így gyorsabbá teszi a keresést, mint a több vektor összehasonlítását. Ez lehetővé teszi a többvektor modellek hatékony felhasználását a méretarányban, javítva a visszakeresési sebességet anélkül, hogy feláldoznák a gazdagabb szemantikai ábrázolásból származó pontosságot.
A bejelentés szerint:
„Az egyvektoros beágyazásokkal ellentétben a multi-vektor modellek az egyes adatpontokat ábrázolják, és beágyazódnak, és kifinomultabb hasonlósági funkciókat használnak fel, amelyek megragadhatják az adatpointok gazdagabb kapcsolatait.
Noha ez a multi-vektor megközelítés növeli a pontosságot és lehetővé teszi a relevánsabb dokumentumok lekérését, jelentős számítási kihívásokat vezet be. Különösen a beágyazások megnövekedett száma és a multi-vektor-hasonlósági pontozás bonyolultsága a visszakeresést szignifikánsan drágábbá teszi.
A „MUVERA: Multi-Vector visszakeresésében rögzített dimenziós kódolásokon keresztül” című új, több vektor-visszakeresési algoritmust vezetünk be, amelynek célja az egy- és a multi-vektor visszakeresés közötti hatékonysági rés áthidalása.
… Ez az új megközelítés lehetővé teszi számunkra, hogy kiaknázzuk a nagyon optimalizált MIPS algoritmusokat, hogy visszakeresést kapjunk egy kezdeti jelöltkészletet, amelyet ezután a pontos multi-vektor-hasonlósággal újból rangsorolhatunk, ezáltal lehetővé téve a hatékony multi-vektor visszakeresést a pontosság feláldozása nélkül. „
A többvektor modellek pontosabb válaszokat adhatnak, mint a kettős kódoló modellek, de ez a pontosság az intenzív számítási igények költségén áll. A Muvera megoldja a többvektoros modellek bonyolultsági kérdéseit, ezáltal lehetővé téve a több vektor megközelítés nagyobb pontosságának elérését a magas számítástechnikai igények nélkül.
Mit jelent ez a SEO számára?
A Muvera megmutatja, hogy a modern keresési rangsor egyre inkább a hasonlósági ítéletektől függ, nem pedig a régimódi kulcsszójelektől, amelyekre a SEO eszközök és SEO-k gyakran koncentrálnak. A SEO -k és a kiadók el akarják változtatni a figyelmüket a pontos mondatoktól, amelyek megfelelnek a lekérdezés általános kontextusához és szándékához. Például, amikor valaki a „Corduroy Jackets férfi médiumot” keresi, akkor a MUVERA-szerű visszakereséssel rendelkező rendszer nagyobb valószínűséggel rangsorolja azokat az oldalakat, amelyek valójában ezeket a termékeket kínálják, nem pedig olyan oldalakat, amelyek egyszerűen megemlítik a „kordbársony dzsekiket”, és tartalmazzák a „médium” szót, hogy megfeleljenek a lekérdezésnek.
Olvassa el a Google bejelentését:
MUVERA: A multi-vektor visszakeresést olyan gyors, mint az egyvektor keresés