A Google új MUVERA algoritmusa javítja a keresést

Peter

A Google bejelentette egy új multi-vektor-visszakeresési algoritmust, amelyet Muvera hív, amely felgyorsítja a visszakeresést és a rangsorolást, és javítja a pontosságot. Az algoritmus felhasználható kereséshez, ajánlási rendszerekhez (mint például a YouTube) és a természetes nyelvfeldolgozáshoz (NLP).

Noha a bejelentés nem kifejezetten azt mondta, hogy a keresés során használják, a kutatási cikk egyértelművé teszi, hogy a MUVERA lehetővé teszi a többvektor-visszakeresést webes skálán, különösen azáltal, hogy kompatibilis a meglévő infrastruktúrával (MIPS-en keresztül), és csökkenti a késés és a memória lábnyomát.

Vektor beágyazás a keresésbe

A vektor beágyazása a szavak, a témák és a kifejezések közötti kapcsolatok többdimenziós ábrázolása. Ez lehetővé teszi a gépek számára, hogy megértsék a hasonlóságot olyan mintákon keresztül, mint például az ugyanazon kontextusban megjelenő szavak vagy olyan mondatok, amelyek ugyanazokat a dolgokat jelentik. A kapcsolódó szavak és kifejezések elfoglalt tereket foglalnak el, amelyek közelebb állnak egymáshoz.

  • A „Lear király” szavak közel állnak a „Shakespeare tragédia” kifejezéshez.
  • A „A Midsummer Night’s Dream” szavak egy helyet foglalnak el a „Shakespeare komédia” közelében.
  • Mind a „Lear király”, mind a „Midsummer Night’s Dream” Shakespeare közelében található térben található.

A szavak, a kifejezések és a fogalmak közötti távolság (technikailag matematikai hasonlósági intézkedés) meghatározza, hogy az egyesek mennyire szorosan kapcsolódnak a másikhoz. Ezek a minták lehetővé teszik a gép számára, hogy hasonlóságokat vonjon le közöttük.

A MUVERA megoldja a multi-vektor beágyazásának velejáró problémáját

A Muvera kutatási cikk kimondja, hogy a neurális beágyazások tíz éve az információmegkeresés jellemzője, és a Colbert Multi-Vector Model kutatási dokumentumát 2020-tól áttörésként idézi, de ez azt mondja, hogy egy szűk keresztmetszet szenved, amely kevésbé teszi ideálissá.

„A közelmúltban, kezdve a mérföldkőnek számító Colbert-papírral, a többvektoros modellek, amelyek adatpontonként beágyazódnak, jelentősen kiváló teljesítményt értek el az IR-feladatoknál. Sajnos ezeknek a modelleknek az IR-hez való felhasználása számítási szempontból drága, a többvektor-visszakeresés és a pontozás megnövekedett összetettsége miatt.”

A Google bejelentése a MUVERA -ról visszhangozza ezeket a hátrányokat:

„… A közelmúltban elért haladások, különösen a több vektoros modellek, például a Colbert bevezetése, jelentősen javították a teljesítményt az IR-feladatokban. Noha ez a multi-vektor megközelítés növeli a pontosságot, és lehetővé teszi a relevánsabb dokumentumok lekérését, jelentős számítási kihívásokat vezet be. Különösen a megnövekedett beágyazások száma és a multi-vektoros hasonlóság bonyolultságának komplexitása.”

Lehet, hogy utódja a Google Rankembed technológiájának?

Az Egyesült Államok Igazságügyi Minisztériuma (DOJ) monopóliumellenes peres eljárás olyan bizonyságtételhez vezetett, amely kimutatta, hogy a keresőmotor eredményoldalak (SERP) létrehozásához használt egyik jelet Rankembednek hívják, amelyet így írtak le:

„A Rankembed egy kettős kódoló modell, amely beágyazódik mind a lekérdezés, mind a dokumentum beágyazási helybe. A hely beágyazása figyelembe veszi a lekérdezés és a dokumentum szemantikai tulajdonságait más jelek mellett.

A Muvera egy olyan technikai előrelépés, amely foglalkozik a többvektoros rendszerek teljesítmény- és méretezési korlátaival, amelyek maguk egy lépéssel túlmutatnak a kettős kódoló modelleken (mint például a Rankembed), nagyobb szemantikai mélységgel és a farok lekérdezési teljesítményének kezelésére.

Az áttörés egy rögzített dimenziós kódolás (FDE) nevű technika, amely a beágyazási helyet szakaszokra osztja, és egyesíti az egyes szakaszokba eső vektorokat, hogy egyetlen, rögzített hosszúságú vektorot hozzon létre, így gyorsabbá teszi a keresést, mint a több vektor összehasonlítását. Ez lehetővé teszi a többvektor modellek hatékony felhasználását a méretarányban, javítva a visszakeresési sebességet anélkül, hogy feláldoznák a gazdagabb szemantikai ábrázolásból származó pontosságot.

A bejelentés szerint:

„Az egyvektoros beágyazásokkal ellentétben a multi-vektor modellek az egyes adatpontokat ábrázolják, és beágyazódnak, és kifinomultabb hasonlósági funkciókat használnak fel, amelyek megragadhatják az adatpointok gazdagabb kapcsolatait.

Noha ez a multi-vektor megközelítés növeli a pontosságot és lehetővé teszi a relevánsabb dokumentumok lekérését, jelentős számítási kihívásokat vezet be. Különösen a beágyazások megnövekedett száma és a multi-vektor-hasonlósági pontozás bonyolultsága a visszakeresést szignifikánsan drágábbá teszi.

A „MUVERA: Multi-Vector visszakeresésében rögzített dimenziós kódolásokon keresztül” című új, több vektor-visszakeresési algoritmust vezetünk be, amelynek célja az egy- és a multi-vektor visszakeresés közötti hatékonysági rés áthidalása.

… Ez az új megközelítés lehetővé teszi számunkra, hogy kiaknázzuk a nagyon optimalizált MIPS algoritmusokat, hogy visszakeresést kapjunk egy kezdeti jelöltkészletet, amelyet ezután a pontos multi-vektor-hasonlósággal újból rangsorolhatunk, ezáltal lehetővé téve a hatékony multi-vektor visszakeresést a pontosság feláldozása nélkül. „

A többvektor modellek pontosabb válaszokat adhatnak, mint a kettős kódoló modellek, de ez a pontosság az intenzív számítási igények költségén áll. A Muvera megoldja a többvektoros modellek bonyolultsági kérdéseit, ezáltal lehetővé téve a több vektor megközelítés nagyobb pontosságának elérését a magas számítástechnikai igények nélkül.

Mit jelent ez a SEO számára?

A Muvera megmutatja, hogy a modern keresési rangsor egyre inkább a hasonlósági ítéletektől függ, nem pedig a régimódi kulcsszójelektől, amelyekre a SEO eszközök és SEO-k gyakran koncentrálnak. A SEO -k és a kiadók el akarják változtatni a figyelmüket a pontos mondatoktól, amelyek megfelelnek a lekérdezés általános kontextusához és szándékához. Például, amikor valaki a „Corduroy Jackets férfi médiumot” keresi, akkor a MUVERA-szerű visszakereséssel rendelkező rendszer nagyobb valószínűséggel rangsorolja azokat az oldalakat, amelyek valójában ezeket a termékeket kínálják, nem pedig olyan oldalakat, amelyek egyszerűen megemlítik a „kordbársony dzsekiket”, és tartalmazzák a „médium” szót, hogy megfeleljenek a lekérdezésnek.

Olvassa el a Google bejelentését:

MUVERA: A multi-vektor visszakeresést olyan gyors, mint az egyvektor keresés

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.