A Google új korszakot hirdet a hangalapú keresés számára

Peter

A Google bejelentette hangalapú keresésének frissítését, amely megváltoztatja a hangalapú keresési lekérdezések feldolgozását, majd rangsorolását. Az új AI-modell beszédet használ a keresési és rangsorolási folyamathoz, teljesen megkerülve azt a szakaszt, amikor a hangot szöveggé alakítják.

A régi rendszert Cascade ASR-nek hívták, ahol a hangalapú lekérdezést szöveggé alakítják, majd a normál rangsorolási folyamaton keresztül hajtják végre. Ezzel a módszerrel az a probléma, hogy hajlamos a hibákra. A hang-szöveg átalakítási folyamat elveszítheti a kontextuális jelzések egy részét, ami hibát okozhat.

Az új rendszer neve Speech-to-Retrieval (S2R). Ez egy neurális hálózat alapú gépi tanulási modell, amely párosított hanglekérdezések és dokumentumok nagy adathalmazára van kiképezve. Ez a képzés lehetővé teszi a szóbeli keresési lekérdezések feldolgozását (anélkül, hogy azokat szöveggé alakítaná), és közvetlenül a releváns dokumentumokhoz illesztheti őket.

Kettős kódolós modell: Két neurális hálózat

A rendszer két neurális hálózatot használ:

  1. Az egyik neurális hálózat, az úgynevezett audio kódoló, a kimondott lekérdezéseket jelentésük vektortérbeli reprezentációjává alakítja.
  2. A második hálózat, a dokumentumkódoló, az írott információkat azonos típusú vektorformátumban képviseli.

A két kódoló megtanulja a beszélt lekérdezéseket és a szöveges dokumentumokat egy megosztott szemantikai térbe képezni, így a kapcsolódó hang- és szöveges dokumentumok szemantikai hasonlóságuk szerint közel egymáshoz kerülnek.

Audio kódoló

A Speech-to-Retrieval (S2R) átveszi valaki hangos lekérdezésének hangját, és vektorgá (számokká) alakítja át, amely reprezentálja annak szemantikai jelentését, amit a személy kér.

A közlemény Edvard Munch A Sikoly című híres festményének példáját használja fel. Ebben a példában a „sikolyfestmény” kimondott kifejezés egy ponttá válik a vektortérben az Edvard Munch-féle A Sikoly című művével kapcsolatos információk közelében (például a múzeumban, ahol van stb.).

Dokumentumkódoló

A dokumentumkódoló hasonló dolgot csinál a szöveges dokumentumokkal, például a weboldalakkal, saját vektoraikká alakítva azokat, amelyek reprezentálják, miről szólnak a dokumentumok.

A modell betanítása során mindkét kódoló együtt tanul, így a hanglekérdezések és dokumentumok egymáshoz illeszkedő vektorai egymás közelében, míg a nem kapcsolódó vektorok távol vannak egymástól a vektortérben.

Gazdag vektoros ábrázolás

A Google közleménye szerint a kódolók a hangot és a szöveget „gazdag vektoros reprezentációkká” alakítják át. A gazdag vektoros ábrázolás egy olyan beágyazás, amely a hang és a szöveg jelentését és kontextusát kódolja. Azért hívják „gazdagnak”, mert tartalmazza a szándékot és a kontextust.

Az S2R esetében ez azt jelenti, hogy a rendszer nem támaszkodik a kulcsszóegyezésre; fogalmilag „érti”, amit a felhasználó kér. Tehát még ha valaki azt mondja is: „Mutasd meg Munch sikoltozó arcfestményét”, a lekérdezés vektoros ábrázolása akkor is a Sikolyról szóló dokumentumok közelébe kerül.

A Google közleménye szerint:

„Ennek a modellnek a kulcsa a betanítás módja. A párosított hanglekérdezések és releváns dokumentumok nagy adathalmazának felhasználásával a rendszer megtanulja a két kódoló paramétereinek egyidejű beállítását.

A betanítási cél biztosítja, hogy egy hanglekérdezés vektora geometriailag közel legyen a reprezentációs térben lévő megfelelő dokumentumok vektoraihoz. Ez az architektúra lehetővé teszi a modell számára, hogy a közvetlenül a hangból való visszakereséshez szükséges alapvető szándékhoz közelebb álló dolgokat tanuljon meg, megkerülve a törékeny köztes lépést, minden szó átírását, ami a kaszkádkialakítás fő gyengesége.”

Rangsorolási réteg

Az S2R-nek van egy rangsorolási folyamata, akárcsak a szokásos szöveges keresés. Amikor valaki elmond egy lekérdezést, a hangot először az előre betanított hangkódoló dolgozza fel, amely számszerű formává (vektorrá) alakítja, amely rögzíti, hogy mit gondol a személy. Ezt a vektort ezután összehasonlítja a Google indexével, hogy megtalálja azokat az oldalakat, amelyek jelentése leginkább hasonlít a kimondott kérésre.

Például, ha valaki azt mondja, hogy „a sikolyfestmény”, a modell ezt a kifejezést vektorgá alakítja, amely reprezentálja a jelentését. A rendszer ezután átnézi a dokumentumindexet, és megkeresi azokat az oldalakat, amelyek vektorai szorosan illeszkednek egymáshoz, például Edvard Munch The Scream című művével kapcsolatos információkat.

Miután azonosították ezeket a valószínű egyezéseket, egy külön rangsorolási szakasz veszi át az irányítást. A rendszer ezen része az első szakasz hasonlósági pontszámait több száz egyéb rangsorolási jellel kombinálja a relevancia és a minőség tekintetében, hogy eldöntse, melyik oldal legyen az első helyen.

Benchmarking

A Google tesztelte az új rendszert a Cascade ASR és a Cascade ASR tökéletes pontozású Cascade Groundtruth nevű változata ellen. Az S2R legyőzte a Cascade ASR-t, és majdnem megegyezett a Cascade Groundtruth-val. A Google arra a következtetésre jutott, hogy a teljesítmény ígéretes, de van még mit javítani.

A hangalapú keresés éles

Bár a benchmarking feltárta, hogy van még mit javítani, a Google bejelentette, hogy az új rendszer éles és több nyelven is használatban van, új korszaknak nevezve a keresésben. A rendszert feltehetően angol nyelven használják.

A Google elmagyarázza:

„A hangalapú keresést most az új beszéd-visszakereső motorunk hajtja, amely közvetlenül a szóbeli lekérdezésére kap választ anélkül, hogy először szöveggé kellene konvertálnia, ami gyorsabb és megbízhatóbb keresést eredményez mindenki számára.”

Bővebben:

Speech-to-Retrieval (S2R): A hangalapú keresés új megközelítése

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.