A Google bejelentette hangalapú keresésének frissítését, amely megváltoztatja a hangalapú keresési lekérdezések feldolgozását, majd rangsorolását. Az új AI-modell beszédet használ a keresési és rangsorolási folyamathoz, teljesen megkerülve azt a szakaszt, amikor a hangot szöveggé alakítják.
A régi rendszert Cascade ASR-nek hívták, ahol a hangalapú lekérdezést szöveggé alakítják, majd a normál rangsorolási folyamaton keresztül hajtják végre. Ezzel a módszerrel az a probléma, hogy hajlamos a hibákra. A hang-szöveg átalakítási folyamat elveszítheti a kontextuális jelzések egy részét, ami hibát okozhat.
Az új rendszer neve Speech-to-Retrieval (S2R). Ez egy neurális hálózat alapú gépi tanulási modell, amely párosított hanglekérdezések és dokumentumok nagy adathalmazára van kiképezve. Ez a képzés lehetővé teszi a szóbeli keresési lekérdezések feldolgozását (anélkül, hogy azokat szöveggé alakítaná), és közvetlenül a releváns dokumentumokhoz illesztheti őket.
Kettős kódolós modell: Két neurális hálózat
A rendszer két neurális hálózatot használ:
- Az egyik neurális hálózat, az úgynevezett audio kódoló, a kimondott lekérdezéseket jelentésük vektortérbeli reprezentációjává alakítja.
- A második hálózat, a dokumentumkódoló, az írott információkat azonos típusú vektorformátumban képviseli.
A két kódoló megtanulja a beszélt lekérdezéseket és a szöveges dokumentumokat egy megosztott szemantikai térbe képezni, így a kapcsolódó hang- és szöveges dokumentumok szemantikai hasonlóságuk szerint közel egymáshoz kerülnek.
Audio kódoló
A Speech-to-Retrieval (S2R) átveszi valaki hangos lekérdezésének hangját, és vektorgá (számokká) alakítja át, amely reprezentálja annak szemantikai jelentését, amit a személy kér.
A közlemény Edvard Munch A Sikoly című híres festményének példáját használja fel. Ebben a példában a „sikolyfestmény” kimondott kifejezés egy ponttá válik a vektortérben az Edvard Munch-féle A Sikoly című művével kapcsolatos információk közelében (például a múzeumban, ahol van stb.).
Dokumentumkódoló
A dokumentumkódoló hasonló dolgot csinál a szöveges dokumentumokkal, például a weboldalakkal, saját vektoraikká alakítva azokat, amelyek reprezentálják, miről szólnak a dokumentumok.
A modell betanítása során mindkét kódoló együtt tanul, így a hanglekérdezések és dokumentumok egymáshoz illeszkedő vektorai egymás közelében, míg a nem kapcsolódó vektorok távol vannak egymástól a vektortérben.
Gazdag vektoros ábrázolás
A Google közleménye szerint a kódolók a hangot és a szöveget „gazdag vektoros reprezentációkká” alakítják át. A gazdag vektoros ábrázolás egy olyan beágyazás, amely a hang és a szöveg jelentését és kontextusát kódolja. Azért hívják „gazdagnak”, mert tartalmazza a szándékot és a kontextust.
Az S2R esetében ez azt jelenti, hogy a rendszer nem támaszkodik a kulcsszóegyezésre; fogalmilag „érti”, amit a felhasználó kér. Tehát még ha valaki azt mondja is: „Mutasd meg Munch sikoltozó arcfestményét”, a lekérdezés vektoros ábrázolása akkor is a Sikolyról szóló dokumentumok közelébe kerül.
A Google közleménye szerint:
„Ennek a modellnek a kulcsa a betanítás módja. A párosított hanglekérdezések és releváns dokumentumok nagy adathalmazának felhasználásával a rendszer megtanulja a két kódoló paramétereinek egyidejű beállítását.
A betanítási cél biztosítja, hogy egy hanglekérdezés vektora geometriailag közel legyen a reprezentációs térben lévő megfelelő dokumentumok vektoraihoz. Ez az architektúra lehetővé teszi a modell számára, hogy a közvetlenül a hangból való visszakereséshez szükséges alapvető szándékhoz közelebb álló dolgokat tanuljon meg, megkerülve a törékeny köztes lépést, minden szó átírását, ami a kaszkádkialakítás fő gyengesége.”
Rangsorolási réteg
Az S2R-nek van egy rangsorolási folyamata, akárcsak a szokásos szöveges keresés. Amikor valaki elmond egy lekérdezést, a hangot először az előre betanított hangkódoló dolgozza fel, amely számszerű formává (vektorrá) alakítja, amely rögzíti, hogy mit gondol a személy. Ezt a vektort ezután összehasonlítja a Google indexével, hogy megtalálja azokat az oldalakat, amelyek jelentése leginkább hasonlít a kimondott kérésre.
Például, ha valaki azt mondja, hogy „a sikolyfestmény”, a modell ezt a kifejezést vektorgá alakítja, amely reprezentálja a jelentését. A rendszer ezután átnézi a dokumentumindexet, és megkeresi azokat az oldalakat, amelyek vektorai szorosan illeszkednek egymáshoz, például Edvard Munch The Scream című művével kapcsolatos információkat.
Miután azonosították ezeket a valószínű egyezéseket, egy külön rangsorolási szakasz veszi át az irányítást. A rendszer ezen része az első szakasz hasonlósági pontszámait több száz egyéb rangsorolási jellel kombinálja a relevancia és a minőség tekintetében, hogy eldöntse, melyik oldal legyen az első helyen.
Benchmarking
A Google tesztelte az új rendszert a Cascade ASR és a Cascade ASR tökéletes pontozású Cascade Groundtruth nevű változata ellen. Az S2R legyőzte a Cascade ASR-t, és majdnem megegyezett a Cascade Groundtruth-val. A Google arra a következtetésre jutott, hogy a teljesítmény ígéretes, de van még mit javítani.
A hangalapú keresés éles
Bár a benchmarking feltárta, hogy van még mit javítani, a Google bejelentette, hogy az új rendszer éles és több nyelven is használatban van, új korszaknak nevezve a keresésben. A rendszert feltehetően angol nyelven használják.
A Google elmagyarázza:
„A hangalapú keresést most az új beszéd-visszakereső motorunk hajtja, amely közvetlenül a szóbeli lekérdezésére kap választ anélkül, hogy először szöveggé kellene konvertálnia, ami gyorsabb és megbízhatóbb keresést eredményez mindenki számára.”
Bővebben:
Speech-to-Retrieval (S2R): A hangalapú keresés új megközelítése