A Google frissítette a Search Live szolgáltatást a Gemini 2.5 Flash Native Audio szolgáltatással, továbbfejlesztve a hangfunkciókat a Keresésben, valamint kiterjesztve a modell használatát a fordítási és élőhangos ügynökökre is. A frissítés természetesebb beszélt válaszokat vezet be a Search Live szolgáltatásban, és tükrözi a Google arra irányuló erőfeszítéseit, hogy javítsa a természetes hangalapú lekérdezéseket, a hangot alapvető felületként kezelve a felhasználók számára, hogy mindent megkapjanak, amit a szokásos keresésből kaphatnak, valamint lehetővé teszi számukra, hogy kérdéseket tegyenek fel az őket körülvevő fizikai világról, és azonnali hangfordítást kapjanak két különböző nyelvet beszélő személy között.
Az Egyesült Államokban ezen a héten bevezetett új frissített hangszolgáltatások lehetővé teszik, hogy a Google hangreakciói természetesebbek legyenek, és akár le is lassítható az oktatási tartalmak esetében.
A Google szerint:
„Amikor a Live with Search szolgáltatásba lép, AI módban oda-vissza hangos beszélgetést folytathat, hogy valós idejű segítséget kapjon, és gyorsan megtalálja a releváns webhelyeket az interneten. Most pedig, a natív hanghoz készült legújabb Gemini modellünknek köszönhetően, a Search Live válaszai gördülékenyebbek és kifejezőbbek lesznek, mint valaha.”
Szélesebb Gemini natív audio bevezetés
Ez a keresési frissítés a Gemini 2.5 Flash Native Audio szélesebb körű frissítésének része, amely a Google ökoszisztémájában jelenik meg, beleértve a Gemini Live-t (a Gemini alkalmazásban), a Google AI Studio-t és a Vertex AI-t. A modell valós időben dolgozza fel a beszédhangot, és gördülékeny szóbeli válaszokat ad, csökkentve a természetes beszélgetés akadályait, és csökkenti a súrlódást az élő interakciókban. Bár a Google közleménye nem mondta ki, hogy a modell beszéd-beszéd modell (szemben a beszéd-szöveg, majd a szöveg-beszéd modellel), ez a frissítés követi a Google októberi „Speech-to-Retrieval (S2R)” bejelentését. Ez egy neurális hálózat alapú gépi tanulási modell, amelyet nagy, párosított hangkészletekre oktattak.
Ezek a változtatások azt mutatják, hogy a Google a natív hangot alapvető képességként kezeli a fogyasztóknak szánt termékekben, megkönnyítve a felhasználók számára, hogy természetes módon kérjenek és kapjanak információkat az őket körülvevő fizikai világról, ami korábban nem volt lehetséges.
Fejlesztések hangalapú rendszerekhez
A hangalapú rendszereket építő fejlesztők és vállalkozások számára a Google szerint a frissített modell több területen is javítja a megbízhatóságot. A Gemini 2.5 Flash Native Audio konzisztensebben indítja el a külső funkciókat a beszélgetések során, követi az összetett utasításokat, és több körön keresztül fenntartja a kontextust. Ezek a fejlesztések megbízhatóbbá teszik az élő hangügynököket a valós munkafolyamatokban, ahol a félreértelmezett utasítások vagy a megszakadt beszélgetési folyamat csökkenti a használhatóságot.
Sima beszélgetési fordítás
A keresésen és a hangügynökökön túl a frissítés bevezeti az „élő beszéd-beszéd fordítás” natív támogatását. A Gemini valós időben fordítja le a beszélt nyelvet, akár úgy, hogy folyamatosan fordítja le a környezeti beszédet egy célnyelvre, akár úgy, hogy a különböző nyelvű beszélők közötti beszélgetéseket mindkét irányban kezeli. A rendszer megőrzi az olyan hangjellemzőket, mint a beszédritmus és a hangsúly, így támogatja a simább és társalgási hangzású fordítást.
A Google számos olyan funkciót emel ki, amelyek támogatják ezt a fordítási funkciót, beleértve a széles körű nyelvi lefedettséget, az automatikus nyelvészlelést, a többnyelvű bevitelkezelést és a zajszűrést a mindennapi környezetekben. Ezek a funkciók csökkentik a beállítási súrlódást, és lehetővé teszik, hogy a fordítás passzívan történjen beszélgetés közben, nem pedig kézi vezérléssel. Az eredmény egy olyan fordítási élmény, amely nagyjából úgy viselkedik, mint egy tényleges személy középen, aki két ember között fordít.
Hangalapú keresés A Google törekvéseinek megvalósítása
A frissítés tükrözi a Google hangalapú keresésének folyamatos iterációját egy olyan eszmény felé, amelyet eredetileg a népszerű Star Trek televíziós és mozisorozatban az emberek és a számítógépek közötti sci-fi hangkölcsönhatások inspiráltak.
Bővebben:
A Google új korszakot hirdet a hangalapú keresés számára
Most már gördülékenyebb és kifejezőbb beszélgetéseket folytathat, amikor belép a Live with Search szolgáltatásba.
Továbbfejlesztett Gemini audiomodellek az erőteljes hanginterakciók érdekében
Gemini Live
5 módja annak, hogy valós idejű segítséget kapjon a Live with Search segítségével
