A Microsoft bejelentette a Bing keresési infrastruktúrájának frissítését, amely nagy nyelvi modelleket (LLM), kis nyelvi modelleket (SLM) és új optimalizálási technikákat foglal magában.
A frissítés célja a teljesítmény javítása és a keresési eredmények megjelenítésének költségeinek csökkentése.
A cég közleményében a következőket írja:
„A Bingnél mindig a keresési technológia határait feszegetjük. A nagy nyelvi modellek (LLM) és a kis nyelvi modellek (SLM) kihasználása jelentős mérföldkövet jelent keresési képességeink fejlesztésében. Míg a transzformátormodellek jól szolgáltak bennünket, a keresési lekérdezések egyre bonyolultabbá válása erősebb modelleket tett szükségessé.
Teljesítménynövekedés
Az LLM-ek keresőrendszerekben való használata problémákat okozhat a sebességgel és a költségekkel kapcsolatban.
E problémák megoldására a Bing SLM-eket képezett ki, amelyek állítása szerint 100-szor gyorsabbak, mint az LLM-ek.
A közleményben ez áll:
„Az LLM-ek kiszolgálása drága és lassú lehet. A hatékonyság növelése érdekében SLM-modelleket képeztünk ki (az LLM-hez képest kb. 100-szoros átviteli sebesség javítása), amelyek pontosabban dolgozzák fel és értelmezik a keresési lekérdezéseket.”
A Bing az NVIDIA TensorRT-LLM-et is használja az SLM-ek működésének javítására.
A TensorRT-LLM egy olyan eszköz, amely segít csökkenteni a nagy modellek NVIDIA GPU-kon való futtatásának idejét és költségeit.
Hatás a „mély keresésre”
A Microsoft technikai jelentése szerint az Nvidia TensorRT-LLM technológiájának integrálása továbbfejlesztette a vállalat „Deep Search” funkcióját.
A Deep Search valós időben használja ki az SLM-eket, hogy releváns internetes találatokat biztosítson.
Az optimalizálás előtt a Bing eredeti transzformátormodelljének 95. percentilis késleltetése kötegenként 4,76 másodperc volt (20 lekérdezés), és példányonként 4,2 lekérdezés másodpercenként.
A TensorRT-LLM használatával a várakozási idő kötegenként 3,03 másodpercre csökkent, az átviteli sebesség pedig 6,6 lekérdezés/másodpercre nőtt példányonként.
Ez képviseli a 36% a látencia csökkenése és a 57% működési költségek csökkenése.
A cég kijelenti:
„… termékünk a legjobb eredmény elérésére épül, és nem fogunk kompromisszumot kötni a minőség és a sebesség terén. Itt jön képbe a TensorRT-LLM, amely csökkenti a modellkövetkeztetési időt, és ennek következtében a végponttól végpontig terjedő élmény késleltetését anélkül, hogy az eredmény minőségét feláldozná.”
Előnyök a Bing-felhasználók számára
Ez a frissítés számos lehetséges előnnyel jár a Bing-felhasználók számára:
- Gyorsabb keresési eredmények optimalizált következtetésekkel és gyorsabb válaszidővel
- Megnövelt pontosság az SLM-modellek továbbfejlesztett képességei révén, kontextusra szabottabb eredményeket biztosítva
- Költséghatékonyság, amely lehetővé teszi a Bing számára, hogy további innovációkba és fejlesztésekbe fektessen be
Miért számít a Bing LLM/SLM modellekre való átállása?
A Bing LLM/SLM modellekre való átállása és a TensorRT optimalizálása hatással lehet a keresés jövőjére.
Ahogy a felhasználók összetettebb kérdéseket tesznek fel, a keresőmotoroknak jobban meg kell érteniük, és gyorsan meg kell adniuk a releváns találatokat. A Bing ezt kisebb nyelvi modellekkel és fejlett optimalizálási technikákkal kívánja elérni.
Míg várnunk kell, hogy megláthassuk a teljes hatást, a Bing lépése új fejezetet nyit a keresésben.