A Microsoft egy nagyon lényeges lépést tett a beszélgetős chatbotokon túl a bemutatásával Fara-7B. Ez nem egy szöveg generálására vagy kérdések megválaszolására tervezett eszköz, hanem egy kis nyelvi modell (SLM), amelyet kifejezetten a számítógépes interfész fizikai vezérlésére hoztak létre. Fő funkciója, hogy autonóm ügynökként működjön, hasonlóan Kimi OK Computeréhez vagy a Google Computer Use-hoz, amely kezeli a egér és billentyűzet feladatok elvégzésére a felhasználó nevében.
Ami megkülönbözteti ezt a technológiát, az a működési módja. A Fara-7B képernyőképeken keresztül elemzi a képernyőt, „látja” a weboldalt vagy alkalmazást, ahogyan azt emberi szem tenné, anélkül, hogy rejtett kisegítő kódokra hagyatkozna. A rendszer megjósolja a kattintás, görgetés vagy szöveg beírásának koordinátáit. Azzal, hogy csak 7 milliárd paramétera modell elég könnyű ahhoz közvetlenül a készüléken futamely csökkenti a késleltetést, és biztosítja, hogy a felhasználói adatok helyi maradjanak, javítva az adatvédelmet.
Hatékony teljesítmény webes automatizáláshoz
Kompakt mérete ellenére a teljesítménytesztek azt mutatják, hogy a Fara-7B rendkívül versenyképes. A feltárt műszaki adatok szerint a modell sokkal nagyobb rendszereket tudott felülmúlni bizonyos benchmarkokban, pl. GPT-4oha a navigációs felületekről van szó. A képzés egy szintetikus adatfolyam segítségével zajlott, amely valódi emberi interakciókat imitál, lehetővé téve az AI számára, hogy megtanuljon olyan összetett műveleteket végrehajtani, mint az utazások lefoglalása, űrlapok kitöltése vagy a különböző online áruházak közötti árak összehasonlítása.
A Microsoft azonban hangsúlyozza, hogy ez a kísérleti kiadás kutatásra és fejlesztésre szánták. A fejlesztők tudatában vannak a PC-t irányító mesterséges intelligencia kockázatainak, a „kritikus pontokon” alapuló biztonsági rendszert vezettek be. Ez a funkció automatikusan leállítja a végrehajtást, és a felhasználó kifejezett beleegyezését kéri, mielőtt bármilyen érzékeny vagy visszafordíthatatlan műveletet hajtana végre, például e-mailt küldene vagy megerősítene egy vásárlást.
A Fara-7B jelenleg MIT nyílt licenc alatt érhető el olyan platformokon, mint a Hugging Face és a Microsoft Foundry. Ezen túlmenően a cég egy optimalizált verziót is biztosított az újhoz Copilot+ PC-k Windows 11 rendszerrellehetővé téve a technológiai közösség számára, hogy kísérletezzen olyan ügynökök létrehozásával, amelyek képesek automatizálni a napi digitális rutint. Most még látni kell, hogy valós forgatókönyvekben való megvalósítása mennyire tekinthető valódi sikernek.
