A marketingszakemberek ma időt töltenek a kulcsszó -kutatásokra a lehetőségek feltárására, a tartalmi hiányosságok megszüntetésére, az oldalak feltérképezésére és a tartalom összehangolására az eeat alapelvekhez. Azok a dolgok továbbra is számítanak. De egy olyan világban, ahol a generációs AI egyre inkább közvetíti az információkat, nem elégek.
A különbség most a visszakeresés. Nem számít, mennyire csiszolt vagy tekintélyes a tartalma egy ember számára, ha a gép soha nem vonja be a válaszkészletbe. A visszakeresés nem csak arról szól, hogy létezik -e az oldalad, vagy technikailag optimalizált -e. Arról szól, hogy a gépek hogyan értelmezik a szavakat a szavak jelentését.
Ez két tényezőre vezet minket, amelyeket a legtöbb ember nem sokat gondol, de amelyek gyorsan elengedhetetlenek: szemantikai sűrűség és szemantikai átfedés– Szorosan összefüggenek, gyakran zavarosak, de a gyakorlatban nagyon eltérő eredményeket eredményeznek a Genai -visszanyerés során. A megértés és az egyensúlyuk megtanulása elősegítheti a tartalom optimalizálásának jövőjének kialakítását. Gondolj rájuk az új oldali optimalizálási réteg részeként.
Szemantikai sűrűség a token jelentésről szól. A sűrű szövegblokk a lehető legkevesebb szavakkal kommunikálja a maximális információt. Gondoljon egy éles meghatározásra egy szószedetben vagy egy szorosan írott végrehajtó összefoglalóban. Az emberek általában szeretik a sűrű tartalmat, mert jelzi a hatalmat, időt takarít meg és hatékonynak érzi magát.
Szemantikai átfedés más. Az átfedés méri, hogy a tartalma mennyire igazodik a modellnek a lekérdezés látens ábrázolásához. A visszakeresési motorok nem olvasnak, mint az emberek. A jelentést a vektorokba kódolják és összehasonlítják a hasonlóságokat. Ha a tartalmi darabja ugyanazokat a jeleket osztja meg, mint a lekérdezés beágyazása, akkor az lesz. Ha nem, akkor láthatatlan marad, függetlenül attól, hogy elegáns a próza.
Ez a koncepció már formalizálódik a természetes nyelvfeldolgozás (NLP) értékelésében. Az egyik legszélesebb körben alkalmazott intézkedés az Bertscore (https://arxiv.org/abs/1904.09675), amelyet a kutatók vezettek be 2020 -ban. Ez összehasonlítja a két szöveg, például a lekérdezés és a válasz beágyazását, és hasonlósági pontszámot hoz létre, amely tükrözi a szemantikai átfedést. A Bertscore nem egy Google SEO eszköz. Ez egy nyílt forráskódú mutató, amely a Bert modell családjában gyökerezik, amelyet eredetileg a Google Research fejlesztett ki, és a természetes nyelvfeldolgozás összehangolásának standard módszerévé vált.
Most itt van a dolgok. Az emberek jutalmazzák a sűrűséget. A gépek jutalmazása átfedésben van. Az olvasók megcsodálhatják a sűrű mondatot, de a gép kihagyja, ha az nem fedi át a lekérdezés vektorát. Egy hosszabb átjáró, amely megismétli a szinonimákat, újrafogalmazza a kérdéseket és a felületekhez kapcsolódó entitások, feleslegesnek tűnhet az emberek számára, ám erősebben igazodik a lekérdezéshez és megnyeri a visszakeresést.
A SEO kulcsszó -korszakában a sűrűség és az átfedések az optimalizálási gyakorlatok alapján elmosódtak. A természetes írás, miközben a kulcsszó elegendő variációját tartalmazza, gyakran elérte mindkettőt. A Genai visszakeresésében a kettő eltér. Az egyik optimalizálása nem garantálja a másikot.
Ezt a megkülönböztetést a gépi tanulásban már alkalmazott értékelési keretekben ismeri el. A Bertscore például azt mutatja, hogy a magasabb pontszám nagyobb igazságot jelent a tervezett jelentéssel. Ez az átfedés sokkal inkább a visszakereséstől számít, mint önmagában a sűrűség. És ha valóban mélyen belemerül az LLM értékelési mutatókba, ez a cikk nagyszerű forrás.
A generációs rendszerek nem vesznek be és nem szereznek be teljes weboldalt. Darabokkal dolgoznak. A nagy nyelvi modellek párosulnak a Vector adatbázisokkal a visszakeresési-augnázott generációs (RAG) rendszerekben. Amikor egy lekérdezés beérkezik, beágyazássá alakul. Ezt a beágyazást összehasonlítják a tartalomágyak könyvtárával. A rendszer nem kérdezi: „Mi a legjobban megírt oldal?” Azt kérdezi: „Melyik darabok élnek a legközelebb ehhez a lekérdezéshez a vektor térben?”
Ez az oka annak, hogy a szemantikai átfedés több, mint a sűrűség. A visszakeresési réteg vak az elegancia ellen. A hasonlósági pontszámok révén rangsorolja az igazítást és a koherenciát.
A darabméret és a szerkezet komplexitást ad. Túl kicsi, és egy sűrű darab elmulaszthatja az átfedési jeleket, és átadhatja. Túl nagy, és egy verbózes darab jól rangsorolódhat, de a felhasználók puffadásával, miután felszínre kerültek. A művészet a kompakt jelentés kiegyensúlyozásában áll, átfedésekkel, felépítve a darabokat, így mindkettő szemantikailag igazodik és könnyen olvasható, ha egyszer visszanyerik. A gyakorlók gyakran 200 és 500 token és 800 és 1000 token között tesztelik a darab méretét, hogy megtalálják a domain és a lekérdezési minták megfelelő egyensúlyát.
A Microsoft Research feltűnő példát mutat. Egy 2025 -es tanulmányban, amely 200 000 anonimizált Bing Copilot -beszélgetéseket elemezte, a kutatók megállapították, hogy az információgyűjtési és írási feladatok a legmagasabb pontszámot mutatják mind a visszakeresési siker, mind a felhasználói elégedettség szempontjából. A visszakeresési siker nem nyomon követi a válasz kompaktságát; A modell megértése és a válaszban használt megfogalmazás közötti átfedéssel nyomon követve. Valójában a beszélgetések 40% -ában a felhasználó célja és az AI hatása aszimmetrikus volt. A visszakeresés akkor történt, ha az átfedés magas volt, még akkor is, ha a sűrűség nem volt. Teljes tanulmány itt.
Ez tükrözi a visszakeresési rendszerek strukturális igazságát. Az átfedés, nem pedig a rövidség, az, ami a válaszkészletbe kerül. A sűrű szöveg igazítás nélkül láthatatlan. Az igazítással rendelkező szóbeli szöveg felszínre kerül. A visszakeresési motor jobban törődik a hasonlóság beillesztésével.
Ez nem csak az elmélet. A szemantikai keresési szakemberek már a kulcsszó-gyakoriság helyett a szándék-igazítási mutatók révén mérik a minőséget. Például a Milvus, a vezető nyílt forráskódú vektor adatbázis, kiemeli az átfedés alapú mutatókat, mint a szemantikai keresési teljesítmény értékelésének megfelelő módját. Referencia útmutatójuk hangsúlyozza a szemantikai jelentést a felszíni formákhoz.
A lecke világos. A gépek nem jutalmazzák meg az eleganciáért. Jutalmazzák Önt az igazításért.
Megváltoztatás is van abban, hogy miként gondolkodunk az itt szükséges struktúráról. A legtöbb ember a golyópontokat rövidítésnek tekinti; Gyors, beolvasható töredékek. Ez az emberek számára működik, de a gépek másképp olvasják el őket. A visszakeresési rendszerhez a golyó egy strukturális jel, amely meghatározza a darabot. Ami számít az átfedés abban a darabon belül. Egy rövid, lecsupaszított golyó tiszta lehet, de kevés igazítást hordozhat. Egy hosszabb, gazdagabb golyó, amely megismétli a kulcsfontosságú entitásokat, magában foglalja a szinonimákat és a kifejezéseket többféle módon, nagyobb esélye van a visszakeresésre. A gyakorlatban ez azt jelenti, hogy a golyóknak teljesebbnek és részletesebbnek kell lenniük, mint az íráshoz. A rövidség nem vonja be a válaszkészletet. Átfedés.
Ha az átfedés meghajtja a visszakeresést, ez azt jelenti, hogy a sűrűség nem számít? Egyáltalán nem.
Az átfedés miatt visszakerül. A sűrűség hiteles marad. Miután a darabja felszínre került, az embernek még mindig el kell olvasnia. Ha ez az olvasó duzzadtnak, ismétlődőnek vagy hanyagnak találja, akkor a hatalma erodálódik. A gép úgy dönt, hogy a láthatóság. Az ember dönt a bizalomról.
A mai nap hiányzik egy összetett mutató, amely mindkettőt kiegyensúlyozza. El tudunk képzelni két pontszámot:
Szemantikai sűrűség -pontszám: Ez a tokenre jutó jelentést mutatja, értékelve, hogy a hatékony információt továbbítják. Ezt a kompressziós arányok, az olvashatósági képletek vagy akár az emberi pontozás közelíthetik.
Szemantikus átfedési pontszám: Ez azt méri, hogy a darab milyen erősen igazodik a lekérdezés beágyazásához. Ezt már olyan eszközök közelítik meg, mint a bertscore vagy a koszinusz hasonlóság a vektor térben.
Ez a két intézkedés együttesen teljesebb képet ad nekünk. Egy nagy sűrűségű, de alacsony átfedéssel rendelkező tartalom szépen olvasható, de soha nem lehet visszakerülni. Egy olyan darab, amelynek magas átfedési pontszáma van, de az alacsony sűrűségű, folyamatosan lehet visszahozni, de frusztrálja az olvasókat. A nyertes stratégia mindkettőre irányul.
Képzeljen el két rövid rész, amely ugyanazon a lekérdezésre válaszol:
Sűrű verzió: „A rongy rendszerek visszakeresik a lekérdezéshez kapcsolódó adatok darabjait, és átadják őket egy LLM -hez.”
Átfedési verzió: „A visszakereséssel ellátott generáció, amelyet gyakran RAG-nak hívnak, a releváns tartalomdarabok visszakeresését, összehasonlítják a beágyazásukat a felhasználó lekérdezésével, és átadják az igazított darabokat egy nagy nyelvi modellnek a válasz generálásához.”
Mindkettő ténylegesen helyes. Az első kompakt és tiszta. A második a Wordier, megismétli a kulcsfontosságú entitásokat, és szinonimákat használ. A sűrű verzió az embereknél magasabb pontszámot mutat. Az átfedési verzió magasabb pontszámot mutat a gépekkel. Melyiket kapják gyakrabban? Az átfedés verziója. Melyik szerez bizalmat egyszer visszakeresve? A sűrű.
Vegyük figyelembe egy nem műszaki példát.
Sűrű verzió: „A D -vitamin szabályozza a kalciumot és a csontok egészségét.”
Átfedés -gazdag verzió: „A D -vitamin, más néven kalciferol, támogatja a kalcium felszívódását, a csontok növekedését és a csontsűrűségeket, elősegítve az olyan állapotokat, mint az osteoporosis.”
Mindkettő helyes. A második tartalmazza a szinonimákat és a kapcsolódó fogalmakat, amelyek növelik az átfedést és a visszakeresés valószínűségét.
Ez az oka annak, hogy az optimalizálás jövője nem választja a sűrűség vagy az átfedés, hanem kiegyensúlyozza mindkettőt
Ahogy a SEO korai napjai olyan mutatókat láttak, mint a kulcsszó -sűrűség és a linkek kifinomultabb hatalmi intézkedésekké alakulnak, a következő hullám remélhetőleg formalizálja a sűrűségeket, és átfedi a pontszámokat a szokásos optimalizálási irányítópultokba. Jelenleg ez továbbra is kiegyensúlyozó cselekedet. Ha az átfedést választja, akkor valószínűleg ez egy biztonságos fogadás, mivel legalább letölti. Ezután azt kell remélni, hogy az emberek, akik válaszként olvasják a tartalmat, elég vonzónak találják, hogy megmaradjanak.
A gép dönt arról, hogy látható -e. Az ember dönt arról, hogy bíznak benne. A szemantikai sűrűség élesíti a jelentést. A szemantikai átfedés megnyeri a visszakeresést. A munka mindkettőt kiegyensúlyozza, majd figyeli az olvasók bevonását, így tovább javulhat.
Ezt a bejegyzést eredetileg a Duane Forrester Decodes -en tették közzé.