A tömöríthetőség mint minőségi jel fogalma nem ismert széles körben, de a keresőoptimalizálóknak tisztában kell lenniük vele. A keresőmotorok a weboldalak tömörítését használhatják az ismétlődő oldalak, a hasonló tartalmú előszobaoldalak és az ismétlődő kulcsszavakat tartalmazó oldalak azonosítására, hasznos ismereteket téve a SEO számára.
Bár a következő kutatási cikk bemutatja az oldalon található funkciók sikeres használatát a spam észlelésére, a keresőmotorok szándékos átláthatóságának hiánya megnehezíti bizonyossággal annak megállapítását, hogy a keresőmotorok alkalmazzák-e ezt vagy hasonló technikákat.
Mi az a tömöríthetőség?
A számítástechnikában a tömöríthetőség arra utal, hogy mennyivel csökkenthető egy fájl (adat) mérete, miközben megőrzi a lényeges információkat, jellemzően a tárhely maximalizálása vagy több adat interneten keresztüli továbbítása érdekében.
TL/DR tömörítés
A tömörítés az ismétlődő szavakat és kifejezéseket rövidebb hivatkozásokra cseréli, jelentős margókkal csökkentve a fájlméretet. A keresőmotorok általában tömörítik az indexelt weboldalakat, hogy maximalizálják a tárhelyet, csökkentsék a sávszélességet és javítsák a visszakeresési sebességet, többek között.
Ez a tömörítés működésének egyszerűsített magyarázata:
- A minták azonosítása:
Egy tömörítési algoritmus átvizsgálja a szöveget, hogy ismétlődő szavakat, mintákat és kifejezéseket találjon - A rövidebb kódok kevesebb helyet foglalnak el:
A kódok és szimbólumok kevesebb tárhelyet igényelnek, mint az eredeti szavak és kifejezések, ami kisebb fájlméretet eredményez. - A rövidebb hivatkozások kevesebb bitet használnak:
A lecserélt szavakat és kifejezéseket lényegében szimbolizáló „kód” kevesebb adatot használ, mint az eredetiek.
A tömörítés használatának bónusza, hogy az ismétlődő oldalak, a hasonló tartalmú előszobaoldalak és az ismétlődő kulcsszavakat tartalmazó oldalak azonosítására is használható.
Kutatási dokumentum a spam észleléséről
Ez a kutatási cikk azért jelentős, mert olyan kiváló informatikusok írták, akik az AI, az elosztott számítástechnika, az információkeresés és más területeken elért áttörésekről ismertek.
Marc Najork
A tanulmány egyik társszerzője Marc Najork, egy kiemelkedő kutató, aki jelenleg a Google DeepMind kiváló kutatója címet viseli. Társszerzője a TW-BERT-nek, hozzájárult az implicit felhasználói visszajelzések, például a kattintások használatának pontosabbá tételére irányuló kutatásokhoz, és dolgozott a továbbfejlesztett mesterséges intelligencia-alapú információ-visszakeresésen (DSI++: Transformer Memory Updating Transformer Memory with New Documents). sok más jelentős áttörés az információkeresésben.
Dennis Fetterly
A másik társszerző Dennis Fetterly, jelenleg a Google szoftvermérnöke. Társfeltalálóként szerepel egy hivatkozásokat használó rangsoroló algoritmus szabadalmában, és az elosztott számítástechnika és információ-visszakeresés terén végzett kutatásairól ismert.
Ez csak kettő a neves kutatók közül, akik társszerzőként szerepelnek a Microsoft 2006-os kutatási tanulmányában, amely a spamek oldaltartalmi funkciói révén történő azonosításáról szól. A kutatási cikkek számos oldaltartalmi jellemzője közül a tömöríthetőséget elemezték, amelyről azt találták, hogy osztályozóként is használható annak jelzésére, hogy egy weboldal spam jellegű.
Spam weboldalak észlelése tartalomelemzés segítségével
Bár a tanulmány 2006-ban készült, eredményei a mai napig relevánsak.
Akkoriban, akárcsak most, az emberek több száz vagy több ezer helyalapú weboldalt próbáltak rangsorolni, amelyek lényegében ismétlődő tartalmak voltak, a városok, régiók vagy államok nevei mellett. Akkoriban, akárcsak most, a keresőoptimalizálók gyakran úgy hoztak létre weboldalakat a keresőmotorok számára, hogy túlzottan ismételték a kulcsszavakat a címekben, a metaleírásokban, a címsorokban, a belső horgonyszövegekben és a tartalomban a helyezés javítása érdekében.
A kutatási dokumentum 4.6. szakasza kifejti:
„Egyes keresőmotorok nagyobb súlyt tulajdonítanak azoknak az oldalaknak, amelyek többször is tartalmazzák a lekérdezési kulcsszavakat. Például egy adott lekérdezési kifejezésnél egy oldal, amelyen tízszer szerepel, magasabb rangú lehet, mint egy olyan oldal, amelyik csak egyszer tartalmazza. Az ilyen motorok előnyeinek kihasználása érdekében egyes spamoldalak többször is megismétlik a tartalmát annak érdekében, hogy magasabb helyezést érjenek el.”
A kutatási cikk kifejti, hogy a keresőmotorok tömörítik a weboldalakat, és a tömörített változatot használják az eredeti weboldalra való hivatkozáshoz. Megjegyzik, hogy a túlzott mennyiségű redundáns szavak magasabb szintű tömöríthetőséget eredményeznek. Ezért hozzáláttak annak teszteléséhez, hogy van-e összefüggés a magas szintű tömöríthetőség és a spam között.
Azt írják:
„Ebben a szakaszban a redundáns tartalom megtalálásához az oldalon belüli megközelítésünk az oldal tömörítése; a hely és a lemezidő megtakarítása érdekében a keresőmotorok gyakran tömörítik a weboldalakat az indexelés után, de mielőtt hozzáadnák őket az oldal gyorsítótárához.
…A weboldalak redundanciáját a tömörítési aránnyal mérjük, a tömörítetlen oldal méretét osztva a tömörített oldal méretével. GZIP-et használtunk az oldalak tömörítésére, ez egy gyors és hatékony tömörítési algoritmus.”
A magas tömörítési képesség a spamhez kapcsolódik
A kutatás eredményei azt mutatták, hogy a legalább 4,0-s tömörítési arányú weboldalak általában rossz minőségű weboldalak, spamek. A legnagyobb tömörítési arányok azonban kevésbé következetesek lettek, mivel kevesebb adatpont volt, ami megnehezítette az értelmezést.
9. ábra: A spam előfordulása az oldal tömöríthetőségéhez viszonyítva.
A kutatók arra a következtetésre jutottak:
„A legalább 4,0 tömörítési arányú mintaoldalak 70%-a spamnek minősül.”
De azt is felfedezték, hogy a tömörítési arány használata önmagában továbbra is hamis pozitív eredményeket eredményezett, ahol a nem spam oldalakat helytelenül spamként azonosították:
„A 4.6-os szakaszban leírt tömörítési arány heurisztika teljesített a legjobban, mivel a gyűjteményünkben található spamoldalak 660-át (27,9%) helyesen azonosította, míg az összes értékelt oldal 2068-át (12,0%) tévesen azonosította.
Az összes fent említett jellemzőt felhasználva a tízszeres keresztellenőrzési folyamat utáni besorolási pontosság biztató:
Elbírált oldalaink 95,4%-a helyesen, míg 4,6%-a hibásan volt besorolva.
Pontosabban, az 1. levélszemét-osztályhoz a 2 364 oldalból 940 oldal volt helyesen besorolva. A spammentes osztály esetében a 14 804 oldalból 14 440 oldal került helyesen besorolásra. Következésképpen 788 oldalt hibásan osztályoztak.”
A következő rész egy érdekes felfedezést ír le arról, hogyan lehet növelni az oldalon lévő jelzések használatának pontosságát a spamek azonosítására.
Betekintés a minőségi rangsorokba
A kutatás több oldaljelet vizsgált, beleértve a tömöríthetőséget is. Felfedezték, hogy minden egyes jel (osztályozó) képes bizonyos levélszemetet találni, de az egyetlen jelre támaszkodva a nem spam oldalakat spamként jelölték meg, amelyeket általában hamis pozitívnak neveznek.
A kutatók fontos felfedezést tettek, amelyet mindenkinek tudnia kell, aki érdeklődik a SEO iránt: több osztályozó használata növelte a spam észlelésének pontosságát és csökkentette a hamis pozitív eredmények valószínűségét. Ugyanilyen fontos, hogy a tömöríthetőségi jel csak egyfajta levélszemetet azonosít, de nem a levélszemét teljes skáláját.
A lényeg az, hogy a tömörítés jó módja egyfajta levélszemét azonosításának, de vannak más típusú spamek is, amelyeket ez az egyetlen jel nem fog el. Más típusú kéretlen leveleket nem sikerült elkapni a tömöríthetőségi jellel.
Ez az a rész, amelyet minden keresőoptimalizálónak és kiadónak tudnia kell:
„Az előző részben bemutattunk számos heurisztikát a spam weboldalak vizsgálatára. Ez azt jelenti, hogy a weboldalak számos jellemzőjét mértük, és ezeknek a jellemzőknek olyan tartományait találtuk, amelyek összefüggésben állnak egy oldal spam jellegével. Mindazonáltal, külön-külön használva, egyetlen technika sem fedi fel az adathalmazunkban található spam nagy részét anélkül, hogy sok nem spam oldalt megjelölne spamként.
Például figyelembe véve a 4.6. szakaszban leírt tömörítési arány heurisztikát, amely az egyik legígéretesebb módszerünk, a levélszemét átlagos valószínűsége 4,2 vagy annál nagyobb arány esetén 72%. De az összes oldalnak csak körülbelül 1,5%-a esik ebbe a tartományba. Ez a szám messze elmarad az adatkészletünkben azonosított spamoldalak 13,8%-ától.”
Tehát bár a tömöríthetőség volt az egyik legjobb jel a spamek azonosítására, mégsem tudta feltárni a kéretlen levelek teljes skáláját azon adatkészleten belül, amelyet a kutatók a jelek tesztelésére használtak.
Több jel kombinálása
A fenti eredmények azt mutatják, hogy az egyes gyenge minőségű jelek kevésbé pontosak. Így több jel használatával teszteltek. Amit felfedeztek, az az volt, hogy több oldali jel kombinálása a spam észlelésére jobb pontosságot eredményezett, és kevesebb oldal került rosszul spamnek minősítésre.
A kutatók elmagyarázták, hogy több jel használatát tesztelték:
„A heurisztikus módszereink kombinálásának egyik módja az, hogy a levélszemét-észlelési problémát osztályozási problémaként tekintjük. Ebben az esetben egy olyan osztályozási modellt (vagy osztályozót) szeretnénk létrehozni, amely adott weboldalon együttesen használja az oldal tulajdonságait, hogy (reméljük helyesen) két osztályba sorolja: spam és nem spam. .”
Ezek a következtetéseik a több jel használatáról:
„Az MSNSearch bejáró valós adatkészletével tanulmányoztuk a tartalomalapú spam különféle aspektusait az interneten. Számos heurisztikus módszert mutattunk be a tartalom alapú spam észlelésére. Egyes spamészlelési módszereink hatékonyabbak, mint mások, azonban elkülönítve alkalmazva módszereink nem feltétlenül azonosítják az összes spamoldalt. Emiatt kombináltuk spamészlelési módszereinket egy rendkívül pontos C4.5 osztályozó létrehozásához. Osztályozónk az összes spam oldal 86,2%-át képes helyesen azonosítani, miközben nagyon kevés legitim oldalt jelöl meg spamként.”
Kulcsfontosságú betekintés:
Jelentős áttörést jelentett a „nagyon kevés legitim oldal spamként történő azonosítása”. Az a fontos meglátás, amelyet a SEO-val foglalkozóknak le kell vonniuk ebből, az az, hogy egy jelzés önmagában téves pozitív eredményeket eredményezhet. Több jel használata növeli a pontosságot.
Ez azt jelenti, hogy az elszigetelt rangsorolási vagy minőségi jelek SEO-tesztjei nem adnak megbízható eredményeket, amelyek megbízhatóak a stratégiai vagy üzleti döntések meghozatalához.
Elvitelre
Nem tudjuk biztosan, használnak-e tömörítést a keresők, de ez egy könnyen használható jelzés, amely másokkal kombinálva egyszerű levélszemét, például több ezer hasonló tartalmú városnév-kapuoldal elkapására is használható. Még ha a keresőmotorok nem is használják ezt a jelet, ez azt mutatja, hogy milyen könnyű elkapni az effajta keresőmotor-manipulációt, és hogy ezt a keresőmotorok ma már jól tudják kezelni.
Íme a cikk legfontosabb pontjai, amelyeket érdemes szem előtt tartani:
- A duplikált tartalommal rendelkező bejárati oldalakat könnyű elkapni, mert nagyobb arányban tömörítik, mint a normál weboldalak.
- A 4,0 feletti tömörítési arányú weboldalak csoportjai túlnyomórészt kéretlen levelek voltak.
- Az önmagukban a spam elkapására használt negatív minőségi jelek téves pozitív eredményekhez vezethetnek.
- Ebben a tesztben felfedezték, hogy az oldalon megjelenő negatív minőségi jelek csak bizonyos típusú spameket fognak el.
- Ha önmagában használjuk, a tömöríthetőségi jel csak a redundancia típusú levélszemetet fogja fel, nem észleli a spam egyéb formáit, és hamis pozitív eredményekhez vezet.
- A minőségi jelek fésülése javítja a spamészlelés pontosságát és csökkenti a téves üzenetek számát.
- A keresőmotorok manapság nagyobb pontossággal észlelik a kéretlen leveleket a mesterséges intelligencia, például a Spam Brain használatával.
Olvassa el a tanulmányt, amely Marc Najork Google Scholar oldalán található:
Spam weboldalak észlelése tartalomelemzés segítségével