Unod már a SEO spambe, a szoftvermérnök új keresőmotort hoz létre

Peter

A New York -i szoftvermérnök annyira unatkozott a irreleváns eredmények és a SEO spam a keresőmotorokban, hogy úgy döntött, hogy jobbat hoz létre. Két hónappal később Demo keresőmotorja van és működtet. Így tette meg, és négy fontos betekintést nyújt arról, hogy mit érez, az akadályok a kiváló minőségű keresőmotor létrehozásához.

Az új keresőmotor létrehozásának egyik motívuma az volt, hogy a mainstream keresőmotorok egyre növekvő mennyiségű SEO -spam -et tartalmaztak. Két hónap elteltével a szoftvermérnök írta a létrehozásukról:

„Nagyszerű a SEO spam összehasonlítható hiánya.”

Idegi beágyazás

A szoftvermérnök, Wilson Lin úgy döntött, hogy a legjobb megközelítés a neurális beágyazások. Kisméretű tesztet készített a megközelítés validálására, és megjegyezte, hogy a beágyazási megközelítés sikeres.

Darabolási tartalom

A következő szakasz az adatok feldolgozásának módja volt, mint például a bekezdések vagy mondatok blokkjaira osztani? Úgy döntött, hogy a mondat szintje volt a leginkább szemcsés szint, amelynek értelme volt, mivel lehetővé tette a mondaton belüli legrelevánsabb válasz azonosítását, miközben lehetővé teszi a nagyobb bekezdéses szintű beágyazási egységek létrehozását a kontextus és a szemantikai koherencia szempontjából.

De még mindig problémái voltak a kontextus azonosításával olyan közvetett referenciákkal, amelyek olyan szavakat használtak, mint a „it” vagy a „the”, így további lépést tett annak érdekében, hogy jobban megértse a kontextust:

„Képztem egy Distilbert osztályozó modellt, amely egy mondatot és az előző mondatokat venné, és címkézni, melyik (ha van), attól függ, hogy megőrizze a jelentést. Ezért egy nyilatkozat beágyazásakor a„ láncot ”követem, hogy minden eltartást a kontextusban is biztosítsam.

Ennek az az előnye is volt, hogy olyan mondatok címkézési címkézése volt, amelyeket soha nem szabad megfelelni, mert önmagukban nem voltak „levél” mondatok. ”

A fő tartalom azonosítása

A mászás kihívása az volt, hogy a weboldal nem tartalmú részeit figyelmen kívül hagyjuk annak érdekében, hogy indexelje a Google fő tartalmát (MC). Ezt a kihívást jelentette az a tény, hogy az összes webhely eltérő jelölést használ a weboldal azon részeinek jelzésére, és bár nem említette, nem minden webhely használ a szemantikai HTML -t, ami a rugózók számára rendkívül könnyebbé tenné a fő tartalom azonosítását.

Tehát alapvetően olyan HTML -címkékre támaszkodott, mint a bekezdés címke

Annak meghatározása, hogy a weboldal mely részei tartalmazzák a tartalmat, és mely alkatrészek nem.

Ez a HTML -címkék listája, amelyekre támaszkodott a fő tartalom azonosításához:

  • Blockquote – Idézet
  • DL – Leírási lista (a leírások vagy a meghatározások listája)
  • OL – rendezett lista (mint egy számozott lista)
  • P – bekezdés elem
  • előzetes formázott szöveg
  • Táblázat – A táblázatos adatok eleme
  • UL – rendezetlen lista (mint például a golyópontok)

A mászás kérdései

A mászás egy másik rész volt, amelyben sok problémát okoztak. Például, meglepetésére rájött, hogy a DNS -felbontás meglehetősen gyakori kudarc pontja. Az URL típusa egy másik kérdés volt, ahol minden olyan URL -t el kellett akadályoznia, hogy mászjon, amely nem a HTTPS protokollt használja.

Ezek voltak néhány kihívás:

„HTTP -kkel kell rendelkezniük: protokoll, nem FTP :, adatok :, JavaScript :, stb.

Meg kell rendelkezniük egy érvényes ETLD -vel és gazdagépnévvel, és nem rendelkezhetnek portokkal, felhasználónevekkel vagy jelszavakkal.

A kanonikalizációt a deduplikálás érdekében végezzük. Az összes alkatrészt százalékos dekódolják, majd minimális következetes karakterkészlettel adják újra. A lekérdezési paramétereket eldobják vagy rendezik. Az eredet kisbetűs.

Néhány URL rendkívül hosszú, és ritka határértékekbe léphet, mint például a HTTP fejlécek és az adatbázis -index oldalméretek.

Egyes URL -eknek olyan furcsa karakterei is vannak, amelyekre nem gondolnád, hogy URL -ben lenne, de olyan rendszerek, mint a PostgreSQL és az SQS, elutasítják a lefelé. ”

Tárolás

Eleinte Wilson az Oracle Cloudot választotta az adatok átadásának alacsony költségei miatt (kilépési költségek).

Elmagyarázta:

„Kezdetben az Oracle Cloud for Infra -igényeket választottam, mivel nagyon alacsony kilépési költségeik vannak havonta 10 TB -mentes. Mivel a terabyte adatokat tárolnám, ez jó megnyugtatás volt, hogy ha valaha is szükségem vagy exportálnom kell az adatokat (pl. Feldolgozás, biztonsági másolat), akkor nem lenne lyuk a pénztárcájukban. A számításuk messze rágó, mint más Cluds, miközben még mindig egy megbízható szolgáltató.

De az Oracle Cloud megoldás a skálázási problémákba került. Tehát áthelyezte a projektet a PostgreSQL -be, más műszaki kérdéseket tapasztalt, és végül a RocksDB -re landolt, amely jól működött.

Elmagyarázta:

„A 64 RockSDB szilánkok rögzített készletét választottam, amely egyszerűsítette a műveleteket és az ügyfelek útválasztását, miközben elegendő elosztási kapacitást biztosít a belátható jövőben.

… A csúcspontján ez a rendszer 200 ezer írást szerezhet ezer ügyfél (rászorító, elemzők, vektorizátorok). Minden weboldal nemcsak nyers forrás HTML -ből, hanem normalizált adatokból, kontextualizált darabokból, több száz nagydimenziós beágyazásból és sok metaadatból állt. ”

GPU

A Wilson GPU-alapú következtetéseket használt a szemantikai vektor beágyazás előállításához a mászott webtartalomból a transzformátor modellek felhasználásával. Kezdetben az Openai beágyazást használt az API -n keresztül, de ez drága lett, amikor a projekt skálázott. Ezután átváltott egy öngazdálkodott következtetési megoldásra a Runpod nevű cég GPU-jával.

Elmagyarázta:

„A legköltséghatékonyabb skálázható megoldás keresésére felfedeztem a Runpodot, akik nagy teljesítményű dolláronkénti GPU-kat kínálnak, mint például az RTX 4090, sokkal olcsóbb órákonként, mint az AWS és a Lambda. Ezeket a 3 DC-kből működtették stabil gyors hálózatépítéssel és sok megbízható kiszámítási kapacitással.”

A SEO spam hiánya

A szoftvermérnök azt állította, hogy keresőmotorjának kevesebb keresési spamje van, és a „Legjobb programozási blogok” lekérdezés példáját használták a pont szemléltetésére. Arra is rámutatott, hogy keresőmotorja megérti a komplex lekérdezéseket, és példát mutatott egy teljes tartalom bekezdésének bevitelére és a bekezdés témáiról szóló érdekes cikkek felfedezésére.

Négy elvihető

Wilson számos felfedezést felsorolt, de itt van négy, amelyek érdeklődhetnek a digitális marketingszakemberek és kiadók számára, akik érdeklődnek a keresőmotor létrehozásának útja iránt:

1. Az index mérete fontos

Az egyik legfontosabb elvihető Wilson, amelyet a keresőmotor építésének két hónapja megtanult, az az, hogy a keresési index mérete fontos, mivel az ő szavai szerint „a lefedettség meghatározza a minőséget”. Az

2. A mászás és a szűrés a legnehezebb probléma

Annak ellenére, hogy a lehető legtöbb tartalom mászása fontos a hasznos tartalom megszüntetéséhez, Wilson azt is megtudta, hogy az alacsony minőségű tartalom szűrése nehéz volt, mivel megkövetelte a mennyiség szükségességének kiegyensúlyozását a látszólag végtelen webes vagy a szemét tartalom mászásának értelmetlenségével szemben. Felfedezte, hogy a haszontalan tartalom kiszűrésének módja szükséges.

Valójában ez a probléma, amelyet Sergey Brin és Larry Page oldott meg az Page Rank segítségével. Page Rank modellezett felhasználói viselkedés, az emberek választása és szavazata, akik linkekkel validálják a weboldalakat. Noha az oldal rangja közel 30 éves, az alapjául szolgáló intuíció ma továbbra is annyira releváns, hogy az AI keresőmotor -zavarás módosított verzióját használja saját keresőmotorához.

3. A kis léptékű keresőmotorok korlátozásai

Egy másik elvihetőség, amelyet felfedezett, az, hogy vannak korlátozások arra, hogy mennyire sikeres lehet egy kis független keresőmotor. Wilson megemlítette a teljes háló feltérképezésének képtelenségét olyan kényszerként, amely lefedettségi hiányosságokat hoz létre.

4.

Az eredetiség, a pontosság és a minőség meghatározása a nem strukturált adatok között nem triviális

Wilson írja:

„A hitelesség, a bizalom, az eredetiség, a pontosság és a minőség meghatározása automatikusan nem triviális.… Ha elkezdenék, akkor nagyobb hangsúlyt fektetnék e szempont kutatására és fejlesztésére.

Hírhedten a keresőmotorok több ezer jelet használnak a rangsorolási és szűrési oldalakon, de úgy gondolom, hogy az újabb transzformátor-alapú megközelítéseknek a tartalom értékelése és a link elemzésének egyszerűbbnek, költséghatékonynak és pontosabbnak kell lenniük. ”

Szeretne kipróbálni a keresőmotort? Itt megtalálhatja, és elolvashatja, hogy a teljes műszaki részletek hogyan csinálták itt.

A szerzőről

Peter, az eOldal.hu tapasztalt SEO szakértője és tartalomgyártója. Több mint 10 éve foglalkozik keresőoptimalizálással és online marketinggel, amelyek révén számos magyar vállalkozás sikerét segítette elő. Cikkeiben részletes és naprakész információkat nyújt az olvasóknak a legfrissebb SEO trendekről és stratégiákról.