Unod már a SEO spambe, a szoftvermérnök új keresőmotort hoz létre

A New York -i szoftvermérnök annyira unatkozott a irreleváns eredmények és a SEO spam a keresőmotorokban, hogy úgy döntött, hogy jobbat hoz létre. Két hónappal később Demo keresőmotorja van és működtet. Így tette meg, és négy fontos betekintést nyújt arról, hogy mit érez, az akadályok a kiváló minőségű keresőmotor létrehozásához.

Az új keresőmotor létrehozásának egyik motívuma az volt, hogy a mainstream keresőmotorok egyre növekvő mennyiségű SEO -spam -et tartalmaztak. Két hónap elteltével a szoftvermérnök írta a létrehozásukról:

„Nagyszerű a SEO spam összehasonlítható hiánya.”

Idegi beágyazás

A szoftvermérnök, Wilson Lin úgy döntött, hogy a legjobb megközelítés a neurális beágyazások. Kisméretű tesztet készített a megközelítés validálására, és megjegyezte, hogy a beágyazási megközelítés sikeres.

Darabolási tartalom

A következő szakasz az adatok feldolgozásának módja volt, mint például a bekezdések vagy mondatok blokkjaira osztani? Úgy döntött, hogy a mondat szintje volt a leginkább szemcsés szint, amelynek értelme volt, mivel lehetővé tette a mondaton belüli legrelevánsabb válasz azonosítását, miközben lehetővé teszi a nagyobb bekezdéses szintű beágyazási egységek létrehozását a kontextus és a szemantikai koherencia szempontjából.

De még mindig problémái voltak a kontextus azonosításával olyan közvetett referenciákkal, amelyek olyan szavakat használtak, mint a „it” vagy a „the”, így további lépést tett annak érdekében, hogy jobban megértse a kontextust:

„Képztem egy Distilbert osztályozó modellt, amely egy mondatot és az előző mondatokat venné, és címkézni, melyik (ha van), attól függ, hogy megőrizze a jelentést. Ezért egy nyilatkozat beágyazásakor a„ láncot ”követem, hogy minden eltartást a kontextusban is biztosítsam.

Ennek az az előnye is volt, hogy olyan mondatok címkézési címkézése volt, amelyeket soha nem szabad megfelelni, mert önmagukban nem voltak „levél” mondatok. ”

A fő tartalom azonosítása

A mászás kihívása az volt, hogy a weboldal nem tartalmú részeit figyelmen kívül hagyjuk annak érdekében, hogy indexelje a Google fő tartalmát (MC). Ezt a kihívást jelentette az a tény, hogy az összes webhely eltérő jelölést használ a weboldal azon részeinek jelzésére, és bár nem említette, nem minden webhely használ a szemantikai HTML -t, ami a rugózók számára rendkívül könnyebbé tenné a fő tartalom azonosítását.

Tehát alapvetően olyan HTML -címkékre támaszkodott, mint a bekezdés címke

Annak meghatározása, hogy a weboldal mely részei tartalmazzák a tartalmat, és mely alkatrészek nem.

Ez a HTML -címkék listája, amelyekre támaszkodott a fő tartalom azonosításához:

Blockquote – Idézet
DL – Leírási lista (a leírások vagy a meghatározások listája)
OL – rendezett lista (mint egy számozott lista)
P – bekezdés elem
előzetes formázott szöveg
Táblázat – A táblázatos adatok eleme
UL – rendezetlen lista (mint például a golyópontok)

A mászás kérdései

A mászás egy másik rész volt, amelyben sok problémát okoztak. Például, meglepetésére rájött, hogy a DNS -felbontás meglehetősen gyakori kudarc pontja. Az URL típusa egy másik kérdés volt, ahol minden olyan URL -t el kellett akadályoznia, hogy mászjon, amely nem a HTTPS protokollt használja.

Ezek voltak néhány kihívás:

„HTTP -kkel kell rendelkezniük: protokoll, nem FTP :, adatok :, JavaScript :, stb.

Meg kell rendelkezniük egy érvényes ETLD -vel és gazdagépnévvel, és nem rendelkezhetnek portokkal, felhasználónevekkel vagy jelszavakkal.

A kanonikalizációt a deduplikálás érdekében végezzük. Az összes alkatrészt százalékos dekódolják, majd minimális következetes karakterkészlettel adják újra. A lekérdezési paramétereket eldobják vagy rendezik. Az eredet kisbetűs.

Néhány URL rendkívül hosszú, és ritka határértékekbe léphet, mint például a HTTP fejlécek és az adatbázis -index oldalméretek.

Egyes URL -eknek olyan furcsa karakterei is vannak, amelyekre nem gondolnád, hogy URL -ben lenne, de olyan rendszerek, mint a PostgreSQL és az SQS, elutasítják a lefelé. ”

Tárolás

Eleinte Wilson az Oracle Cloudot választotta az adatok átadásának alacsony költségei miatt (kilépési költségek).

Elmagyarázta:

„Kezdetben az Oracle Cloud for Infra -igényeket választottam, mivel nagyon alacsony kilépési költségeik vannak havonta 10 TB -mentes. Mivel a terabyte adatokat tárolnám, ez jó megnyugtatás volt, hogy ha valaha is szükségem vagy exportálnom kell az adatokat (pl. Feldolgozás, biztonsági másolat), akkor nem lenne lyuk a pénztárcájukban. A számításuk messze rágó, mint más Cluds, miközben még mindig egy megbízható szolgáltató.

De az Oracle Cloud megoldás a skálázási problémákba került. Tehát áthelyezte a projektet a PostgreSQL -be, más műszaki kérdéseket tapasztalt, és végül a RocksDB -re landolt, amely jól működött.

Elmagyarázta:

„A 64 RockSDB szilánkok rögzített készletét választottam, amely egyszerűsítette a műveleteket és az ügyfelek útválasztását, miközben elegendő elosztási kapacitást biztosít a belátható jövőben.

… A csúcspontján ez a rendszer 200 ezer írást szerezhet ezer ügyfél (rászorító, elemzők, vektorizátorok). Minden weboldal nemcsak nyers forrás HTML -ből, hanem normalizált adatokból, kontextualizált darabokból, több száz nagydimenziós beágyazásból és sok metaadatból állt. ”

GPU

A Wilson GPU-alapú következtetéseket használt a szemantikai vektor beágyazás előállításához a mászott webtartalomból a transzformátor modellek felhasználásával. Kezdetben az Openai beágyazást használt az API -n keresztül, de ez drága lett, amikor a projekt skálázott. Ezután átváltott egy öngazdálkodott következtetési megoldásra a Runpod nevű cég GPU-jával.

Elmagyarázta:

„A legköltséghatékonyabb skálázható megoldás keresésére felfedeztem a Runpodot, akik nagy teljesítményű dolláronkénti GPU-kat kínálnak, mint például az RTX 4090, sokkal olcsóbb órákonként, mint az AWS és a Lambda. Ezeket a 3 DC-kből működtették stabil gyors hálózatépítéssel és sok megbízható kiszámítási kapacitással.”

A SEO spam hiánya

A szoftvermérnök azt állította, hogy keresőmotorjának kevesebb keresési spamje van, és a „Legjobb programozási blogok” lekérdezés példáját használták a pont szemléltetésére. Arra is rámutatott, hogy keresőmotorja megérti a komplex lekérdezéseket, és példát mutatott egy teljes tartalom bekezdésének bevitelére és a bekezdés témáiról szóló érdekes cikkek felfedezésére.

Négy elvihető

Wilson számos felfedezést felsorolt, de itt van négy, amelyek érdeklődhetnek a digitális marketingszakemberek és kiadók számára, akik érdeklődnek a keresőmotor létrehozásának útja iránt:

1. Az index mérete fontos

Az egyik legfontosabb elvihető Wilson, amelyet a keresőmotor építésének két hónapja megtanult, az az, hogy a keresési index mérete fontos, mivel az ő szavai szerint „a lefedettség meghatározza a minőséget”. Az

2. A mászás és a szűrés a legnehezebb probléma

Annak ellenére, hogy a lehető legtöbb tartalom mászása fontos a hasznos tartalom megszüntetéséhez, Wilson azt is megtudta, hogy az alacsony minőségű tartalom szűrése nehéz volt, mivel megkövetelte a mennyiség szükségességének kiegyensúlyozását a látszólag végtelen webes vagy a szemét tartalom mászásának értelmetlenségével szemben. Felfedezte, hogy a haszontalan tartalom kiszűrésének módja szükséges.

Valójában ez a probléma, amelyet Sergey Brin és Larry Page oldott meg az Page Rank segítségével. Page Rank modellezett felhasználói viselkedés, az emberek választása és szavazata, akik linkekkel validálják a weboldalakat. Noha az oldal rangja közel 30 éves, az alapjául szolgáló intuíció ma továbbra is annyira releváns, hogy az AI keresőmotor -zavarás módosított verzióját használja saját keresőmotorához.

3. A kis léptékű keresőmotorok korlátozásai

Egy másik elvihetőség, amelyet felfedezett, az, hogy vannak korlátozások arra, hogy mennyire sikeres lehet egy kis független keresőmotor. Wilson megemlítette a teljes háló feltérképezésének képtelenségét olyan kényszerként, amely lefedettségi hiányosságokat hoz létre.

4.

Az eredetiség, a pontosság és a minőség meghatározása a nem strukturált adatok között nem triviális

Wilson írja:

„A hitelesség, a bizalom, az eredetiség, a pontosság és a minőség meghatározása automatikusan nem triviális.… Ha elkezdenék, akkor nagyobb hangsúlyt fektetnék e szempont kutatására és fejlesztésére.

Hírhedten a keresőmotorok több ezer jelet használnak a rangsorolási és szűrési oldalakon, de úgy gondolom, hogy az újabb transzformátor-alapú megközelítéseknek a tartalom értékelése és a link elemzésének egyszerűbbnek, költséghatékonynak és pontosabbnak kell lenniük. ”

Szeretne kipróbálni a keresőmotort? Itt megtalálhatja, és elolvashatja, hogy a teljes műszaki részletek hogyan csinálták itt.