A New York -i szoftvermérnök annyira unatkozott a irreleváns eredmények és a SEO spam a keresőmotorokban, hogy úgy döntött, hogy jobbat hoz létre. Két hónappal később Demo keresőmotorja van és működtet. Így tette meg, és négy fontos betekintést nyújt arról, hogy mit érez, az akadályok a kiváló minőségű keresőmotor létrehozásához.
Az új keresőmotor létrehozásának egyik motívuma az volt, hogy a mainstream keresőmotorok egyre növekvő mennyiségű SEO -spam -et tartalmaztak. Két hónap elteltével a szoftvermérnök írta a létrehozásukról:
„Nagyszerű a SEO spam összehasonlítható hiánya.”
Idegi beágyazás
A szoftvermérnök, Wilson Lin úgy döntött, hogy a legjobb megközelítés a neurális beágyazások. Kisméretű tesztet készített a megközelítés validálására, és megjegyezte, hogy a beágyazási megközelítés sikeres.
Darabolási tartalom
A következő szakasz az adatok feldolgozásának módja volt, mint például a bekezdések vagy mondatok blokkjaira osztani? Úgy döntött, hogy a mondat szintje volt a leginkább szemcsés szint, amelynek értelme volt, mivel lehetővé tette a mondaton belüli legrelevánsabb válasz azonosítását, miközben lehetővé teszi a nagyobb bekezdéses szintű beágyazási egységek létrehozását a kontextus és a szemantikai koherencia szempontjából.
De még mindig problémái voltak a kontextus azonosításával olyan közvetett referenciákkal, amelyek olyan szavakat használtak, mint a „it” vagy a „the”, így további lépést tett annak érdekében, hogy jobban megértse a kontextust:
„Képztem egy Distilbert osztályozó modellt, amely egy mondatot és az előző mondatokat venné, és címkézni, melyik (ha van), attól függ, hogy megőrizze a jelentést. Ezért egy nyilatkozat beágyazásakor a„ láncot ”követem, hogy minden eltartást a kontextusban is biztosítsam.
Ennek az az előnye is volt, hogy olyan mondatok címkézési címkézése volt, amelyeket soha nem szabad megfelelni, mert önmagukban nem voltak „levél” mondatok. ”
A fő tartalom azonosítása
A mászás kihívása az volt, hogy a weboldal nem tartalmú részeit figyelmen kívül hagyjuk annak érdekében, hogy indexelje a Google fő tartalmát (MC). Ezt a kihívást jelentette az a tény, hogy az összes webhely eltérő jelölést használ a weboldal azon részeinek jelzésére, és bár nem említette, nem minden webhely használ a szemantikai HTML -t, ami a rugózók számára rendkívül könnyebbé tenné a fő tartalom azonosítását.
Tehát alapvetően olyan HTML -címkékre támaszkodott, mint a bekezdés címke
Annak meghatározása, hogy a weboldal mely részei tartalmazzák a tartalmat, és mely alkatrészek nem.
Ez a HTML -címkék listája, amelyekre támaszkodott a fő tartalom azonosításához:
- Blockquote – Idézet
- DL – Leírási lista (a leírások vagy a meghatározások listája)
- OL – rendezett lista (mint egy számozott lista)
- P – bekezdés elem
- előzetes formázott szöveg
- Táblázat – A táblázatos adatok eleme
- UL – rendezetlen lista (mint például a golyópontok)
A mászás kérdései
A mászás egy másik rész volt, amelyben sok problémát okoztak. Például, meglepetésére rájött, hogy a DNS -felbontás meglehetősen gyakori kudarc pontja. Az URL típusa egy másik kérdés volt, ahol minden olyan URL -t el kellett akadályoznia, hogy mászjon, amely nem a HTTPS protokollt használja.
Ezek voltak néhány kihívás:
„HTTP -kkel kell rendelkezniük: protokoll, nem FTP :, adatok :, JavaScript :, stb.
Meg kell rendelkezniük egy érvényes ETLD -vel és gazdagépnévvel, és nem rendelkezhetnek portokkal, felhasználónevekkel vagy jelszavakkal.
A kanonikalizációt a deduplikálás érdekében végezzük. Az összes alkatrészt százalékos dekódolják, majd minimális következetes karakterkészlettel adják újra. A lekérdezési paramétereket eldobják vagy rendezik. Az eredet kisbetűs.
Néhány URL rendkívül hosszú, és ritka határértékekbe léphet, mint például a HTTP fejlécek és az adatbázis -index oldalméretek.
Egyes URL -eknek olyan furcsa karakterei is vannak, amelyekre nem gondolnád, hogy URL -ben lenne, de olyan rendszerek, mint a PostgreSQL és az SQS, elutasítják a lefelé. ”
Tárolás
Eleinte Wilson az Oracle Cloudot választotta az adatok átadásának alacsony költségei miatt (kilépési költségek).
Elmagyarázta:
„Kezdetben az Oracle Cloud for Infra -igényeket választottam, mivel nagyon alacsony kilépési költségeik vannak havonta 10 TB -mentes. Mivel a terabyte adatokat tárolnám, ez jó megnyugtatás volt, hogy ha valaha is szükségem vagy exportálnom kell az adatokat (pl. Feldolgozás, biztonsági másolat), akkor nem lenne lyuk a pénztárcájukban. A számításuk messze rágó, mint más Cluds, miközben még mindig egy megbízható szolgáltató.
De az Oracle Cloud megoldás a skálázási problémákba került. Tehát áthelyezte a projektet a PostgreSQL -be, más műszaki kérdéseket tapasztalt, és végül a RocksDB -re landolt, amely jól működött.
Elmagyarázta:
„A 64 RockSDB szilánkok rögzített készletét választottam, amely egyszerűsítette a műveleteket és az ügyfelek útválasztását, miközben elegendő elosztási kapacitást biztosít a belátható jövőben.
… A csúcspontján ez a rendszer 200 ezer írást szerezhet ezer ügyfél (rászorító, elemzők, vektorizátorok). Minden weboldal nemcsak nyers forrás HTML -ből, hanem normalizált adatokból, kontextualizált darabokból, több száz nagydimenziós beágyazásból és sok metaadatból állt. ”
GPU
A Wilson GPU-alapú következtetéseket használt a szemantikai vektor beágyazás előállításához a mászott webtartalomból a transzformátor modellek felhasználásával. Kezdetben az Openai beágyazást használt az API -n keresztül, de ez drága lett, amikor a projekt skálázott. Ezután átváltott egy öngazdálkodott következtetési megoldásra a Runpod nevű cég GPU-jával.
Elmagyarázta:
„A legköltséghatékonyabb skálázható megoldás keresésére felfedeztem a Runpodot, akik nagy teljesítményű dolláronkénti GPU-kat kínálnak, mint például az RTX 4090, sokkal olcsóbb órákonként, mint az AWS és a Lambda. Ezeket a 3 DC-kből működtették stabil gyors hálózatépítéssel és sok megbízható kiszámítási kapacitással.”
A SEO spam hiánya
A szoftvermérnök azt állította, hogy keresőmotorjának kevesebb keresési spamje van, és a „Legjobb programozási blogok” lekérdezés példáját használták a pont szemléltetésére. Arra is rámutatott, hogy keresőmotorja megérti a komplex lekérdezéseket, és példát mutatott egy teljes tartalom bekezdésének bevitelére és a bekezdés témáiról szóló érdekes cikkek felfedezésére.
Négy elvihető
Wilson számos felfedezést felsorolt, de itt van négy, amelyek érdeklődhetnek a digitális marketingszakemberek és kiadók számára, akik érdeklődnek a keresőmotor létrehozásának útja iránt:
1. Az index mérete fontos
Az egyik legfontosabb elvihető Wilson, amelyet a keresőmotor építésének két hónapja megtanult, az az, hogy a keresési index mérete fontos, mivel az ő szavai szerint „a lefedettség meghatározza a minőséget”. Az
2. A mászás és a szűrés a legnehezebb probléma
Annak ellenére, hogy a lehető legtöbb tartalom mászása fontos a hasznos tartalom megszüntetéséhez, Wilson azt is megtudta, hogy az alacsony minőségű tartalom szűrése nehéz volt, mivel megkövetelte a mennyiség szükségességének kiegyensúlyozását a látszólag végtelen webes vagy a szemét tartalom mászásának értelmetlenségével szemben. Felfedezte, hogy a haszontalan tartalom kiszűrésének módja szükséges.
Valójában ez a probléma, amelyet Sergey Brin és Larry Page oldott meg az Page Rank segítségével. Page Rank modellezett felhasználói viselkedés, az emberek választása és szavazata, akik linkekkel validálják a weboldalakat. Noha az oldal rangja közel 30 éves, az alapjául szolgáló intuíció ma továbbra is annyira releváns, hogy az AI keresőmotor -zavarás módosított verzióját használja saját keresőmotorához.
3. A kis léptékű keresőmotorok korlátozásai
Egy másik elvihetőség, amelyet felfedezett, az, hogy vannak korlátozások arra, hogy mennyire sikeres lehet egy kis független keresőmotor. Wilson megemlítette a teljes háló feltérképezésének képtelenségét olyan kényszerként, amely lefedettségi hiányosságokat hoz létre.
4.
Az eredetiség, a pontosság és a minőség meghatározása a nem strukturált adatok között nem triviális
Wilson írja:
„A hitelesség, a bizalom, az eredetiség, a pontosság és a minőség meghatározása automatikusan nem triviális.… Ha elkezdenék, akkor nagyobb hangsúlyt fektetnék e szempont kutatására és fejlesztésére.
Hírhedten a keresőmotorok több ezer jelet használnak a rangsorolási és szűrési oldalakon, de úgy gondolom, hogy az újabb transzformátor-alapú megközelítéseknek a tartalom értékelése és a link elemzésének egyszerűbbnek, költséghatékonynak és pontosabbnak kell lenniük. ”
Szeretne kipróbálni a keresőmotort? Itt megtalálhatja, és elolvashatja, hogy a teljes műszaki részletek hogyan csinálták itt.