Látens szemantikus index

, 2022/1/20

Az LSI kulcsszavak pozitívan befolyásolhatják a SEO stratégiáját? Íme egy tényeken alapuló áttekintés a latens szemantikus indexelésről és arról, hogy miért nem fontos a SEO szempontjából. Mi az a látens szemantikus indexelés és miért nem számít a SEO szempontjából?

Mi az a látens szemantikus indexelés és miért nem számít a SEO szempontjából? Sok állítás szól a Látens szemantikus indexelésről (LSI) és az "LSI kulcsszavakról" a SEO számára. Egyesek még azt is mondják, hogy a Google a "LSI kulcsszavakra" támaszkodik a weboldalak megértésében.

Ezt már közel húsz éve vitatják, és a bizonyítékokon alapuló tények mindvégig megvoltak. Ez a látens szemantikus indexelés.

Mi az a látens szemantikus indexelés?

Az LSI a természetes nyelvfeldolgozás (NLP) egyik folyamata. Az NLP a nyelvészet és az információtechnológia egy részterülete, amely arra összpontosít, hogy a gépek hogyan értelmezik az emberi nyelvet. Ennek a tanulmánynak kulcsfontosságú része a disztribúciós szemantika. Ez a modell segít megérteni és osztályozni a hasonló kontextuális jelentésű szavakat nagy adathalmazokon belül. Az 1980-as években kifejlesztett LSI olyan matematikai módszert használ, amely pontosabbá teszi az információkeresést. Ez a módszer a szavak közötti rejtett kontextuális kapcsolatok azonosításával működik. Segíthet, ha így bontjuk le:

Látens → Rejtett

Szemantikus → Szavak közötti kapcsolatok

Indexelés → információkeresés

Hogyan működik a látens szemantikus indexelés?

Az LSI a Singular Value Decomposition (SVD) részleges alkalmazásával működik. Az SVD egy olyan matematikai művelet, amely egy mátrixot az egyszerű és hatékony számítások érdekében alkotóelemeire redukál. Egy szósor elemzésekor az LSI eltávolítja a kötőszavakat, névmásokat és a gyakori igéket, más néven a stopszavakat. Ezáltal elkülöníti a mondat fő "tartalmát" alkotó szavakat. Íme egy gyors példa arra, hogy ez hogyan nézhet ki:

Ezek a szavak ezután egy Term Document Matrix (TDM) mátrixba kerülnek. A TDM egy 2D-s rács, amely felsorolja, hogy az egyes szavak (vagy kifejezések) milyen gyakorisággal fordulnak elő az adathalmazon belüli dokumentumokban.

Ezután a TDM-re súlyozó függvényeket alkalmazunk. Egy egyszerű példa erre az, hogy az összes olyan dokumentumot, amely tartalmazza az adott szót, 1 értékkel, az összes olyan dokumentumot pedig, amely nem tartalmazza, 0 értékkel osztályozzuk. Ha a szavak azonos általános gyakorisággal fordulnak elő ezekben a dokumentumokban, akkor ezt nevezzük együttjárásnak (co-occurrence).

Az alábbiakban egy alapvető példát talál egy TDM-re, és arra, hogy hogyan értékeli a több kifejezésre kiterjedő együttes előfordulást. Az SVD használatával közelíthetjük a szóhasználati mintázatokat az összes dokumentumban. Az LSI által előállított SVD-vektorok pontosabban jelzik előre a jelentést, mint az egyes kifejezések elemzése. Végső soron az LSI a szavak közötti kapcsolatokat arra tudja használni, hogy jobban megértsük értelmüket, vagyis jelentésüket egy adott kontextusban.

Hogyan került a latens szemantikus indexelés a SEO-ba?

A Google a kezdeti években azt tapasztalta, hogy a keresőmotorok egy adott kulcsszó gyakorisága alapján rangsorolták a webhelyeket. Ez azonban nem garantálja a legrelevánsabb keresési eredményt. A Google ehelyett elkezdte rangsorolni azokat a webhelyeket, amelyeket az információk megbízható döntőbíróinak tekintett.

Idővel a Google algoritmusai egyre nagyobb pontossággal szűrték ki az alacsony minőségű és irreleváns webhelyeket. Ezért a marketingeseknek meg kell érteniük a keresés mögött rejlő jelentést, ahelyett, hogy a használt pontos szavakra hagyatkoznának. Roger Montti ezért nevezte az LSI-t "a keresőmotorok tanulókerekének" egy elavult SEO-hiedelmekről szóló cikkében, hozzátéve, hogy az LSI-nek "alig vagy egyáltalán nincs jelentősége abban, ahogyan a keresőmotorok ma rangsorolják a webhelyeket".

A keresőkérdés jelentése szorosan összefügg a mögötte álló szándékkal. A Google fenntart egy dokumentumot, a Search Quality Evaluator Guidelines (Keresési minőségértékelési irányelvek) nevű dokumentumot. Ezekben az iránymutatásokban négy hasznos kategóriát vezetnek be a felhasználói szándékra vonatkozóan:

Ismeretlekérdezés - Ez egy témával kapcsolatos információkeresést jelent. Ennek egy változata a "Know Simple" lekérdezés, amikor a felhasználók egy adott válaszra törekedve keresnek.

Do Query - Ez egy bizonyos tevékenységre, például online vásárlásra vagy letöltésre irányuló vágyat tükröz. Mindegyik lekérdezés meghatározható az "interakció" érzésével.

Website Query - Ez az, amikor a felhasználók egy adott webhelyet vagy oldalt keresnek. Ezek a keresések egy adott weboldal vagy márka előzetes ismertségét jelzik.

Visit-in-Person Query - A felhasználó egy fizikai helyszínt keres, például egy üzletet vagy egy éttermet.

Az LSI elmélete - egy szó kontextuális jelentésének meghatározása egy kifejezésen belül - versenyelőnyhöz juttatta a Google-t. Azonban kezdett elterjedni az az elképzelés, hogy az "LSI kulcsszavak" hirtelen a SEO-siker aranyjegyét jelentik.

Léteznek-e egyáltalán "LSI kulcsszavak"?

Számos neves kiadvány továbbra is határozottan az LSI kulcsszavak híve. Mégis számos forrás, például a Google Webmaster Trends elemzője, John Mueller, azt állítja, hogy ezek csak mítoszok. Ezek a források a következő pontokat kezdték felvetni:

Az LSI-t még a világháló előtt fejlesztették ki, és nem arra szánták, hogy ilyen nagy és dinamikus adathalmazra alkalmazzák. A latens szemantikus indexelésre vonatkozó amerikai szabadalom, amelyet 1989-ben a Bell Communications Research Inc. nevű szervezetnek ítéltek oda, 2008-ban járt volna le. Ezért Bill Slawski szerint a Google az LSI használata olyan lenne, mintha "egy intelligens távíró készüléket használna a mobil webhez való csatlakozáshoz".

A Google a RankBrain-t használja, egy olyan gépi tanulási módszert, amely szövegmennyiségeket alakít át "vektorokká" - matematikai egységekké, amelyek segítenek a számítógépeknek megérteni az írott nyelvet. A RankBrain a webet mint folyamatosan bővülő adathalmazt veszi figyelembe, így az LSI-vel ellentétben a Google által használhatóvá válik.

Végső soron az LSI rávilágít egy igazságra, amelyet a marketingeseknek be kell tartaniuk: egy szó egyedi kontextusának feltárása jobban segít megérteni a felhasználói szándékot, mint a tartalomba gyömöszölt kulcsszavak. Ez azonban nem feltétlenül erősíti meg, hogy a Google az LSI alapján rangsorol. Ezért nyugodtan kijelenthetjük, hogy az LSI a SEO-ban inkább filozófiaként, mint egzakt tudományként működik?

Térjünk vissza Roger Montti idézetéhez, amely szerint az LSI "a keresőmotorok tanulókereke". Ha egyszer megtanulsz biciklizni, hajlamos vagy levenni a segédkereket. Feltételezhetjük, hogy 2020-ban a Google már nem használ segédkereket? Figyelembe vehetjük a Google legutóbbi algoritmusfrissítését. 2019 októberében Pandu Nayak, a keresésért felelős alelnök bejelentette, hogy a Google elkezdte használni a BERT (Bidirectional Encoder Representations from Transformers) nevű AI-rendszert.

Az összes keresési lekérdezés több mint 10%-át érintve ez az utóbbi évek egyik legnagyobb Google-frissítése. Egy keresőkérdés elemzésekor a BERT egyetlen szót az adott kifejezésben szereplő összes szóhoz viszonyítva vizsgálja. Ez az elemzés kétirányú, azaz figyelembe veszi az adott szó előtti vagy utáni összes szót. Egyetlen szó eltávolítása drasztikusan befolyásolhatja, hogy a BERT hogyan értelmezi egy kifejezés egyedi kontextusát. Ez ellentétben áll az LSI-vel, amely az elemzésből kihagyja a stop szavakat. Az alábbi példa azt mutatja, hogy a stop szavak eltávolítása hogyan változtathatja meg egy kifejezés értelmezését.

Mit tegyenek tehát a marketingesek?

Kezdetben úgy gondolták, hogy az LSI képes segíteni a Google-t a tartalmak és a releváns lekérdezések megfeleltetésében. Úgy tűnik azonban, hogy a marketingben az LSI használata körüli vita még nem jutott egységes következtetésre. Ennek ellenére a marketingesek még mindig számos lépést tehetnek annak érdekében, hogy munkájuk stratégiailag releváns maradjon.

Először is, a cikkeket, webes szövegeket és a fizetett kampányokat úgy kell optimalizálni, hogy szinonimákat és variánsokat tartalmazzanak. Ez figyelembe veszi, hogy a hasonló szándékú emberek másképp használják a nyelvet.

A marketingeseknek továbbra is tekintélyt parancsolóan és világosan kell írniuk. Ez elengedhetetlen, ha azt akarják, hogy a tartalmuk egy konkrét problémát oldjon meg. Ez a probléma lehet információhiány vagy egy bizonyos termék vagy szolgáltatás iránti igény. Ha a marketingesek ezt megteszik, az azt mutatja, hogy valóban megértik a felhasználói szándékot.

Végül pedig gyakran kell használniuk a strukturált adatokat is. Legyen szó akár egy weboldalról, egy receptről vagy egy GYIK-ről, a strukturált adatok biztosítják a Google számára a kontextust, hogy értelmet adjon annak, amit feltérképez.

Az LSI nem praktikus a weben

A latens szemantikus indexelés használatának egyik fő hiányossága a teljes webre vonatkozóan az, hogy a statisztikai elemzés elkészítéséhez végzett számításokat minden egyes új weboldal közzétételekor és indexelésekor újra kell számítani. Ezt a hiányosságot egy 2003-as (nem Google) kutatási tanulmány is említi, amely az LSI-nek az e-mail spamek felderítésére való alkalmazásáról szól (Using Latent Semantic Indexing to Filter Spam PDF).

A kutatási dokumentum megjegyzi:

"Az LSI egyik problémája, hogy nem támogatja az új dokumentumok ad-hoc hozzáadását, miután a szemantikus halmaz már elkészült. Bármelyik cella értékének frissítése megváltoztatja az összes többi szóvektor együtthatóját, mivel az SVD a hozzárendelt dimenzióban az összes lineáris kapcsolatot felhasználja, hogy olyan vektorokat indukáljon, amelyek minden olyan szövegmintát megjósolnak, amelyben a szó előfordul...".

Megkérdeztem Bill Slawskit az LSI alkalmatlanságáról a keresőmotoros információkeresésre, és ő egyetértett, mondván: A Semrush átlátható elemzést ad webhelye teljesítményéről a legjobb adatokkal, vizuális elemzésekkel és megvalósítható tippekkel.

"Az LSI egy régebbi indexelési megközelítés, amelyet kisebb statikus adatbázisokhoz fejlesztettek ki. Vannak hasonlóságok az újabb technológiákkal, mint például a szóvektorok vagy a word2Vec használata.

Az LSI egyik korlátja, hogy ha egy korpusz új tartalommal bővül, akkor a teljes korpusz indexelésére van szükség, ami korlátozottan használható egy gyorsan változó korpusz esetében, mint amilyen a web."

Van egy Google LSI kulcsszavak kutatási cikk?

A keresőközösség egyes tagjai úgy vélik, hogy a Google úgy használja az "LSI-kulcsszavakat" a keresési algoritmusában, mintha az LSI még mindig egy élvonalbeli technológia lenne. Ennek bizonyítására egyesek egy 2016-os kutatási dokumentumra hivatkoznak, amelynek címe: Improving Semantic Topic Clustering for Search Queries with Word Co-occurrence and Bigraph Co-clustering (PDF).

Ez a kutatási tanulmány egyáltalán nem példa a latens szemantikus indexelésre. Ez egy teljesen más technológia. Valójában ez a kutatási cikk annyira nem az LSI-ről (más néven latens szemantikai elemzés) szól, hogy egy 1999-es LSI kutatási cikket idéz ([5] T. Hofmann. Probabilistic latent semantic indexing. ...1999) annak magyarázataként, hogy az LSI miért nem hasznos a szerzők által megoldani kívánt probléma szempontjából.

A következő áll benne:

"A latens dirichlet kiosztás (LDA) és a valószínűségi látens szemantikai elemzés (PLSA) széles körben használt technikák a szöveges adatok látens témáinak feltárására. ...Ezek a modellek a rejtett témákat úgy tanulják meg, hogy implicit módon kihasználják a dokumentumszintű szavak együttes előfordulási mintáit.

A rövid szövegek azonban - mint például a keresőkérdések, tweetek vagy azonnali üzenetek - adatszegénységben szenvednek, ami problémákat okoz a hagyományos témamodellezési technikák számára."

Hiba a fenti kutatási cikket bizonyítékként használni arra, hogy a Google az LSI-t fontos rangsorolási tényezőként használja. A tanulmány nem az LSI-ről szól, és nem is a weboldalak elemzéséről.

Ez egy érdekes kutatási cikk 2016-ból, amely a rövid keresőkérdések adatbányászatáról szól annak érdekében, hogy megértsük, mit jelentenek. Ettől a kutatási tanulmánytól eltekintve tudjuk, hogy a Google a BERT és a neurális megfeleltetési technológiákat használja a keresőkérdések megértéséhez a való világban.

Hosszú történet röviden: annak a kutatási papírnak a felhasználása arra, hogy végleges kijelentést tegyen a Google rangsoroló algoritmusáról, minden szempontból vázlatos."

Használja a Google az LSI kulcsszavakat?

A keresőmarketingben kétféle megbízható és hiteles adat létezik:

Tényszerű ötletek, amelyek nyilvános dokumentumokon, például kutatási dokumentumokon és szabadalmakon alapulnak.

SEO-ötletek, amelyek azon alapulnak, amit a Googlerek feltártak.

Minden más puszta vélemény.

Fontos ismerni a különbséget.

John Mueller, a Google munkatársa egyenesen leleplezte az LSI kulcsszavak koncepcióját.

Bill Slawski, a keresési szabadalmak ismert szakértője szintén nyíltan beszélt a Latens szemantikus indexelés és a SEO fogalmáról.

Bill LSI-vel kapcsolatos kijelentései a Google algoritmusainak alapos ismeretén alapulnak, amelyet tényalapú cikkekben (például itt és itt) osztott meg.

Bill Slawski tweeti megalapozott véleményét a latens szemantikus indexelésről

Az LSI kulcsszavak használatának előnyei:

Az LSI kulcsszavaknak előnyei vannak mind a SEO, mind a felhasználói élmény szempontjából. Számos előnye van annak, ha LSI kulcsszavakat használ a tartalmában:

Az LSI megakadályozza, hogy tartalmait a keresőmotorok szemében spamnek bélyegezzék.

Az elsődleges kulcsszavakhoz szemantikailag kapcsolódó kulcsszó-kifejezések változatos említései növelik tartalma hitelességét. Ha valaki egy keresőmotoron keresztül rátalál az Ön oldalára, de nem azt a tartalmat találja, amire számított, az illető jelentheti Önt a keresőmotornak, mint spammelt.

Az LSI kulcsszavak segítenek csökkenteni a visszalépési arányt, mivel megakadályozzák, hogy webhelye rossz kifejezésekre rangsoroljon.

Ha például Lenovo notebook számítógépeket árul, nem szeretné, ha a keresőmotorok forgalma azoktól származna, akik a 2014-es "The Notebook" című filmről keresnek információt.

Az LSI kulcsszavak segítenek a látogatókat az oldaladon tartani azáltal, hogy a tartalom áramlását természetessé és értelmessé teszik.

Ezáltal nyugodt környezetet biztosít olvasóinak anélkül, hogy azt a kulcsszavakkal telezsúfoltnak érezné. Ez is megkülönbözteti a tartalmadat a kulcsszavakkal sűrített tartalomtól, amely egyszerűen kulcsszavakat és kulcskifejezéseket ismételget, hogy a keresőmotorokat magas rangsorolást adjon.

Az LSI segíthet abban, hogy webhelye jobban rangsoroljon a kapcsolódó keresésekre.

A keresőrobotok automatikusan átnézik webhelyét, és érzékelik a tartalmat. Az LSI kulcsszavak rangsorolják webhelyét a szemantikailag kapcsolódó keresésekre, függetlenül attól, hogy mi a célkulcsszó. Ha például LSI-kulcsszavakat tartalmaz egy olyan vállalkozás számára, amely egyedi üdvözlőkártyákat árul prémium áron, az LSI-kulcsszavaknak lehetővé kell tenniük, hogy kihagyja az "olcsó" vagy "otthon nyomtatott" üdvözlőkártyákra irányuló kereséseket.

Az LSI-kulcsszavak növelhetik az értékesítést azáltal, hogy kevesebb verseny mellett segítik vállalkozását a rangsorban előkelőbb helyre kerülni.

Az Amazon például az összes eladás elképesztő 57%-át olyan kulcsszavak révén rögzíti, amelyek az elsődleges kulcsszó LSI-változatai.

Összességében az LSI kulcsszavak segítenek abban, hogy weboldalának tartalma még nagyobb közönség előtt jelenjen meg.

Hogyan hozzunk létre LSI kulcsszavakat

Számos "prémium" eszköz van a piacon az LSI kulcsszavak létrehozására, de egy vállalkozásnak nem kell sok költséget vállalnia ahhoz, hogy belevágjon az LSI-be. Számos ingyenes eszköz létezik, amelyek segítségével LSI kulcsszavakat hozhat létre webhelye számára:

Google Autocomplete. Az LSI kulcsszó megtalálásának legegyszerűbb módja, ha kiválaszt egy fő kulcsszót, és beírja a Google keresősávjába. A Google automatikusan megadja a fő kulcsszavához legjobban illeszkedő kifejezést vagy listát, amint beírja azt a keresősávba.

Google Autocomplete képernyőkép

Az LSI Graph egy ingyenes SEO eszköz, amely LSI kulcsszavakat generál Önnek. Csak írja be a fő kulcsszavát a keresősávba, és az eszköz generál egy listát a releváns kulcsszavakról.

A Niche Laboratory kulcsszójavaslatokat, a legjobban rangsorolt webhelyeket, webhelyoldalcímeket, webhely meta leírásokat, webhely meta kulcsszavakat és egy webhelyverseny mátrixot kínál. Ez egy nagyon hasznos eszköz a legjobb LSI kulcsszó egyezések megtalálásához, valamint ahhoz, hogy képet kapjon a versenytársak forgalomvezérelt kulcsszavairól.

A megfelelő LSI kulcsszó eszköz megtalálása az Ön tartalomkezelő rendszerétől, céljaitól és keresőmotoros hirdetési stratégiájától függ. Nem kell azonban pénzt költenie egy prémium LSI-eszközre ahhoz, hogy hatékony eredményeket érjen el.

Hogyan használjuk az LSI kulcsszavakat

Az LSI-kulcsszavakat a webhelye oldalain mindenütt be kell illeszteni, de a használatnak természetesnek és megfelelőnek kell hangzania. Az LSI-kulcsszavak egy része a fő kulcsszó szinonimája lehet, ezért egyszerűen helyettesítheti a fő kulcsszót.

Íme a főbb helyek, ahol az LSI-kulcsszavakat használnia kell:

Az oldal címe

H1 és H2 címkék

URL-cím

Meta címkék

Képek alt szövege

A szöveg első bekezdése

Link és horgonyszöveg

A szöveg utolsó bekezdése

A fő kulcsszóhoz hasonlóan próbálja meg elkerülni, hogy webhelyét túlságosan optimalizálja egy adott LSI-kulcsszóra. Egy LSI kulcsszó túlzott használata kulcsszótömésnek minősülhet, és a keresőmotorok büntetést szabnak ki rá. Jó ökölszabály, hogy minden LSI-kulcsszót csak egyszer használjon egy oldalon.

Az LSI kulcsszavak fontossága

Az LSI kezdeti bevezetése reakció volt a webhelytulajdonosok számos, a SEO manipulálására irányuló kísérletére. Az LSI-ig az oldaltartalom és a meta címkék gyakran feleslegesen ismétlődő kulcsszavak hosszú halmazai voltak, felismerhető információ vagy téma nélkül.

Az LSI lehetővé teszi a keresőmotorok számára, hogy elismerjék a minőségi weboldaltartalmat. Ezért azáltal, hogy szemantikailag összefüggő keresőkifejezéseket tartalmaz az oldal SEO-szövegében, a keresőmotorok jobban megértik az oldalát, vállalatát, termékeit és szolgáltatásait.

Az LSI kulcsszavak használata boldoggá teszi a keresőmotorokat és a weboldal látogatóit. A minőségi tartalom megtartja a látogatókat, ha már megérkeztek, ami növeli a konverziós arányt és a webhely hatékonyságát.