Прихована семантична індексація (LSI): Чи є це фактором ранжування в Google?

Приховане семантичне індексування (LSI) - це метод індексування та пошуку інформації, який використовується для виявлення закономірностей у зв'язках між термінами та поняттями.

При LSI використовується математична техніка для пошуку семантично пов'язаних термінів у тексті (індексі), де ці зв'язки можуть бути прихованими (або латентними).

І в цьому контексті це звучить так, ніби це може бути надзвичайно важливим для SEO.

Чи не так?

Зрештою, Google - це величезний індекс інформації, і ми багато чуємо про семантичний пошук і важливість релевантності в алгоритмі пошукового ранжування.

Якщо ви чули розмови про приховане семантичне індексування в SEO або отримали пораду використовувати LSI ключових слів, ви не самотні.

Але чи дійсно LSI допоможе вам покращити пошукове ранжування? Давайте подивимось.

Обговорення: Прихована семантична індексація як фактор ранжування

Твердження просте: Оптимізація веб-контенту за допомогою ключових слів LSI допомагає Google краще зрозуміти його, і ви будете винагороджені вищим рейтингом.

Backlinko визначає ключові слова LSI таким чином:

«Ключові слова LSI (Latent Semantic Indexing) - це концептуально пов'язані терміни, які пошукові системи використовують для глибокого розуміння контенту на веб-сторінці».

Використовуючи контекстуально пов'язані терміни, ви можете поглибити розуміння Google вашого контенту. Принаймні, так розповідають.

Далі цей ресурс наводить досить переконливі аргументи на користь ключових слів LSI:

Чи допомагає ця практика «розбризкування» термінів, тісно пов'язаних з вашим цільовим ключовим словом, покращити ваші позиції в пошуковій видачі за допомогою LSI?

Докази на користь LSI як фактора ранжування

Релевантність визначена як один з п'яти ключових факторів, які допомагають Google визначити, який результат є найкращою відповіддю на будь-який запит.

Як пояснює Google у своєму ресурсі «Як працює пошук»:

«Щоб повернути релевантні результати для вашого запиту, нам спочатку потрібно встановити, яку інформацію ви шукаєте, тобто мету вашого запиту».

Після того, як намір встановлено:

«...алгоритми аналізують вміст веб-сторінок, щоб оцінити, чи містить сторінка інформацію, яка може мати відношення до того, що ви шукаєте».

Далі Google пояснює, що «найпростішим сигналом» релевантності є те, що на сторінці з'являються ключові слова, використані в пошуковому запиті. Це має сенс - якщо ви не використовуєте ключові слова, які шукає користувач, як Google може сказати, що ви є найкращою відповіддю?

Дехто вважає, що саме тут вступає в гру LSI.

Якщо використання ключових слів є сигналом релевантності, то використання правильних ключових слів має бути ще сильнішим сигналом.

Існують спеціальні інструменти, які допоможуть вам знайти ці ключові слова LSI, і прихильники цієї тактики рекомендують використовувати всілякі інші тактики дослідження ключових слів, щоб їх виявити.

Докази проти LSI як фактора ранжування

Джон Мюллер з Google чітко висловився з цього приводу:

«...у нас немає поняття LSI ключових слів. Так що це те, що ви можете повністю ігнорувати «.

У SEO існує здоровий скептицизм щодо того, що Google може сказати щось, щоб ввести нас в оману, щоб захистити цілісність алгоритму. Тож давайте розберемося в цьому питанні.

По-перше, важливо зрозуміти, що таке LSI і звідки вона взялася.

Прихована семантична структура з'явилася як методологія пошуку текстових об'єктів з файлів, що зберігаються в комп'ютерній системі, наприкінці 1980-х років. Як така, вона є прикладом однієї з перших концепцій інформаційного пошуку (ІП), доступних для програмістів.

Зі збільшенням обсягу пам'яті комп'ютерів і зростанням обсягу доступних в електронному вигляді наборів даних стало важче знаходити в них саме те, що шукали.

Дослідники описали проблему, яку вони намагалися вирішити, у патентній заявці, поданій 15 вересня 1988 року:

«Більшість систем все ще вимагають від користувача або постачальника інформації вказувати явні відносини і зв'язки між об'єктами даних або текстовими об'єктами, тим самим роблячи системи нудними у використанні або застосуванні до великих, різнорідних комп'ютерних інформаційних файлів, вміст яких може бути незнайомим користувачеві».

У той час в ІР використовували пошук за ключовими словами, але його недоліки були очевидні задовго до появи Google.

Занадто часто слова, які людина використовувала для пошуку потрібної їй інформації, не були точними відповідниками слів, використаних в індексованій інформації.

На це є дві причини:

Ці проблеми існують і сьогодні, і ви можете собі уявити, який це головний біль для Google.

Однак методології та технології, які Google використовує для визначення релевантності, вже давно пішли від LSI.

LSI автоматично створював «семантичний простір» для пошуку інформації.

Як пояснюється в патенті, LSI розглядав цю ненадійність асоціативних даних як статистичну проблему.

Не заглиблюючись у деталі, ці дослідники вважали, що існує прихована латентна семантична структура, яку вони можуть витягнути з даних про вживання слів.

Це дозволило б виявити приховане значення і дозволило б системі видавати більш релевантні результати - і тільки найбільш релевантні результати - навіть якщо немає точного збігу з ключовим словом.

Ось як насправді виглядає процес LSI:

Блок-схема процесу LSIСкріншот автора, січень 2022 року

І ось найважливіше, на що слід звернути увагу у наведеній вище ілюстрації цієї методології з патентної заявки: тут відбуваються два окремі процеси.

По-перше, колекція або індекс проходить латентний семантичний аналіз.

По-друге, аналізується запит, а потім у вже обробленому індексі відбувається пошук схожості.

І саме в цьому полягає фундаментальна проблема LSI як сигналу для ранжування в Google.

Індекс Google величезний - сотні мільярдів сторінок, і він постійно зростає.

Кожного разу, коли користувач вводить запит, Google за долі секунди сортує свій індекс, щоб знайти найкращу відповідь.

Використання вищезгаданої методології в алгоритмі вимагало б від Google:

  1. Відтворити семантичний простір за допомогою LSA у всьому своєму індексі.
  2. Проаналізувати семантичне значення запиту.
  3. Знайти всі подібності між семантичним значенням запиту і документами в семантичному просторі, створеному на основі аналізу всього індексу.
  4. Відсортуйте і проранжуйте ці результати.

Це грубе спрощення, але суть в тому, що це не масштабований процес.

Це було б дуже корисно для невеликих колекцій інформації. Наприклад, для пошуку відповідних звітів у комп'ютеризованому архіві технічної документації компанії.

Патентна заявка ілюструє роботу LSI на прикладі колекції з дев'яти документів. Це те, для чого він був розроблений. LSI є примітивним з точки зору комп'ютеризованого пошуку інформації.

Чи є приховане семантичне індексування фактором ранжування

Хоча основні принципи усунення шуму шляхом визначення семантичної релевантності, безумовно, вплинули на розвиток пошукового ранжування з моменту патентування LSA/LSI, сам LSI не має корисного застосування в SEO сьогодні.

Це не виключено повністю, але немає жодних доказів того, що Google коли-небудь використовував LSI для ранжування результатів. І Google точно не використовує LSI або ключові слова LSI сьогодні для ранжирування результатів пошуку.

Ті, хто рекомендує використовувати LSI-ключові слова, чіпляються за концепцію, яку вони не зовсім розуміють, намагаючись пояснити, чому те, як слова пов'язані (або не пов'язані) між собою, важливо для SEO.

Релевантність і намір є основними міркуваннями в алгоритмі пошукового ранжування Google.

Це два великих питання, які вони намагаються вирішити, щоб знайти найкращу відповідь на будь-який запит.

Синонімія та полісемія все ще залишаються основними проблемами.

Семантика - тобто наше розуміння різних значень слів і того, як вони пов'язані між собою - має важливе значення для отримання більш релевантних результатів пошуку.

Але LSI не має з цим нічого спільного.