Ганс Петер Лун, человек придумавший особый алгоритм хеширования, способствующий быстрому поиску документов, состоялся как автор понятия "стоп-лист". Первый заход пришелся на 1958 год. На конференции, посвященной новым в то время электромеханическим машинам, изобретатель продемонстрировал нечто посредственное по виду, но увлекательное по сути. Его машина работала не с цифрами, а с текстами. В следующем году фразы “стоп-лист” и кейворд стали повсеместно использоваться в кругах, связанных с обработкой данных.
Что такое стоп-слова? Гайд на 2022 год
В обычной речи люди часто используют: союзы, междометия, предлоги, местоимения. Обычно, это стоп-слова, которые в тексте не имеют особого смысла, но используются для связи между другими членами предложения. Во время оценки плотности ключевых слов необходимо учитывать такие слова, но поисковики их игнорируют.
Категории стоп-слов
- Общие. Сразу удаляются поисковыми системами, чтобы предоставить пользователю максимально быстро информацию.
- Зависимые. Выполняют роль дополнений и имеют смысл только в сочетании с контекстом.
Алгоритмы поиска стоп-слов постоянно обновляются и совершенствуются, поскольку часто появляются новые списки таких единиц речи.
Кроме уже перечисленных (союз, междометие и т.д), выделяются такие категории:
- Цифры или буквы не имеющие согласования со словами.
- Многие из знаков препинания.
- Некоторые из частей речи: местоимения, союзов, предлогов, частиц.
- Популярные в поиске слова.
- Цензура.
- Несогласованные члены предложения.
Поисковые системы дополнительно составляют собственные списки единиц речи, которые попадают в игнор-лист при сканировании контента. Аналогично поступают сервисы по обработке текстов. Иногда отправка слов в стоп-лист кажется неоправданной, но спорить с алгоритмами, которые уже показали свою эффективность - бессмысленно.
Продвигаясь в англоязычной среде
Наиболее перспективное направление развития бизнеса в интернете - зарубежный трафик. Максимальная доля приходится на английский язык. В игнор-список поисковых систем входят:
- артикли;
- предлоги;
- союзы, местоимения и далее по аналогии с русским языком.
Для примера: the, in, a, you или yours. Языковые правила требуют присутствия этих слов в предложениях. Однако можно заметить, что метатеги статей на английском не содержат стоп-слов (что характерно и для русских продающих публикаций). Это фрагменты текста, полностью состоящие или содержащие запросы аналогичные тем, что приведены ниже в списке:
- ДиснейЛенд Париж Отель
- Рестораны Бруклина
- Зимние тренды 2021/2022 Итальянский фасон
Но есть и такие названия статей и подзаголовков в них, где стоп-слова присутствуют:
- The 15 Hottest New Restaurants in Brooklyn, December 2021
- Design Italy | Home of the finest Italian Designers
- Арт-парикмахерские Москвы, где стрижку превращают в ...
Сами слова не меняют смысла предложения, но позитивно сказываются на общем восприятии текста. За длительное время существования поисковых систем уже сложился определенный стереотип: слова, не несущие смысловой нагрузки не следует включать в запросы. Но по мере развития сканирующего программного обеспечения, самообучаемых нейронных сетей и прочих аналогичных технологий, ситуация меняется. Как можно понять из последнего примера, текст можно делать более коммерческим, сохраняя привлекательность с помощью предлогов.
Дальнейшее изложение как раз посвящено тому, насколько глубоко стоит заниматься вопросами применения стоп-слов в продающих или информационных статьях.
Специальные программы по выявлению стоп-слов
Найти нежелательные единицы речи в тексте можно при помощи специальных сервисов онлайн или ПО, устанавливаемого на компьютер. Они дают возможность определить:
- Количество стоп-слов в тексте.
- Место в тексте, где оно находится.
- Насколько часто они встречаются в тексте.
- Определять плотность в отдельных фрагментах. Например, в статье есть 4 раза - “ваши” и все использованы в одном абзаце.
Во время проверки происходит выявление ключевых слов с последующим формированием списка. Для оптимизаторов скорее интересно знать, как присутствие или отсутствие стоп-слов влияет на продвижение, в том числе по платным каналам.
Игнорирует ли Google стоп-слова?
Здесь важно понимать, что игнор лист использовался поисковыми системами для ускорения сканирования и индексации. Сокращение текстов за счет удаления предлогов и прочего условного мусора позволяло изначально экономить место для хранения информации. Производя поиск стоп-слов, автоматически удаляются ненужные единицы речи. И это все еще так, несмотря на глобальные изменения в процессах сжатия данных, новых способов хранения информации со значительным расширением допустимых объемов.
Но что-то меняется. Поэтому эксперты говорят: “Да, стоп-слова не имеют смысла на уровне контекста, их удаление не изменит сути. Но это не означает, что надо отказываться от их использования в принципе”.
Как оптимизировать стоп-лист?
Какой-то период времени поисковые системы применяли LSI, TF-IDF индексирование. Билл Славски - крупный эксперт по интерпретации требований и действий Гугл, называет обозначенные методы устаревшими.
Для тех, кто еще не слышал о них: это “двойная” оптимизация текстов под спам-слова, в том числе предлоги и прочие части речи. Считалось, что авторитетные тексты должны содержать определенный набор терминов, употребленных в одинаковых падежах, следовательно с одинаковым набором, приводящим предложение к порядку. Эксперт отмечает: стоп-слова изредка могут оказывать влияние на ранжирование.
Аналогичную мысль высказала эксперт по SEO Дон Андерсон (Dawn Anderson). Слово “the” действительно может перевернуть результаты поисковой выдачи, но это скорее исключение, чем правило. При этом эксперт сослалась на исследования Стэндфорда, которые показывают, что поисковые системы в разное время переходили от стоп-листов в 200-300 единиц до 7-12 терминов. Сегодня по мнению Дон Андерсон, Гугл не использует никаких подобных ограничений. Но главный аргумент заключается в следующем: алгоритмы построены на лучшее понимание интента пользователя, а наличие стоп-слов как раз и помогает это делать.
Использование стоп-слов в контенте
Кажется акценты SEO в данном вопросе определены достаточно четко. Стоит рассмотреть способы эффективного использования игнор-листа в разных параметрах страниц.
Стоп-слова в URL-адресах
Этот вопрос считается дискуссионным. Стоп-слова в URL-адресах - это обычная практика и эксперты считают, что не стоит слишком беспокоится. Многое зависит от персональных рекомендаций для конкретных CMS. На удаление предлогов из адресов может повлиять использование плагинов Yoast SEO и аналогичного.
Вторая причина, когда стоит задуматься об отказе от стоп-слов - слишком длинные URL, требующие сокращения. Предлоги и союзы - как раз объекты для сокращения.
В Google заверяют, если структура адреса достаточно проста - проблем с индексацией не возникнет.
Стоп-слова в заголовках и описаниях
Если взглянуть на поисковую выдачу, то легко увидеть сниппеты разной структуры, как показано на скриншоте ниже.
Сегодня нет очевидных или скрытых причин для удаления из коротких фрагментов текста стоп-слов. Главный читатель тегов - это пользователи, в частности целевая аудитория.
Ради интереса можно сократить приведенные в скрине заголовки, какой абсурд выйдет? Пользователь, решивший найти подходящее решение для своей проблемы, просто не поймет, что предложение обращено к нему.
Взаимодействие с пользователем
Персонал, которому предоставлена развернутая информация о стоп-словах, не должен переживать о присутствии или отсутствии таковых в текстах, рекламных объявлениях и т.д.
Решение, исходящее из интересов пользователя - самое верное на сегодня. Специалисты, которые рекомендуют обязательно удалять “стоп-слова” живут вчерашним днем, сильно отстали от реальной картины SEO продвижения.
Тут еще никто ничего не писал, стань первым!