Алгоритм поисковой системы

Алгоритмом поисковой системы называется набор из формул, на основе которых происходит формирование результатов поиска и процесс ранжирования страниц. Основной задачей алгоритма поисковой системы является демонстрация пользователям тех ресурсов, что в полной мере будет соответствовать его интересам и запросам. Во время выбора в учет идет качество контента, ключевые запросы, соответствие кода и прочие технические моменты.

Позиции выдач по пользовательским запросам формируются соответственно следующей схемы: анализ строки – подбор релевантных страниц – ранжирование веб ресурсов – отображение результатов. Это обобщенные принципы поиска, реализуемые Google, Yandex и менее популярными поисковыми сервисами. Детальные алгоритмы отличаются у разных систем. Поэтому продвижение веб проекта должно проводиться по «правилам» наиболее популярного поисковика в конкретной геолокации. Системой №1 в мире остается Google. Соответственно, разговор об алгоритмах поиска начнем с этого сервиса.

 

Детализация базовых принципов работы Google

Численность веб страниц в сети Интернет исчисляется не единицами, а более крупными порядками миллиардов. Сейчас Гугл еще больше оправдывает собственную этимологию: название происходит от Googol – числа, содержащего сотню нулей после единицы.

Предварительный этап обработки запроса начинается до ввода поисковой строки. Роботы Googlebot сканируют онлайн пространство и добавляют новые сайты к базе системы. Задача выполняется двумя типами ботов. Первые имитируют пользователя персонального компьютера, вторые – мобильных устройств. Дополнительно Googlebot имеют собственную спецификацию:

  • изучение содержимого веб ресурса;
  • сканирование изображений, других объектов мультимедиа;
  • определение канонических страниц;
  • выявление дубликатов.

 

Это неполный список функций роботов. Перечисленные действия необходимы для следующего этапа – индексации онлайн ресурса. Процедуру можно исключить на уровне пользователя через настройки файла Robots.txt – необходимо указать тег nofollow или noindex. Альтернативно, ускорить индексацию позволяет добавление сайта в сервисы Google – Search Console или Analytics.

Собранная база используется для определения веб ресурсов, релевантных пользовательскому запросу. Благодаря индексации система быстро находит сайты, соответствующие поисковой строке. В результате формируется список релевантных страниц. Остается определить их положение при отображении. Это происходит на завершающем шаге – ранжировании веб страниц и выводе их в строке выдачи, соответственно присвоенной позиции.

 

Алгоритмы Google

Работа ботов осуществляется соответственно программному коду, создаваемому под конкретные функции. Приоритетные алгоритмы, используемые системой Google в процессе ранжирования сайтов, рассмотрим далее.

Колибри (Hummingbird)

Ключевой элемент в базовом пакете Google – Core Algorithms. Это сервис, наряду с Hummingbird, объединил фильтры Panda, Pirate, Penguin, систему искусственного интеллекта RankBrain и другие инструменты. Колибри запущен 2013. Алгоритм базируется на концепции семантического ядра, позволяющей роботу понимать реальный смысл пользовательского запроса. Наглядный пример – фраза «где я могу снять евро в Берлине» приведет к выдаче именно банкоматов. Напротив, строка «где можно перекусить в Амстердаме» приведет к отображению списка кафе и ресторанов.

Одновременно, Hummingbird уделяет внимание качеству (естественности) и уникальности текста. Сервис унаследовал алгоритмы PageRank и ряда других фильтров. Резюмируя, можно сказать: Колибри выделяет значимые слова в запросе, и формирует выдачу на основе их смысловой оценки.

Панда (Panda)

Инструмент добавлен в 2011 и представляет один из фильтров главного алгоритма поисковика. Цель инструмента – отсев некачественного контента. Фильтрация производится по ряду критериев:

оригинальность – материалы должны быть уникальными глобально и внутренне (не следует размещать одинаковые тексты на разных страницах одного проекта);

  • грамотность – отсутствие орфографических, пунктуационных и стилистических ошибок;
  • спам – важно не злоупотреблять ключевыми запросами, использовать синонимы (но без ущерба смыслу);
  • объем – четких правил нет, но страницы с большим объемом материала чаще занимают верхние позиции.

Дополнительно, Panda учитывает структуру веб проекта. Архитектура веб ресурса должна быть удобной для навигации по сайту.

Пингвин (Penguin)

Алгоритм направлен на борьбу со ссылочным «мусором», созданный в 2012. Традиционно, Google не раскрывает механизмы собственных фильтров. Но эмпирический анализ позволяет определить, какие ссылки приветствует Пингвин:

  • авторитетные сайты – вес страницы частично передается донору;
  • естественный характер перехода на ваш ресурс;
  • преобладание безанкорных ссылок – желательно, чтобы доля фраз с ключевыми словами, ведущих на проект, не превышала 20%;
  • линки с Youtube, прочих видеохостингов;
  • отсутствие неработающих ссылок уже на вашей странице.

Для накопления ссылочной массы методами белого SEO, рекомендуется использовать следующие технологии – аутрич, крауд-маркетинг, выпуск пресс-релизов. Крайне нежелательно злоупотреблять рекламой, покупными ссылками.

Голубь (Pigeon)

Сервис работает с 2014, и первоначальное тестирование прошел в англоязычном сегменте сети Интернет. Алгоритм направлен на локализацию пользовательских запросов по геолокации. Выдача выдается по страницам, предлагающим сервис, максимально близко к местоположению. Фильтр отображает результаты локального поиска с учетом отзывов клиентов – используется сервис, аналогичный Yelp. Дополнительно, алгоритм учитывает данные пользователя, получаемые с учетной записи в Google+ (предпочтения, интересы и прочее). Для продвижения сайта при помощи Pigeon рекомендуется указывать филиалы компании на Google Maps.

Опоссум (Possum)

Один из наиболее противоречивых по пользовательскому восприятию фильтров. Алгоритм изначально направили на исключение заспамленности локальных запросов. Предполагалось, что Possum будет отфильтровывать повторяющиеся результаты и спам в местном пакете на Google Maps и Local Finder. Под ограничения Опоссума попадают компании, имеющие одинаковые параметры из набора:

  • номер телефона;
  • домен веб ресурса;
  • физический адрес.

Цель частично была достигнута. Благодаря фильтру, удалось еще более локализовать результаты выдачи, соответственно местоположения пользователя. Одновременно, возникают казусные ситуации, когда компании с разным бизнес профилем, расположенные по одному физическому адресу, попадают под фильтр.

Другая особенность, отличающая Опоссума от Пингвина, алгоритм Possum не наказывает сайты (рейтинг не снижается). Но некоторые веб ресурсы с одинаковыми параметрами могут быть исключены из локальной выдачи.

Пират (Pirate)

Это редкий фильтр, название которого четко определяет базовую функцию. Алгоритм направлен на противодействие пиратскому контенту. Санкции применяются к сайтам, нарушающим авторские права любым способом – «ворованные» материалы (включая переводы на другой язык), фотографии, изображения. Вышедший в 2012, инструмент нанес сразу удар по агрегаторам и торрентам, содержащим ссылки на скачивание нелицензионных фильмов, музыки, софта и прочего контента.

Последнее обновление сервиса выпущено в начале февраля 2022. В инструмент внедрен алгоритм «сигнал понижения». Триггер срабатывает после накопления определенной суммы валидных запросов на удаление пиратского контента. Соответствующий веб ресурс существенно понижается в выдаче. Согласно аналитике Google, сайты, попавшие под санкции Pirate, теряют до 89% трафика. В алгоритме также установлен специальный флаг – «все еще в кинотеатрах/предрелиз». Маркировка ориентирована под уведомления DMCA. Срабатывание флага приводит к ускорению снижения позиций сайта.

Другое нововведение в фильтре усложняет использование схем перенаправления пользователей на другие домены для веб проектов, распространяющих пиратский контент. В инструменте усовершенствован перехват подобных действий.

Фред (Fred)

Алгоритм запущен в 2017, и воспринимается, как инструмент против агрессивной монетизации веб страниц, в частности избытка рекламы. Впрочем, анализ показал, что под действие фильтра попадают не только ресурсы с навязчивыми коммерческими предложениями. Алгоритм снижает позиции выдачи у сайтов:

  • где текстовое наполнение содержит высокий процент воды;
  • обладающих плохими поведенческими метриками;
  • с переспамленными текстами в футере;
  • переполненных высокочастотными ключевыми фразами из 2 – 3 слов.

Основная цель инструмента – понизить веб ресурсы, созданные ради привлечения трафика относительно страниц в полезной для пользователя информацией. Одновременно, алгоритм преследует веб проекты, содержащие некачественные обратные ссылки. Также попадание под санкции Fred с высокой вероятностью возможно для сайтов, охватывающий широкий спектр разных тем. Особенно рекомендуется снизить количество исходящих ссылок, не связанных по смыслу с наполнение веб проекта.

Мобилегеддон (Mobile Friendly)

Обновление работает с 2015. Алгоритм направлен на повышение позиций веб страниц, адаптированных под мобильные устройства. При работе с компьютера, ноутбука или планшет эффект от Mobile Friendly отсутствует. Фактически, филтр действенен только для смартфонов. Другие особенности инструмента:

Частично работает при региональном поиске. Эффект распространяется на местные компании. Но выдачи в «локальном блоке» остаются без изменений.

Позиции популярных брендов сохраняются в мобильной выдаче, если веб страницы адаптированы под смартфоны.

Эффект фильтра охватывает веб ресурсы на разных языках. Настроить ранжирование в этом отношении поможет атрибут hreflang.

Одновременно, фильтр наказывает сайты с навязчивой рекламой. Санкции следуют, когда экран без прокрутки содержит только коммерческое предложение, и в ряде других ситуаций.

Система RankBrain

Назвать инструмент отдельным алгоритмом сложно. В комплексе сосредоточено свыше 200 факторов, влияющих на ранжирование веб страницы. По технологии исполнения, RankBrain также выходит за рамки стандартного алгоритма. Это самообучающаяся система с искусственным интеллектом. Сервис выпущен в 2015 и направлен на то, чтобы обеспечить максимально релевантную (для пользователя) выдачу по результатам обработки поискового запроса.

Особенность RankBrain – работа даже в оффлайн режиме. Система продолжает самообучение, анализируя данные о прежних поисковых запросах. Одновременно сервис непрерывно функционирует в режиме реального времени. Благодаря самообучающемуся искусственному интеллекту, в выдаче отображаются сайты, которые не содержат слов из запроса. При этом отображаемые веб страницы отвечают на вопрос или поиск пользователя. Дополнительно, постоянное совершенствование помогает в выдаче по новым (никогда ранее не применявшимся) запросам.

Резюме

Комплекс алгоритмов Google обширен и периодически дополняется новыми инструментами. Поисковая система редко раскрывает принципы работы собственных сервисов. Это ожидаемо. Знание алгоритмов способно вызвать искусственное накручивание «рейтинга» сайта, тогда как цель обновлений – улучшение выдачи в интересах пользователей.

 

Алгоритмы Yandex

Основные отличия:

  1. Вдвое увеличенное количество факторов, что идут в учет.
  2. Модернизированы географические классификаторы.
  3. Улучшена система по обработке запросов, которые состоят из более чем трех слов.
  4. Добавились современные классификаторы содержания текста и ссылок.

Проведены масштабные работы с пресс-портретами и погодными колдунщиками. Алгоритм «Магадан» обеспечивает быстродействие в процессе поиска информация. Ранжирование отмечается появлением учета переводов вместе на уровне прямых вхождений.

«Находка»

Основные отличия:

  • Появилась принципиально новая методика машинного обучения.
  • Значительно улучшился уровень качества поиска по сложному запросу, имеющему стоп-фразы.
  • Были введены новые санкции за перенаправление и целенаправленную подмену контента на странице.
  • Во время продвижения начался учитываться срок жизни сайта.
  • Увеличился объем словарного запаса.

Арзамас

Основные отличия:

  • Был добавлен региональный учет. Площадка получает привязку к определенной геолокации на основе контактных данных и расположения адреса IP.
  • Сайты, использующие агрессивную рекламу, начали попадать под фильтры.
  • Алгоритм начал лучше понимать языки.
  • Усовершенствовано ранжирование по сложному запросу, имеющему большое количество слов.

Снежинск

Основные отличия:

  • Добавилось множество новых факторов, и региональных в том числе.
  • Введен фильтр АГС-2015.
  • Введены механизмы борьбы с текстовым контентом, располагающим большими объемами и чрезмерным употреблением ключевых запросов.
  • Введена принципиально новая современная система Матрикснет.

 

Конаково

Модернизированный алгоритм «Снежинск». Основные изменения касаются локального ранжирования и его усовершенствования.

Обнинск

Основные отличия:

  • Оптимизируется процесс ранжирования по независимым в географическом плане запросам на территории Российской федерации.
  • Ограничивается влияние искусственной ссылочной массы в процессе ранжирования.
  • Усовершенствованы алгоритмы авторства.
  • Переработан интерфейс для отслеживания дублей с копиями.
  • Расширен транслитерационный словарь.

Краснодар

Основные отличия:

  • Внедряется классификация пользовательских запросов на основе категорий.
  • Расширяется список ранжирующих факторов. Теперь учитывается поведенческий фактор.
  • Полностью индексируется социальная сеть ВК.
  • Внедряются сниппеты, имеющие дополнительную информацию для некоторых компаний.
  • Начали учитываться дополнительные словоформы в запросе в процессе ранжирования.

Рейкьявик

Основные отличия:

  • Дорабатывается система показа подсказок.
  • Совершенствуется математический и игровой колдунщик.
  • Внедряется учет пользовательского предпочтения для запросов на английском языке.
  • Данный алгоритм принято считать дебютным шагом компании Яндекс для формирования поисков персонализированного характера.

Калининград

Основные отличия:

  • Внедряется глобальная персонализационная система.
  • Добавляются сиреневые подсказки.
  • Подсказки меняются на основании информации о предыдущих запросов.

Дублин

Поисковая система получает алгоритмы для отслеживания актуальных предпочтений пользователя и его интересов.

 

Подсказка

Современные поисковые системы индексируют только пятую долю процента всей информации, которую можно найти на просторах интернета. Остальная информация – всевозможные базы, конфиденциальные данные не проходят процесс индексации. Вероятнее всего, что вскоре дополнительное перспективное направление по развитию более глубокого поиска, затрагивающего не только проиндексированные страницы, станет более актуальным и целесообразным. Поисковые боты будут стремиться к тому, чтобы видеть 100% информации, имеющейся во всемирной паутине.

Предыдущая статья Попасть под АГС-17
Следующая статья Анкор
 5.00 (2)
Оставить комментарий

Тарифы на услуги