Как работает стемминг на русских рессурсах
Большинство поисковых систем в своей работе пользуются услугами стемминга, благодаря которому можно найти слова по морфологии. Этапы работы поиска:
- Ввод ключевого слова.
- Происходит мониторинг всех словоформ данного слова с его основой.
- Выдача необходимого слова по запросу.
Система «Яндекс» для такого поиска создала программку mystem. Эта программа является бесплатной и использовать ее может каждый. Она предусматривает работу для всех видов операционных систем. Такая программа позволяет:
- Приводить слова к их начальной форме.
- Определить их частоту в русском языке.
- Обозначить его грамматику.
Версия программы 1.0 предусматривает работу с английским текстом. По классификации словоформ можно говорить, что они значительно отличаются от принятых:
- Время есть прошедшее и непрошедшее.
- В одном случае некоторые глаголы отличаются суффиксом несовершенного и совершенного видов.
Можно говорить, что mystem стала основателем стемминга, который строит морфологические разметки Национальной структуры русского языка. Благодаря такой работе поиска морфологии слова, можно:
- Отыскать интересующие слова и словоформы.
- Ускорить процесс необходимой работы.
- Усовершенствовать свой запас словоформ.
Используя такой стемминг с программой mystem, гораздо легче стало проводить различные поиски слов, а также появилась возможность развития словарного запаса. Система просматривает все документы, веб-страницы, контент в которых есть заданное для поиска слово и словоформа. Но существуют и платные и бесплатные версии программ стеммеров.
Тут еще никто ничего не писал, стань первым!