Леммой называется первоначальная форма слова. Для существительных и прилагательных в русском языке леммами считаются формы слов в именительном падеже ед. числа, а для глагола — инфинитив.
Лемматизация, таким образом, является преобразованием слов в леммы. Этот метод применяется для алгоритмов поисковиков для индексации страниц сайта. Благодаря данному процессу удобно схематизировать файлы и хранить данные каждой страницы в виде набора слов в индексе. Всё это позволяет ускорить процесс индексации, чтобы результат поискового запроса был более чётким, так как поисковыми ботами анализ сокращенных форм происходит быстрее.
Во время лемматизации словом обретается основная форма путем потери флективных окончаний. Например:
При этом важно учитывать, что в языке всегда будет присутствовать определенный набор слов, чья лемматизация потенциально может дать неоднозначные результаты. Так, форма существительного «бой» может дать 2 леммы: собственно сущ. «бой» и глагол «бить». Из-за этого случается, что лемматизация не всегда точная, так как ПС учитывает одну из возможных лемм для каждого конкретного текста.
Несмотря на некоторые трудности, лемматизация очень важна для индексации страниц, если есть цель качественной оптимизации ресурса, т.к. именно высокая скорость является одним из главных критериев при эффективном индексировании. Всё зависит от потенциального количества форм слова, и чем их меньше, тем быстрее завершится схематизация документа.