?

Log in

No account? Create an account
cool skull

мат. лингвистика и морфология

У меня вопрос к уважаемым сотрудникам Я. и G! - как глупому программисту без знаний математической лингвистики и прочей науки объединить слова в тексте если это разные падежи, склонения и т.п. одного слова?

Я хочу посчитать количество упоминаний каждого слова в тексте не обращая внимания на его падеж, склонение, род, множественное/единственное число.

Варианты взять где-то уже готовый список приемлемы, но тогда скажите где его скачать.

Пока у меня в голове только полуручные методы составления БД/списка по мере поступления текста

Comments

afaik, это называется stemming.

Есть глупый stemmer http://snowball.tartarus.org/algorithms/russian/stemmer.html и ещё самоделка http://forum.dklab.ru/php/advises/HeuristicWithoutTheDictionaryExtractionOfARootFromRussianWord.html

Есть морфологические словари, http://ficus-www.cs.ucla.edu/geoff/ispell-dictionaries.html#Russian-dicts

Ещё у яндекса есть какая-то клёвая бесплатная тулза, без исходников, с гибридным подходом (словари + автоматика, если нет в словаре).

За правильный термин спасибо
За линки - тоже

у яндекса есть склонятор - http://nano.yandex.ru/project/inflect/
но это немного не то. Или у них еще что-то есть?
похоже, последний линк даст мне всё, что необходимо. Спасибо еще раз