У меня есть большой английский корпус с именем SubIMDB, и я хочу составить список всех слов с их частота. Имеется в виду, сколько их появилось во всем корпусе. Этот список частот должен иметь некоторые характеристики:
- Такие слова, как мальчик и мальчики, или другие грамматические особенности, такие как получить и получить, одно и то же слово или лемма, и если есть 3 мальчика и 2 мальчика, они должны быть указаны как мальчик 5. Однако не для таких случаев, как Go и Went, которые имеют неправильные формы (или ступня и ступня)
- Я хочу использовать этот список частот как своего рода словарь, поэтому всякий раз, когда я вижу слово в другой части программы, я хочу проверить его частоту в этом списке. Так что лучше, если это доступно для поиска, не просматривая все это.
Мои вопросы:
- Что делать с первой проблемой? Лемматизировать? или Стемминг? или как я могу получить это?
- Во-вторых, какой тип переменной я должен установить? как словарь или списки или что?
- Лучше всего сохранить его в csv?
- Есть ли готовый набор инструментов для python, делающий все это?
Большое спасибо.