Хобрук: Ваш путь к мастерству в программировании

Извлечение частотного списка слов из большого корпуса

У меня есть большой английский корпус с именем SubIMDB, и я хочу составить список всех слов с их частота. Имеется в виду, сколько их появилось во всем корпусе. Этот список частот должен иметь некоторые характеристики:

  1. Такие слова, как мальчик и мальчики, или другие грамматические особенности, такие как получить и получить, одно и то же слово или лемма, и если есть 3 мальчика и 2 мальчика, они должны быть указаны как мальчик 5. Однако не для таких случаев, как Go и Went, которые имеют неправильные формы (или ступня и ступня)
  2. Я хочу использовать этот список частот как своего рода словарь, поэтому всякий раз, когда я вижу слово в другой части программы, я хочу проверить его частоту в этом списке. Так что лучше, если это доступно для поиска, не просматривая все это.

Мои вопросы:

  1. Что делать с первой проблемой? Лемматизировать? или Стемминг? или как я могу получить это?
  2. Во-вторых, какой тип переменной я должен установить? как словарь или списки или что?
  3. Лучше всего сохранить его в csv?
  4. Есть ли готовый набор инструментов для python, делающий все это?

Большое спасибо.


  • Вопросы, которые спрашивают, с чего мне начать? обычно слишком широки и не подходят для этого сайта. У людей есть свой подход к проблеме, и поэтому не может быть правильного ответа. Внимательно прочитайте с чего начать и отредактируйте свой пост. 13.01.2019
  • спрашивать рекомендации библиотеки — это оффтоп, и задавать несколько и/или неконкретные вопросы в одном вопросе также не рекомендуется. Что вы пробовали, где вы исследовали и какова ваша проблема с кодом, который вы использовали для решения этой проблемы? Поиск в гугле python lemma stemmer естественно приводит к NLTK и к дубликатам на этом самом сайте... т.е. этот how-do-i-do-word-stemming-or- лемматизация 13.01.2019
  • @PatrickArtner хорошо, я знаю, с чего начать, у меня просто есть эти вопросы, и я хочу узнать мнение других об этом. Я немного запутался в том, чтобы лемметизировать или остановить их. А также, как, по их мнению, лучше всего составить этот список частот. Как вы думаете, где я должен это спросить? лингвистика в stackexchange? 13.01.2019
  • @PatrickArtner Я знаю лемму и стеммер NLTK и могу с ними работать. Я спрашиваю, какой из них лучше здесь, учитывая, что мне просто нужно избавиться от грамматической части. А также я хорошо искал Github и всю сеть, но не смог найти хороший инструментарий Python, автоматически создающий списки частот из файла .txt. Я хотел спросить людей здесь, если они знают. 13.01.2019

Ответы:


1

Как указывалось выше, вопрос (вопросы) основывается на мнении и является расплывчатым, но вот некоторые направления:

  1. Оба будут работать для вашего случая. Стемминг обычно проще и быстрее. Я предлагаю начать с nltk PorterStemmer. Если вам нужна сложная лемматизация, взгляните на spaCy, IMO, это отраслевой стандарт.
  2. Вам нужен словарь, который дает вам амортизированный поиск O (1), когда у вас есть основа / лемма. Также может оказаться полезным counter.
  3. Зависит от вашего варианта использования. CSV более "портативный", pickle может быть проще в использовании.
  4. В nltk и spaCy есть много «строительных блоков», построение конвейера/моделей зависит от вас.
13.01.2019
Новые материалы

Не зря же это называют интеллектом
Стек — C#, Oracle Опыт — 4 года Работа — Разведывательный корпус Мне пора служить Может быть, я немного приукрашиваю себя, но там, где я живу, есть обязательная военная служба на 3..

LeetCode Проблема 41. Первый пропущенный положительный результат
LeetCode Проблема 41. Первый пропущенный положительный результат Учитывая несортированный массив целых чисел, найдите наименьшее пропущенное положительное целое число. Пример 1: Input:..

Расистский и сексистский робот, обученный в Интернете
Его ИИ основан на предвзятых данных, которые создают предрассудки. Он словно переходит из одного эпизода в другой из серии Черное зеркало , а вместо этого представляет собой хронику..

Управление состоянием в микрофронтендах
Стратегии бесперебойного сотрудничества Микро-фронтенды — это быстро растущая тенденция в сфере фронтенда, гарантирующая, что удовольствие не ограничивается исключительно бэкэнд-системами..

Декларативное и функциональное программирование в стиле LINQ с использованием JavaScript с использованием каррирования и генератора ...
LINQ - одна из лучших функций C #, которая обеспечивает элегантный способ написания кода декларативного и функционального стиля, который легко читать и понимать. Благодаря таким функциям ES6,..

Структуры данных в C ++ - Часть 1
Реализация общих структур данных в C ++ C ++ - это расширение языка программирования C, которое поддерживает создание классов, поэтому оно известно как C с классами . Он используется для..

Как я опубликовал свое первое приложение в App Store в 13 лет
Как все началось Все началось три года назад летом после моего четвертого класса в начальной школе. Для меня, четвертого класса, лето кажется бесконечным, пока оно не закончится, и мой отец..