Этот вопрос объясняет, как добавить свои собственные слова в построенный -в английском языке стоп-слова CountVectorizer
. Мне интересно посмотреть, как на классификатор повлияет устранение любых чисел в качестве токенов.
ENGLISH_STOP_WORDS
хранится как замороженный набор, поэтому я думаю, что мой вопрос сводится (если нет метода, которого я не знаю) к тому, можно ли добавить произвольное числовое представление в замороженный список?
По моему мнению, это невозможно, поскольку конечность списка, который вы должны пройти, исключает это.
Я полагаю, что один из способов сделать то же самое — пройтись по тестовому корпусу и поп-словам, где word.isdigit()
соответствует набору/списку, который затем можно объединить с ENGLISH_STOP_WORDS
(см. предыдущий ответ), но я бы предпочел полениться и передать в параметр stop_words
что-нибудь попроще.