Хобрук: Ваш путь к мастерству в программировании

Интеллектуальный анализ текста - частота слов из одного столбца, содержащего список

Вот мой набор данных:

https://app.box.com/s/yotsy58ud2k9yk7vs7sj8ksc0favhevv

Я пытаюсь создать частотную таблицу тегов из одного столбца со следующей структурой:

введите здесь описание изображения

Я пробовал использовать qdap для простоты, но результат неверный

library(qdap)
tags_df <- read.csv(file.choose())
freq_terms(tags_df$tags)

Решение

Просто улучшая (создавая фрейм данных и сортируя) решение, данное Руи:

sp <- unlist(strsplit(as.character(unlist(tags_df$tags)),'^c\\(|,|"|\\)'))

inx <- sapply(sp, function(y) nchar(trimws(y)) > 0 & !is.na(y))

data <- as_data_frame(table(tolower(sp[inx])))

data <- data[with(data,order(-n)),]

data <- data[1:10,]

  • вы можете использовать функцию table 25.01.2018

Ответы:


1

Если все, что вам нужно или нужно, это подсчет частоты, вы можете обойтись без внешних пакетов, в базе R есть функция table.

sp <- unlist(strsplit(as.character(unlist(tags_df$tags)), '^c\\(|,|"|\\)'))
inx <- sapply(sp, function(y) nchar(trimws(y)) > 0 & !is.na(y))
table(sp[inx])
#    Android        CSS3      Design      Hiring  JavaScript      NextJS 
#          1           1           1           1           4           1 
#     NodeJS programming Programming     ReactJS     Testing          UI 
#          1           1           3           3           1           1 
#         UX   WebDesign      webdev      WebDev 
#          1           2           1           4

ИЗМЕНИТЬ.

Я только что понял, что у вас есть "programming" и "Programming", "webdev" и "WebDev" в качестве тегов, возможно, вы хотите сделать подсчет без учета регистра. Если это так, попробуйте вместо этого

table(tolower(sp[inx]))
25.01.2018
  • Разобрался с данными. Обновил исходный пост 25.01.2018
  • @user709413 user709413 Чтобы отсортировать результат, используйте sort. См. страницу справки help("sort"). 25.01.2018
  • Новые материалы

    Не зря же это называют интеллектом
    Стек — C#, Oracle Опыт — 4 года Работа — Разведывательный корпус Мне пора служить Может быть, я немного приукрашиваю себя, но там, где я живу, есть обязательная военная служба на 3..

    LeetCode Проблема 41. Первый пропущенный положительный результат
    LeetCode Проблема 41. Первый пропущенный положительный результат Учитывая несортированный массив целых чисел, найдите наименьшее пропущенное положительное целое число. Пример 1: Input:..

    Расистский и сексистский робот, обученный в Интернете
    Его ИИ основан на предвзятых данных, которые создают предрассудки. Он словно переходит из одного эпизода в другой из серии Черное зеркало , а вместо этого представляет собой хронику..

    Управление состоянием в микрофронтендах
    Стратегии бесперебойного сотрудничества Микро-фронтенды — это быстро растущая тенденция в сфере фронтенда, гарантирующая, что удовольствие не ограничивается исключительно бэкэнд-системами..

    Декларативное и функциональное программирование в стиле LINQ с использованием JavaScript с использованием каррирования и генератора ...
    LINQ - одна из лучших функций C #, которая обеспечивает элегантный способ написания кода декларативного и функционального стиля, который легко читать и понимать. Благодаря таким функциям ES6,..

    Структуры данных в C ++ - Часть 1
    Реализация общих структур данных в C ++ C ++ - это расширение языка программирования C, которое поддерживает создание классов, поэтому оно известно как C с классами . Он используется для..

    Как я опубликовал свое первое приложение в App Store в 13 лет
    Как все началось Все началось три года назад летом после моего четвертого класса в начальной школе. Для меня, четвертого класса, лето кажется бесконечным, пока оно не закончится, и мой отец..