Да, это еще один вопрос "как очистить". Извините за это, но я прочитал предыдущие ответы и руководство для rvest
.
Я выполняю веб-скрейпинг для своей домашней работы (поэтому я не планирую использовать данные для каких-либо коммерческих задач). Идея состоит в том, чтобы показать, что среднее умение команды влияет на индивидуальное мастерство. Я пытаюсь использовать для этого данные CS: GO с HLTV.org.
Информация доступна по адресу http://www.hltv.org/?pageid=173&playerid=9216
Мне нужны две таблицы: Keystats (только данные) и Teammates (данные и URL-адреса). Я пытаюсь использовать селекторы CSS, созданные SelectorGadget, а также пытался анализировать исходный код веб-страницы. Я потерпел неудачу. Я делаю следующее:
library(rvest)
library(dplyr)
url <- 'http://www.hltv.org/?pageid=173&playerid=9216'
info <- html_session(url) %>% read_html()
info %>% html_node('.covSmallHeadline') %>% html_text()
Не могли бы вы сказать мне, что это правильный селектор CSS?
h %>% html_nodes('.covSmallHeadline img ~ a') %>% html_attr('href')
15.02.2017{xml_nodeset (0)}
06.10.2018