Хобрук: Ваш путь к мастерству в программировании

Извлечение размеров выборки модели с помощью `broom` в R

Пакет broom очень удобен для извлечения практически всего, что вы хотите от модели. Но есть ли способ получить размер выборки (количество наблюдений)? Возьмем следующий пример:

library(tidyverse)
library(broom)

data(iris)

iris %>% 
  as_tibble() %>% 
  nest(data = c(-Species)) %>% 
  mutate(
    model = map(data, ~ lm(Petal.Width ~ Petal.Length, data = .x)),
    tidied = map(model, tidy),
    fit = map(model, glance)
  ) %>% 
  select(Species, tidied, fit) %>% 
  unnest(tidied) %>% 
  rename(t.statistic = statistic,
         t.p = p.value) %>% 
  unnest(fit) %>% 
  rename(f.statistic = statistic,
         f.p = p.value)
# A tibble: 6 x 17
  Species term  estimate std.error t.statistic      t.p r.squared adj.r.squared sigma
  <fct>   <chr>    <dbl>     <dbl>       <dbl>    <dbl>     <dbl>         <dbl> <dbl>
1 setosa  (Int~  -0.0482    0.122       -0.396 6.94e- 1     0.110        0.0914 0.100
2 setosa  Peta~   0.201     0.0826       2.44  1.86e- 2     0.110        0.0914 0.100
3 versic~ (Int~  -0.0843    0.161       -0.525 6.02e- 1     0.619        0.611  0.123
4 versic~ Peta~   0.331     0.0375       8.83  1.27e-11     0.619        0.611  0.123
5 virgin~ (Int~   1.14      0.379        2.99  4.34e- 3     0.104        0.0851 0.263
6 virgin~ Peta~   0.160     0.0680       2.36  2.25e- 2     0.104        0.0851 0.263
# ... with 8 more variables: f.statistic <dbl>, f.p <dbl>, df <int>, logLik <dbl>,
#   AIC <dbl>, BIC <dbl>, deviance <dbl>, df.residual <int>

Строка кода (1) размещает данные по видам, (2) запускает модель, используя map для каждого вида, и (3) распаковывает полученные данные.

Есть ли здесь простой способ получить количество наблюдений для каждой модели? Я не хочу полагаться на вычисления с использованием степеней свободы.

24.04.2020

  • Не очень уверен, что происходит с остальной частью кода, но df.residual + df из результатов tidy () дает вам количество наблюдений .. 25.04.2020
  • Но если вы ищете отличную функцию метлы, которая даст вам эту информацию ... я не знаю об этом 25.04.2020
  • странно, документация для glance() ясно показывает, что она должна возвращать количество наблюдений для модели и все же это не так. Не на моей машине с текущей версией broom. 25.04.2020

Ответы:


1

Степени свободы и остаточные степени свободы доступны для объекта, созданного broom::glance().

library(broom)

aModel <- lm(Petal.Width ~ Petal.Length, data = iris)
aGlance <- glance(aModel)
aGlance$df
aGlance$df.residual

... и вывод:

> aGlance$df
[1] 2
> aGlance$df.residual
[1] 148
> 

Мы можем проверить точность, сравнив эти числа со сводными данными стандартной модели.

> summary(aModel)

Call:
lm(formula = Petal.Width ~ Petal.Length, data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.56515 -0.12358 -0.01898  0.13288  0.64272 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -0.363076   0.039762  -9.131  4.7e-16 ***
Petal.Length  0.415755   0.009582  43.387  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2065 on 148 degrees of freedom
Multiple R-squared:  0.9271,    Adjusted R-squared:  0.9266 
F-statistic:  1882 on 1 and 148 DF,  p-value: < 2.2e-16

> 

Модель потребляет 2 степени свободы из-за перехвата и Petal.Length, оставляя 148 степеней свободы в кадре данных, который начинается со 150 наблюдений.

24.04.2020
Новые материалы

ВЫ РЕГРЕСС ЭТО?
Чтобы понять, когда использовать регрессионный анализ, мы должны сначала понять, что именно он делает. Вот простой ответ, который появляется, когда вы используете Google: Регрессионный..

Не зря же это называют интеллектом
Стек — C#, Oracle Опыт — 4 года Работа — Разведывательный корпус Мне пора служить Может быть, я немного приукрашиваю себя, но там, где я живу, есть обязательная военная служба на 3..

LeetCode Проблема 41. Первый пропущенный положительный результат
LeetCode Проблема 41. Первый пропущенный положительный результат Учитывая несортированный массив целых чисел, найдите наименьшее пропущенное положительное целое число. Пример 1: Input:..

Расистский и сексистский робот, обученный в Интернете
Его ИИ основан на предвзятых данных, которые создают предрассудки. Он словно переходит из одного эпизода в другой из серии Черное зеркало , а вместо этого представляет собой хронику..

Управление состоянием в микрофронтендах
Стратегии бесперебойного сотрудничества Микро-фронтенды — это быстро растущая тенденция в сфере фронтенда, гарантирующая, что удовольствие не ограничивается исключительно бэкэнд-системами..

Декларативное и функциональное программирование в стиле LINQ с использованием JavaScript с использованием каррирования и генератора ...
LINQ - одна из лучших функций C #, которая обеспечивает элегантный способ написания кода декларативного и функционального стиля, который легко читать и понимать. Благодаря таким функциям ES6,..

Структуры данных в C ++ - Часть 1
Реализация общих структур данных в C ++ C ++ - это расширение языка программирования C, которое поддерживает создание классов, поэтому оно известно как C с классами . Он используется для..