Кластеризация является важным навыком для специалистов по данным. Он включает в себя группировку точек данных вместе на основе их координат. На самом деле нет ограничений на количество измерений, на которые могут быть сопоставлены эти точки, но в этом примере мы просто показываем двумерную кластеризацию.

Одним из моих самых больших интересов и причиной, по которой я занялся наукой о данных, является бейсбол. Игра генерирует так много данных, которые так гибки и интересны для изучения. В последние годы MLB отслеживает и делится безумным количеством данных о каждой подаче и игре в своих играх и публикует их бесплатно. Эти данные доступны через Baseball Savant.

Я просмотрел данные за несколько месяцев сезона 2019 года и сгруппировал питчеров вместе на основе движения их ползунков. Это простой пример кластеризации, безусловно, есть более сложные и интересные способы его использования в этом наборе данных, но для простоты я продемонстрировал кластеризацию таким образом.

Я использовал язык программирования R и использовал файл R-MarkDown для создания PDF-файла, показывающего мой код, пояснения и визуализации.

Загрузите PDF-файл здесь.

Просмотреть/скачать код здесь.

Полный репозиторий GitHub здесь.