Обзор проекта

Каждый год в Колумбусе происходит 29 654 дорожно-транспортных происшествия, в результате которых в среднем 594 человека получают серьезные травмы и еще 101 человек погибает (дорожный патруль штата Огайо, 2016–2021 годы). Значительная часть этих несчастных случаев вызвана вождением в нетрезвом виде, превышением скорости и вождением в состоянии отвлечения внимания — все это полностью предотвратимое поведение. Признавая жизненно важную роль, которую транспортное средство и безопасность пользователей могут играть в предотвращении травм и смертей, связанных с авариями, 99P Labs поставила перед собой цель повысить безопасность водителей. Для достижения этой цели необходимо будет улучшить функции безопасности автомобиля и спроектировать интерфейс автомобиля, чтобы оптимизировать способность пользователей сосредоточиться. В этом анализе используются данные, передаваемые с автомобилей 99P Labs, для идентификации водителей и их специфического поведения.

Для нашего проекта Capstone в штате Огайо мы стремились определить конкретных водителей и их поведение в области безопасности, используя данные от клиентов 99P Labs в Колумбусе, и использовать эту информацию для разработки рекомендаций по безопасности для конкретных пользователей. Этот проект был выполнен в рамках нашей магистерской программы по анализу трансляционных данных.

Основная цель этого исследования состояла в том, чтобы найти возможности для улучшения безопасности, которые в конечном итоге предотвратят серьезные травмы и смертельные случаи в автомобильных авариях. Мы подошли к этой проблеме с помощью предиктивного анализа, который привел к созданию персонажей-водителей. Для каждой созданной группы персонажей мы предложили специальные функции безопасности для водителей, которые могут помочь членам этой группы более разумно вести себя за рулем. Хотя невозможно контролировать действия каждого отдельного водителя в каждой машине, 99P Labs может отстаивать идеалы безопасности, принятые в качестве передовой практики в своих автомобилях, и работать с другими компаниями над установлением межотраслевых стандартов. Понимание общих причин несчастных случаев может помочь OEM-производителям разрабатывать свои автомобили с целью дать водителям возможность действовать в упреждающем режиме. Соблюдая принципы безопасности, 99P Labs может укрепить доверие потребителей к своей продукции.

Гипотезы

Наш анализ был основан на гипотезе о том, что людей можно разделить на группы водителей V2X на основе моделей их поведения за рулем. В частности, статистически значимые различия в продолжительности поездки, расстоянии, скорости и предупреждающих сообщениях могут определять уровень безопасности движения водителя.

H0: µ1 = µ2 = µ3 = µ4 = … = µ em>i
Драйверы V2X не имеют существенных различий в поведении при вождении.
H1: Драйверы V2X имеют как минимум одно существенное различие в поведении при вождении. Процесс

В нашем анализе использовались данные, переданные от транспортных средств в Колумбусе, для определения поведения и мотивации водителей с целью поиска возможностей для повышения безопасности. Процесс начался с очистки и изучения набора данных V2X. Данные V2X, или «Автомобиль ко всему», были выбраны нашими клиентами и дали нам измерения, с помощью которых можно было идентифицировать и исследовать поведение водителей. Набор данных V2X состоит из следующих пяти таблиц:

  • Сводка — сводные показатели, используемые для характеристики поездки.
  • Хост — меры от хост-машины
  • RvBsm — Базовое сообщение о безопасности удаленного транспортного средства — основные меры безопасности от других оборудованных удаленных транспортных средств.
  • EvtWarn — Предупреждение о событии — неизбежные предупреждения главному водителю о взаимодействии с удаленными транспортными средствами.
  • SPaT — Signal Phase and Timing — измеряет умные перекрестки

В рамках нашей работы мы решили сосредоточиться только на таблицах Host и Summary. Очистка включала удаление посторонних переменных, выбросов, недопустимых значений и заполнителей отсутствующих значений. Затем мы преобразовали данные из показателей на уровне поездки в показатели на уровне устройства (n = 69) и начали создавать новые переменные для описания поведения водителей. Для начала мы создали три категории поведения: скорость, расстояние и продолжительность. Рассчитывались максимальная и средняя скорости, а также количество и доля поездок, во время которых водитель превышал различные пороговые значения (т. е. 70, 80, 90, 100). Что касается расстояния, рассчитывались минимальное, максимальное и среднее расстояние, а также количество и доля поездок, в ходе которых водитель проехал более 5, 30, 75, 100 и 150 миль. Наконец, мы рассчитали минимальную, максимальную и среднюю продолжительность поездки.

Для переменных с несколькими порогами мы использовали 80-й процентиль, чтобы помочь нам определить, какую скорость и расстояние использовать в нашем анализе. Затем мы создали новые столбцы на основе этого вывода: часть и количество поездок, когда водитель превысил 80-й процентиль максимальной скорости (т. е. 78,267 миль в час), и доля и количество поездок, когда водитель превысил 80-й процентиль средней скорости. скорость (т. е. 57,347 миль в час). Мы рассчитали эти переменные для расстояния (80-й процентиль = 26,415 пройденных миль) и продолжительности (80-й процентиль = 27,662 минуты поездки).

Мы попытались интегрировать в анализ таблицу предупреждений о событиях, но не смогли использовать этот актив данных из-за разреженности информации в таблице. Чтобы объединить таблицу предупреждений о событиях с текущим фреймом данных метрик, мы хотели рассчитать долю определенных типов предупреждений в процентах от общего числа дисков. Мы также хотели создать метрику, которая показывала бы долю поездок с

любое предупреждение. К сожалению, мы не смогли использовать данные предупреждений о событиях для создания функций кластеризации. Изучая только события, которые могут быть опасными ситуациями, вызванными действиями водителя, мы обнаружили данные предупреждения о событиях для 4 уникальных устройств. Учитывая, что полный набор данных метрик содержит 69 уникальных устройств, создание функций кластеризации с использованием этой переменной приведет к систематической ошибке, поскольку данные не пропадают случайно. Если бы мы могли использовать этот актив данных, мы бы отфильтровали только предупреждающие сообщения со следующими кодами событий: FCW, IMA, BSWLCW, RSZW, CSW, PDA, LTA.

Очистка и обработка набора данных увеличили количество столбцов с 47 до 17. Эти столбцы включали устройство, среднюю скорость поездки, максимальную скорость поездки, количество и часть поездок, когда скорость водителя превышала 78 миль в час, количество и часть поездок, когда скорость водителя превышала 57 миль в час, количество и часть поездок, при которых поездка превышает 27 минут, количество поездок, превышающих 26 миль, минимальное, максимальное и среднее расстояние поездки, а также минимальная, максимальная и средняя продолжительность поездки. Мы изучили анализ основных компонентов (PCA) как средство уменьшения размерности нашего набора данных. Внедрение PCA с нашим набором данных плохо соответствовало контексту поведения водителей, поэтому мы не стали интегрировать этот метод в наш рабочий процесс.

Затем мы использовали различные методы визуализации, чтобы продолжить анализ. Во-первых, мы использовали тепловые карты для выявления любой коллинеарности между переменными и удалили столбцы, которые были слишком тесно коррелированы (отсечка = › абс (0,8)). Мы также использовали локтевой график для определения оптимального количества кластеров (k = 3) и приступили к кластеризации k-средних. Наконец, мы использовали ящичные диаграммы для отображения результатов кластеризации.

Заключительный этап нашего анализа включал проведение однофакторного дисперсионного анализа (ANOVA) с последующим HSD Тьюки для проверки статистически значимых различий. Для двух столбцов (num_trip_dist_26 и max_trip_time) предположение об однородности дисперсии не было соблюдено, поэтому вместо этого был выполнен t-критерий Уэлча.

Выводы

Статистически значимые различия привели нас к выделению трех уникальных групп водителей. В таблице ниже показано, где были значимые различия, и относительное среднее значение для каждой группы. Красный указывает на самое высокое среднее значение среди трех групп, зеленый указывает на самое низкое среднее значение, а желтый находится между ними. Знак равенства (=) используется для обозначения того, что группы были равны по данному показателю.

Используя то, что мы узнали о трех различных группах, мы разработали персонажей, чтобы помочь контекстуализировать эти различия.

Персонажи

Поведение человека за рулем может иметь серьезные последствия для его безопасности и безопасности других. При разработке персон важно учитывать несколько ключевых дескрипторов каждого типа драйвера. Например, важно отметить относительный уровень риска определенного поведения и тех, кому оно может угрожать. Также может быть полезно рассмотреть мотивацию влечения и обстоятельства, которые могут спровоцировать определенное поведение. Еще один элемент, который стоит учитывать, — это уровень водительского мастерства и мастерства. Наконец, личность водителя и жизненная ситуация будут важны для его стиля вождения. Например, мальчик-подросток может быть более склонен к превышению скорости и агрессивному вождению, чем отец маленьких детей. Активы данных команды проекта не содержат демографических характеристик, но у спонсора может быть доступ к дополнительной контекстуальной информации, которая позволила бы им получить информацию такого типа. Даже если некоторые характеристики движущих сил нелегко измерить, все же может быть полезно учитывать их при разработке мер вмешательства. Следующие группы предназначены для классификации водителей по легко узнаваемым характеристикам. Эти группы не исключают друг друга, и один драйвер может относиться к нескольким категориям.

Уровни квалификации водителей

Свежий на улицах

o Водители в этой группе имеют ограниченный опыт работы на дорогах и могут быть не в полной мере осведомлены о передовой практике и правилах дорожного движения. Поскольку они являются начинающими водителями со стажем менее пяти лет, они более склонны к осторожной навигации и могут быть захвачены низкой скоростью или частыми торможениями. Примерами водителей в этой категории могут быть водители-студенты или люди, плохо знакомые с вождением в США. Сюда также могут входить водители в незнакомых районах на новых типах дорог, например, кто-то из сельской местности, едущий по городу. Члены этой группы хорошо отреагируют на полезные советы по вождению и заверения в соблюдении передового опыта. Они также могут оценить учебные пособия, объясняющие, как лучше всего использовать средства безопасности автомобиля, такие как камера заднего вида.

• Начинающий эксперт
o В эту группу входят молодые специалисты, стаж вождения которых составляет 5–10 лет и которые хорошо разбираются в различных видах вождения. Они понимают и соблюдают большинство правил дорожного движения. Вмешательства, которые подталкивают водителей к улучшению долгосрочных привычек вождения, были бы хороши для этой возрастной группы.

• Опытный ветеран
o Эти водители со стажем вождения более 10 лет и хорошо зарекомендовавшим себя вождением. Их опыт помог им развить навыки осторожного вождения, и они довольно безопасны. Некоторые члены этой группы могут иметь завышенное чувство уверенности и быть склонными к высокомерному маневрированию. Водителям в этой группе может не требоваться столько программ безопасности, если у них есть хорошо зарекомендовавшие себя методы. Однако, если кто-то из этой группы действительно нуждается в вмешательстве в целях безопасности, ему может быть труднее избавиться от давно устоявшихся ненадежных привычек.

Соображения о личности и жизненной ситуации

  • Возраст
  • Годы вождения
  • Типы дорог, по которым обычно ездят
  • Пол
  • Бытовой тип
  • Занятие
  • Уровень терпения
  • Эмоциональное благополучие
  • Способность сосредоточиться
  • Другие обязанности (например, дети)

Рекомендации

  • В наборе данных есть различные типы драйверов. Мы разработали несколько функций и прототипов персонажей пользователей, которые могут помочь классифицировать уникальных водителей по легко узнаваемым группам. Эти группы могли бы информировать 99P Labs о лучших типах программ, связанных с безопасностью, для включения в пользовательский интерфейс и систему обмена сообщениями автомобиля. Они также могут включить эти результаты в приложение для водителей или веб-сайт с советами по безопасности. Учитывая, что люди чрезвычайно разнообразны и часто их невозможно точно предсказать, крайне важно встроить циклы обратной связи в развертывание этих инструментов, чтобы понять, какие функции помогают каждому водителю уделять первостепенное внимание безопасности.
  • Набор данных предупреждений о событиях содержит информацию только для ограниченного числа устройств. Проведение дополнительных исследований по сбору соответствующих переменных и оценка управления данными было бы разумным следующим шагом. Это, вероятно, будет полезным активом для текущих целей проекта, и это даст дополнительную информацию о поведении водителей, если его можно будет интегрировать в конвейер анализа.
  • Следующая команда, работающая над этим проектом, должна расставить приоритеты…

o Проверка и развитие текущего конвейера анализа
o Поиск неожиданных точек данных и курирование дополнительных групп персонажей, которые классифицируют это поведение
o Продолжение сопоставления кластерных групп с предлагаемыми персонажами
o Изучение лучших отраслевых практик для функции безопасности пользователя в автомобиле и предлагать их для групп водителей

Спасибо 99P Labs!

Команда проекта хотела бы выразить нашу искреннюю благодарность 99P Labs за предоставленную нам возможность работать над анализом в этой захватывающей проблемной области, используя их активы данных. Мы искренне благодарны им за то время, которое они потратили на работу над нашим проектом.

Ссылки

Дорожный патруль штата Огайо. (среднегодовые значения за 2016–2021 гг.). Панель сбоев. Получено 1 мая 2022 г. с https://www.statepatrol.ohio.gov/ostats.aspx#gsc.tab=0.

Обзор национального законодательства. (17 июля 2017 г.). Постоянное использование фар снижает количество автомобильных аварий. Получено 1 мая 2022 г. с сайта https://www.natlawreview.com/article/permanent- headlight-usage-shown-to-reduce-car-accidents.

НАБДД. (н.д.). Ускорение. [Текст]. Получено 1 мая 2022 г. с сайта https://www.nhtsa.gov/risky- Driving/Speeding.