Эта статья является частью серии Data Test Kitchen от Discovery Hub. Мы изучаем, как наука о данных и машинное обучение могут помочь в прогнозировании новых инноваций и их социальных последствий.

Discovery Hub призван объединить стратегическое предвидение с подходами, основанными на данных, чтобы обеспечить дополнительную строгость в отношении того, как мы ожидаем изменений в областях миссии Nesta, таких как здоровье, ранние годы и декарбонизация.

Наш предыдущий блог исследовал потенциал подходов машинного обучения для прогнозирования будущего успеха стартапов. Эти прогнозы могут дать нам подсказки о предприятиях и секторах, за которыми следует внимательно следить за развитием событий.

Здесь мы исследуем использование методов причинно-следственной связи для предоставления основанных на данных рекомендаций по политике и финансированию вмешательств. Эта задача требует другого набора инструментов, чем при прогнозировании, поскольку теперь нам нужно тщательно рассмотреть причинно-следственные связи между интересующими нас переменными.

В качестве нашего тестового примера мы рассмотрели рычаг финансирования использования государственных исследовательских грантов для стимулирования роста в целевых секторах, а основная гипотеза заключалась в том, что распределение таких грантов приведет к будущему успеху компании и более широкому росту в секторе.

Мы использовали данные об исследовательских грантах и ​​венчурных инвестициях в стартапы и применили метод причинно-следственной связи, чтобы оценить, что исследовательские гранты увеличивают вероятность будущего успеха стартапа более чем на 20%.

Вывод о влиянии исследовательских грантов на успех стартапа

Нас побудили изучить влияние исследовательских грантов на успех компании из-за наших исследований в области низкоуглеродных технологий отопления. Мы обнаружили разрыв между сильным государственным финансированием исследований и разработок в области этих технологий и относительно слабыми частными венчурными инвестициями. Учитывая эти темпы государственного финансирования, нам было любопытно, следует ли нам ожидать более высокого роста венчурных инвестиций в будущем.

Это также область, где мы можем сопоставить результаты наших экспериментов с предыдущими исследованиями, проведенными другими. Например, исследование, проведенное Министерством бизнеса, энергетики и промышленной стратегии в 2020 году, показало, что каждый 1 фунт стерлингов предоставленных грантов приводит к увеличению частных инвестиций на 0,41–0,74 фунта стерлингов в первый год и на 1,96–1,96 фунта стерлингов. 2,34 фунта стерлингов в долгосрочной перспективе.

Связь между грантами и будущими частными инвестициями также недавно рассматривалась для компаний, основанных на базе высших учебных заведений (спин-ауты). Дочерние компании, получившие финансирование от Innovate UK и British Business Bank, получили более крупные суммы частных инвестиций (7,3 млн фунтов стерлингов против 1,6 млн фунтов стерлингов за первые восемь лет) и имели больше инвестиционных раундов (в среднем 4,6 против 2,9 раундов). ) по сравнению с спин-аутами без такого финансирования.

Здесь мы используем те же наборы данных, что и в нашем предыдущем исследовании прогнозирования успеха компании. Связав данные Crunchbase, Gateway to Research и BEIS/Nesta Research & Development, мы создали набор данных, содержащий более 30 000 британских компаний с информацией о компании, учредителях, инвестициях, инвесторах, исследовательских грантах и ​​местоположении. индикаторы.

Мы включили все британские компании, которые были основаны в период с начала 2011 г. по конец 2018 г. и еще не были приобретены или не проводили первичное публичное размещение акций (IPO) в течение этого периода времени. Информация, доступная во входных переменных, была ограничена, чтобы смоделировать то, что было бы доступно в конце 2018 года. Затем будущий успех этих компаний определялся тем, получат ли они дальнейшие инвестиции, будут ли они приобретены или проведут IPO в период между 2019 годом. и 2022.

Прогнозы и эффекты вмешательства

Прогнозирование можно рассматривать как оценку значения одной переменной при условии, что вы наблюдали другую переменную (или набор переменных). Например, если у нас есть несколько прошлых наблюдений за дующим ветром и тряской ветки, когда мы наблюдаем тряску ветки, мы можем предсказать, что дует ветер.

Традиционные методы машинного обучения хорошо справляются с такими прогнозами. Однако эти методы не используют никакой информации, касающейся причинно-следственных связей между ветром и веткой.

Понимание эффекта вмешательства можно рассматривать как расчет увеличения вероятности исхода при условии, что произошло другое событие. Используя предыдущий пример, что произойдет с ветром, если в него вмешается человек, трясущий ветку?

Если бы мы посмотрели на прошлые наблюдения, мы могли бы сделать ошибочный вывод, что когда кто-то трясет ветку, дует ветер. Мы знаем, что это не так, потому что понимаем причинно-следственную связь между этими двумя событиями. Это пример ассоциации, не являющейся причинно-следственной связью.

Методы причинно-следственного вывода используют как данные, так и теорию причинно-следственных связей и, следовательно, обеспечивают принципиальный подход к оценке эффекта вмешательств, который может дать информацию для принятия решений о том, какие действия следует предпринять.

Причинно-следственные связи могут быть отображены на причинно-следственном графике, где каждый соответствующий фактор представлен в виде узла, а причинно-следственная связь представлена ​​стрелками между узлами. Причинно-следственная связь между ветром и узлами ветвления показана на рисунке ниже.

Средние эффекты лечения

В идеале, чтобы рассчитать причинно-следственный эффект вмешательства для отдельного случая, мы должны измерить результат как с вмешательством, так и без него. Проблема с попытками оценить индивидуальные причинные эффекты заключается в том, что в реальной жизни имеет место только один из результатов.

Например, если у вас болит голова, и вы принимаете таблетку, и головная боль проходит, вы не можете сравнить то, что произошло бы, если бы вы не приняли таблетку: вы не можете наблюдать контрфактическое. Поэтому невозможно рассчитать причинно-следственный эффект на индивидуальном уровне.

Однако можно оценить средний эффект лечения (ATE) в популяции. Рандомизированные контролируемые испытания (РКИ) — один из методов оценки ATE. В РКИ участникам случайным образом назначают либо получать, либо не получать вмешательство, затем измеряются результаты и рассчитывается ATE. Из-за рандомизации РКИ в этом случае связь можно интерпретировать как причинно-следственную связь.

Для некоторых видов вмешательств проведение РКИ может оказаться невозможным или неэтичным. Методы причинно-следственной связи можно использовать для получения выводов, аналогичных результатам РКИ, но вместо этого с использованием данных наблюдений. Данные наблюдений фиксируют данные об исходах, но в тех случаях, когда вмешательства не были назначены случайным образом. Затем можно использовать статистические методы для оценки причинного эффекта на основе данных наблюдений.

Причинно-следственный анализ

Для выполнения причинно-следственного анализа мы использовали библиотеку Python DoWhy, которая предоставляет инструменты для четырехэтапного процесса моделирования, идентификации, оценки и опровержения. Эти шаги более подробно описаны ниже.

Шаг 1: Создание причинно-следственной диаграммы

Как упоминалось выше, методы причинно-следственного вывода используют как данные, так и причинно-следственные связи между данными. Эти причинно-следственные связи записываются на графике, где каждый узел представляет собой переменную в наборе данных, а каждая стрелка представляет причинно-следственную связь. Причинно-следственные графы лучше всего разрабатывать с экспертами в предметной области. Наш график показан ниже, и на его дизайн повлияли наши консультации с коллегами из команд Nesta Impact Investments и Mission Studio.

Интересно отметить наш опыт проведения этих консультационных семинаров. Мы использовали доску Миро, на которой были все переменные в наборе данных, и в ходе обсуждений с нашими коллегами мы стремились провести стрелки между переменными, чтобы указать причинно-следственные связи.

Это натолкнуло на размышления и заставило нас более внимательно рассмотреть систему, с которой мы работаем (здесь — мир венчурных капиталистов и стартапов), а также выявило пробелы в наших наборах данных. Эти пробелы связаны с:

  • Отсутствующие данные, такие как финансовые отчеты компании и местная инновационная экосистема (для восполнения этого пробела были добавлены данные BEIS/Nesta Research & Development);
  • Более тонкие моменты, которые сложнее уловить с помощью данных, но, тем не менее, они имеют решающее значение, когда венчурные капиталисты рассматривают возможность инвестирования в компанию, например, «решает ли компания болевые точки на рынке» или «делает ли компания что-то в 10 раз лучше». .

Признавая наличие пробелов, мы интерпретировали результаты консультаций, чтобы получить окончательный причинно-следственный график (обратите внимание, что в этой визуализации мы пропустили некоторые узлы, относящиеся к отраслевым и географическим факторам, для ясности).

Шаг 2. Определение причин

Следующий шаг — использовать причинно-следственную диаграмму, чтобы проверить, можно ли ответить на наш вопрос — каков средний причинно-следственный эффект получения гранта на успех компании — исходя из нашего текущего уровня знаний. Если на наш вопрос можно ответить, будет определена формула вероятности, которую можно статистически оценить, используя данные на следующем шаге, чтобы ответить на наш вопрос.

Шаг 3: Оценка среднего воздействия гранта на будущий успех компании

Теперь, когда у нас есть рецепт ответа на причинный вопрос, мы можем оценить эффект, используя статистические методы или методы оценки машинного обучения. Чтобы оценить эффект лечения, мы должны иметь возможность отделить эффект лечения от влияния других искажающих факторов.

Мы используем метод, называемый взвешиванием показателей склонности. Этот метод моделирует механизм назначения лечения путем оценки вероятности получения компанией гранта. Этот метод помогает отделить эффект лечения от других различий между группой, получившей грант, и группой, не получившей гранта. Таким образом, группы сопоставимы и позволяют нам оценить разницу в успехе, вызванную получением гранта компанией.

Различия в успехе можно рассчитать и усреднить, чтобы получить средний эффект лечения.

Мы обнаружили, что предполагаемый эффект получения компанией гранта приводит в среднем на 22,3% (95% доверительный интервал: 20,4% — 24,3%) к увеличению вероятности будущего успеха. Точно так же предполагаемый эффект от получения компанией гранта UKRI приводит к увеличению в среднем на 22,8% (95% доверительный интервал: 20,0% — 25,0%).

Шаг 4: Опровержение — проверка надежности модели

Недостатком методов причинно-следственного вывода является то, что предположения в причинно-следственном графике трудно проверить, а качество результатов, которые они производят, трудно оценить. Есть несколько методов, которые можно использовать для опровержения оценки, например:

  • Моделирование плацебо и проверка того, что предполагаемый причинный эффект близок к 0%;
  • Добавление случайной величины в качестве общей причины и проверка того, что предполагаемый причинный эффект не меняется;
  • Использование подмножества набора данных, а не полного набора данных, и проверка того, что предполагаемый причинно-следственный эффект остается таким же, как при использовании полного набора данных.

Эти тесты изменяют оценку и вычисляют новый эффект с соответствующим p-значением. Если p-значение ниже 0,05, мы можем сказать, что оценщик не прошел тест опровержения. Наша оценка оказалась устойчивой к этим опровержениям, при этом все p-значения превышали 0,05.

Заключение

Итак, что это значит? Это предполагает, что предоставление грантов компаниям (как, например, делает Innovate UK), вероятно, представляет собой эффективное политическое вмешательство, поскольку повышает их шансы на привлечение дополнительных инвестиций, выход на биржу или приобретение.

Это неудивительно и согласуется с интуицией и другими существующими данными, но работа заложила основу для продолжения экспериментов с этой методологией и использования ее в будущих проектах Discovery Hub.

Интересно, что эффект от получения исследовательского гранта на успех компании оказался весьма существенным (более 20%). Из нашего анализа прогнозов с использованием более традиционных методов машинного обучения модель не обнаружила, что функции, связанные с исследовательскими грантами, очень важны для прогнозирования. Это показывает различия в этих подходах и подчеркивает, что важность функций не отражает причинно-следственные связи.

Мы могли бы еще больше улучшить этот анализ, расширив диапазон источников данных, чтобы получить больше информации о компаниях, таких как доходы, патенты, СМИ и политический дискурс, новизна работы компании, текстовые данные из описаний компаний и разнообразие навыков. персонала.

Эту работу также можно продолжить путем изучения влияния исследовательских грантов в конкретных секторах, поскольку возможно, что в некоторых секторах гранты имеют различный эффект. Мы особенно заинтересованы в изучении секторов, наиболее важных для миссии Nesta, например, экологически чистых технологий, пищевых технологий и дошкольного образования.

Спасибо Карлису Кандерсу за его руководство на протяжении всего проекта и его вклад в этот блог. Мы благодарим отдел аналитики данных Nesta за предоставление шлюза для исследований и данных бизнес-аналитики Crunchbase. Мы благодарны Алексу Гилберту и Алексу Хуку за их идеи и советы о стартапах и инвестициях. Мы благодарим Селию Хэннон, Федерико Андреиса и Шивон Чан за полезные комментарии к этой статье.

Если вы хотите обсудить проект подробнее, напишите об этом в комментариях ниже. Код этой работы доступен на Github здесь и здесь. К сожалению, к набору данных Crunchbase нельзя предоставить общий доступ, так как он содержит проприетарные данные, в то время как Gateway to Research и пространственные данные исследований и разработок BEIS/Nesta находятся в открытом доступе.