Игра Го зародилась в Китае более 2500 лет назад. Об игре писал Конфуций, и она считается одним из четырех основных искусств, необходимых любому истинному китайскому ученому. Играют более 40 миллионов человек по всему миру, правила игры просты: игроки по очереди расставляют черные или белые камни на доске, стараясь захватить камни соперника или окружить пустое пространство, чтобы получить очки территории. В эту игру играют, прежде всего, через интуицию и чувства, и благодаря своей красоте, тонкости и интеллектуальной глубине она веками захватывает человеческое воображение.

Но какими бы простыми ни были правила, игра в го очень сложна. Существует 1 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 →

Именно из-за этой сложности игра в Го становится трудной для компьютеров и, следовательно, представляет собой непреодолимую проблему для исследователей искусственного интеллекта (ИИ), которые используют игры в качестве испытательного полигона для изобретения умных, гибких алгоритмов, которые могут решать проблемы, иногда так же, как люди. Первой игрой, освоенной компьютером, были крестики-нолики (также известные как крестики-нолики) в 1952 году. Затем в 1994 году посыпались шашки. В 1997 году Deep Blue лихо обыграли Гарри Каспарова в шахматы. Это не ограничивается настольными играми — Ватсон [PDF] от IBM победил двух чемпионов в Jeopardy в 2011 году, а в 2014 году наши собственные алгоритмы научились играть в десятки игр Atari только благодаря сырым пиксельным входам. Но на сегодняшний день Go мешает исследователям ИИ; компьютеры до сих пор играют только в го, как и любители.

Традиционные методы ИИ, которые строят дерево поиска по всем возможным позициям, в Go не имеют шансов. Поэтому, когда мы решили взломать Go, мы выбрали другой подход. Мы построили систему AlphaGo, которая сочетает в себе расширенный поиск по дереву с глубокими нейронными сетями. Эти нейронные сети принимают описание доски Go в качестве входных данных и обрабатывают его через 12 различных сетевых слоев, содержащих миллионы нейроноподобных соединений. Одна нейронная сеть, политическая сеть, выбирает следующий ход для игры. Другая нейронная сеть, сеть ценности, предсказывает победителя игры.

Мы обучили нейронные сети 30 миллионам ходов из игр, в которые играли люди-эксперты, пока они не смогли предсказать ход человека в 57 процентах случаев (предыдущий рекорд до AlphaGo был 44 процента). Но наша цель — победить лучших игроков-людей, а не просто подражать им. Для этого AlphaGo научилась открывать для себя новые стратегии, играя в тысячи игр между своими нейронными сетями и настраивая связи с помощью процесса проб и ошибок, известного как обучение с подкреплением. Конечно, все это требует огромных вычислительных мощностей, поэтому мы активно использовали Google Cloud Platform.

После всех этих тренировок пришло время испытать AlphaGo. Во-первых, мы провели турнир между AlphaGo и другими топовыми программами в авангарде компьютерного го. AlphaGo выиграла все 500 игр, кроме одной, против этих программ. Поэтому следующим шагом было пригласить в наш лондонский офис на матч-вызов действующего трехкратного чемпиона Европы по го Фань Хуэя — элитного профессионального игрока, посвятившего свою жизнь го с 12 лет. В закрытом матче в октябре прошлого года AlphaGo выиграла со счетом 5: 0. Это был первый раз, когда компьютерная программа обыграла профессионального игрока в го. Подробнее вы можете узнать в нашей статье, опубликованной сегодня в Nature.

Что дальше? В марте AlphaGo столкнется с важнейшим испытанием: матчем из пяти игр в Сеуле против легендарного Ли Седоля — лучшего игрока в го в мире за последнее десятилетие.

Мы очень рады, что освоили Go и, таким образом, достигли одной из грандиозных задач ИИ. Однако самым важным аспектом всего этого для нас является то, что AlphaGo — это не просто экспертная система, построенная по правилам, созданным вручную; вместо этого он использует общие методы машинного обучения, чтобы выяснить, как выиграть в го. Хотя игры являются идеальной платформой для быстрой и эффективной разработки и тестирования алгоритмов искусственного интеллекта, в конечном итоге мы хотим применить эти методы для решения важных реальных проблем. Поскольку методы, которые мы использовали, являются универсальными, мы надеемся, что однажды их можно будет расширить, чтобы помочь нам решать некоторые из самых сложных и насущных проблем общества, от моделирования климата до анализа сложных заболеваний. Мы рады видеть, что мы можем использовать эту технологию, чтобы решить дальше!