Обучение с подкреплением: введение оправдывает свое название. Это полное введение в обучение с подкреплением, которое также известно как RL. Книга написана как для студентов, так и для людей, проявляющих общий интерес к машинному обучению. Хотя знание математической теории помогло бы понять некоторые из представленных концепций, в этом нет необходимости.

Эта книга будет полезным руководством для профессионалов в нескольких областях. Искусственный интеллект тесно связан с человеческим обучением. Таким образом, понимание того, насколько глубоко можно научить машины учиться, было бы полезно учителям, юристам и другим специалистам, которые ежедневно выявляют и решают проблемы, связанные с человеческим мышлением. Сначала можно пропустить более технические концепции. Те, кому это интересно, могут прочитать справочную информацию и вернуться к этим областям позже, не пропуская общие уроки, которые преподаются в книге.

Учитывая все обстоятельства, на первый взгляд кажется, что RL требует высокого уровня подготовки в области математических рассуждений. В какой-то степени это делает книгу неестественной. Существует много места для новаторства, и основные идеи очень ясны. Это одна из лучших книг по ИИ. Несмотря на то, что материал не столь однозначен, все доступно разъяснено и книга понятна для людей, не знакомых с идеями.

Эта книга снабжена иллюстрациями и вопросами, предназначенными для проработки читателем, чтобы получить представление о материале. Я настоятельно рекомендовал бы его различным профессионалам в области науки, которые надеются развить более глубокое понимание вычислительной стороны своей работы. Этим могут наслаждаться люди, происходящие из различных областей.

2. Введение в обучение с подкреплением
Люди получают пользу от обучения с подкреплением каждый день. Геймеры, возможно, заметили, что ПК теперь могут сами понять, как играть в ATARI. По сути, они обыгрывают обладателей титула. Роботы выясняют, как бегать и прыгать или выполнять сложные задачи управления, которые противостоят однозначному программированию. Неудивительно, что все эти достижения в области технологий попадают под эгиду исследований RL.

Обучение с подкреплением — это своего рода машинное обучение. Впоследствии это ветвь искусственного интеллекта. Это позволяет машинам и операторам-программистам естественным образом выбирать идеальное поведение в конкретной обстановке. Конкретной конечной целью является расширение его исполнения. Оператору требуется базовый ввод вознаграждения, который известен как сигнал поддержки. Обучение с подкреплением позволяет машинисту или специалисту по программированию анализировать свое поведение с учетом критики или положительных отзывов со стороны природы. Этому поведению можно научиться в последний раз или продолжать корректировать его по прошествии времени.

Если проблема будет продемонстрирована с осторожностью, некоторые расчеты обучения с подкреплением могут соответствовать общемировому идеалу. Это считается совершенным поведением, которое увеличивает награду. Этот компьютеризированный план обучения предполагает, что мастеру-человеку, который думает о области применения, не требуется. На планирование ответа будет потрачено гораздо меньше времени, поскольку нет необходимости вручную составлять сложные схемы принципов, как в случае с экспертными системами, и все, что требуется, — это кто-то, знакомый с обучением с подкреплением.

Люди превосходят ожидания в объяснении широкого круга проблем тестирования, от низкоуровневого управления двигателем до интеллектуальных заданий в ненормальных состояниях. Цель людей, которые применяют обучение с подкреплением в реальных ситуациях, состоит в том, чтобы использовать машины для создания поддельных специалистов, которые могут достичь уровня исполнения, сравнимого с человеческими существами. Как и люди, специалисты по машинам учатся для себя выполнять эффективные процедуры, которые обеспечивают наилучшие долгосрочные вознаграждения.

Это мировоззрение обучения путем экспериментов, исключительно из призов или дисциплин, является целью разработчиков RL. Как и люди, машины развиваются и получают свое собственное особое обучение именно из сырых источников данных, например, зрения, без компонентов ручной сборки или космической эвристики. Это достигается путем глубокого обучения через их нейронные системы. Некоторые группы возглавили смешение этих методологий, чтобы смоделированные операторы выполняли действия на уровне человека во многих тестовых пространствах.

3. Что отличает обучение с подкреплением от других методов машинного обучения
Обучение с подкреплением отличается тем, что оно характеризуется не описанием конкретных методов обучения, а скорее изображением проблемы обучения. Любая стратегия, подходящая для решения этой проблемы, считается методом обучения с подкреплением. Полное определение проблемы обучения с подкреплением в отношении марковских процедур выбора содержится в главе 3. Основная мысль книги состоит в том, чтобы просто уловить наиболее важные части подлинной проблемы, с которой сталкивается обучающийся специалист, соединяющийся со своим окружением для достижения цели.

Безошибочно оператор должен иметь возможность в некоторой степени определять состояние своего окружения и должен иметь возможность предпринимать действия, влияющие на состояние. Оператор также должен иметь цель или задачи, связанные с состоянием их окружения. В книге показано, что план оператора должен включать три точки зрения — ощущение, деятельность и цель — в их простейших мыслимых структурах, не упрощая ни одну из них.

Это не то же самое, что управляемая обработка информации с участием внешней стороны, вид обучения, рассматриваемый в большинстве исследований потоков в области машинного обучения. Это также не тот тип машинного обучения, который можно увидеть в фактических примерах подтверждения и фальшивых нейронных системах. В интеллектуальных вопросах обычно нереально получить случаи воображаемого поведения, которые были бы и правильными, и иллюстрирующими значительное количество обстоятельств, в которых должен действовать специалист. В незнакомых областях, где можно было бы ожидать, что обучение будет наиболее полезным, специалист должен иметь возможность извлекать выгоду из своего собственного участия в пространстве, в котором он находится.

Одной из трудностей, возникающих в RL, а не в других видах машинного обучения, является обмен между исследованием и неправильным использованием. Чтобы получить большое вознаграждение, специалист по RL должен склоняться к действиям, которые он предпринимал в прошлом и считал убедительными для создания вознаграждения. Как бы то ни было, чтобы найти такие действия, ему нужно попробовать действия, которые он не выбирал в последнее время. Оператору необходимо исследовать конкретную конечную цель — улучшить выбор действий позже. Затруднение состоит в том, что ни расследование, ни злоупотребление не могут быть проведены без того, чтобы не провалиться.

Оператор должен пробовать различные виды деятельности и динамически поддерживать те из них, которые, по общему мнению, кажутся идеальными. В стохастическом задании каждое действие должно быть предпринято совместно, чтобы получить надежную меру его нормального вознаграждения. Математики уже давно серьезно рассматривают проблему неправильного использования при расследовании и исследуют ее в главе 2 книги.

Еще одним ключевым элементом RL является то, что он недвусмысленно рассматривает весь вопрос объективного согласованного специалиста, связанного с сомнительной ситуацией. Это интересно со многими методологиями машинного обучения, которые рассматривают подзадачи, не обращая внимания на то, как они могут вписаться в более широкую картину. Например, разные ученые выдвигали гипотезы о постановке общих целей. Без рассмотрения вопроса о том, откуда берутся провидческие модели, лежащие в основе организации, создание этих целей может быть затруднено. Несмотря на то, что эти методологии дали многочисленные ценные результаты, их упор на обособленные подзадачи является примечательным ограничением. Это одна из проблем большинства методов машинного обучения.

RL придерживается противоположного подхода, начиная с полного, интуитивно понятного и объективного поиска оператора. Все операторы RL имеют четкие цели, могут обнаруживать части своего окружения и могут выбирать действия, которые воздействуют на их окружение. Кроме того, обычно ожидается, что с самой ранней отправной точки оператор должен работать, несмотря на заслуживающую внимания уязвимость окружающей среды, с которой он сталкивается. В тот момент, когда машинное обучение включает в себя создание чего-то нового, оно должно учитывать баланс между постоянным выбором действий и вопросом о том, как создаются и улучшаются естественные модели. В тот момент, когда RL включает в себя управляемое обучение, оно делает это по определенным причинам, которые определяют, какие способности являются базовыми, а какие нет. Для того, чтобы обучение исследованию закрепилось, жизненно важные подпроблемы должны быть отстранены и рассмотрены. Они должны быть подзадачами, которые включают в себя четкие, интуитивно понятные и объективные части для специалистов, несмотря на возможность того, что все точки интереса общего оператора еще не могут быть заполнены.

4. Примеры успешного обучения с подкреплением
Есть несколько случаев, когда разработчики успешно использовали RL для решения проблем. Люди, пользующиеся этой книгой, могут найти применение своим знаниям в сборнике, созданном Сатиндером Сингхом, который подготовил краткий обзор успехов RL. Любой адекватно созданный расчет RL дает волшебные возможности. Это может быть в значительной степени полезно во многих областях.

Краткое изложение случаев, когда можно применять RL, показывает, что его можно использовать для улучшения решений, которые уже существуют для спортсменов, ветеранов и кинематографистов. Даже в рекламе и продажах RL можно использовать для ранжирования инноваций, используя однократное изучение продуктов. Это помогает компаниям находить новых клиентов, которые принесут больше денег в их компанию. Показ роботам новых поручений при сохранении более ранней информации помогает улучшить игры. RL использовался для вывода сложных прогрессивных планов, от шахматных гамбитов до систем обмена.

Новаторы RL найдут приятное расположение иллюстраций, начиная от управления роботом и заканчивая играми и принятием деловых решений, таких как оценка и управление запасами. RL довольно активно используется как часть механической технологии. Возможно, одним из недостатков книги в этом отношении является то, что она ориентирована на людей старшего возраста. С развитием технологий очень маленькие дети начинают интересоваться такими темами, как искусственный интеллект. Если бы более молодой читатель был заинтересован в изучении RL, эта книга могла бы быть для него слишком сложной. Однако у них может быть столько же идей для применения уроков, представленных в книге, сколько у пожилых людей.

5. Обеспечение прочной основы
Дополнительное обучение: Введение обеспечивает прочную основу для учащихся, которые хотят больше узнать о том, как компьютеры и машины, которыми мы ежедневно пользуемся, могут влиять на мир. Обучение имеет основополагающее значение для роста, и по мере того, как наше общество улучшается, мы склонны все чаще полагаться на машины. В этой книге показаны все способы, которыми машины, которые мы используем, могут быть приспособлены для принятия решений без вмешательства человека.

Хотя руководство от людей иногда необходимо, существует множество основных задач, которые можно выполнять без необходимости постоянно проверять или предоставлять информацию или определять параметры поведения. Когда робот создан для стрижки травы, он может использовать машинное обучение, чтобы решить, что делать с пшеницей, если она встретит слизняка. Вместо того, чтобы просто бегать прямо по нему, он может отклонять и сохранять информацию, чтобы вернуться к этому месту.

Поскольку RL решает проблемы и работает оттуда, это дает ему значительное преимущество перед всеми существующими формами машинного обучения. Скорее всего, это одна из лучших книг, которые будут читать студенты, изучающие искусственный интеллект, в этом году. Создатели оказывают невероятную поддержку этому предмету с помощью числовых и вычислительных инструментов. Хотя это преимущество для тех, кто хорошо разбирается в математике, это может быть и недостатком.

Есть люди, которые могут интересоваться ИИ, но не хотят видеть никаких математических терминов просто потому, что чувствуют себя напуганными или испуганными. Если эти люди смогут пропустить математику, они все равно получат хорошую основу в концепциях, представленных в книге. Они также поймут обсуждения, связанные с областью в реальной жизни, и смогут внести соответствующие коррективы в свою работу. Это важно, поскольку ИИ теперь является неотъемлемой частью любой отрасли и повлияет на всех нас, независимо от того, готовы мы иметь с ним дело или нет.