Недавно искусственный интеллект раздвинул границы за пределы привычных нам голосовых и текстовых помощников, углубившись в саму ткань игрового процесса. Приготовьтесь удивиться, когда мы раскроем тайны Призрака в Minecraft (GITM) — агента ИИ, который вдохнет новую жизнь в эту культовую игру-песочницу.

В этой статье мы углубимся во внутреннюю работу GITM, изучая глубину его разработки, его экстраординарные возможности и то, как он отличается от других предшественников, применяя большие языковые модели с обучением с подкреплением.
Вся информация, представленная в этой статье, основана на исследовании, опубликованном 25 мая 2023 г.

Что такое ГИТМ?

Ghost In The Minecraft (GITM) — это новый фреймворк, который интегрирует модели больших языков (LLM) с текстовыми знаниями и памятью с целью создания агентов с общими способностями (GCA) в Minecraft.

Обычно обучение с подкреплением (RL) используется в задачах, относящихся к автономным транспортным средствам, робототехнике и видеоиграм.
Однако дилемма агентов на основе RL заключается в том, как сопоставить чрезвычайно долгосрочную и сложную цель с последовательность операций клавиатуры/мыши самого низкого уровня.

Вот почему GITM использует агенты на основе большой языковой модели (LLM) в качестве новой парадигмы вместо прямого сопоставления, такого как агенты RL.

Каковы возможности GITM?

Возможности, которые устанавливают GITM:

  1. Открытие всего дерева технологий путем получения всех предметов:
    GITM может собирать все 262 элемента в Minecraft, а не только определенный предмет или выполнение определенной задачи.
  2. Показатель успеха для всего дерева технологий:
    методы GITM могут обеспечить 100%-й уровень успеха для простых задач, таких как сбор деревянных инструментов, и добиться ненулевого уровня успеха для всех предметов, что указывает на хороший сбор способность.

ниже показан показатель успешности GITM (синий) и других агентов (другие цвета), начиная с костей и говядины и заканчивая алмазными и золотыми яблоками.

Как работает GITM:

Как упоминалось ранее, одной из слабых сторон обучения с подкреплением является его применение к долгосрочным целям и сопоставление таких целей с низкоуровневыми операциями с клавиатурой/мышью. Чтобы преодолеть эту проблему, Ghost In The Minecraft (GITM) предлагает использовать агенты на основе больших языковых моделей (LLM), которые используют иерархическую декомпозицию целей.

Цель задачи постепенно разбивается на подцели, структурированные действия и операции с клавиатурой/мышью с использованием следующих компонентов:

  1. LLM Decomposer: этот компонент разбивает цель задачи на ряд более достижимых подцелей. Каждая подцель имеет формат (Объект, Количество, Материал, Инструмент, Информация).
    Здесь «Объект» представляет целевой предмет (например, деревянную кирку), «Количество» обозначает количество этого предмета (например, 1 часть деревянной кирки), «Материал» и «Инструмент» относятся к предварительные условия, необходимые для получения целевого предмета (например, дерева), а «Информация» хранит текстовые знания, связанные с целью (например, использование деревянной кирки).
  2. Планировщик LLM: этот компонент отлично справляется с пониманием языка и рассуждениями, но может иметь проблемы с низкоуровневым контролем и мультимодальным восприятием. Чтобы устранить эту слабость, были разработаны два отдельных компонента:
    1. Структурированные действия. Эти действия имеют формат (имя, аргументы, описание). Имя и аргументы определяют желаемое действие для выполнения агентом, в то время как описание предоставляет LLM достаточно информации, чтобы определить, когда выбирать соответствующие действия.
    — 2. Механизмы обратной связи:
    Эти Механизмы предоставляют информацию о текущем состоянии агента в среде, а также информацию об успешном и неудачном завершении каждого выполненного действия.
  3. Интерфейс LLM: этот интерфейс служит для реализации структурированных действий в виде операций клавиатуры/мыши и извлекает наблюдения из среды в сообщения обратной связи.

Что отличает GITM:

Во-первых, это использование больших языковых моделей (LLM) с обучением с подкреплением (RL), которое устраняет слабые стороны RL.
GITM использует базу знаний, полученную из Minecraft Wiki и рецептов создания/переплавки предметов, предоставляя обширный и всеобъемлющий ресурс знаний о мире Minecraft.

Например, если нам нужно изготовить деревянную кирку, в рецепте крафта предмета указано, что требуемые материалы — это три доски и две палки, а в качестве необходимого инструмента — верстак.

Во-вторых, GITM имеет возможность собрать все 262 предмета в Minecraft, используя ранее упомянутый метод, что отличает его от других агентов, таких как VPT и Dreamerv3.
Вот видео о том, как GITM находит и создает самые сложные предметы Minecraft:

В-третьих, GITM демонстрирует замечательную эффективность обучения. В то время как агентам RL обычно требуются десятки миллионов шагов для обучения и обновления параметров, прежде чем достичь значимых ненулевых показателей успеха, показатель успеха метода GITM увеличивается с 35% до 47,5% в течение первых пяти тысяч шагов.

Заключить:

Точно так же, как успех GITM демонстрирует силу объединения LLM с RL, я считаю, что эта концепция верна для многих великих достижений в нашем мире.

Основываясь на этой идее, всегда полезно иметь знания в смежных областях, независимо от вашей собственной области знаний.

Независимо от того, являетесь ли вы инженером по компьютерному зрению, инженером по обработке естественного языка или даже инженером по робототехнике, изучение областей, подобных вашей, может принести многочисленные преимущества.

Кто знает, может быть, ваш проект привлечет всеобщее внимание и станет притчей во языцех на месяцы, а то и годы!

Если вам понравилась статья и вы хотите меня поддержать, сделайте следующее: