Публикации по теме 'reinforcement-learning'
Основные моменты плакатов ICLR 2018 (часть 1)
В этом году Международная конференция по образовательным представительствам (ICLR) проходила в прекрасном Ванкувере, Канада, и это краткий отчет о поездке, которым я поделился со своей командой. Поскольку я не нашел ни одной записи в блоге об ICLR2018, я решил поделиться отчетом на Medium. Но прежде чем продолжить чтение, имейте в виду, что это происходит через мои предвзятые взгляды и только на те области, которые меня интересуют.
Вы можете посмотреть каждое выступление и выступить здесь..
Начало работы с автономной обучающей библиотекой
Autonomous Learning Library - это библиотека на основе PyTorch, предназначенная для быстрого внедрения новых агентов обучения с подкреплением. В этой статье описывается базовая философия проектирования и архитектура библиотеки, чтобы вы могли начать создание собственных агентов.
Если эта статья вам знакома, возможно, вы читали документацию . Это также может быть связано с тем, что вы видели сообщение Синхронизировано , в котором использовались изображения из документации. Спасибо..
PEDRA — Программируемый движок для обучающих приложений с дронами
PEDRA — программируемый движок для обучающих приложений для дронов
Платформа Python для дронов в 3D-средах
Перейти к коду: Репозиторий PEDRA GitHub
Что такое ПЕДРА?
PEDRA — это программируемый движок для приложений Drone Reinforcement Learning (RL). Движок разработан на Python и программируется по модулям. PEDRA в основном нацелена на решение целевых проблем RL для дронов, но может быть расширена и на другие проблемы, такие как SLAM и т. д. Движок взаимодействует с игровым..
Введение в обучение с подкреплением
Обучение с подкреплением (RL) — это подобласть машинного обучения, которая фокусируется на обучении агентов принимать последовательные решения в среде для максимизации сигнала вознаграждения. В последние годы RL привлекло значительное внимание благодаря своей способности решать сложные проблемы без явного контроля.
Ключевые идеи
Агент
Агент — это сущность, которая взаимодействует с окружающей средой. Он наблюдает за текущим состоянием окружающей среды, предпринимает действия и..
Раскрытие возможностей обучения с подкреплением: от игр к реальным задачам
Раскрытие возможностей обучения с подкреплением: от игр к реальным задачам
В последние годы в области машинного обучения произошли замечательные успехи, и одна конкретная ветвь выделяется своей способностью решать сложные проблемы принятия решений: обучение с подкреплением (RL). RL получила широкое признание благодаря своим прорывам в играх, таким как мастерство AlphaGo в древней китайской игре Го. Однако потенциал RL выходит далеко за рамки игр, и его применение в реальных задачах..
Концепция машинного обучения 63: Обучение с подкреплением.
Обучение с подкреплением:
В машинном обучении одной из важнейших областей является обучение с подкреплением (RL), которое представляет собой подполе машинного обучения, которое позволяет агентам учиться, взаимодействуя со своей средой путем проб и ошибок. Алгоритмы RL учатся принимать решения, максимизируя сигнал вознаграждения, полученный из окружающей среды. RL использовался в различных приложениях, таких как игры, робототехника и автономное вождение. В этой статье мы обсудим..
В QLearning, как агент учится?
В мире обучения с подкреплением Q-Table представляет собой простую справочную таблицу, которая предоставляет «максимальные ожидаемые будущие вознаграждения» за действия в каждом из состояний среды.
Возьмем пример приведенной ниже среды «мира сетки»: в ней есть «агент», расположенный в самой нижней левой ячейке, и есть 11 состояний (исключая серое), в которых может присутствовать агент. Есть два терминальных состояния — «+1» и «-1», и от агента требуется найти кратчайший путь к «+1». Агент..
Новые материалы
Как работает передача сообщений в машинном обучении, часть 3
Передача сообщений дальнего действия для молекулярных графов на основе Эвальда (arXiv)
Автор: Артур Космала , Йоханнес Гастайгер , Николас Гао , Стефан Гюннеманн .
Аннотация: Нейронные..
Я создаю js-фреймворк безголового менеджера вкладок
Недавно я написал фреймворк менеджера вкладок, который вы можете собрать самостоятельно с любым фреймворком пользовательского интерфейса, и результат такой:
URL-адрес проекта..
Как работает машинное обучение в AWS
Откройте для себя облачные возможности для обучения своих моделей
ChatGPT появился неожиданно и удивил многих из нас. Искусственный интеллект продемонстрировал экстремальные результаты, дав..
Классификация текста с Prevision.io
Простой способ создать классификатор текста с помощью Prevision.io
В этом посте мы покажем, как всего за несколько минут платформа Prevision.io может выполнять автоматическую обработку..
5 полезных классов средств разработки Java
Я работал много лет и писал много повторяющегося кода. Позже я кратко изложил некоторые практические инструменты. С помощью этих инструментов вы можете сократить кодирование и больше думать,..
Метатеги Open Graph в Meteor с использованием серверного рендеринга
Простой способ динамически добавлять метатеги для удобных ссылок
Если вы зашли на эту страницу, вы, скорее всего, разрабатываете с помощью Meteor, и вам было интересно, как сделать так, чтобы..
Темы проектов последнего года
Получите идею проекта отсюда…
Следуя своей программе на получение степени, вы должны выполнить исследовательский проект, связанный с ИТ, CS, AI, IS или любой другой технологией. Исследования..