Я реализую алгоритм Q-обучения и заметил, что мои Q-значения не сходятся к оптимальным Q-значениям, хотя политика, кажется, сходится. Я определил стратегию выбора действия как эпсилон-жадный, а эпсилон уменьшается на 1/N, начиная с 1 (N — общее количество итераций). Таким образом, на более ранних итерациях алгоритм исследует случайные состояния, затем эта скорость постепенно снижается, что приводит к эксплуатации. Кроме того, я определил скорость обучения как 1/N_t(s,a), где N_t(s,a) — общее количество посещений (s,a).
Вроде бы все правильно, но поскольку я не могу подобрать оптимальные значения Q, я начал искать разные стратегии и тем временем совсем запутался. Я знаю, что сходимость достигается, когда все пары (s,a) посещаются бесконечно часто. Разве это не эквивалентно утверждению, что все пары (s,a) исследуются много раз? Другими словами, зачем нужна эксплуатация конвергенции? Что, если мы не будем эксплуатировать и просто сосредоточимся на изучении? Если мы это сделаем, мы проверим все пространство решений, следовательно, разве этого не должно быть достаточно, чтобы найти оптимальную политику?
Кроме того, когда сказано, что Q-значения сходятся к оптимальным, сходятся ли только max_a[Q(s,a)] к своему оптимальному значению или все значения Q(s,a) сходятся к своему оптимальному значению?
Вероятно, на все это есть простой ответ, однако, несмотря на то, что я проверил множество ресурсов и подобных тем, я все еще не мог понять логику эксплуатации. Большое спасибо за ваше время заранее!
(S, A)
он будет сходиться к ожидаемому одношаговому вознаграждениюR
за выполнениеA
вS
плюсgamma
ожидаемая отдача за случайные действия после выполненияA
вS
. Я согласен, что это не очень полезные величины для сходимости, но к чему-то они сходятся. 29.03.2018epsilon
-жадной политикой с константойepsilon
) тоже не работает. Если вы определяете их с точки зрения применяемой политики, то да, все они сходятся к оптимальным значениям для своей политики (epsilon
-жадный сepsilon = 1.0
в случае отсутствия эксплуатации). Я согласен, что вопрос, похоже, не об этом или любом другом варианте SARSA, а о Q-обучении. 29.03.2018