Недавно я прочитал отличную статью Шейна Легга и Джоэла Венесса из DeepMind. http://arxiv.org/pdf/1109.5951v2.pdf
В статье «универсальный интеллект» агента π определяется как:
Поэтому имеет смысл определить обучение как процесс увеличения этой ценности.
Предупреждение. Не путайте разговорное использование слова «интеллект» с «универсальным интеллектом».
К сожалению, этот процесс не происходит естественным путем, и поэтому этот процесс должен управляться внутренней или внешней силой. В классическом машинном обучении мы называем эту силу «надзирателем». В мозгу эта сила исходит от «воли» как на сознательном, так и на подсознательном уровнях.
Хотя это может показаться очевидным, важно отметить, что для обучения агента цель обучения должна быть четко определена. Нельзя ожидать, что агент пропустит кучу данных и надеется, что выйдет что-то хорошее.
Суть двоякая:
- Чтобы агент мог обучаться без учителя, он должен иметь внутреннюю волю.
- Чтобы агент общего назначения научился выполнять общие задачи, он должен иметь общую цель обучения.
Похоже, что самым сильным кандидатом на роль такого универсального агента является агент, способный к обучению с помощью простой положительной/отрицательной обратной связи и обладающий «волей», стремящейся к максимальному вознаграждению.