Недавно я прочитал отличную статью Шейна Легга и Джоэла Венесса из DeepMind. http://arxiv.org/pdf/1109.5951v2.pdf

В статье «универсальный интеллект» агента π определяется как:

Поэтому имеет смысл определить обучение как процесс увеличения этой ценности.

Предупреждение. Не путайте разговорное использование слова «интеллект» с «универсальным интеллектом».

К сожалению, этот процесс не происходит естественным путем, и поэтому этот процесс должен управляться внутренней или внешней силой. В классическом машинном обучении мы называем эту силу «надзирателем». В мозгу эта сила исходит от «воли» как на сознательном, так и на подсознательном уровнях.

Хотя это может показаться очевидным, важно отметить, что для обучения агента цель обучения должна быть четко определена. Нельзя ожидать, что агент пропустит кучу данных и надеется, что выйдет что-то хорошее.

Суть двоякая:

  1. Чтобы агент мог обучаться без учителя, он должен иметь внутреннюю волю.
  2. Чтобы агент общего назначения научился выполнять общие задачи, он должен иметь общую цель обучения.

Похоже, что самым сильным кандидатом на роль такого универсального агента является агент, способный к обучению с помощью простой положительной/отрицательной обратной связи и обладающий «волей», стремящейся к максимальному вознаграждению.