Достижение результатов SOTA путем передачи знаний между задачами

Область обработки естественного языка включает в себя десятки задач, среди которых машинный перевод, распознавание именованных сущностей и обнаружение сущностей. Хотя различные задачи НЛП часто обучаются и оцениваются по отдельности, существует потенциальное преимущество в их объединении в одну модель, то есть изучение одной задачи может быть полезно для изучения другой задачи и улучшения ее результатов.

Иерархическая модель многозадачного обучения (HMTL) обеспечивает подход к изучению различных задач НЛП путем обучения сначала на простых задачах и использования знаний для обучения более сложным задачам. Модель представляет современную производительность в нескольких задачах и углубленный анализ важности каждой части модели, от различных аспектов встраивания слов до порядка задач.

Фон

Несколько статей за последние годы показали, что объединение нескольких задач НЛП может дать лучшее и более глубокое представление текста. Например, определение сущностей в предложении, таких как названия мест или людей, может помочь найти их упоминания в последующих предложениях. Однако не все задачи НЛП связаны между собой, и важно выбрать соответствующие задачи, которые могут быть полезны для других задач.

Модель HMTL фокусируется на четырех различных задачах: распознавание именованных сущностей, обнаружение упоминаний сущностей, разрешение Coreference, извлечение отношений.

  1. Распознавание именованных объектов (NER) - определение типов объектов в тексте (например, лицо, организация, местоположение и т. д.)
  2. Entity Mention Detection (EMD) - расширенная версия NER, выявляющая любые упоминания, связанные с реальными объектами, даже если это не имя.
  3. Разрешение Coreference (CR) - выявление и группировка упоминаний одного и того же объекта.
  4. Извлечение связи (RE) - идентификация сущностей и классификация типа связи между ними (если существует). Типы отношений можно найти здесь. Из-за семантического сходства между RE и CR они оба находятся на одном иерархическом уровне.

Следующий текст иллюстрирует разницу между задачами (отличную демонстрацию можно найти здесь):
Когда мы были в Испании, моя мама научила меня водить машину. Она также объяснила, как его заправить

Все четыре задачи связаны с идентификацией сущностей в тексте и отношений между ними, с разными уровнями сложности - в то время как NER является самой простой задачей, CR и RE требуют более глубокого понимания текста. Следовательно, изучение одной задачи может помочь изучить другие.

Модель HMTL

HMTL - это иерархическая модель, в которой изучаются изначально более простые задачи, такие как NER, а их результаты затем используются для обучения следующих задач. Каждая задача состоит из трех компонентов: встраивания Word, кодировщика и слоя для конкретной задачи.

Основой модели является представление слова, которое включает каждое слово из входного предложения в вектор с использованием трех моделей:

  1. GloVe - Предварительно обученные вложения слов. Слова в этой модели не имеют контекста, и данное слово всегда будет представлено одним и тем же вектором.
  2. ELMo - Предварительно обученные контекстные вложения слов. Векторное представление слова зависит не только от самого слова, но и от остальных слов в предложении. ELMo - одна из лучших моделей в тесте GLUE Benchmark.
  3. Вложения слов на уровне символов - сверточная нейронная сеть, которая учится представлять слова на основе характеристик уровня символов. Этот вид представления более чувствителен к морфологическим характеристикам (префикс, суффикс и т. Д.), Которые важны для понимания отношений между объектами.

Кроме того, каждая задача обучается с помощью специального кодировщика - многоуровневой рекуррентной нейронной сети, которая генерирует вложения слов, адаптированные к задаче. Кодер реализован с использованием двунаправленных сетей GRU-ячеек, и его выход представляет собой конкатенацию последнего уровня прямой и обратной сетей. Входные данные кодировщика состоят из представления базового слова и выходных данных кодировщика предыдущей задачи (если они доступны).

Помимо кодировщиков, каждая задача использует другую нейронную сеть, как описано ниже:

  1. Первые два уровня (NER и EMD) используют условное случайное поле, которое предсказывает тип сущности слова на основе типов его соседей. Концепция этого алгоритма заключается в том, что он находит оптимальную комбинацию сущностей для всех слов в предложении вместе. Хорошее объяснение этому алгоритму можно найти здесь.
  2. В Резолюции Coreference (CR) модель сначала вычисляет вероятность того, что каждая последовательность слов (span) является упоминанием предшествующего диапазона, например, местоимение более вероятно будет упоминанием, чем глагол. Затем он выбирает N верхних пролетов и вычисляет балл для каждой комбинации пролетов, составляющих пару. Каждый диапазон может быть не более чем одним упоминанием одного диапазона, достигнутого с помощью softmax. Фиктивный токен добавляется в случае, если пара не найдена.
  3. В задаче извлечения отношений (RE) используется уровень, который вычисляет вероятность соответствия каждой пары токенов каждому типу отношения (в сумме вероятности T² * R_types). Модель использует сигмовидную функцию, а не softmax, чтобы разрешить несколько отношений для каждого токена.

Одной из проблем при обучении иерархической модели является катастрофическое забывание, при котором обучение новым задачам заставляет модель «забывать» предыдущие задачи и достигать ухудшенной производительности на них. HMTL справляется с катастрофическим забыванием путем случайного выбора одной из предыдущих задач во время обучения текущей задачи (после каждого обновления параметров) и обучения модели на случайной выборке из набора данных случайной задачи. Вероятность выбора задачи для обучения не одинакова, а пропорциональна размеру ее набора данных - метод, который авторы сочли более эффективным.

Наборы данных

Модель была обучена на нескольких наборах данных для сравнения, с двумя ключевыми наборами данных - OntoNotes 5.0 для NER и ACE05 для остальных задач. ACE05 использовался в двух конфигурациях - обычной и Gold Mentions (GM), причем конфигурация GM состояла из двух частей:

  1. Задача Coreference Resolution (CR) оценивалась на основе золотых упоминаний, которые извлекаются людьми, а не автоматическими упоминаниями. Эти упоминания дороже в производстве и недоступны для большинства наборов данных. Согласно статье, использование золотых упоминаний при оценке улучшает работу CR.
  2. Обучение задачи CR с другим разделением того же набора данных (ACE05), используемым для обучения задач RE и EMD. Использование другого разделения может помочь модели изучить более богатое представление.

Полученные результаты

В документе утверждается, что современные результаты в Entity Mention Detection (EMD) и Relation Extraction (RE) путем обучения полной модели с использованием конфигурации Gold Mention (GM). Согласно статье, использование конфигурации GM в обучении улучшает F1-оценку задачи CR на 6 баллов, в то время как она улучшает задачи EMD и RE на 1-2 балла.

В документе также утверждается, что в распознавании именованных сущностей достигнуты самые современные результаты, хотя кажется, что недавняя модель BERT показала несколько лучшие результаты. Однако их сложно сравнивать, поскольку модель HMTL не была адаптирована для набора данных, используемого BERT. Краткое описание BERT можно найти здесь.

Еще один интересный результат из статьи - сокращение времени обучения, необходимого для достижения той же производительности. Полная модель (с GM) требует меньше времени, чем большинство отдельных задач - NER (-16%), EMD (-44%) и CR (-28%) - при этом требует больше времени, чем RE (+ 78%).

Возможная проблема, связанная с конфигурацией GM, - это «утечка информации» - из-за различного разделения записи, которые используются для обучения одной задачи, могут позже использоваться в качестве теста для другой задачи. Информация об этих записях может храниться на одном из общих слоев, что позволяет искусственно улучшать результаты.

Исследование абляции

Комбинации задач
Для более глубокого понимания иерархического подхода в документе сравниваются результаты различных комбинаций задач без конфигурации GM, как показано в таблице ниже (баллы F1 для нескольких конфигураций ). Похоже, что вклад многозадачного обучения неубедителен и зависит от задачи:

  1. Различные задачи достигают наилучших результатов с разными комбинациями задач, что означает, что не существует одной доминирующей комбинации.
  2. В задачах низкого уровня преимущество иерархической модели невелико (менее 0,5 балла F-1).
  3. Наибольшее улучшение было достигнуто в задаче RE: более 5 баллов F-1. Возможное объяснение состоит в том, что задача EMD обучается перед задачей RE и учится идентифицировать почти те же объекты, что и задача RE.

Представление слов
Как упоминалось ранее, основой модели является представление слова, которое состоит из трех моделей - GloVe, ELMo и встраивания слов на уровне символов. Выбор этих моделей также оказывает значительное влияние на производительность модели, как показано в таблице ниже. Вложения Элмо и вложения на уровне персонажа добавляют по 2–4 балла к оценке F-1 за большинство задач.

Заключение

В статье представлена ​​интересная техника комбинирования, казалось бы, отдельных задач и техник НЛП для достижения наилучших результатов в языковом анализе. Результаты подчеркивают необходимость дальнейших исследований в этой области, поскольку в настоящее время трудно понять, когда конкретная задача НЛП может быть полезна для улучшения результатов в несвязанной задаче НЛП.

Особая благодарность Виктору Саню, одному из авторов статьи, за ценные сведения о работе HMTL.