Введение
В огромном массиве корпоративных документов хранится множество ценных сведений. Получение правильного понимания для правильного контекста чрезвычайно важно для раскрытия этой ценности. Например, чтобы получить ответы на вопрос, опубликованный через чат-бот, в значительной степени зависит от разблокировки ответа из соответствующего документа.

Широко применяемый полнотекстовый поиск часто не дает убедительных ответов. В этом блоге мы рассмотрим сложные методы поиска информации, основанные на НЛП.

Это может быть достигнуто с помощью как контролируемых, так и неконтролируемых методов. Мы создали неконтролируемую информационно-поисковую систему DocSearch, которую можно интегрировать в чат-бот как сервис, где пользователь может получать информацию через естественные запросы.

DocSearch

Получение данных

Данные могут быть из нескольких источников, таких как веб-репозиторий, PDF, текстовые или текстовые документы. Все документы очищаются, предварительно обрабатываются и объединяются в корпус в S3, который действует как единый источник информации для создания модели.

Модель

Мы использовали скрытое семантическое индексирование (LSI) для поиска и ранжирования документов. Модель LSI является одним из методов поиска информации. Он основан на дистрибутивной гипотезе, т. е. на словах, которые встречаются в одном и том же контексте и, как правило, имеют сходное значение. Это помогает в создании концепций, связанных с документами. Мы можем использовать это, чтобы найти сходство в документах.

Разработка модели БИС

  • Создайте матрицу частотности терминов в соответствующих документах, представляющую количество раз, когда термин появляется в документе. Матрица большая и разреженная.

  • Каждая ячейка представляет частоту термина i в документе j.
  • В матрице Срок-Документ примените весовую функцию. Функция взвешивания преобразует каждую ячейку в вес относительно частоты термина в документе и частоты термина во всей коллекции документов. Здесь мы использовали взвешивающую функцию логарифмической энтропии, аналогичную TF-IDF.
  • Выполните аппроксимацию низкого ранга, чтобы уменьшить размерность матрицы. В LSI для уменьшения размерности используется разложение по единственному значению (SVD).
  • После разложения X на матрицу mxn, где m — количество уникальных терминов, а n — количество документов, мы получаем ниже трех матриц.

  • SVD усекается, чтобы уменьшить ранг до k ‹‹ r, где k обычно составляет от 100 до 300. В нашей реализации мы выбрали k равным 200. Наконец,

Матрица Document-Topic (Dk), которая создает векторное пространство документа, помогает нам найти документы, относящиеся к запросу.

Рейтинговые документы

  • Когда приходит запрос, вычисляется вектор частоты разреженных терминов (q) и применяется весовая функция. Затем разреженный вектор будет преобразован в плотный вектор запроса (Qk) в векторном пространстве документа с использованием приведенного ниже уравнения.
  • Сходство между вектором запроса (Qk) и вектором документа (Dk) вычисляется с использованием сходства косинуса.
  • На основе сходства мы можем ранжировать документы и показывать пользователю наиболее подходящие документы.

Улучшения

Улучшения модели

  • Мы внедрили предварительную обработку для предметной области, чтобы улучшить качество корпуса документов для модели.
    Например. Нормирование Вольт, напряжения, В к вольту
  • Вместо модели униграмм мы внедрили модель биграмм для повышения релевантности. Модель биграмм преобразует все слова юниграммы в биграммы, помогает найти документы с соответствующими фразами.
    Пример,
    В модели юниграмм: «безопасность», «переключатель» будет поисковым словом, которое дает зашумленные результаты.< br /> В модели биграмм: «аварийный выключатель» будет поисковым словом, которое даст релевантные результаты.

Изменение запроса

  • Изменение запроса. Мы внедрили обобщенную модель HMM для исправления ошибок запроса, таких как орфографическая ошибка, ошибка слияния, ошибка разделения и неправильное использование.
  • Расширение запроса. Внешний сопоставитель синонимов для конкретного домена помогает расширить запрос синонимами, что помогает получить более релевантные документы.

Обновление модели

Всякий раз, когда загружается новый документ, модель будет обновляться новыми документами, и весь процесс автоматизирован.

Первоначально опубликовано на https://www.ideas2it.com.