DocSearch — система ответов на основе обработки естественного языка (NLP).

Введение
В огромном массиве корпоративных документов хранится множество ценных сведений. Получение правильного понимания для правильного контекста чрезвычайно важно для раскрытия этой ценности. Например, чтобы получить ответы на вопрос, опубликованный через чат-бот, в значительной степени зависит от разблокировки ответа из соответствующего документа.

Широко применяемый полнотекстовый поиск часто не дает убедительных ответов. В этом блоге мы рассмотрим сложные методы поиска информации, основанные на НЛП.

Это может быть достигнуто с помощью как контролируемых, так и неконтролируемых методов. Мы создали неконтролируемую информационно-поисковую систему DocSearch, которую можно интегрировать в чат-бот как сервис, где пользователь может получать информацию через естественные запросы.

DocSearch

Получение данных

Данные могут быть из нескольких источников, таких как веб-репозиторий, PDF, текстовые или текстовые документы. Все документы очищаются, предварительно обрабатываются и объединяются в корпус в S3, который действует как единый источник информации для создания модели.

Модель

Мы использовали скрытое семантическое индексирование (LSI) для поиска и ранжирования документов. Модель LSI является одним из методов поиска информации. Он основан на дистрибутивной гипотезе, т. е. на словах, которые встречаются в одном и том же контексте и, как правило, имеют сходное значение. Это помогает в создании концепций, связанных с документами. Мы можем использовать это, чтобы найти сходство в документах.

Разработка модели БИС

Создайте матрицу частотности терминов в соответствующих документах, представляющую количество раз, когда термин появляется в документе. Матрица большая и разреженная.

Каждая ячейка представляет частоту термина i в документе j.
В матрице Срок-Документ примените весовую функцию. Функция взвешивания преобразует каждую ячейку в вес относительно частоты термина в документе и частоты термина во всей коллекции документов. Здесь мы использовали взвешивающую функцию логарифмической энтропии, аналогичную TF-IDF.
Выполните аппроксимацию низкого ранга, чтобы уменьшить размерность матрицы. В LSI для уменьшения размерности используется разложение по единственному значению (SVD).
После разложения X на матрицу mxn, где m — количество уникальных терминов, а n — количество документов, мы получаем ниже трех матриц.

SVD усекается, чтобы уменьшить ранг до k ‹‹ r, где k обычно составляет от 100 до 300. В нашей реализации мы выбрали k равным 200. Наконец,

Матрица Document-Topic (Dk), которая создает векторное пространство документа, помогает нам найти документы, относящиеся к запросу.

Рейтинговые документы

Когда приходит запрос, вычисляется вектор частоты разреженных терминов (q) и применяется весовая функция. Затем разреженный вектор будет преобразован в плотный вектор запроса (Qk) в векторном пространстве документа с использованием приведенного ниже уравнения.
Сходство между вектором запроса (Qk) и вектором документа (Dk) вычисляется с использованием сходства косинуса.
На основе сходства мы можем ранжировать документы и показывать пользователю наиболее подходящие документы.

Улучшения

Улучшения модели

Мы внедрили предварительную обработку для предметной области, чтобы улучшить качество корпуса документов для модели.
Например. Нормирование Вольт, напряжения, В к вольту
Вместо модели униграмм мы внедрили модель биграмм для повышения релевантности. Модель биграмм преобразует все слова юниграммы в биграммы, помогает найти документы с соответствующими фразами.
Пример,
В модели юниграмм: «безопасность», «переключатель» будет поисковым словом, которое дает зашумленные результаты.< br /> В модели биграмм: «аварийный выключатель» будет поисковым словом, которое даст релевантные результаты.

Изменение запроса

Изменение запроса. Мы внедрили обобщенную модель HMM для исправления ошибок запроса, таких как орфографическая ошибка, ошибка слияния, ошибка разделения и неправильное использование.
Расширение запроса. Внешний сопоставитель синонимов для конкретного домена помогает расширить запрос синонимами, что помогает получить более релевантные документы.

Обновление модели

Всякий раз, когда загружается новый документ, модель будет обновляться новыми документами, и весь процесс автоматизирован.

Первоначально опубликовано на https://www.ideas2it.com.

Новые материалы

Краткое руководство для начинающих по простому сквозному тестированию с помощью Cypress

Автоматизированное тестирование, требующее только базовых навыков JavaScript. Цель этой статьи - показать, как с минимальными усилиями вы можете добавить полезные сквозные (E2E) тесты в свой..

Руководство по быстрой разработке рекомендательной системы промышленного уровня

В этой статье я намерен предоставить краткий обзор методов, которые можно использовать для разработки хорошо работающей рекомендательной системы. Я начал работать над Recommender Systems около 6..

Arshaw FullCalendar для AngularJS — проблемы, с которыми столкнулись, и найденные решения для их устранения

Arshaw FullCalendar — это полноразмерный календарь событий с возможностью перетаскивания, использующий jQuery. Подробнее об этом можно узнать здесь . Директива ui-calendar — это полная..

Простое руководство по Redux для разработчиков React

Понимание строительных блоков Redux Redux — это инструмент управления состоянием, который чаще всего используется с React или React Native. Когда я впервые начал использовать его год назад,..

присоединение к атрисмаркетингу

присоединение к атрисмаркетингу И много дополнительных привилегий. маркетинг — реклама-хорошие отзывы клиентов-доверие-счастье-лояльность и опытные сотрудники устойчивые лесозаготовительные..

КОВАРИАНТНОСТЬ И КОРРЕЛЯЦИЯ

ВВЕДЕНИЕ В этом посте мы обсудим ковариацию и корреляцию. Это играет важную роль при выборе функций. Статистические корреляции говорят нам как о силе связи между двумя переменными, так..

Использование матриц Вигнера в случаях машинного обучения, часть 8

Равномерный локальный закон для матриц Вигнера (arXiv) Автор: Джорджо Чиполлони , Ласло Эрдеш , Доминик Шредер . Аннотация: Мы доказываем общий локальный закон для матриц Вигнера, который..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Data Java NLP Typescript Computer Science Learning Front End Development Algorithms Tutorial Productivity Tech Programming Languages Angular ChatGPT Javascript Development Python Programming CSS Neural Networks Developer Javascript Tips Science React Native Cybersecurity Data Visualization