Мы познакомились с использованием больших языковых моделей (LLM), которые помогают нам «понимать» содержимое текстовых документов или искать документы или страницы, которые могут содержать текст, имеющий отношение к задаваемому нами вопросу. Это вышло за рамки «поиска по ключевым словам» и превратилось в «семантический поиск» — поиск контента, имеющего то же значение, что и то, о чем мы спрашиваем, а не только контента, содержащего те же слова. как то, что мы просим.

Что, если бы мы могли сделать то же самое с изображениями? Что, если бы мы могли сделать снимок и найти другие изображения, «похожие» на наши, так же, как это делает Google Lens? Или что, если бы мы могли ввести описание и найти подходящие изображения, так же, как это делает Google Photos?

Есть ли модель, которая работает с изображениями таким образом? Да. Недавно Google представила модель мультимодального внедрения как часть набора инструментов Google Cloud Vertex AI, которая позволяет разработчикам использовать некоторые из тех же мощных алгоритмов, которые используются в таких инструментах, как Google Photos и Google Lens, без необходимость изучения передовых методов машинного обучения (ML).

Хотя эту модель легко использовать разработчикам через сетевой API, даже если вы не являетесь экспертом в области машинного обучения, вам необходимо понять некоторые концепции.

Мы рассмотрим эти концепции и посмотрим, как вы примените их в этой модели. Затем мы проведем несколько экспериментов, чтобы увидеть, насколько хорошо работает модель. Это включает в себя использование популярной библиотеки LangChain JS, которая поможет нам получить доступ к модели и посмотреть, что мы можем узнать о том, как применить модель к нашему собственному коду.

Что мы подразумеваем под словом «мультимодальный»?

Термин «мультимодальный» часто используется, часто неясно, что под ним подразумевается. Как правило, мультимодальный — это термин, используемый для описания чего-то, что использует несколько «режимов» или методов для общения, таких как письменный текст, речь, неподвижные изображения, видео или их комбинации.

В нашем случае мультимодальность означает способность модели обрабатывать как текст, так и изображения. Это позволяет модели представлять «значение» как слов, так и изображений. Благодаря этому он может помочь нам найти изображения и текст, «похожие» друг на друга. Это представление осуществляется с помощью так называемого «вложения».

Что такое встраивание?

Вкратце, вложения — это список чисел от -1 до 1. Иногда мы будем называть его вектором.