Использование машинного обучения для «понимания» изображений

Мы познакомились с использованием больших языковых моделей (LLM), которые помогают нам «понимать» содержимое текстовых документов или искать документы или страницы, которые могут содержать текст, имеющий отношение к задаваемому нами вопросу. Это вышло за рамки «поиска по ключевым словам» и превратилось в «семантический поиск» — поиск контента, имеющего то же значение, что и то, о чем мы спрашиваем, а не только контента, содержащего те же слова. как то, что мы просим.

Что, если бы мы могли сделать то же самое с изображениями? Что, если бы мы могли сделать снимок и найти другие изображения, «похожие» на наши, так же, как это делает Google Lens? Или что, если бы мы могли ввести описание и найти подходящие изображения, так же, как это делает Google Photos?

Есть ли модель, которая работает с изображениями таким образом? Да. Недавно Google представила модель мультимодального внедрения как часть набора инструментов Google Cloud Vertex AI, которая позволяет разработчикам использовать некоторые из тех же мощных алгоритмов, которые используются в таких инструментах, как Google Photos и Google Lens, без необходимость изучения передовых методов машинного обучения (ML).

Хотя эту модель легко использовать разработчикам через сетевой API, даже если вы не являетесь экспертом в области машинного обучения, вам необходимо понять некоторые концепции.

Мы рассмотрим эти концепции и посмотрим, как вы примените их в этой модели. Затем мы проведем несколько экспериментов, чтобы увидеть, насколько хорошо работает модель. Это включает в себя использование популярной библиотеки LangChain JS, которая поможет нам получить доступ к модели и посмотреть, что мы можем узнать о том, как применить модель к нашему собственному коду.

Что мы подразумеваем под словом «мультимодальный»?

Термин «мультимодальный» часто используется, часто неясно, что под ним подразумевается. Как правило, мультимодальный — это термин, используемый для описания чего-то, что использует несколько «режимов» или методов для общения, таких как письменный текст, речь, неподвижные изображения, видео или их комбинации.

В нашем случае мультимодальность означает способность модели обрабатывать как текст, так и изображения. Это позволяет модели представлять «значение» как слов, так и изображений. Благодаря этому он может помочь нам найти изображения и текст, «похожие» друг на друга. Это представление осуществляется с помощью так называемого «вложения».

Что такое встраивание?

Вкратце, вложения — это список чисел от -1 до 1. Иногда мы будем называть его вектором.

Новые материалы

Создание кнопочного меню с использованием HTML, CSS и JavaScript

Вы будете создавать кнопочное меню, которое имеет состояние наведения, а также позволяет вам выбирать кнопку при нажатии на нее. Финальный проект можно увидеть в этом Codepen . Шаг 1..

Внедрите OAuth в свои веб-приложения для повышения безопасности

OAuth — это широко распространенный стандарт авторизации, который позволяет приложениям получать доступ к ресурсам от имени пользователя, не раскрывая его пароль. Это позволяет пользователям..

Классы в JavaScript

class является образцом java Script Object. Конструкция «class» позволяет определять классы на основе прототипов с чистым, красивым синтаксисом. // define class Human class Human {..

Как свинг-трейдеры могут использовать ИИ для больших выигрышей

По мере того как все больше и больше профессиональных трейдеров и активных розничных трейдеров узнают о возможностях, которые предоставляет искусственный интеллект и машинное обучение для улучшения..

Как построить любой стол

Я разработчик программного обеспечения. Я люблю делать вещи и всегда любил. Для меня программирование всегда было способом создавать вещи, используя только компьютер и мое воображение...

Обзор: Машинное обучение: классификация

Только что закончил третий курс курса 4 часть специализации по машинному обучению . Как и второй курс, он был посвящен низкоуровневой работе алгоритмов машинного обучения. Что касается..

Разработка расширений Qlik Sense с qExt

Использование современных инструментов веб-разработки для разработки крутых расширений Вы когда-нибудь хотели кнопку для установки переменной в приложении Qlik Sense? Когда-нибудь просили..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning React AI Software Engineering Nodejs Development Typescript Data Java NLP Front End Development Computer Science Algorithms Learning Programming Languages ChatGPT Tutorial Tech Reactjs Angular Productivity React Native Cybersecurity Python Programming Javascript Development HTML Learning To Code Developer Neural Networks Swift