Получите максимальную отдачу от онлайн-контента

Новая восходящая звезда экосистемы науки о данных и искусственного интеллекта — большие языковые модели (LLM). Быстрый рост популярности LLM начался с ChatGPT и вскоре стал преобладать в социальных сетях, блогах и научных статьях.

Эта статья предназначена для тех, кто хочет узнать о LLM, но им трудно понять содержание LLM из-за технических терминов или концепций предметной области.

Наука о данных и искусственный интеллект — очень широкие области, поэтому даже если вы работаете в этих областях, поначалу вам может быть трудно понять контент, связанный с LLM. Следовательно, знание того, что означают эти термины и понятия заранее, облегчает усвоение другого контента, связанного с LLM.

Трансформер

Трансформатор, впервые представленный в статье Внимание — это все, что вам нужно, представляет собой сетевую архитектуру, полностью основанную на механизме внимания.

Он направлен на устранение недостатков рекуррентных нейронных сетей, которые

  • медленно учатся
  • страдают от исчезающего градиента или долгосрочных зависимостей в случае длинных последовательностей

Внимание определяет, на какой части входной последовательности нам нужно сосредоточиться, а преобразователь содержит архитектуру кодера-декодера со слоями внимания.

Преобразователи могут параллельно обрабатывать входную последовательность, что решает проблему медленного обучения. Благодаря слоям внимания они не страдают от проблемы исчезающего градиента.

Модель большого языка (LLM)

Большая языковая модель — это, по сути, преобразователь очень большого масштаба. GPT расшифровывается как Генеративный предварительно обученный преобразователь.

Размер этих моделей обычно выражается числом параметров, которые исчисляются миллиардами.

Токен

LLM преобразуют текст в небольшие фрагменты перед их дальнейшей обработкой. Эти фрагменты называются токенами. Фрагменты обычно представляют собой отдельные слова, но это не всегда так. Иногда одно слово можно разделить на несколько фрагментов.