Большие языковые модели (LLM) на основе трансформеров быстро расширяются как по своим приложениям, так и по размеру. Например, GPT OpenAI увеличился со 117 миллионов до 175 миллиардов параметров с момента его выпуска в 2020 году. LLM кодируют входные последовательности с помощью внутреннего внимания и декодируют представления с помощью нейронных сетей с прямой связью для создания…