Это мои ответы на вопросы об ИИ и его деловой практике, которые обсуждали около 200 моих однокурсников из IIT Bombay. Они немного изменены для защиты конфиденциальности, удаления конкретных ссылок и лучшего повествования. Это вторая часть серии этих постов. Чтобы получить доступ к другим частям, щелкните вводную запись.

«В чем разница между экспертом по ИИ и гуру ИИ? Эксперт по ИИ расскажет, как заставить решения ИИ работать. Гуру искусственного интеллекта скажет вам, что по большей части это не так ».

Я закончил последний пост, нарисовав перспективу искусственного интеллекта и связанных с ним технологий, но я знаю, что, хотя ИИ действительно может стать электричеством будущего, в настоящее время это может быть простой статический заряд. Однако это будет электричество, прежде чем мы узнаем об этом.

Два уровня инноваций

Нам нужно думать об ИИ на двух уровнях:

  • Первое, насколько изощренными стали последние модели. Прямо сейчас, например, в СМИ поднялся шум по поводу статьи, написанной, по-видимому, самой машиной.
  • Во-вторых, какой объем бизнес-операций ИИ выполняет на самом деле и насколько точно.

Вы поймете, что все эти сложные модели - это ажиотаж. Изобретатели обычно сообщают о результатах при контролируемых обстоятельствах и преувеличивают их. Я помню, как в начале истории Coseer использовал два пакета с открытым исходным кодом для обработки естественного языка (NLP). Каждый из них утверждал, что точность 97% +, но если вы взяли данные из реального мира и пропустили их через них, пересечение их результатов составило ~ 70%. Это был мой первый урок в науке о данных - вы должны отделить реальность от шумихи и никогда ни во что не верить, не попробовав это в своей собственной ситуации.

Это не означает, что ИИ не работает.

Что значит работа?

Давайте поговорим о том, что означает «работа». Сейчас пишется много статей, в которых утверждаются все большие и лучшие достижения. На определенном уровне доказательства в этих статьях сводятся к тому, что точность модели B составляла 0,7, тогда как модель A составляла только 0,6 для конкретной задачи.

Тогда возникает вопрос, достаточно ли 0,7? Все должны были использовать SmartCompose Gmail. Обратите внимание, сколько раз он предлагает неправильный вариант, но это не имеет значения - он отлично работает. С другой стороны, вы когда-нибудь ездили бы на машине, которая разбивается каждые 1000 поездок? Каждые 10 000? А как насчет 100000? (Сравните это с вашим собственным показателем безопасности).

Сегодня ИИ помогает там, где цена отказа минимальна. В определенных нишах он работает и в ситуациях с высокой точностью, например, беспилотные автомобили, но они очень специфичны. Дело в том, что количество приложений, в которых ИИ работает достаточно хорошо, чтобы соответствовать требованиям к точности, растет с каждым днем ​​в геометрической прогрессии. Так что да, использовать ИИ для всего - плохая идея, но если вы знаете, что делаете, тестирование ИИ для всего не кажется необоснованным.

Причина разрекламирования последних сложных моделей заключается в том, что в ближайшем будущем ожидается, что они станут эффективными.

Данные, данные повсюду…

Стихотворение современного инженера: «Данные, данные повсюду, а не байт для размышлений». Мы завалены данными. Его просто повсюду слишком много. Тем не менее, если вы прочитаете мой раздел о введении в науку о данных, в котором я перехожу к глубокой нейронной сети и превознослю ее достоинства, вы могли бы заметить, что эта фраза встречается в различных вариациях - «при наличии достаточных данных».

Метод глубокого обучения с использованием градиентного спуска неточен, переоснащен, имеет предвзятость, непредсказуемость или все время имеет другую форму или ошибку. Одна из главных причин этого - доступность данных.

Во-первых, очень сложно переместить данные из точки А в точку Б. Я часто говорю своим клиентам, что успешная программа искусственного интеллекта начинается с инвестиций в правильную политику управления данными. Вы можете найти пятую ключевую ценность цифровой трансформации - Введите данные один раз. Никогда не печатайте. Никогда не сомневайтесь . По иронии судьбы, даже в эпоху искусственного интеллекта и передовой науки о данных это высокая планка для большинства предприятий.

Во-вторых, вам нужно очистить данные, стандартизировать их по форматам, вырезать выбросы, нормализовать, обеспечить завершение, обеспечить соответствие, (в идеале) преобразовать в распределение Гаусса и сопоставить с функциями до ИИ. Модель может коснуться этих данных - стоимость подготовки данных астрономическая, часто до 90% от стоимости проекта AI. Это основная причина, по которой количество проектов исчисляется десятками миллионов. Стоимость подготовки данных также чаще всего недооценивается и недофинансируется.

В-третьих, для обучения модели вам также потребуются соответствующие выходные данные. Иногда вам повезло, и он просто есть, но часто кто-то должен создать такой результат, что само по себе является кошмаром с точки зрения как времени, так и затрат.

Эти три проблемы возникают только тогда, когда у вас достаточно данных. Во многих случаях вы этого не делаете.

Сколько данных?

В-четвертых, предположим, что у вас есть 20 входных переменных, и вы решили использовать полносвязную глубокую нейронную сеть со 100 слоями, что очень типично для сложных задач. Итак, каждый уровень имеет 20 узлов, и каждый узел на этом уровне соединяется с 20 узлами на следующем уровне. Каждое из этих соединений должно иметь вес. Итак, в этой модели 20 x 20 x 100 = 40 000 гирь. Одно правило большого пальца гласит, что вам нужно 100 точек данных на вес, чтобы достаточно обучить модель. Итак, теперь вам нужно четыре миллиона наборов данных ввода-вывода.

Честно говоря, это наихудший случай - ваша проблема может быть проще и не требует 100 слоев, или данные могут быть связными, и ошибка быстро исчезает. Но ты получил идею. Для справки: GPT3, последняя и самая лучшая из моделей искусственного интеллекта, имеет 175 миллиардов (а не миллион, миллиард) весов и использует 499 миллиардов токенов для обучения. Это соотношение (499/175 ~ = 3) является огромным преимуществом по сравнению с GPT2, которое составляло семь. Итак, становится лучше.

Масштабируемость

пятая проблема часто бывает фатальной - модели искусственного интеллекта не масштабируются. Я не говорю, что они плохо масштабируются. Я говорю, что они вообще не масштабируются. Вы не можете сказать что-то вроде «Вместо сети со 100 скрытыми слоями, позвольте мне начать только с 10 слоев и обучить ее. Как только я получу MVP, я смогу получить больше данных и масштабируемость ». Не работает. И вот почему, если для чего-то требуются миллионы долларов, для этого нужны миллионы долларов. Вот почему вы не можете выбрать только хвост распределения и надеяться, что модель масштабируется для решения всей проблемы.

Инженеры будут инженерами. Всегда есть способы обо всем. Это касается идей объяснимого ИИ, проектирования функций, ансамблевых методов и линейной разделимости. Включая товарный знак о бизнес-правилах и правилах обучения. Скоро!

Следующая часть из серии: ИИ-хаки, которые работают.