Данные - это новое лего

Воспоминания о моих детских воспоминаниях о Lego как начинающего специалиста по данным

Когда я был ребенком, я любил играть с Lego. Мы с братом строили практически все из Лего - животных, машины, дома и даже космические корабли. Со временем наши творения стали более масштабными и реалистичными. Были также времена, когда каждый из нас мог настаивать на том, что наш Lego был нашим собственным, пока мы не осознали, что объединение ресурсов в конечном итоге поможет нам продвинуться дальше. Мы тоже росли, и когда наша игра стала более сложной, мы научились создавать лучшие модели.

Как начинающий специалист по данным, я понял, что работа с данными на удивление очень похожа на мои детские воспоминания о Lego. В этой статье я хочу поделиться некоторыми воспоминаниями о том, что игра с Lego и работа с данными ближе, чем вы думаете.

Исследование - самая увлекательная часть процесса.

Когда я был ребенком, мне нравилось складывать все свои кубики Lego в гигантскую ванну, потому что мне было очень весело строить что-то, ища в море кирпичей и пробуя новые узоры, о которых я раньше не думал.

Любой, кто имеет дело с данными, знает, что до 80% процесса - это очистка данных и исследовательский анализ. Лично мне нравится работать с данными - именно здесь я позволяю своему творчеству и воображению разыграться. Прыгая прямо в набор данных и исследуя различные визуализации и корреляции в поисках закономерностей, я возвращаюсь в детство, когда я копался в куче Lego.

Чтобы построить что-то полезное, вам понадобится много ресурсов.

Если у вас недостаточно кубиков Lego, скорее всего, то, что вы строите, нереально. Модель грубая, цвета не совпадают, есть пробелы. То же самое и с моделями машинного обучения. Если у вас недостаточно данных, ваши модели плохие, и вы столкнетесь с множеством ошибок.

Однако иногда у меня могло не быть нужных деталей, чтобы построить модель именно так, как я хотел, поэтому мне приходилось искать альтернативы или пересматривать, как построить мою модель Lego. Таким образом, я научился новому способу использования того, что у меня было. Точно так же, пока вы творчески подходите к тому, куда смотреть, всегда можно получить понимание даже из самых ограниченных данных.

Модель хорошего качества требует разнообразных ресурсов.

Чтобы построить качественную модель Лего, вам также понадобится множество кирпичей. Модели, построенные только из основных кирпичей 2х4, грубые и неточные. Именно здесь было так полезно получить Lego от друзей и семьи. По мере того как наша семья и друзья давали нам больше кубиков Lego, мы получали больше разнообразных кубиков, которые помогали нам создавать более точные модели.

Это также может быть суровой детской правдой о том, что дети, у которых больше всего Lego, лучшие детали и больше всего времени для игр, создают лучшие модели. Та же суровая правда применима к любым проектам машинного обучения. Проекты с самыми большими объемами данных, самыми разнообразными данными и лучшими командами, использующими эти данные, позволят создать наиболее точные модели.

Оба требуют итеративного мышления.

Прелесть Lego в том, что вы не ограничены тем, что находится на коробке. Чтобы что-то перестраивать и каждый раз улучшать, требуется итеративное мышление. Когда дело доходит до работы с данными, существует множество возможностей для повторения.

Когда я получаю «достаточно приличное» решение, будь то панель инструментов или скрипт Python, я все равно нахожу время, чтобы сломать его, починить и продолжить улучшать. Сначала может показаться, что работа выполнена, но я, вероятно, смогу преобразовать ее во что-то более эффективное и масштабируемое.

Чем больше строишь, тем лучше становишься.

Маленькие дети делают грубые модели Lego, цвета не совпадают, а формы неправильные. С другой стороны, дети старшего возраста строят модели, тщательно планируя цвета и формы.

То же самое происходит с данными и алгоритмами. По мере того, как вы знакомитесь со своими данными и алгоритмами, вы понимаете их ограничения и стремитесь создать что-то лучше. А поскольку объем данных растет, вам может потребоваться исправить и настроить свои модели, чтобы они становились все лучше и лучше. Другими словами, такая же кривая обучения применима к построению Lego и моделированию машинного обучения.

Дизайн важен.

Название Lego происходит от датской фразы «leg godt», что означает «хорошо играть». Прежде чем я начну строить что-то с Lego, я сначала решу, что это то, что я хочу показать, или с чем я хочу поиграть. Для моделей, предназначенных только для отображения, я мог бы обойтись более простой архитектурой, но если бы это было чем-то, с чем я хотел бы поиграть, я знал, что должен сделать его более надежным. В конце концов, было бы очень обидно, если бы крылья моего космического корабля отвалились, пока я кружил им по комнате.

Когда дело доходит до создания приборной панели, скрипта Python или даже отчета, я часто начинаю с того, что спрашиваю себя, действительно ли это то, что люди будут использовать (т. Е. Играть), или это то, что они хотят увидеть один раз и никогда больше. Оттуда я планирую и строю соответственно.

Lego многому меня научил о данных и построении моделей. Прямо как Лего:

«Чтобы создать что-то полезное, вам нужно много ресурсов, разнообразия и знаний, чтобы правильно строить правильные модели».

Спасибо за прочтение

Следуйте за мной на Medium, чтобы узнать больше
Давайте подключимся к LinkedIn

Если вам это понравилось, вам также могут понравиться:

5 причин, почему наука о данных похожа на кулинарию
Аналоги науки о данных и кулинарии в отношенииdatascience.com

7 навыков эффективного специалиста по данным
Начните свой путь в науке о данных с этих привычек в сторонуdatascience.com

Новые материалы

5 проектов на Python, которые нужно создать прямо сейчас!

Добро пожаловать! Python — один из моих любимых языков программирования. Если вы новичок в этом языке, перейдите по ссылке ниже, чтобы узнать о нем больше:

Dall-E 2: недавние исследования показывают недостатки в искусстве, созданном искусственным интеллектом

DALL-E 2 — это всеобщее внимание в индустрии искусственного интеллекта. Люди в списке ожидания пытаются заполучить продукт. Что это означает для развития креативной индустрии? О применении ИИ в..

«Очень простой» эволюционный подход к обучению с подкреплением

В прошлом семестре я посетил лекцию по обучению с подкреплением (RL) в моем университете. Честно говоря, я присоединился к нему официально, но я редко ходил на лекции, потому что в целом я нахожу..

Освоение информационного поиска: создание интеллектуальных поисковых систем (глава 1)

Глава 1. Поиск по ключевым словам: основы информационного поиска Справочная глава: «Оценка моделей поиска информации: подробное руководство по показателям производительности » Глава 1: «Поиск..

Фишинг — Упаковано и зашифровано

Будучи старшим ИТ-специалистом в небольшой фирме, я могу делать много разных вещей. Одна из этих вещей: специалист по кибербезопасности. Мне нравится это делать, потому что в настоящее время я..

ВЫ РЕГРЕСС ЭТО?

Чтобы понять, когда использовать регрессионный анализ, мы должны сначала понять, что именно он делает. Вот простой ответ, который появляется, когда вы используете Google: Регрессионный..

Не зря же это называют интеллектом

Стек — C#, Oracle Опыт — 4 года Работа — Разведывательный корпус Мне пора служить Может быть, я немного приукрашиваю себя, но там, где я живу, есть обязательная военная служба на 3..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning React AI Software Engineering Nodejs Development Data Typescript Java NLP Front End Development Computer Science Algorithms Learning Programming Languages ChatGPT Tech Tutorial Reactjs Angular React Native Cybersecurity Productivity Neural Networks Python Programming Javascript Development HTML CSS Learning To Code Developer