Введение в набор данных COCO

Благодаря таким приложениям, как обнаружение объектов, сегментация и создание субтитров, набор данных COCO широко используется современными нейронными сетями. Его универсальность и многоцелевое изменение сцены лучше всего подходят для обучения модели компьютерного зрения и оценки ее производительности.

В этом посте мы углубимся в основы COCO, охватив следующее:

Что такое КОКО?

Common Object in Context (COCO) — один из самых популярных крупномасштабных наборов данных изображений с метками, доступных для публичного использования. Он представляет несколько объектов, с которыми мы сталкиваемся ежедневно, и содержит аннотации изображений в 80 категориях с более чем 1,5 миллионами экземпляров объектов. Вы можете исследовать набор данных COCO, посетив соответствующий раздел набора данных SuperAnnotate.

Современные решения на основе ИИ по-прежнему не способны обеспечивать абсолютную точность результатов, что сводится к тому, что набор данных COCO является основным эталоном для CV для обучения, тестирования, полировки и уточнения моделей для более быстрого масштабирования. конвейера аннотаций».

Кроме того, набор данных COCO является дополнением к передаче обучения, когда данные, используемые для одной модели, служат отправной точкой для другой.

КОКО-классы

Для чего он используется и что вы можете сделать с COCO?

Набор данных COCO используется для нескольких задач CV:

Обнаружение объектов и сегментация экземпляров: ограничивающие рамки COCO и сегментация экземпляров расширяются до 80 категорий, обеспечивая достаточную гибкость, чтобы играть с вариантами сцены и типами аннотаций.
Подписи к изображениям: набор данных содержит около полумиллиона подписей, описывающих более 330 000 изображений.
Обнаружение ключевых точек: COCO обеспечивает доступ к более чем 200 000 изображений и 250 000 экземпляров людей, помеченных ключевыми точками.
Паноптическая сегментация: паноптическая сегментация COCO охватывает 91 объект и 80 классов объектов для создания согласованных и полных сегментов сцен, которые приносят пользу индустрии автономного вождения, дополненной реальности и т. д.
Плотная поза: он предлагает более 39 000 изображений и 56 000 экземпляров людей, помеченных вручную аннотированными соответствиями.
Сегментация изображений. Маски сегментации по пикселям с 91 категорией материалов также предоставляются набором данных.

Форматы набора данных

COCO хранит данные в файле JSON, отформатированном по информации, лицензиям, категориям, изображениям и аннотациям. Вы можете создать отдельный файл JSON для обучения, тестирования и проверки.

Информация. Предоставляет высокоуровневое описание набора данных.

"info": { "year": int, "version": str, "description:" str, "contributor": str, "url": str, "date_created": datetime } "info": { "year": 2021, "version": 1.2, "description:" "Pets dataset", "contributor": "Pets inc.", "url": "http://sampledomain.org", "date_created": "2021/07/19" }

Лицензии. Предоставляет список лицензий на изображения, которые применяются к изображениям в наборе данных.

"licenses": [{ "id": int, "name": str, "url:" str }] "licenses": [{ "id": 1, "name": "Free license", "url:" "http://sampledomain.org" }]

Категории. Список категорий и суперкатегорий.

"categories": [{ "id": int, "name": str, "supercategory": str, "isthing": int, "color": list }] "categories": [ {"id": 1, "name": "poodle", "supercategory": "dog", "isthing": 1, "color": [1,0,0]}, {"id": 2, "name": "ragdoll", "supercategory": "cat", "isthing": 1, "color": [2,0,0]} ]

Изображения. Предоставляет всю информацию об изображениях в наборе данных без ограничивающей рамки или информации о сегментации.

"image": { "id": int, "width": int, "height": int, "file_name: str, "license": int, "flickr_url": str, "coco_url": str, "date_captured": datetime } "image": [{ "id": 122214, "width": 640, "height": 640, "file_name: "84.jpg", "license": 1, "date_captured": "2021-07-19 17:49" }]

Аннотации. Предоставляет список аннотаций каждого отдельного объекта для каждого изображения в наборе данных.

"annotations": { "id": int, "image_id: int", "category_id": int "segmentation": RLE or [polygon], "area": float, "bbox": [x,y,width,height], "iscrowd": 0 or 1 } "annotations": [{ "segmentation": { "counts": [34, 55, 10, 71] "size": [240, 480] }, "area": 600.4, "iscrowd": 1, "Image_id:" 122214, "bbox": [473.05, 395.45, 38.65, 28.92], "category_id": 15, "id": 934 }] "annotations": [{ "segmentation": [[34, 55, 10, 71, 76, 23, 98, 43, 11, 8]], "area": 600.4, "iscrowd": 1, "Image_id:" 122214, "bbox": [473.05, 395.45, 38.65, 28.92], "category_id": 15, "id": 934 }]

Ключевые моменты

Способность машин стимулировать человеческий глаз уже не так неправдоподобна, как раньше. Фактически, ожидается, что к 2022 году индустрия CV превысит 48,6 миллиардов долларов. Успех CV объясняется обучающими данными, которые подаются в модель. Набор данных COCO, в частности, занимает особое место среди достижений ИИ, что делает его достойным изучения и возможного включения в вашу модель. Мы надеемся, что эта статья расширит ваше понимание COCO и будет способствовать эффективному принятию решений для окончательного развертывания вашей модели. Не стесняйтесь обращаться, если у вас возникнут дополнительные вопросы.

Первоначально опубликовано на https://blog.superannotate.com.

Следите за SuperAnnotate в LinkedIn, Twitter, Facebook

Подробнее читайте в SuperAnnotate:

Ускорьте маркировку изображений с помощью трансферного обучения (код не требуется)
Как автоматизировать и масштабировать процесс аннотирования изображений с помощью методов трансферного обучения.superannotate.medium.com

Как AEDIT повысил точность модели на 6% с помощью SuperAnnotate
Расширенные функции автоматизации SuperAnnotate помогли AEDIT автоматизировать процессы обучения данных.superannotate.medium.com

Полное руководство по обучению данных и почему это важно
Ознакомьтесь с нашим недавним исчерпывающим руководством по маркировке данных и узнайте, как маркировать данные таким образом, чтобы повысить…superannotate.medium.com

Новые материалы

Поиск экзопланет с помощью глубокого обучения

Джейсон Терри GSoC 2022 ML4Sci Введение С тех пор как в 1992 году была идентифицирована первая экзопланета, количество и разнообразие обнаруженных экзопланет резко возросло. Несколько..

Решено — Rxjs TypeError: невозможно деструктурировать свойство «__extends» tslib.js

Когда я впервые столкнулся с этой ошибкой, у меня в голове было только одно слово — WTF. И что самое ужасное, я ничего не могу найти в гугле :) Если вы сталкивались с чем-то подобным, то, надеюсь,..

ITOps против DevOps против NoOps

Введение NoOps , DevOps и ITOps — это три разных понятия, которые иногда используются взаимозаменяемо. Все они имеют одну цель: повысить эффективность инфраструктуры компании. Тем не..

Методы разработки программного обеспечения - избегайте утечки конфиденциальной информации с помощью растяжек

Методы разработки программного обеспечения - избегайте утечки конфиденциальной информации с помощью растяжек Избегайте распространенной ошибки разработчиков, связанной с утечкой..

Создайте Android-приложение для веб-сайта/блога, используя WebView в новой Android Studio

Создайте новый проект Android и назовите его как хотите. Здесь я создаю приложение для Android для этого веб-сайта coderefer.com . Поэтому я называю его CodeRefer. Мы уже обсуждали Создание..

Почему глубокие ансамбли так эффективны: перспектива ландшафта потерь

Набор данных MNIST использовался в следующих экспериментах. Каждая из моделей, используемых для подгонки данных, представляла собой простой многослойный персептрон. Для проведения следующих..

Тип против интерфейса в TypeScript

Использование TypeScript в современной индустрии разработки программного обеспечения быстро расширяется с появлением концепции статической проверки типов в JavaScript. Итак, велика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Python Coding Deep Learning AI React Software Engineering Nodejs Development Data Java NLP Typescript Learning Computer Science Front End Development Tutorial Algorithms Tech Productivity Angular ChatGPT Javascript Development CSS Python Programming Programming Languages Neural Networks Developer Self Improvement React Native Data Visualization Science HTML