Благодаря таким приложениям, как обнаружение объектов, сегментация и создание субтитров, набор данных COCO широко используется современными нейронными сетями. Его универсальность и многоцелевое изменение сцены лучше всего подходят для обучения модели компьютерного зрения и оценки ее производительности.

В этом посте мы углубимся в основы COCO, охватив следующее:

Что такое КОКО?

Common Object in Context (COCO) — один из самых популярных крупномасштабных наборов данных изображений с метками, доступных для публичного использования. Он представляет несколько объектов, с которыми мы сталкиваемся ежедневно, и содержит аннотации изображений в 80 категориях с более чем 1,5 миллионами экземпляров объектов. Вы можете исследовать набор данных COCO, посетив соответствующий раздел набора данных SuperAnnotate.

Современные решения на основе ИИ по-прежнему не способны обеспечивать абсолютную точность результатов, что сводится к тому, что набор данных COCO является основным эталоном для CV для обучения, тестирования, полировки и уточнения моделей для более быстрого масштабирования. конвейера аннотаций».

Кроме того, набор данных COCO является дополнением к передаче обучения, когда данные, используемые для одной модели, служат отправной точкой для другой.

КОКО-классы

Для чего он используется и что вы можете сделать с COCO?

Набор данных COCO используется для нескольких задач CV:

  • Обнаружение объектов и сегментация экземпляров: ограничивающие рамки COCO и сегментация экземпляров расширяются до 80 категорий, обеспечивая достаточную гибкость, чтобы играть с вариантами сцены и типами аннотаций.
  • Подписи к изображениям: набор данных содержит около полумиллиона подписей, описывающих более 330 000 изображений.
  • Обнаружение ключевых точек: COCO обеспечивает доступ к более чем 200 000 изображений и 250 000 экземпляров людей, помеченных ключевыми точками.
  • Паноптическая сегментация: паноптическая сегментация COCO охватывает 91 объект и 80 классов объектов для создания согласованных и полных сегментов сцен, которые приносят пользу индустрии автономного вождения, дополненной реальности и т. д.
  • Плотная поза: он предлагает более 39 000 изображений и 56 000 экземпляров людей, помеченных вручную аннотированными соответствиями.
  • Сегментация изображений. Маски сегментации по пикселям с 91 категорией материалов также предоставляются набором данных.

Форматы набора данных

COCO хранит данные в файле JSON, отформатированном по информации, лицензиям, категориям, изображениям и аннотациям. Вы можете создать отдельный файл JSON для обучения, тестирования и проверки.

Информация. Предоставляет высокоуровневое описание набора данных.

"info": { "year": int, "version": str, "description:" str, "contributor": str, "url": str, "date_created": datetime } "info": { "year": 2021, "version": 1.2, "description:" "Pets dataset", "contributor": "Pets inc.", "url": "http://sampledomain.org", "date_created": "2021/07/19" }

Лицензии. Предоставляет список лицензий на изображения, которые применяются к изображениям в наборе данных.

"licenses": [{ "id": int, "name": str, "url:" str }] "licenses": [{ "id": 1, "name": "Free license", "url:" "http://sampledomain.org" }]

Категории. Список категорий и суперкатегорий.

"categories": [{ "id": int, "name": str, "supercategory": str, "isthing": int, "color": list }] "categories": [ {"id": 1, "name": "poodle", "supercategory": "dog", "isthing": 1, "color": [1,0,0]}, {"id": 2, "name": "ragdoll", "supercategory": "cat", "isthing": 1, "color": [2,0,0]} ]

Изображения. Предоставляет всю информацию об изображениях в наборе данных без ограничивающей рамки или информации о сегментации.

"image": { "id": int, "width": int, "height": int, "file_name: str, "license": int, "flickr_url": str, "coco_url": str, "date_captured": datetime } "image": [{ "id": 122214, "width": 640, "height": 640, "file_name: "84.jpg", "license": 1, "date_captured": "2021-07-19 17:49" }]

Аннотации. Предоставляет список аннотаций каждого отдельного объекта для каждого изображения в наборе данных.

"annotations": { "id": int, "image_id: int", "category_id": int "segmentation": RLE or [polygon], "area": float, "bbox": [x,y,width,height], "iscrowd": 0 or 1 } "annotations": [{ "segmentation": { "counts": [34, 55, 10, 71] "size": [240, 480] }, "area": 600.4, "iscrowd": 1, "Image_id:" 122214, "bbox": [473.05, 395.45, 38.65, 28.92], "category_id": 15, "id": 934 }] "annotations": [{ "segmentation": [[34, 55, 10, 71, 76, 23, 98, 43, 11, 8]], "area": 600.4, "iscrowd": 1, "Image_id:" 122214, "bbox": [473.05, 395.45, 38.65, 28.92], "category_id": 15, "id": 934 }]

Ключевые моменты

Способность машин стимулировать человеческий глаз уже не так неправдоподобна, как раньше. Фактически, ожидается, что к 2022 году индустрия CV превысит 48,6 миллиардов долларов. Успех CV объясняется обучающими данными, которые подаются в модель. Набор данных COCO, в частности, занимает особое место среди достижений ИИ, что делает его достойным изучения и возможного включения в вашу модель. Мы надеемся, что эта статья расширит ваше понимание COCO и будет способствовать эффективному принятию решений для окончательного развертывания вашей модели. Не стесняйтесь обращаться, если у вас возникнут дополнительные вопросы.

Первоначально опубликовано на https://blog.superannotate.com.

Следите за SuperAnnotate в LinkedIn, Twitter, Facebook

Подробнее читайте в SuperAnnotate: