Новое исследование в области компьютерного зрения направлено на обучение роботов 3D зрению

Компьютерное зрение готово к следующему тесту: восприятию изображения в 3D. В настоящее время компании разрабатывают алгоритмы, позволяющие роботам видеть не простую двумерную картинку, а ощутить всю глубину окружающего их пространства.Computer vision С 2010 года исследователи обучали алгоритмы распознавания изображений на основе базы данных ImageNet, которая содержит более 14 миллионов изображений, ассоциированных вручную с информацией об объектах, которые изображены на этих картинках. Компьютеры обучались классифицировать объекты на фотографиях по различным категориям, например «дома», «стейк» или «немецкая овчарка». Почти все системы компьютерного зрения тренировались подобным образом прежде, чем они проходили «специализированную подготовку» в зависимости от назначения, т.е. получали тематические изображения конкретной области жизни человека. Каждый год участники ImageNet Large Scale Visual Recognition Challenge пытаются написать алгоритмы, которые могут категорировать изображения с наименьшим возможным количеством ошибок распознавания. Еще семь лет назад это казалось очень трудной задачей, но в настоящее время компьютерное зрение показывает превосходные результаты в классификации изображений.

В 2015 году команда из компании Microsoft построила систему распознавания изображений с вероятностью ошибки всего 5 %, впервые за всю историю превзойдя возможности человеческого мозга. Приложения для обработки фотографий Google и Apple позволяют людям искать коллекции фотографий, используя такие ключевые слова как «еда» или «ребенок». Программа Google Photos может классифицировать изображения по абстрактным ключам наподобие «счастье».

«Когда мы только начинали проект, это были непонятные для индустрии вещи», - говорит Алекс Берг из Университета Северной Калифорнии в Чапель Хил, являющийся одним из организаторов испытания алгоритмов распознавания изображений. «Сейчас они стали обыденными вещами миллионов людей».

Представляя реальный мир

Сейчас организаторы конкурса ImageNet объявили о новом испытании, которое состоится в 2018 году. Хотя условия испытания до конца не определены, основной идеей станет решение проблемы совершенствования компьютерного зрения – создание систем, которые способны классифицировать изображения в реальном масштабе времени с использованием обычного человеческого языка. При этом классификации должны подвергаться не только двумерные, но и трехмерные изображения.

«Работа по внедрению 3D сцен в алгоритмы машинного обучения является не такой сложной», - говорит Виктор Присакариу из Университета Оксфорд. «Построение большой базы данных изображений завершается добавлением 3D информации, что позволит роботам обучиться распознавать объекты вокруг них и строить оптимальный маршрут в любую точку пространства. Эта база данных будет в основном включать изображения сцен внутри домов и других зданий».

«Существующая база данных состоит из изображений, собранных со всего Интернет и промаркированная вручную, но этого недостаточно для понимания 3D сцен. База данных для нового испытания может состоять из цифровых моделей, которые имитируют окружающую среду или панорамные снимки (360 градусов), которые включают информацию о глубине», - говорит Берг. «Но кто-то должен сделать эти снимки и записать в базу данных. Так как это очень сложно и экономически затратно, то реальная база данных испытания будет значительно меньше».

«Зрение роботов готово для перехода на новый уровень», - говорит Эндрю Дэвисон из Королевского колледжа в Лондоне. Он уже начал работу над следующим поколением «домашних» роботов, которые будут отличаться от устройств типа робот-полотер Roomba. «Роботу необходимо знать, как поступать с предметами и пользоваться окружающим пространством», - говорит он. «Я действительно думаю, что роботу необходимо как трехмерное представление объекта, так и семантический его смысл».

«Новое испытание также поддержит развитие дополненной и виртуальной реальности», - говорит Дэвисон. Знание расположения предметов в реальном мире поможет системам дополненной реальности (например, Microsoft HoloLens) изобразить виртуальные объекты».

Берг не ожидает большого прогресса в ближайшие несколько лет, но у него есть идея и представление конечного результата. В конечном счете он хочет видеть роботов, которые могут точно понимать окружающее пространство и объяснять, что они видят, как люди. Исследователь считает, что достижение любого из этих результатов осуществимо не раньше, чем через 5 лет.

Назад

Не менее интересно