Что такое Deep Learning AF: как работает автофокусировка Canon на базе искусственного интеллекта?

Canon наделала много шума о своей новой системе Deep Learning AF, которая лежит в основе новейшей флагманской профессиональной камеры производителя. Звучит невероятно умно, но возникает множество вопросов - что такое глубокое обучение? Кто преподает? Система учится, когда вы стреляете? Неужели в фотоаппарате есть искусственный интеллект? Действительно ли это делает автофокус лучше?

Если вы читали наш обзор Canon EOS-1D X Mark III, вы знаете, что ответ на последний вопрос - однозначное «да». Что касается ответов на другие вопросы о Deep Learning AF, возьмите себе напиток и перекус и читайте дальше …

Механика автофокусировки Canon EOS-1D X Mark III невероятно продумана и поддерживает две отдельные системы автофокусировки. Во-первых, это оптическая система, которая снимает через видоискатель со скоростью 16 кадров в секунду, используя датчик замера с разрешением 400 000 пикселей в сочетании со специальным процессором Digic 8 для автофокусировки по 191 точке, способной отслеживать лицо.

Затем есть система Live View, способная снимать 20 кадров в секунду, используя все 20,1 миллиона пикселей датчика изображения в сочетании с новым процессором Digic X, для 3869 точек Dual Pixel CMOS, которые могут выполнять автофокусировку с полным обнаружением глаза.

В основе обеих этих систем лежит основная технология Canon EOS iTR AFX - последняя версия ее интеллектуальной автофокусировки с отслеживанием и распознаванием, которая дебютировала в оригинальной EOS-1D X (и впоследствии попала в семейство 7D Mark II и 5D). И в его схемах похоронен алгоритм глубокого обучения.

Глубокое обучение - это НЕ то же самое, что ИИ

Прежде всего, важно уточнить, что глубокое обучение не следует путать с искусственным интеллектом (ИИ). Система ИИ находится в постоянном развитии. Глубокое обучение, или машинное обучение, - это разновидность искусственного интеллекта.

В отличие от настоящего ИИ, глубокое обучение - это закрытый процесс. Это алгоритм предварительной сборки, который позволяет архитектуре камеры, по сути, самообучаться, намного быстрее, чем это может быть запрограммировано вручную инженерами. Как только это обучение будет завершено, оно блокируется и загружается в камеру.

С этого момента обучение невозможно; несмотря на название - а Deep Learning - это название технологии, а не описание процесса - камера не учится постоянно и не станет `` лучше '', чем больше вы снимаете (действительно, настоящая система искусственного интеллекта выучит столько же ваших вредных привычек, как и ваших хороших!).

«Этому учили», - объясняет Майк Бернхилл, менеджер службы технической поддержки Canon Europe. "Вы помещаете его в компьютер, он создает алгоритм, который затем загружается в камеру. Таким образом, он отличается от ИИ - ИИ - это непрерывное обучение; глубокое обучение, по сути, самообучается и дает вам конечный результат, который затем загружается в камеру ".

Возникает вопрос: когда так много компаний кричат о возможностях искусственного интеллекта, действительно ли камера способна поддерживать искусственный интеллект?

«Вычислительная мощность для создания настоящего ИИ невозможна в камере», - говорит Бернхилл. «Если вы хотите это сделать, есть телефоны, но данные не в вашем телефоне, это в Кремниевой долине. Вот где находится система искусственного интеллекта. Просто ваше телефонное соединение подключается к нему - оно не здесь, оно там (в облако), потому что вам нужен сервер. Мы могли бы сделать камеру, но вы бы все время таскали с собой гигантский чемодан ».

Как глубокое обучение само себя учит?

Итак, алгоритм глубокого обучения учит сам себя - но откуда он на самом деле учится? Проще говоря, «из лучших».

«Canon работала с нашими агентствами», - говорит нам Бернхилл. «Мы получили доступ ко всей базе данных спортивных фотографий от всех крупных агентств, мы работали с нашими послами, которые снимают спортивные состязания, и они предоставили свои изображения различных объектов, и это позволило нам научить эту систему автофокусировки распознавать люди в спорте ».

Очевидно, что спорт является целевым методом обучения, потому что Canon EOS-1D X Mark III - это в первую очередь спортивная камера. Проблема в том, что баскетболист, смотрящий в сторону от камеры, лыжник в очках или гонщик Формулы-1 в шлеме, люди, занимающиеся спортом, часто скрывают свои лица, а это означает, что традиционная автофокусировка с распознаванием лиц или даже глаз не работает. t работает, и вместо этого камера будет фиксировать такие вещи, как числа на форме игрока.

Предоставляя алгоритму глубокого обучения доступ к обширной библиотеке изображений всего, от перевернутых гимнасток до хоккеистов в подушках и шлемах, он может изучать и различать человеческую форму в бесконечном разнообразии ситуаций - и, в конечном итоге, может для выполнения этого «обнаружения головы», чтобы, даже если лицо человека не было видно, голова всегда была основной точкой фокусировки.

«Глубокое обучение - это, по сути, образы, вы создаете набор правил для его обучения, а затем оно уходит, и он создает свой собственный алгоритм», - продолжает Бернхилл. «Итак, вы устанавливаете параметры того, как будет выглядеть человек, вы говорите:« Вот человек », затем анализирует все изображения людей и говорит:« Это человек »,« Это человек ». просматривает миллионы изображений за определенный период времени, создает эту базу данных и учится сама ».

Фактически, алгоритм фактически создает две базы данных - одну для обслуживания системы автофокусировки оптического видоискателя и измерения с использованием Digic 8, а другую - для обслуживания системы автофокусировки Live View, использующей Digic X. Поскольку именно Digic X выполняет все вычисления для отслеживание головы: как только алгоритм автофокусировки обнаруживает человека в кадре, все передается новому процессору.

«Как только у вас появляется человек, вы фактически получаете двойную обработку, - говорит Бернхилл. «Здесь две базы данных, потому что входные данные от обоих датчиков будут немного отличаться, поэтому то, как они будут распознаваться, будет немного отличаться, так что это подмножества одного и того же алгоритма. Основные данные для обоих из них одинаковы, это просто как он будет распознан и к нему будут применены правильные данные ».

Если он не может научиться чему-то новому … как насчет AF у животных?

Конечно, Canon EOS-1D X Mark III - это не просто спортивная камера - ее другая ключевая аудитория - это фотографы дикой природы. Тем не менее, камера не обладает способностью автофокусировки на животных, и мы установили, что Deep Learning не может научиться каким-либо новым трюкам после того, как он был встроен в камеру. Так что это? Со всеми этими причудливыми новыми технологиями камера даже не сфокусируется на семейной собаке?

Это правда, что прямо сейчас камера не поддерживает автофокусировку животного (или глаза животного). «В основном мы сосредотачиваемся на людях, с которых нужно начинать, чтобы сначала заработал такой алгоритм», - отвечает Бернхилл. «Вот почему мы как бы сосредоточились на спорте, потому что это установленный параметр, и мы можем научить его в течение определенного периода времени»,

Тогда ответ лежит в прошивке. Бёрнхилл подтвердил, что у камеры есть возможность пройти более глубокое обучение для таких вещей, как птицы и дикие животные, и что этот обновленный алгоритм будет распространен среди пользователей через обновления прошивки - хотя конкретных планов объявить нет.

«Мы будем работать над этим постоянно, поэтому на данный момент еще не решено, как и куда мы пойдем. Но команда разработчиков собирается и изучает фотографии других животных - мы понимаем, что есть множество областей, но, очевидно, большая В центре внимания этой камеры спорт, а затем дикая природа, и очевидно, что в Токио-2022-2023 это было приоритетом ».

Это справедливый момент; Если бы Canon ждала, пока Deep Learning все узнает, выпуск камеры занял бы больше времени. И хотя такие производители, как Sony, могут похвастаться некоторой селективной автофокусировкой животных в своих камерах, Бёрнхилл отмечает, что Canon предпочла бы выпустить полное решение автофокусировки животных, а не выборочное, частичное. И здесь глубокое обучение станет бесценным.

«Проблема в дикой природе, там много разных животных - очевидно, что у вас есть хищники с глазами впереди, а также у вас есть (глаза) кроликов сбоку, у вас есть змеи, у вас есть птицы … нет системы, которая распознает лица всех животных. И вот здесь вы попадаете в глубокое обучение - обучение системе распознавать эти сложные вещи ».

Итак, хотя ваша Sony может отслеживать вашу собаку или кошку, но не саламандру или фламинго, Canon хочет создать камеру, которая делает все или ничего. «Если бы мы собирались это сделать, мы бы хотели сделать это для максимально широкого спектра - мы не хотим делать камеру, удобную для собак, и камеру, удобную для кошек, мы хотим сделать камеру, удобную для животных. это работает для широкого круга животных, которых (профессионалы) будут стрелять ».

Обзор Canon EOS-1D X Mark III
Как Canon сделала самую быструю зеркалку? Изменяя конструкцию зеркального бокса
102 обновления Canon EOS-1D X Mark III