Взять крупным планом, или Сопровождение движущихся объектов

Приблизить современную оптику к человеческому зрению

В одном «популярном» издании по безопасности произведен некий опрос общественного мнения на тему: «По каким признакам Вы выбираете себе систему безопасности?». Так, аж, 52,8% респондентов выбрали графу «автоматическое сопровождение движущихся объектов». Пожалуй, нет ничего предосудительного - в желании приблизить современную оптику к человеческому зрению, т.к. сегодня она не способна одновременно охватывать все видимое пространство с четким просмотром каждого интересующего объекта: обзорная камера не дает мелких деталей, а направленная захватывает слишком малый участок площади. Поэтому использование механического зрачка поворотной камеры лежит на поверхности. Однако «железка» нуждается в мозгах. И для моделирования человеческого мышления, которое отвечает за зрение, нужно много чего, кроме желания.

Механический зрачок не способен охватывать общую обстановку и каждую деталь в отдельности, как это делает человек. Поэтому в свое время СпецЛаб предложил использовать технологию КСИЗ (компьютерная система искусственного зрения). Теория совмещения двух разных камер (обзорной и направленной) еще семь лет назад была подробно описана на сайте компании СпецЛаб.

Уже тогда предлагалось наводить направленную камеру под тем же углом, что и у обзорной и совмещать изображения. Это приблизительно так, как это делает человеческий глаз. Но то была теория, лишь изредка применяемая на практике. Как это всегда делается в российском культурном научном мире, она была подвергнута критике, - и… все бросились в ее реализацию.

Сегодня мы уже слышим заявления о ее массовом использовании. Так почитаешь рекламу некоторых компаний, и чувствуешь, что современные технологии давно обошли творения Бога. Чтобы как-то приблизить людей к землице, расскажем, почему такая вещь в широком применении пока маловероятна, а утверждения рекламы еще крайне далеки от реалий.

СпецЛаб эту технологию породил, СпецЛаб о ней и расскажет всю правду.

Перебираем рекламу различных фирм, почти у каждая вторая декларирует такую возможность. Но может ли каждая вторая это сделать, хотя бы теоретически? Ведь работа такого механизма подразумевает наличие в компании серьезных наработок по целому ряду сложнейших технологий. Вот несколько причин, почему это невозможно в таком массовом масштабе:

Причина первая.

Чтобы обнаружить движение, нужно иметь видеодетектор. Но обычный контрастный видеодетектор, который просто выдает команду на запись видео, здесь малоприменим. Конечно, он тоже способен найти области кадра, где происходят изменения, но это не совсем те области, которые нужны для наведения на цель. Дело в том, что изменяется не только та часть кадра, куда перемещается объект, но и та, откуда он переместился – попросту сказать, пустота. Таким образом, стандартный видеодетектор отмечает целый шлейф по ходу движения объекта. Часть этого шлейфа – пространство, где объекта уже нет. Эта пустота может составлять и 100% от реальной площади нахождения объекта (при движении человека) и в несколько раз больше (при движении автомобиля). Чем выше скорость движения объекта, тем больше шлейф с «пустым» пространством. А направленная камера будет наводиться на весь этот шлейф, т.к. для обычного видеодетектора нет разницы между тем пространством, где объект сейчас находится и тем, откуда он только что ушел. Для него и то и другое – это изменения в кадре. А значит, в крупный план будет попадать зона в 2 и более раз больше, чем сам движущийся объект. А, если учесть, что еще нужно делать поправку на скорость и заранее предугадывать зону, куда объект должен попасть, то эффективность наведения по стандартному видеодетектору крайне низка. Просто до бесполезности!

Чтобы качественно отслеживать реальное нахождение объекта, а не просто зоны изменения в кадре, нужен особый вид видеодетектора – детектор фона. Некоторым он знаком под названием детектор оставленных - привнесенных предметов (ДОП). Этот алгоритм запоминает фоновую картинку и все изменения сравнивает с ней. Стандартный же детектор сравнивает каждый кадр с предыдущим без учета фоновой картины. По фоновому анализу можно отслеживать привнесенные объекты в кадре, четко определяя их текущее местоположение.

Надо сказать, фоновый детектор нетривиален в своем исполнении, т.к. фон тоже постоянно меняется и имеет различные формы медленных и быстрых изменений. Однако он уже давно реализован и мог быть изучен многими. И все же известные тесты говорят лишь о немногочисленности компаниях, владеющих этой технологией.

Кстати, одним из первых разработчиков детектора фона уже много лет назад была компания СпецЛаб. Тогда этот тип детектора предполагалось применять для определения краж или подложенных взрывных устройств. По крайней мере, так он позиционировался другими разработчиками. Увы, уже с первых дней было понятно, что в этом качестве он практически неприменим в силу ряда причин, о чем также писал СпецЛаб. Однако некоторым все-таки удавалось продавать этот «воздух», как, в общем-то, и сейчас дилетантское наведение камер на объекты.

Причина вторая.

Даже, если мы имеем координаты текущего изменения картинки, совсем не факт, что нам удастся попасть точно в цель. С момента появления объекта в заданном месте до наведения на него «поворотки» пройдет еще несколько долгих мгновений:

- сначала кадр оцифровывается,

- попадает в детектор фона, оттуда координаты уходят в систему наведения,

- она посылает их в протокол управления поворотной камеры (это довольно медленный протокол, как правило, RS-485),

- далее еще медленнее производится механическое движение поворотного механизма камеры, и… цель уже сместилась.

Чтобы попасть в нее, необходимо не только знать, где она сейчас, но и предсказать, где она будет через несколько мгновений. Это как в стрельбе по бегущей мишени – всегда нужно делать поправку на направление движения. Но компьютер не обладает интуицией, ему нужно четко вычислить скорость, конкретное направление, вероятность смещения и некоторые другие параметры. К сожалению, с виду тривиальная задача требует еще и уяснения компьютерным мозгом, что может называться целью. Это для человека не составляет труда за доли секунды определить, кто есть враг, а кто просто прикинулся столбом. Системе наведения требуется особая математика, которая называется «Детектор объектов». Этот видеодетектор способен найти, локализовать и идентифицировать движущийся предмет как самостоятельный объект.

Только при наличии в системе Детектора объектов можно говорить о том, что она способна вычислять направление и скорость движущейся цели, а соответственно предугадывать, куда нужно сдвинуть инертную механику поворотной камеры, чтобы точно захватить нужный объект.

Причина третья.

Даже, если мы нашли точное положение фигуры человека, рассчитали его скорость движения и четко следуем за ним (а не за тем местом, откуда он уходит), это еще не значит, что мы сможем разглядеть его лицо, чтобы узнать личность. В среднем, лицо человека составляет 1/6 часть от общего роста человека, т.е. по высоте кадр будет, как минимум, с учетом погрешностей наведения, в 8 раз больше, чем само лицо. Соотношения сторон кадра 2:3 больше, в данном случае - к сожалению, не в вертикальную сторону. Поэтому, если еще прибавить поправку на скорость, само лицо на всем кадре будет занимать совсем небольшую площадь – недостаточную, чтобы идентифицировать человека.

Таким образом, нужно решить еще одну задачу – поиск лиц. Отсюда еще одна правда жизни: технологией детектора лиц располагает крайне ограниченный круг компаний. О какой массовости тут можно говорить?

Мало определить точное положение объекта, в наведенном на него изображении надо еще найти лицо. Причем в этом случае наведение должно производиться уже не по обзорной камере (она просто не видит лиц), а по ведомой камере, т.е. поворотная камера должна наводить сама себя. Да еще и учитывать поправку на направление и скорость движения самого объекта. Одна только математика тянет на докторскую диссертацию.

Если необходимо контролировать автомобили, то нужен уже не детектор лиц, а детектор текста – чтобы идентифицировать автотранспорт, нужно наводиться на регистрационные номера. Этой возможностью пока обладает не очень широкий круг компаний.

Причина четвертая. Пожалуй, самая разгромная, хотя и несуразная. В век технического прогресса даже сложно представить, что на сегодняшнем рынке поворотных платформ трудно отыскать такую, которая бы подходила для этой технологии. Казалось бы, элементарная механика, напичканная современной электроникой! Специалистами компании СпецЛаб было протестировано огромное количество различных поворотных платформ и дом-камер. Большинство из них неплохо работает с описываемой технологией, но недолго. Было время, когда СпецЛаб даже начал продажи КСИЗ, но быстро отказался от них из-за многочисленных рекламаций.

Проблема оказалась в том, что ни одна из «повороток» не в состоянии работать без механических погрешностей. Вообще все протестированные системы с течением времени сбиваются с первоначальных координат. Причем угловые погрешности могут составлять от нескольких секунд до нескольких градусов в день – в зависимости от типа поворотной платформы и интенсивности работы. К сожалению, эта величина оказалась непредсказуемой: система может неделю работать отлично, а потом начинает уходить с координат, а может и в течение часа с них съехать.

Разработчик зарубежной механики совсем не позаботился о том, что в России будет модным автоматическое наведение камеры на движущиеся на объекты. Была попытка российского завода наладить выпуск таких устройств в тесном сотрудничестве с компанией СпецЛаб. Почти три года шли технологические консультации, но воз пока и поныне на прежнем месте.

Три года назад приятным сюрпризом оказалась техническая недоработка одной корейской компании. Ее новая дом-камера имела, с позиций требований производителя, изъян, который позволил программе Спецлаб проводить автоматическую привязку к координатам. Т.е. она смогла юстировать сама себя (с помощью программы, написанной в Спецлабе). Таким образом, было выявлено первое устройство, которое было способно обеспечить механикой программу наведения на движущиеся объекты. Кстати, оно оказалось дешевле аналогичных, т.к. производитель посчитал эту «фичу» своей недоработкой. Потом, когда СпецЛаб стал уже плотно сотрудничать с зарубежными разработчиками дом-камер, стали появляться относительно надежные системы.

Но оказалось, что еще одна погрешность, накапливается с течением времени. Механическое крепление, парусность и другие факторы под воздействием естественных явлений природы также сбивают привязку к местности. Теперь Спецлаб разработал специализированный алгоритм, позволяющий производить автоматическое программное юстирование. Он поворачивает камеру до тех пор, пока не найдет в кадре высококонтрастную точку – объект, удобный для запоминания. И после этого производит периодическое самоюстирование по этому объекту. И вот эта привязка уже идет к конкретной местности, а не внутренней функции самой камеры.

Причина пятая. Даже при всем этом, когда Спецлаб реализовал все описанные технологии, практическая точность наведения все равно не стала соответствовать теоретической – расчетной. Опытными испытаниями было найдено еще множество злостных проблем. Одна из них – несоответствие оптического центра камеры геометрическому – телевизионной картинке.

Причина шестая. Банальная цена. Сама поворотная платформа с координатным протоколом может стоить 1000 – 2000 долларов. А еще производитель технологии возьмет энную сумму за программу.

И как тут можно говорить, что система автоматического наведения на объекты применяется массово?

P.S.: Это не значит, что технология КСИЗ невозможна в принципе. Но для ее реализации требуются огромные ресурсы и время, вложенные в разработку. Если же ее предлагает новоиспеченная фирма или компания с небольшим штатом программистов, то наверняка Вас ждет очередной мыльный пузырь, который лопнет сразу после оплаты Вами их продукции. А до оплаты у продавца найдется масса способов продемонстрировать Вам замечательную работу на стенде. Прежде чем платить, хотя бы поинтересуйтесь, владеет ли организация перечисленными выше технологиями.