Основы цифрового видео

Данный материал (первый из серии) рассчитан на тех, кто хочет войти в мир цифрового видео с конкретно подготовленной базой знаний. Мы расскажем и объясним, что, как и почему происходит, расшифруем основные стандарты, используемые ныне, рассмотрим самые популярные программы, технические решения и аппаратуру. Кстати, представленная информация вообще должна быть интересна любому читателю для общего, так сказать, развития. Изложение идет в легком стиле, поэтому трудностей с пониманием быть не должно. И хотя очень часто у пользователей складывается впечатление, что видео — это очень сложно, и что работа с ним — удел избранных профессионалов, на самом деле это не так. Техническое овладение определенной профессией доступно всем, другой вопрос — стать художником в своей области, но… это уже не входит в наши задачи. То есть, практика, практика и еще раз практика.

Одно из пяти

Обычно вводные части читать веселее всего, так оно и будет в данном случае. Главное, чтобы вы получили полное представление о том, что, как и почему. Практически каждый биологический вид природа наделила собственными сенсорными системами; у человека, их, как известно, пять. Все они связаны с мозгом, который является общим центром анализа и управления, а сами системы - ничто иное как сложные комплексы биологических датчиков. Отдельно стоит отметить, что у человека имеется только две стереосистемы — зрение и слух. Они предназначены в первую очередь для ориентации в пространстве и очень схожи по структурной концепции. В любом случае, мы говорим о совокупностях некоторых реагирующих на определенные частоты биологических элементов.

Для начала определимся с основополагающим понятием. Свет — это то, что человек может видеть, то есть воспринимать своей системой фоторецепторов, - и не более того. Это уже потом физики объяснили, что свет состоит из электромагнитных волн с длинами в диапазоне от 400 до 700 нм. А, в общем и целом, мы не далеко ушли от первобытных представлений: свет — то, что вижу, звук — то, что слышу. В простоте — сила!

Идем дальше...

Давайте не будем сильно углубляться в биологию и анатомию, а подчеркнем основные моменты. Фоторецепторные клетки содержат пигмент, который под воздействием света обесцвечивается (процесс обратим), меняется форма его молекул, что ведет к электрическим изменениям в рецепторной мембране. В нашем случае имеет смысл рассказать о двух типах фоторецепторов: палочках и колбочках, благодаря которым мы обладаем монохроматическим «сумеречным» и цветным «дневным» зрением. Палочки обладают только одним типом пигмента (родопсином), при этом одно волокно зрительного нерва получает сигналы сразу от большого количества палочек, в результате чего мы имеем повышенную чувствительность при малой остроте зрения. Палочковое зрение наиболее очевидно проявляется при слабом освещении, причем используется не только у людей, но и у множества ночных видов обитателей планеты. Колбочки — это другой тип фоторецепторов, наиболее чувствительный к сильному освещению; когда в работу вступают колбочки, острота зрения значительно увеличивается. В отличие от палочек, у колбочек могут быть разные фотопигменты, которые активно реагируют на волны только с определенными длинами. Другими словами, выделяют какой-либо цвет из спектра. И человек обладает не цветным зрением, как может казаться людям непросвещенным, а трихроматическим (!). Поэтому, кстати, у множества современных устройств (телевизоров, обычных ЖКИ-дисплеев) любой цвет формируется из сочетания трех: красного, синего и зеленого. И, например, белый, каким мы его видим на экране монитора, является не белым, а адаптированным под наши фоторецепторы белым. На самом деле, если говорить о природе, то здесь мы не на вершине, поскольку у некоторых птиц и рептилий зрение подразумевает большее количество типов колбочек. Хотя нам достаточно и того, что имеем.

Еще стоит отметить, что яркость мы воспринимаем примерно в 20 раз лучше, чем цветность. Исходя из этого факта, в свое время, были разработаны некоторые основополагающие и ныне используемые технические постулаты. Острота нашего зрения составляет порядка одной угловой минуты, т. е. под меньшим углом детали изображения глаз не воспринимает. Например, вы не можете разглядеть каждый кирпич, глядя на здание неподалеку, также как не видите каждый пиксель на ЖК-экране и строку в телевизоре. И очень многие устройства, в том числе большие рекламные экраны, рассчитываются, исходя из этого принципа. Как и слух, зрительная система подразумевает нелинейное восприятие видимого цветового спектра. Это обусловлено таким естественным источником света как Солнце, и если нарисовать его световое излучение в виде графика зависимости относительной энергии к длине волны, то мы получим пологий максимум в районе 600 нм. Примерно в таком графическом виде мы воспринимаем «белый цвет», хотя многие под этим понятием подразумевают ничто иное как «сравнительно однородную» смесь волн с различными длинами. На самом деле это не так, причем очень многое зависит от цветового наполнения освещения.

Отдельно о стереовидении

Этот момент отличает нашу зрительную систему от слуховой и возносит ее в ранг №1. Многие слышали о параллаксе и могут примерно сказать, как у нас работает система стереовидения, определяя дальность до того или иного объекта. Но все эти знания получены из прочитанных книжек. А на самом деле - просто прикройте один глаз рукой. И что, все вокруг нас потеряло объем, мы не можем определить, какой объект ближе, узнать его примерные размеры? Можем. Глядя на картины или играя в игры с 3D-анимацией на обычном дисплее (кино в учет не берем, там много нюансов), мы представляем это как нечто плоское? Отнюдь нет. Ключевым в последнем вопросе является слово «представляем». Ведь на самом деле глаза — это просто сенсорная система, а за анализ всех поступающих данных отвечает мозг. И в этом случае лучше применять понятие объемного восприятия, которое базируется на множестве различных составных, и стерео (бинокулярное) зрение является лишь вершиной айсберга. Да, объясняя его, можно сказать, что расположенные на некотором расстоянии друг от друга глаза дают два изображения, мозг их совмещает, и в результате анализа мы получаем представление об объеме и пространстве. Мало того, у каждого глаза есть своя оптическая ось, соответственно, как происходит примерное определение дальности расположения того или иного объекта, может вам рассказать любой школьник, изучающий геометрию. Но, на самом деле, все не совсем так, как кажется. Даже глядя на все одним глазом, человек может анализировать такие вещи как тени, изменения цветов, сравнивать одни предметы с другими. Если такой наблюдатель проходит мимо какого-нибудь объекта, то может анализировать неравномерное смещение предметов. В принципе, он и получает те же несколько проекций, которые потом мозг «наращивает» до нужного объема. И, кстати, именно благодаря такому методу птицы также могут видеть, вернее, воспринимать все в объеме.

Инертность зрительной системы

Итак, по самим сенсорам мы уже прошлись и даже немного рассказали о том, как работает мозг. Но это не самое главное из основополагающего, ведь мы говорим о современных технологиях. Давайте представим себе всю картину целиком. Фотопигменты откликаются на определенные электромагнитные волны, меняется их состав, что приводит к электрическим изменениям в рецепторной мембране, после чего данные передаются на зрительный нерв и со скоростью электрического тока поступают в мозг. Соответственно, раз в фоторецепторах происходит определенная реакция, мы можем говорить о некоей инертности данной системы, то есть о необходимости определенного времени на эту самую реакцию, и т.п. Так и есть. Но не в глазах дело. Самый яркий, в прямом и переносном смысле пример — рисование в воздухе горящим угольком (кто когда-либо сидел у костра, понимает, о чем я). Быстрое перемещение этого яркого предмета у нас ассоциируется со световой полоской. Скорость реакции фоторецепторов на изменения очень высока, и, например, наблюдая в воздухе ту же яркую полоску, оставляемую угольком, мы видим эту линию, то есть само движение зафиксировано в каждой из точек. Поэтому тут в силу вступает еще один важный момент — интегральные свойства мозга. Он обладает некоей степенью реакции и совмещает все полученные в определенный интервал времени изображения в одно. Это можно понять как из предыдущего примера с угольком, так и доказать путем простейшего опыта: создаем файл, в котором каждый кадр раскрашен по цепочке: красный-зеленый-синий - и так далее в таком же порядке. При медленном воспроизведении смена цветов будет заметна, а при убыстрении все просто сольется в один цвет — белый. Причем органы зрения улавливают цветные кадры, а мозг их просто суммирует, тем самым, проявляя интегральные свойства. Многие спросят, с какой скоростью их воспроизводить, чтобы все слилось, и не было явной ряби? Примерно, 30-36 кадров в секунду и выше. То есть в рамках такого опыта вы можете самостоятельно найти пороговое значение скорости реакции нашей зрительной системы на изменения, она будет составлять примерно 0,1 секунды. То есть все, что происходит ниже этого порога, сливается в одно изображение. Данный пример можно очень быстро и удобно реализовать в Adobe Macromedia Flash, создав три кадра, зациклив их воспроизведение и меняя только частоту смены кадров. И человек не был бы человеком, если бы не стал исследовать подобные свойства, в результате чего появилась величайшая технология обмана — кино. То есть движение можно зафиксировать в виде ряда статических кадров, снятых с определенной частотой, а после воспроизвести эти кадры в том же ритме. В результате картина полностью воссоздается. Стандартом стала частота 24 кадра в секунду (английский вариант fps — frame per second), и постепенно человек от самой идеи начал двигаться в сторону ее оптимальной технической реализации. Насчет инертности восприятия вы можете проделать и другие эксперименты, например, создав анимационный ролик в Adobe Macromedia Flash и установив в настройках различные значения fps. При 10-12 все уже будет смотреться нормально.

Ключевое отличие видео от кино

Кино основывается практически на отдельных быстро меняющихся фотокадрах. Там предусмотрена соответствующая техника: проекторы и т.п. Видео же берет свои основы из другой сферы — телевидения. Ведь когда появилось радио, то со звуком все оказалось достаточно просто, причем быстро были придуманы и реализованы основные технологии и методы трансляции и приема. А вот как и по каким принципам передавать эти самые часто сменяющиеся изображения? Тут было одно ключевое изобретение, которое оказало влияние на весь дальнейший ход событий, и которому мы обязаны множеством современных стандартов…

История. Телевизор Нипкова

24-летний немецкий инженер и изобретатель Пауль Нипков (Paul Julius Gottlieb Nipkow) в 1884 году запатентовал «оптико-механическое устройство». Для того, чтобы полноценно понять его конструкцию, нужно немножко включить воображение. Давайте попробуем. Есть диск, нанизанный на вал двигателя, он быстро вращается. Если в этом диске проделать отверстие, а позади него установить лампу, то с лицевой стороны мы будем наблюдать световую полоску. Если мы сделаем еще одно отверстие ближе к центру, то в результате быстрого вращения будем видеть уже две световые полосы. Теперь спрячем все устройство в большой ящик, оставив только маленький экран. При включении «агрегата» на нем будут видны две светлые линии. Что предложил Нипков? Сами отверстия расположить через равные интервалы по обычной архимедовой спирали, сходящейся к центру (естественно, не доходя до него). Таким образом, каждое из отверстий воспроизводит определенную световую строку. А если лампу позади синхронно с какими-либо требованиями включать/отключать во время воспроизведения каждой из строк (прохождения соответствующего отверстия в поле экрана), то тем самым можно выводить определенные изображения. Конечно, само изобретение могло еще долго пылиться на полках, ведь оно и трудоемко в реализации, да и к чему такие сложности, если есть кино. Но этим делом активно заинтересовались изобретатели первого телевидения. Они взяли за основу идею Нипкова выводить изображение по строкам (ведь это намного легче представить в виде сигнала), однако с . одним весомым нюансом: позади диска находилась не лампа, а ряд фотоэлементов, которые фиксировали яркость, а данные с них преобразовались в аналоговый сигнал.) Таким образом и появилось разбиение изображения на точки и строки. Изначально за стандарт было принято 40 точек (в телекамерах стояло 40 фоточувствительных элементов) и 30 строк. Отсюда и еще одна современная технологическая данность — геометрия экрана 4:3. Передаваться изображение могло уже обычными способами, разработанными для радио, и, кстати, у первых радиоприемников и телевизоров было не так уж много различий.

Причем в телевизорах, разработанных на базе идеи Нипкова (в 10-20-е и ближайшие к ним годы), как вы понимаете, экран был очень маленьким (его ширина была равна расстоянию между соседними отверстиями, а для увеличения итогового изображения еще использовалась и лупа) и устанавливаться мог относительно диска как горизонтально, так и вертикально. Трансляции могли вестись в обоих вариантах. И если бы прижился вертикальный, то все современные телевизоры и мониторы имели бы другое соотношение, не 4:3, а 3:4.

Естественно, эти технологические динозавры были очень шумными, громоздкими, изображение выглядело очень мутным, рассмотреть черты лица на экране было практически невозможно. Изначально для синхронизации с сигналом устройства предусматривали специальное отверстие… для пальца. То есть настройка происходила, что ни на есть вручную. А после от этой проблемы избавились, введя в сигнале метки для синхронизации — еще одно техническое новшество. Но все-таки начало было положено, удобоваримый сигнал для трансляции изобрели, естественно, позже его стало возможным фиксировать на определенные носители и так далее. Также, скорее всего именно в то время, начало возникать разделение в технологическом представлении телевидения в США и Европе. У нас разные частоты электросетей, соответственно, в Штатах проще привязываться к цифрам, кратным 60 (у них частота электросети 60 Гц), а в Европе и в России — 50. О совмещении с кино и его 24-ю кадрами в секунду речи не шло. Следующим витком стала борьба за качество.

История. «Электронное» телевидение

Электромеханические телевизоры могут заинтересовать нашего современника разве что как раритет: качества не было, все выглядело достаточно грубо и мелко. Но уже в 1930-х появились первые электронно-лучевые трубки-кинескопы с магнитной фокусировкой луча. Их принцип работы основан на идеях профессора Петербургского университета Бориса Львовича Розинга, сформулированных в 1907-м. Именно за этими устройствами тогда стояло будущее телевидения. Подробное описание устройства кинескопов на базе ЭЛТ в рамках данного материала не представляет большого практического значения, ведь этой информацией полны учебники не только радиоэлектроники, но и обычной современной физики. Нужно указать только ключевые моменты. Изображение получается с помощью лучей (узконаправленных потоков) электронов, которые с помощью специальных методов выводят те же строки. При этом попадают на специальный состав (люминофор), а он в свою очередь преобразует полученную кинетическую энергию в кванты света. Система выводит изображение построчно, а поскольку мы говорим об электронной технике, то подразумеваем и более высокую точность, и возможность наращивания параметров. Так и случилось. На сегодня обычный американский стандарт NTSC (National Television Standards Committee) предусматривает разрешение 767 на 474 точек (последняя цифра — количество строк), а PAL (Phase Alternative), распространенный в Европе, несколько большее — 767 на 576 точек. У нас, как вы знаете, был принят SECAM (820х625). Данные цифры рассчитывались с учетом ширины строки и расстояния зрителя от телевизора. Нужно было сделать так, чтобы он не замечал (не смог детализировать) границы переходов. Для увеличения параметра сглаживания изображения и оптимизации/упрощения системы в целом один кадр выводится с помощью двух полукадров (полей), каждый из которых подразумевает чересстрочную развертку (метод interlaced). Поэтому изначально были выбраны стандарты частот смены кадров в секунду: 25 в Европе и 30 в США. Хотя, например, в тех же компьютерных мониторах от этих стандартов уже отошли, каждый кадр воспроизводится полностью (метод non-interlaced), а частоту вы можете регулировать сами. Поэтому за такими мониторами можно проводить больше времени, а разницу при переключении частоты вы способны увидеть невооруженным взглядом.

История. Цвет

Как указано выше, человеческое зрение является трихроматическим, так почему бы его модель не распространить и на системы, дающие цветное изображение? Кстати, в эпоху черно-белого телевидения (начало 60-х) в продаже имелись специальные пленки, которые наклеивались на экран; сверху они были голубыми, снизу зелеными и т.п. «Улучшайзеры»! Если же вы посмотрите структурную схему любого современного устройства (телевизора, монитора и т.п.), то обнаружите там три цветовых тракта (красный, зеленый и синий), благодаря которым складывается изображение. Изначально цвет пришел в кино, причем изобретатели тогда не стали особенно мудрить и придумали систему, когда на экран последовательно выводятся изображения одного и того же кадра, но с разными цветами (по существу, три одноцветных — красный, зеленый и синий — подобный опыт вам было рекомендовано проделать в начале материала). А поскольку мозг хранит в себе изображение 0,1 секунды, и к тому же может суммировать все, что произошло за этот небольшой период, то три одноцветных кадра сливались в один цветной. Это называется «системой с последовательной передачей цветов». Тем же принципом решили сначала воспользоваться и для телевидения. Но обнаружились проблемы. Первая причина — совместимость с черно-белыми телевизорами: получается, что им нужно утроить частоту. А вторую вы могли узнать буквально совсем недавно, поскольку идентичная технология была применена в современных DLP-проекторах с «цветным колесом». Хоть у человека и большая скорость реакции фоторецепторов, глаза устают. К тому же нашему современнику известен так называемый эффект радуги, который явно проявляется если вы быстро переместите свой взгляд с одной части экрана на другую. Он существовал и тогда. Причем сами диски с цветными колесами подвергались загрязнению и накапливали электростатику (таков был тогда технологический производственный процесс). В общем, от этой идеи постоянно отказываются, а на телевидении решили вовсе не применять. В обычных телевизорах и мониторах с ЭЛТ, если объяснять простыми словами, в кинескопах используются три пушки (каждая из которых отвечает за свой цвет), а лучи электронов, проходя через специальную матрицу, воздействуют на три трипа люминофоров (для каждого — свой). В ЖКИ- варианте все проще, поскольку мы говорим об использовании практически трех одноцветных матриц. И на самом деле это решение наиболее оптимально. В общем, дальше сушить мозги не имеет смысла, за исключением указания того важного момента, что с внедрением цветного вещания в США по системе NTSC возникли проблемы с использованием частоты смены 30 кадров с секунду. В случае ее использования накапливается расхождение между кодом синхронизации и изображением с появлением “лишних” 128 кадров за один час. В результате было решено убирать некоторые кадры (создавать “выпадающие кадры” или «drop frames”) для того, чтобы минимизировать ошибку. Таким образом, был введен стандарт 29,97 кадров в секунду.

История. Видеоиндустрия

Видеоиндустрия стартовала с того момента, как сигнал научились записывать на стандартизированные аналоговые носители, а в продаже появились бюджетные устройства, способные их воспроизводить и подключающиеся к обычной бытовой аппаратуре — телевизорам. HomeVideo-человек уже не был статичным зрителем, подчиненным условиям телепрограммы передач, цензуры и т.п. Он практически имел дома собственную телестанцию. Новинка раскручивалась тогда не менее интенсивно, чем компьютеры некоторое время назад. Это были постоянные гонки за апгрейдами, новым уровнем качества, а в некоторых случаях модный аппарат становился буквально фетишем. Причем именно в этой сфере сделала стартовый коммерческий рывок компания Dolby, которая предлагала из обычного звука создать пространственный путем различных ухищрений. Да-да, Dolby пришла в профессиональную киноиндустрию, начиная с пользователей видео, в отличие от DTS.

Сейчас мы полностью уходим от аналога, индустрией пересматриваются устаревшие стандарты, осуществляется полный переход в «цифру». И это не является чем-то новым, скорее, для XXI века, — обыденным. Инструменты производства и технологии быстро дешевеют, со стороны пользователей значительно увеличился спрос на ПО для видеомонтажа, и этот рынок начал более стремительно развиваться. Причем, скорее всего, все произойдет, как и в звуке — программное обеспечение станет доминирующим элементом в области записи, обработки, монтажа и выпуска финальных продуктов. В рамках следующего материала мы обсудим ряд интересных вопросов, которые введут нас в мир современных цифровых стандартов семейства MPEG.

- Обсудить материал в конференции