Основы видеоформатов
Сегодня мы плаваем в мире, переполненном видеоформатами; так много размеров кадров, частот кадров, скоростей передачи данных, размеров файлов, алгоритмов сжатия. Терминология используется и перепрофилируется так часто, что легко потерять представление о том, что она означает. Существуют некоторые реальные стандарты, лежащие в основе видеоформатов, а также множество подтасовок по краям, поскольку все постоянно меняется.
Это не урок истории, но важно помнить, что телевидение как жизнеспособная форма СМИ появилось примерно в 1940-х годах - менее чем за 100 лет развития технологий. Большую часть этого времени под словом "телевидение" подразумевались программы, созданные несколькими крупными вещательными сетями (плюс местные станции) и передаваемые по эфиру зрителям на дом.
С появлением "кабельного" и спутникового вещания эта модель претерпела различные изменения, но изменения происходили относительно медленно, а базовые технические концепции оставались довольно стабильными. То, что сейчас известно как "видео стандартной четкости" (SD), было единственным видео на протяжении 50 с лишним лет. Одна частота кадров, один размер кадра, аналоговое и, в конце концов, цифровое. Но масштабные изменения, вызванные технологиями, культурой и бизнесом, изменили ландшафт.
Насколько нам нужна история?
Некоторые вещи, такие как телевизор/монитор на ЭЛТ (катодно-лучевой трубке), практически навсегда ушли в прошлое, но другие "унаследованные" концепции сохранились. Эти три концепции до сих пор влияют на то, как мы работаем с видео: Стандартное определение, дробная частота кадров и чересстрочная развертка.
В США и некоторых других странах телевидение было стандартизировано для сканирования вниз 525 горизонтальных строк в каждом кадре. Кадры обновляются со скоростью 30 в секунду, что напрямую связано с частотой 60 Гц в американской электросети (телевидение в Европе и большинстве других стран имеет частоту кадров, связанную с частотой 50 Гц). Термины NTSC и PAL часто используются как сокращение для обозначения телевидения, основанного на частоте 60 или 50 Гц соответственно, хотя на самом деле эти термины относятся к тому, как кодировался цвет в каждой системе (что сейчас в основном не имеет значения).
За исключением особых случаев, это было видео примерно до 2009 года, когда "переход на DTV" принес общественности HDTV. Он также изменил эфирное вещание с аналогового на цифровое, но это уже другая история. Сегодня мы работаем в основном с форматами HD, но стандартный def все еще существует, в основном потому, что огромное количество старых программ все еще используется.
В США цвет был добавлен к оригинальному черно-белому телевизионному сигналу в качестве своеобразного "наложения", а частота кадров была изменена на 29,97 кадр/с (причины этого потребуют другой статьи). Это все еще 30 полных кадров, но работает немного медленнее, чем частота линии электропередачи. Некоторое оборудование сегодня может работать как с частотой 29,97 (дробная), так и с частотой 30 (целая) кадров, но в мире вещания все по-прежнему дробно. Опять же, это во многом связано со всем старым контентом, который все еще существует.
Так имеет ли это значение? Если видео идет на традиционное вещание, то, скорее всего, да. Дробность может потребоваться и для контента, передаваемого другим организациям. Но для автономных видеосистем - офисных, конференц-, образовательных, развлекательных - это не имеет значения, и, по сути, использование целочисленной частоты кадров означает, что количество кадров в записи будет соответствовать реальному времени. (Компенсация разницы в количестве кадров между 29,97 и 30 является причиной появления таймкода "drop-frame").
И наконец, есть интерлейс. Возвращаясь к стандартному def, выяснилось, что сканирование всех 525 строк за 1/30 секунды может вызвать заметное мерцание для зрителя. Исправление заключалось в том, чтобы сканировать все нечетные строки, а затем четные, как два поля в кадре (60 полей в секунду). Фосфорное покрытие ЭЛТ-монитора продолжало светиться достаточно долго, чтобы чередующиеся линии казались непрерывными, что фактически удваивало частоту обновления. Маленькая хитрость человеческой зрительной системы.
Интерлейс больше никто не видит, потому что все используемые сегодня типы дисплеев - прогрессивные (сканируются последовательно сверху вниз) или что-то подобное. Но интерлейсные форматы все еще используются некоторыми традиционными вещателями, потому что они были частью стандартов, введенных в 2009 году, и их было проще сохранить, чем изменить (к тому же в стране все еще используется множество ЭЛТ-телевизоров). HD-форматы, такие как 1080i, доступны во многих устройствах, но, опять же, нет никаких причин использовать чересстрочную развертку, если только видеовыход не направляется куда-то, где это требуется.
Добро пожаловать в сегодняшний день
Официальный стандарт для перехода на DTV в 2009 году охватывал примерно 36 возможных комбинаций размера и частоты кадров, включая дробные и целые, относящиеся к 60 Гц, и те, что относятся к 50 Гц (без дробных). Сейчас мы регулярно имеем дело с разрешениями от ниже SD до 4K и выше.
В прогрессивном формате есть форматы 30 и 60 кадров в секунду, а также 24, 25 и 50, и все эти частоты кадров могут использоваться с двумя официально стандартизированными разрешениями HD - 1280×720 и 1920×1080. Эти цифры определяют ширину и высоту кадра в пикселях при соотношении сторон 16:9. Стандартное разрешение обычно обозначается 640×480, что соответствует соотношению сторон 4:3 (всего 480 активных линий изображения из 525).
К сожалению, долгожительство интерлейса привело к путанице в терминологии. На мой взгляд, мы всегда должны говорить о кадрах, а не о полях, и поэтому 1080i30 - это 1920×1080 с чересстрочной разверткой 30 кадров в секунду (что по определению означает 60 полей). Так что же такое 1080i60? Это просто другое название чересстрочной развертки 30 кадров в секунду, которое, к сожалению, стало популярным. Суть в том, что если изображение чересстрочное, то это 30 кадров/60 полей (или 29,97/59,94), независимо от того, как оно называется.
Обратите внимание, что у 4K есть два разных варианта, оба примерно 4000 пикселей. То, что мы часто называем сокращением "4K", обычно является UHD (в маркетинговой терминологии - "Ultra HD") с размером кадра 3840×2160. Это ровно в четыре раза больше, чем размер кадра HD 1920×1080. Другой формат 4K - 4096×2160, это один из форматов для цифрового кино (в отличие от телевидения). Существует соответствующий формат 2K - 2048×1080. В общем, если это некиношное видео, то оно UHD.
Еще один "устаревший" формат сигнала, который до сих пор можно увидеть в меню оборудования, - прогрессивный сегментированный кадр (PsF). Sony разработала PsF на заре прогрессивного видео, когда в обиход вошло 1080p30, но многие устройства могли обрабатывать только 1080i. PsF деконструирует прогрессивный сигнал в "псевдоинтерлейс" для передачи между устройствами - например, с камеры 30p на монитор 30p. На самом деле он не изменяет структуру изображения.
За пределами "производственного" видео существуют разрешения, обычно используемые в компьютерных дисплеях и стандартизованные VESA. К ним относятся VGA (также 640×480) и различные меньшие размеры кадра, вплоть до 4K и выше. Современные компьютерные мониторы обычно могут работать с широким спектром форматов, в то время как некоторые дисплеи, продаваемые в качестве потребительских телевизоров (то есть для просмотра развлекательного видео), могут быть ограничены "официальными" разрешениями SD и HD. Эта маленькая деталь может привести к неожиданным неприятностям. Мало того, некоторые потребительские дисплеи не будут работать с целочисленными частотами; их схемы рассчитаны только на 29,97/59,94.
Итак, давайте предположим, что видео в мире аудио-видео является прогрессивным и может быть целым или дробным. Отсюда следует, что выбор частоты кадров связан с различными приложениями и тем, какие сигналы поддерживает оборудование. Частота кадров влияет на эстетический вид видео, поэтому, например, 24 и 30 могут восприниматься как более "кинематографичные", поскольку фильмы традиционно снимались с частотой 24. Более высокая частота кадров, как правило, лучше подходит для съемки быстрого движения, но имеет вид, который некоторые считают "гиперреалистичным". Конечно, это несколько субъективно.
Частота кадров и разрешение также влияют на скорость передачи данных сигналов и размер записываемых файлов. При использовании SDI в качестве транспортной среды 1080/30 (прогрессивный или чересстрочный) имеет скорость передачи данных без сжатия 1,485 Гб/с, обычно сокращаемую до 1,5 Гб. По мере того как 1080p60 становился жизнеспособным, SDI 3 Гб становился обычным. Переходя к UHD, умножьте эти значения на четыре, чтобы получить 2160p30 при 6G и 2160p60 при 12G. Передача 12 Гбит по коаксиальному кабелю SDI становится сложной задачей, поэтому могут потребоваться другие подходы, такие как quad-HD или video-over-IP.
Размер записываемых файлов растет аналогичным образом: от примерно 9 Гб в минуту для несжатого 1080p30 до 60 Гб в минуту для 2160p/60. Это байты, а не биты. Расчет истинных скоростей передачи данных и размеров файлов осложняется такими факторами, как способ кодирования яркости и цвета и битовая глубина цветовых каналов. Именно поэтому некоторые скорости передачи данных HDMI превышают 12 Гб.
Что касается 4K/UHD, то больше - не всегда лучше. 4K невероятно раскручен как нечто необходимое всем, но на самом деле стоит задуматься о его применении. Детали, доступные в изображении 4K, не видны, если только зритель не находится очень близко к экрану или экран не гигантский. Некоторые варианты использования очень ценны, например, съемка в 4K позволяет вытягивать HD-суб-изображения из общей картинки, но многие из них, IMHO, больше шумиха, чем ценность - при том, что накладные расходы на пропускную способность и размер файлов весьма значительны. Можно доказать, что высокий динамический диапазон (HDR) и расширенный цветовой диапазон (гамма) обеспечивают большее улучшение изображения при меньших затратах.
Кодеки и контейнеры
Хотя скорости передачи данных в оборудовании, сетях и Интернете постоянно растут, постоянное совершенствование сжатия данных - это, пожалуй, то, что сделало возможным "видео повсюду". Поиск способов получить лучшее качество из меньшего количества битов - вот та магия, благодаря которой HD и 4K появились на всех этих экранах. Для примера, подумайте, что шоу в формате 1080p60, которое, возможно, начиналось со скоростью 3 Гбит/с без сжатия, может передаваться на компьютер или телевизор зрителя со скоростью 10 Мбит/с или меньше. Это снижение скорости передачи данных на 300 %. В реальности это шоу, вероятно, также использовало некоторые формы сжатия на протяжении всей производственной цепочки, потому что захват и редактирование без сжатия технически сложны.
Термин "кодек" означает алгоритм сжатия и распаковки сигнала для транспортировки или хранения. Существуют десятки разновидностей кодеков для видео и аудио, и выбор кодека во многом зависит от конкретной задачи. Кодеки качества приобретения и вклада демонстрируют наименьшее количество визуальных и звуковых артефактов, но имеют высокую скорость передачи данных. На другом конце находятся кодеки, используемые для конечной доставки зрителям, которые должны быть чрезвычайно эффективными (низкая скорость передачи данных) для передачи через Интернет и легко декодироваться, поэтому вероятность появления артефактов выше. Удивительно, но конечный продукт, который мы видим, по-прежнему выглядит чертовски хорошо, за что мы можем поблагодарить ученых и инженеров, занимающихся тяжелой математикой!
Помимо скорости передачи данных, существует множество параметров, которые отличают кодеки для разных целей. Важнейший из них - кодек без потерь и кодек с потерями. Кодек без потерь возвращает после декодирования те же данные, что были закодированы изначально, бит в бит. Они обычно используются в производственных средах. Кодеки с потерями используют математические и перцепционные инструменты для удаления части исходных данных таким образом, чтобы их нельзя было обнаружить. Хорошим примером является аудиокодек mp3, который может отбрасывать части звука, которые будут маскироваться более громкими звуками или выходить за пределы среднего слуха. Эта хитрость работает на удивление хорошо, но всегда есть компромисс в абсолютном качестве.
Важной тактикой сжатия видео с потерями является предсказание кадров. Например, некоторые варианты кодека H.264 (он же AVC или MPEG4 part 10) учитывают разницу в пикселях и движении между кадрами. Определенное количество полных кадров (I-кадров) сохраняется, но между ними находятся интерполированные (B и P) кадры, которые математически предсказывают, что может произойти. Алгоритм просматривает поток данных назад и вперед, чтобы создать группу изображений (GOP), которую декодер соберет в конечный результат. Большее количество I-кадров обеспечивает лучшее качество, но увеличивает скорость передачи данных, поэтому кодеки, используемые для конечного просмотра, как правило, Long-GOP, то есть с большим количеством интерполированных кадров. Существует множество других кодеков с потерями, которые используют интерполяцию и другие техники для снижения скорости передачи данных.
Так что наше гипотетическое телешоу в формате 1080p60 могло быть снято с помощью среднескоростного кодека, использующего только I-кадры, например, варианта Apple ProRes, возможно, 300-500 Мб/с. Это вполне приемлемо для высококачественного монтажа и цветокоррекции. Сцены, предназначенные для создания обширных спецэффектов (например, кадры с зеленым экраном), могут использовать более высокоскоростной кодек, поскольку наличие большего количества исходных данных сцены позволяет лучше компоновать эффекты. Окончательный монтаж может выводиться в виде файлов в нескольких различных кодеках для разных требований к доставке. Он также может быть перекодирован в различные HD-форматы, конвертирован в 4K или преобразован в 1080p50 для международного просмотра (этот процесс известен как преобразование стандартов). Все эти преобразования могут привести к снижению качества, но инструменты сейчас достаточно хороши, чтобы это не было серьезной проблемой.
Некоторые кодеки, например mp3, содержат всю информацию, необходимую для воспроизведения звука. Но по мере того как кодеки входили во все более широкие области применения, возникла необходимость расширить то, что может быть передано в файле. Это было сделано путем встраивания сжатого содержимого в контейнер или файл-обертку. Некоторые типы файлов, которые мы регулярно используем, например .mp4 и .mov (Quicktime), сами по себе являются не кодеками, а обертками. Обертка - это файл, который распознается устройством воспроизведения, и он содержит сжатую аудио/видео сущность, а также другие типы информации, например метаданные о файле сущности.
Именно поэтому при попытке воспроизвести файл .mov появляется сообщение о том, что "кодек не поддерживается". Проигрыватель распознает, что .mov - это медиафайл, но не имеет правильного кодека для декодирования сущности. И наоборот, сжатые файлы сущностей часто могут быть заключены в более чем один тип обертки. Это важно, поскольку некоторые форматы оберток, например MXF, могут содержать обширные метаданные, которые могут быть полезны в производстве, но не нужны для простого просмотра.
Такие инструменты, как Quicktime Player и VLC, позволяют узнать, что на самом деле находится внутри файла. Даже "статистика для ботаников" на Youtube может пригодиться, если вы хотите узнать, почему видео выглядит определенным образом. Но разница между кодеками и обертками не так хорошо понятна, как хотелось бы - даже среди профессионалов. Это может привести к путанице в дискуссии, когда кто-то говорит, что ему нужен файл .mov, а мы отвечаем: "Хорошо, а какой кодек?".
Написать комментарий