Изготовление ремукса видеофильма шаг 3. Извлечение субтитров из DVD в текстовом формате SRT.

Субтитры на DVD представлены в графическом формате, т.е. в виде картинок. Нам же нужно получить субтитры в виде текста с таймингом — SRT. Процесс конвертации напоминает распознавание отсканированного текста в программе Finereader.

Запускаем SubRip и выбераем меню File > Open VOB(s). В открывшемся окне нажимаем кнопку

Open IFO:

Выбераем IFO-файл, соответствующий первому сегменту основного фильма на DVD.

Подгружаются все соответствующие VOB-файлы, рядом с ними появляются галочки отметки (только эти файлы будут обрабатываться), а в выпадающем списке Language Stream можно посмотреть, какие субтитры есть в этом сегменте. В данном случае, как видим, у нас всего один поток субтитров (русский):

Имеем в виду, что иногда языки указаны неверно (например, указан французский, а на самом деле это китайский). Особенно это характерно для так называемых «пираток» и китайской видеопродукции.

Скрытые субтитры.

Скрытые субтитры (Closed Captions, или CC) представляют собой субтитры, внедренные в видеопоток. Изначально они были изобретены для титрования телевизионных видематериалов для глухонемых и для их просмотра нужна была специальная схема в телевизоре. Сейчас, конечно, скрытые субтитры уже не так актуальны, как 15–20 лет назад, но диски с ними до сих пор выпускают.

Раньше рип скрытых субтитров представлял собой некоторую проблему, но теперь, к счастью, с ними научился работать SubRip. При открытии IFO-файла он радостно сообщает: «Closed captions detected» и включает скрытые субтитры в общий список:

Дальше обработка скрытых субтитров производится точно таким же образом, как и обычных.

Рип субтитров.

Итак, нужные файлы отмечены, поток субтитров выбран. Теперь осталось нажать кнопку Start, после чего начинается собственно процесс, который и называется «рип субтитров».

Поскольку субтитры бывают выполнены самыми разными шрифтами, распознаватель текста

в SubRip реализован как самообучаемый. То есть встретив очередной незнакомый символ, про- грамма предложит ввести соответствующий ему символ с клавиатуры.

Вводим символ и нажмите ОК (или клавишу Enter), и так далее, до самого конца фильма.

Пожалуйста, без ошибок! Неправильно введённый символ потом придётся исправлять по всему тексту.

Вообще говоря, если вы ошиблись, проще начать всё с самого начала, и в следующий раз будьте внимательнее.

Трудно будет только первые пять минут, затем SubRip очень быстро распознает практически весь текст, лишь изредка спрашивая незнакомые символы.

Рассмотрим некоторые проблемы и ситуации, которые могут возникнуть в процессе рипа:

1.                                                   Английские «L» и «i».

При распознавании английских субтитров обычно возникает проблема с буквами «L» (строчной) и «i» (прописной), поскольку начертание этих символов в большинстве шриф- тов практически идентично. Проблема эта решается только последующим прогоном через спелл-чекер с английским словарём.

2.                                                   Слипание букв.

Некоторые символы при распознавании «слипаются» по два-три-четыре. Это, собственно говоря, проблемой не является, просто вводим в текстовом поле все эти символы.

3.                                                   Буква «Ы».

При распознавании русских субтитров возникает проблема с буквой «ы» (как прописной,  так и строчной), — SubRip распознаёт её, как два отдельных символа. При распознавании первого символа введите «мягкий знак», при распознавании второго, латинскую букву «i». Потом последовательность из этих двух символов можно будет по всему тексту заменить на «ы». Позже мы ещё вернёмся к этому вопросу.

4.                                                   Нераспознаваемые субтитры.

Иногда SubRip затрудняется с распознаванием символов в субтитрах и выдает следующее окно, предлагая ввести их полный текст:

В 99% случаев это происходит в многострочных субтитрах, когда межстрочный интервал невелик, а во второй строке присутствует заглавная буква «Й».

Просто вводим в поле полный текст субтитра и нажимаем кнопку Done.

5.                                                   Слипание строк.

Изредка SubRip «склеивает» символы, находящиеся в разных строках. В этом случае можно попробовать кнопками в блоке Best guess выбрать подходящую комбинацию, но на мой взгляд, значительно быстрее и, главное, надёжнее будет нажать кнопку Enter Manually и ввести текст субтитров целиком.

6.                                                   Теги и форматирование.

Для форматирования текста предназначены три флажка справа от кнопки OK: Bold, Italic и Underline. Тут, в принципе, ничего сложного нет — после ввода символа в текстовом поле нужно установить флажки, которые во внешних субтитрах превращаются в теги <b>, <i>, <u> (точно такие же, как в HTML). Флажки эти сохраняются между репликами, то есть потом их нужно не забыть отключить.

Хотя SubRip поддерживает оформление текста курсивом, полужирным и подчеркиванием, на практике из всего этого великолепия используется разве что курсив (им в субтитрах при- нято выделять реплики, когда говорящего не видно в кадре). Да и то необходимость этого многими подвергается сомнению. Пользоваться или нет — решайте сами, но не забывайте, что теги не воспримаются некоторыми «железными» плеерами.

Сохранение субтитров.

Как только движок в верхней части окна доехал до конца и показал 100%, процесс закончен. Субтитры осталось только сохранить в файле.

В окне текста (снизу) нажмите кнопку с дискеткой (или выберите меню File > Save As).

Если субтитры на русском языке, то скорее всего появится вот такой вопрос:

Это означает, что субтитры содержат какие-то символы помимо латинских букв и цифр (а точнее говоря, русские буквы в нашем случае), и сохранить их можно либо в какой-либо из нацио- нальных кодировок, либо в кодировке Unicode. Можно, конечно, выбрать и Unicode, но тогда субтитры перед подгонкой через Subtitle Workshop кому-то придется конвертировать обратно

в кодировку Windows 1251, так что лучше всего сделать это сразу. Выберите No.

Теперь в выпадающем списке CodePage выберите 1251: ANSI – Cyrillic и нажмите кнопку Save. Остаётся только ввести имя файла и сохранить субтитры.

Сохранение матриц.

Если вам часто приходится извлекаете субтитры с DVD или вы планируете сделать целую серию дисков (например, сериал), имеет смысл сохранить матрицу (это набор соответствий между графическими образами и текстовыми символами).

1.                                                                                                      После сохранения субтитров выбираем меню Character Matrix > Save Character Matrix File As.

2.                                                                                                      Вводим имя файла (произвольное, ну например «001») и сохраняем матрицу в каталоге ChMatrix (расширение по умолчанию — *.sum).

Во время рипа следующего диска достаточно нажать кнопку Search for match, и SubRip, про- смотрев все SUM-файлы в каталоге ChMatrix, подберет наиболее подходящую матрицу для текущего шрифта. Если матрица подобралсь удачно, рип субтитров будет сделан значительно быстрее, поскольку SubRip уже знает большинство из распознаваемых символов, и будет спрашивать вас только про новые.

После окончания рипа сохраняем матрицу (с добавленными новыми символами) под тем же именем (или под новым). Так можно собрать целую библиотеку матриц, которая позволит зна- чительно сократить трудозатраты на рип субтитров, если, конечно, вам приходится достаточно часто этим заниматься.

Постпроцессинг.

Полученные в результате рипа внешние субтитры можно рассматривать как почти готовый полу- фабрикат. Чтобы довести его до ума, необходимо выполнить ещё несколько несложных действий.

Замена символов.

Этот этап обработки субтитров выполняется в программе Notepad/Блокнот (хотя в принципе вы можете воспользоваться любым текстовым редактором, который работает с текстовыми файлами). Загрузите субтитры в редактор как обычный текстовый файл.

Наша задача — произвести в тексте некоторые замены (помните, мягкий знак и «i» заменить на букву «Ы» и некоторые другие). Делается это (в Блокноте) — по Ctrl-H (или меню Edit > Replace):

Введите заменяемый и заменяющий текст и нажмите кнопку Replace All.

Обычно бывает необходимо произвести следующие замены:

Что заменить

На что заменить

Примечания

«ь» и «i»

«Ь» и «I»

«ы»

«Ы»

Должен быть включен флажок «Match case»

Должен быть включен флажок «Match case»

«. . .» (три точки через пробел)

«…» (три точки без пробелов)

«”» (два апострофа)

««» (одна двойная кавычка)

Сохраняем и закрываем файл.

Spell-check.

Загружаем субтитры в текстовый редактор и производим проверку орфографии. Если есть воз- можность, неплохо также вычитать текст и подправить неточности перевода.

Коррекция в Subtitle Workshop.

Загружаем субтитры в Subtitle Workshop и производим их проверку (Ctrl-I). Зачастую SubRip накладывает субтитры друг на друга, оставляет слишком длинные строки, лишние пробелы, несколько реже субтитры со слишком короткой длительностью. Subtitle Workshop поможет исправить все эти мелкие дефекты.

Примечание: Чтобы подключить субтитры, как внешние в плеере Media Player Classic, нужно чтобы файл субти- тро назывался так же как фильм. Тогда плеер подгрузит их автоматически.

Включить их можно в меню Navigate > Subtitle Language. Например:

00001.ts — фильм 00001.srt — субтитры

Источник: Сергей Шувалов, «Краткое руководство по работе с аудио-видео контентом для   HDTV», Редакция 1.2, 23.04.2010

По теме:

Вы можете оставить комментарий, или ссылку на Ваш сайт.

1 комментарий к записи “Изготовление ремукса видеофильма шаг 3. Извлечение субтитров из DVD в текстовом формате SRT.”

  1. Александра says:

    Огромное спасибо!!! Это самая вменяемая статья про Subrip из всех, а их я уже повидала немало!! Везде что-то упускают, как результат – довожу работу до половины и ступор. А тут все понятно объяснили полному новичку, коим я являюсь. Респект, ребятки!

Оставить комментарий