Untertitelung von Video-Inhalten für Broadcast und Online: Eine Übersicht

<span id="hs_cos_wrapper_name" class="hs_cos_wrapper hs_cos_wrapper_meta_field hs_cos_wrapper_type_text" style="" data-hs-cos-general-type="meta_field" data-hs-cos-type="text" >Untertitelung von Video-Inhalten für Broadcast und Online: Eine Übersicht</span>

Ein Überblick über die aktuell verwendeten Untertitel-Formate

Die Untertitelung von Video-Inhalten im Broadcast ist für die öffentlich rechtlichen Anstalten in Europa teilweise verpflichtend - in den USA grundsätzlich zwingend (FCC ADA - USA, CRTC - Canada, IFT - Mexiko) erforderlich - auch für die Online-Angebote.

Diese Situation bewirkte in den USA, daß das Eco-System der Wiedergabe von Untertiteln auf allen Endgeräten funktionieren muss und auch genügend Tools zur Erstellung und Encoding/Distribution für Broadcast und Online vorhanden sind.

In den meisten Fällen wird der Standard CEA-608 verwendet. Die Untertitel-Information wird für alte SD-Formate in der Austastlücke in Zeile 21 binär übertragen und umfasst nur 2Bytes pro Frame. Die Untertitel befinden sich also verteilt über mehrere Frames. Dies macht die Nachbearbeitung der Untertitel kompliziert.

Die Möglichkeiten der Formatierung des Texts und die möglichen Schriften (Western Encoding) sowie die Anzahl der gleichzeitigen Sprachen sind begrenzt auf maximal vier (praktisch zwei).

CEA-608 in den Streaming-Formaten findet sich meistens als SEI-Messages im H264/H265-Bytestream und wird e.g. in HLS (https://tools.ietf.org/html/rfc8216#section-4.3.4.1) oder DASH (DASH-IF IOP v3.3, Section 6.4.3.3, https://dashif.org/identifiers/subtitleclosed-captioning/) darauf verwiesen (ATSC A72/1-3 - https://www.atsc.org/standard/a72-parts-1-2-and-3/).

QuickTime unterstützt CEA608 als CC Tracks, MFX als SMPTE 436m VBI/VANC Tracks.

CEA-708 als neues Format verwendet Unicode als Schriftsatz und hat erheblich mehr Formatierungsmöglichkeiten. CEA-708 ist rückwärts kompatibel zu CEA-608.

CEA-708 wird jedoch selten eingesetzt, der kleinste Denominator für Untertitel im den USA/Canada ist immer noch CEA-608 - und wird es wahrscheinlich auch noch lange bleiben.

In Europa sind Untertitel als Teletext-Service (ETSI EN 300 706 V1.2.1 (2003)) seit den 70ern den Zuschauern bekannt und dies die Technologie für die Distribution. Die Untertitel-Infos befinden sich wie bei CEA-608 in der Austastlücke des Videosignals, haben aber eine höhere Informationsdichte.
Teletext in HD-Videosignalen ist in SMPTE2031/OP47 standardisiert. Teletext spielt als Distributionsformat in Streaming-Formaten keine Rolle, als Kontributions-Format für das Encoding der Livestreams wird dieses aber häufig verwendet.

Neben Teletext ist das Format DVB-Subtitles (ETSI EN 300 743), e.g. bei DVDs als Distributions-Format genutzt. Im Gegensatz zu Teletext/CEA608/CEA708 liegen hier die Untertitel als Bitmaps vor.

Zurück zu den Untertitel-Formaten für Streaming, dort ist WebVTT aktuell das gängige Format für HTTP Livestreaming. WebVTT (https://www.w3.org/TR/webvtt1/ ) ist ein Textformat, inspiriert aus dem SubRip (.srt) Format. Es kann CSS-Typ ähnlich mit Styling-Informationen ergänzt werden. Es ist als Empfehlung von W3C spezifiziert und wird von vielen HTML-Browsern nativ unterstützt. Viele Entwickler klagen über die mangelnde Unterstützung der Features in den WebVTT-Parsern, die in WebVTT definiert sind.

Für HTTP-Livestreaming wird das Textformat in einzelne zeitliche Segmente - ähnlich wie bei den Video/Audiostreams unterteilt. Jede einzelne Zeitsequenz muss alle Textinformationen erhalten, die dargestellt werden sollen. Die Synchronisierung mit den Video/Audiostreams erfolgt über einen Metadaten-Header im WebVTT-Text, der eine Referenz zu den MPEG-TS PTS-Zeiten herstellt (X-TIMESTAMP-MAP - https://tools.ietf.org/html/rfc8216#section-3.5).

WebVTT in HTTP Livestreaming wird auch von vielen Playern wie den Google EXO-Player für Android oder hls.js bzw. JWPlayer/Theoplayer/Bitmovin-Player unterstützt und stellt gerade den kleinsten Denominator für Untertitel in Livestreaming dar.

TTML (https://www.w3.org/TR/ttml1/) ist ein weiterer Standard für Untertitel - ebenso ein W3C-Standard - und basiert auf XML. Man kann sich nach dem Sinn fragen, dass beide so unterschiedliche Formate von W3C als Standard spezifiziert werden.

Im Streaming Format DASH sind die Untertitel-Formate TTML und EBU-TT-D (EBU Tech 3380 - https://tech.ebu.ch/docs/tech/tech3380.pdf), ein Sub-Profil von TTML häufig anzutreffen. EBU-TT-D soll für DVB-DASH (ETSI TS 103 285, 2017 (1)) und HBBTV 2.0 in den ISOBMFF fmp4-Fragmenten gespeichert werden (ISO IEC 14496-30, 2014) (EBU Tech 3381).

Im DASH-Manifest werden die Untertitel mit Sprache und weiteren Metadaten und den eigenen CoDec-Format referenziert.

Die SMPTE spezifiziert Ihr eigenes Untertitel-Format, basiert auf TTML - SMPTE-TT (SMPTE ST 2052-1:2013 - https://ieeexplore.ieee.org/document/7291854/?arnumber=7291854) - ebenso ein Subset von TTML.

ISMC (https://www.w3.org/TR/ttml-imsc1.0.1) - noch ein Format - soll dem Wildwuchs der unterschiedlichen TTML-Derivate ein Ende machen - und das ist gut so. Als Sub-Profil von TTML umfasst IMSC das Set von EBU-TT-D. Das bedeutet theoretisch, dass ein EBU-TT-D Parser auch ISMC lesen und darstellen kann. ISMC1 wird von Apple als präferiertes Untertitel-Format in Fragmented MP4 unterstützt (https://developer.apple.com/documentation/http_live_streaming/hls_authoring_specification_for_apple_devices).


Wie auch bei EBU-TT-D muss IMSC1 für Apple in den ISOBMFF fmp4-Fragmenten gespeichert werden. Damit stellt IMSC sich als Brücke des Formate für CMAF zwischen HTTP-Livestreaming und DASH dar und macht dieses Format so interessant. Theoretisch können die gleichen fmp4-Fragmente für Untertitel für HTTP-Livestreaming verwendet werden wie für DASH (DVB-DASH/HBBTV 2.0). Die Spezifikationen SMPTE 2052-10 und SMPTE-2052-11 sollen bei der Konversion des betagten CEA608-Formats in IMSC1 helfen.

Nichtsdestotrotz sind für alle o.g. Untertitel-Formate die Live-Quellen meistens immer noch Teletext/CEA608. An Kontributions-Untertitel-Spezifikationen - insbesondere bei IP-Kontributionsformaten wie SMPTE 2110 als Sidecar wird gearbeitet, u.a. in der Spezifikation EBU-TT Part 3 (EBU TECH 3370 - EBU-TT Part 3 Live Subtitling). Fertige OTT-Encoder für EBU-TT Part 3 Ingest gibt es (noch) nicht.

Man kann nur hoffen, dass sich die unterschiedlichen Untertitel-Formate in Kontribution, Authoring und Distribution konsolidieren. Randnotiz: Final Cut Pro X unterstützt nun CEA608-Authoring ;-)

 

Weiterführende Links zum Thema:

http://subtitling.irt.de

http://subtitling.irt.de/cmaf/

http://subtitling.irt.de/subtech/index.html#schedule

http://subtitling.irt.de/subtech/assets/presentation/240518_IRT_Subtitling_Symposium_v013.pdf

http://akamai-progressive.irt.de/apps/reference/mobile/index.html

https://github.com/bbc/gst-ttml-subtitles