Keine Rücksicht auf den Sandmann. Oder: Wie arbeitet ein 24x7 First-Level-Support?

<span id="hs_cos_wrapper_name" class="hs_cos_wrapper hs_cos_wrapper_meta_field hs_cos_wrapper_type_text" style="" data-hs-cos-general-type="meta_field" data-hs-cos-type="text" >Keine Rücksicht auf den Sandmann. Oder: Wie arbeitet ein 24x7 First-Level-Support?</span>

Das G&L-Serviceteam sichert Streaming-Qualität rund um die Uhr

Streams im Internet müssen zuverlässig abrufbar sein - ansonsten wenden sich Zuschauer schnell ab. Wir bieten Broadcastern, Onlineredaktionen und Event-Streamern per Service-Level-Agreement deshalb einen 24x7-Service. Aber wie funktioniert der genau?

Samstagnacht, 03:00 Uhr, draußen regnet es. Das Smartphone ruft unseren Servicetechniker Stefan Herzogenrath auf den Plan. Ein Blick auf das Display zeigt eine Warnmeldung: Der Live-Stream eines Fernsehsenders ist zusammengebrochen. Stefan greift zum Laptop, loggt sich auf den Server des Senders ein und startet den Encoder neu. Wenige Sekunden später ist das Problem behoben und der Stream läuft wieder. Der Kunde ist zufrieden, dass die schnelle Störungsbehebung auch nachts und am Wochenende funktioniert.

„Internetuser bringen selten viel Geduld mit. Brechen Internetübertragungen ab oder werden nicht in optimaler Qualität bereitgestellt, wenden sie sich schnell anderen Anbietern zu“, erzählt Stefan. „Wir nehmen deshalb keine Rücksicht auf den Sandmann und garantieren eine schnelle und verlässliche Störungsbehebung rund um die Uhr, an sieben Tagen die Woche.“

Regelmäßige Fortbildungen verkürzen Ausfallzeiten

Um die Verfügbarkeit von Streams zu maximieren und Ausfallzeiten zu minimieren, müssen Techniker die state-of-the-art-Technologie der Branche aus dem Effeff kennen. Unsere Servicemitarbeiter - allesamt ausgebildete Fachinformatiker für Systemintegration - nehmen deshalb regelmäßig an Produktschulungen und technischen Weiterbildungen teil. Zum Beispiel an der Akamai-University, die auf Fortbildung zu Web Performance Solutions, Cloud Security und Medienbereitstellung spezialisiert ist.

„Die Fachschulungen halten die Kompetenz unseres First-Level-Supports immer auf sehr hohem Niveau, um Fehler schnell identifizieren und beheben zu können“, unterstreicht Stefan. „Oft haben unsere Spezialisten schon zu Beginn eines Gesprächs mit einem Kunden eine Ahnung, wo die Ursache der Störung liegen könnte.”

Touchstream simuliert Zuschauer und testet Stream-Verfügbarkeit rund um die Uhr

Dass wir Streaming-Probleme innerhalb weniger Minuten lösen, ist kein Zufall. Wir haben ein System aufgebaut, das aus einer Kette von Monitoring-, Alarm- und Kooperations-Tools besteht - ein System, das die Reaktionsgeschwindigkeit der Techniker erhöht. Ein wesentlicher Bestandteil ist hierbei Touchstream – ein Werkzeug, das Zuschauer simuliert und permanent Streams der Kunden von unterschiedlichen Locations aus abruft. So fällt dem Tool beispielsweise auf, wenn die Qualität der Übertragung eines spezifischen ISP (Internet Service Provider) abfällt. Überschreiten solche fehlerhaften Abrufe, von denen der Kunde oftmals noch gar nichts weiß, einen definierten Schwellenwert, meldet Touchstream das Problem an checkmk, eines der effizientesten und derzeit beliebtesten Monitoring-Tools für System-Administratoren.

„Wir nutzen das Tool auch auf der großen Videowall in unserer Kölner Zentrale als Dashboard, sodass fast alle Services auf einen Blick sichtbar sind“, erklärt Stefan. „Bei Problemen generiert das Tool einen Critical Alert und informiert einen Techniker.“

Toolchain alarmiert Techniker via Push-Alert, SMS und Anruf

Damit unser Techniker sofort mit der Arbeit starten kann, ist eine sichere und schnelle Übermittlung des Criticals gefragt. Früher hat checkmk Mitarbeiter per E-Mail informiert. Da die Nachrichten, bedingt durch die Netzqualität, teilweise mit Verzögerung ankamen, haben wir Pagerduty eingeführt – ein Werkzeug, das First-Level-Techniker nicht nur per E-Mail informiert, sondern auch per AppPush, SMS und Anruf. Im Tool sind die Arbeitsschichten der Experten gespeichert, sodass sich direkt die richtigen Mitarbeiter, die on-call sind, informieren lassen. Bestätigt der Techniker den Auftrag nicht, alarmiert das System automatisch den nächsten Kollegen.

„Wir können daher strenge Service-Level-Agreements mit definierten Reaktionszeiten von wenigen Minuten einhalten“, sagt Stefan. „Bei speziellen Events wie einem großen Fußball-Turnier oder gar den olympischen Spielen meldet Touchstream Ausfälle auch direkt an Pagerduty, damit wir noch weniger Zeit verlieren.“

Entstörzeiten verkürzen: Wir sind Man-in-the-Middle zwischen CDN und Kunden

Beginnen Techniker mit der Beseitigung der Störung, sehen sie sich meistens mit zwei Situationen konfrontiert. Schlagen Touchstream-Abrufe in allen Regionen fehl, liegt das Problem in der Regel am Anfang der Verbreitungskette, meistens beim Encoder, der Audio- und Videosignale komprimiert und in ein für das Streaming geeignetes Format wandelt. Unsere Techniker greifen in diesem Fall direkt auf den Encoder zu und informieren den Kunden über ein Ticket in der cloudbasierten Kundensupport-Plattform Zendesk. Kommt es hingegen nur zu gestörten Abrufen in bestimmten Regionen, liegt der Fehler in vielen Fällen direkt beim Content Delivery Network (CDN), welches die Basis für die schnelle Auslieferung großer Mediendateien darstellt. Hier ist dann eine schnelle Abstimmung zwischen dem CDN-Anbieter und unseren Kunden gefragt.

„Wir sind in diesem Fall gerne der Mittelsmann, der Informationen filtert, zwischen den Parteien weiterreicht und Fragen in vielen Fällen schon selbst beantwortet“, sagt Stefan. „So können wir Entstörzeiten noch weiter verkürzen und die Streaming-Verfügbarkeit optimieren.“