Server, Hosting und Colocation-Services - Notruf-Handling bei Ausfällen

Wer viel an Infrastruktur und Servern betreibt, bei dem kann auch immer mal etwas ausfallen. Jeder Ausfall ist ärgerlich - manchmal auch etwas mehr. Dann ist eine geregelte Ereichbarkeit und schnelle Hilfe wichtig. Portunity bietet hier seit Jahren erweiterte und ausgefeilte Nofall-Wege im Rahmen von zusätzlichen Service-Level-Vereinbarungen, die allerdings nicht für alle Kunden gleich gut skalieren. Dieser Artikel ist ein Blick auf unseren bisherigen Ist-Zustand und der Aufruf, uns bei der Neu-Konzeption mit Ihren Wünschen und Anregungen via Kommentar-System zu unterstützen. 

Portunity-Hosting und -Access betreibt einiges an Infrastruktur wie Standleitungen, Router, Switches und natürlich auch viele Server - mit sehr unterschiedlichen Aufgaben. Auch unsere Kunden haben bei uns viele Server stehen, egal ob von uns angemietet oder in unserem Rechenzentrum untergestellt, ob physikalisch real oder in Clouds virtualisiert.

Es wäre dabei natürlich vermessen zu sagen, dass wir bei all dieser Infrastruktur und der Vielzahl an Servern und Diensten eine Verfügbarkeit von 100% erreichen und "never ever" etwas ausfällt. Selbstverständlich kommt es auch bei uns zu Ausfällen von Infrastruktur und Diensten - wie bei allen Anbietern und Providern auch. Teilweise geplant durch Wartungsarbeiten oder durch Fehler, natürlich unbeabsichtigt.

Wir erreichen zwar (meiner Meinung nach) wirklich hervorragende Verfügbarkeiten - die meisten Dienste sind weit über 99,9% "on air" - trotzdem ist jeder Ausfall, und ist er noch so klein, immer ärgerlich. Vor allem für die betroffenen Kunden. Deshalb ist es natürlich auch unser Bestreben, eine sehr gute Verfügbarkeit zu bieten und nicht vermeidbare Ausfälle so gering und kurz wie möglich zu halten.

Für Server und Dienste: Monitor- und Überwachungs-System

Um möglichst schnell auf den Fall der Fälle reagieren zu können, haben wir deshalb ein eigenes Monitoring-System, was aus verschiedenen Servern an zwei Standorten (davon einer komplett extern) besteht. Dies wurde im Laufe der Jahre selbst entwickelt. Durch das Portunity-Monitoring-System wird unsere Infrastruktur (Backbone, Router, Switches, Server) und die von uns angebotenen Dienste (Server, Dienste jeglicher Art, Webseiten, API-Schnittstellen usw.) überwacht.

Bei einem Ausfall schlägt unser System nach ausgeklügelten Bedingungen automatisch Alarm: Über akustische Signale, per eMail, SMS, Anrufe u.a. Alarmierungs-Wege. Je nach Tag- und Nachtzeit auch differenziert an einzelne oder alle Techniker. Bei Nicht-Reaktion eskalierend.

 

Mitarbeiter-Bereitschaft für den Super-Gau

Während unserer Büro- und Arbeitszeit stehen natürlich immer ausreichend Mitarbeiter für die Bearbeitung zur Verfügung. Da wir dennoch ein eher kleiner Anbieter sind, ist ein 24/7-Schicht-Betrieb an 365-Tagen nicht machbar (unsere Vorteile sind aber dafür andere). Um diesen Nachteil zu heilen, haben wir für die Wochenenden, Feiertage und Nächte deshalb mit unseren Mitarbeitern aus den Bereichen Hosting und Access entsprechende Bereitschafts- und Reaktionszeiten vertraglich vereinbart - wofür wir natürlich auch Vergütungen zahlen.

Denn es ist ja klar: Wenn ein Mitarbeiter beispielsweise aus seinem wohlverdientem Wochenende gerissen wird - möglicherweise noch nachts um 3 Uhr, um ein Problem X zu lösen, ist das für den betroffenen Mitarbeiter - ich schreib jetzt mal ganz vorsichtig "nervig".

Wie würden Sie reagieren, wenn Sie gerade mit Freunden und Bekannten beim Sonntags-Brunch sind, es kommt ein Anruf - und sie müssen sofort weg oder mal eben eine halbe Stunde hektisch und fluchend auf Ihrem Notebook tippen ;-)

Selbst wenn Sie gutes Geld dafür bekommen, so eine Unterbrechung am freien Tag oder in der Freizeit ist nicht wirklich schön. Davon abgesehen das es auch bindend ist: Denn groß weg fahren, z.B. ein spontanes Wochenende zum Shopping in London per Billig-Flug, kann man natürlich nicht mehr, wenn man die Bereitschaft hat. Denn im Zweifelsfall muss man ja in kurzer Zeit vor Ort sein.

Ob Hosting- oder Access-Geschäft: Service-Vereinbarung

Genau aus diesem Grund differenziert nicht nur unser Monitor-System, welche Arten von Ausfällen überhaupt per SMS oder Anruf eskalierend zum Techniker direkt durchgestellt werden, sondern wir haben bzw. hatten in den vergangenen Jahren bislang auch unterschiedliche Service-Vereinbarungen (Service-Level-Agreements, kurz SLA):

  • ein Standard-SLA, was man kurz als "Erreichbar während der Bürozeiten und außerhalb eben ja - aber nichts garantiert" bezeichnen kann und
  • ein VIP-SLA mit Spezial-Telefonnummer, direkter Durchstellung zum Techniker zu jeder Uhrzeit (auch Feiertage, Wochenende, nachts), ausgeklügelten Eskalations-Mechanismen und garantierten Reaktionszeiten zur Erst-Rückmeldung usw.

Für letzteres haben wir bislang eine monatliche Pauschale von ca. 100 Euro  genommen - wobei ältere Kunden einen Preisvorteil haben, da wir die Preise von Bestandskunden in den vergangenen Jahren nie angepasst hatten.

Für die von uns betriebene Infrastruktur, Server, Dienste usw. gilt automatisch immer das VIP-SLA - nur das der Kunde nicht selber direkt kontakten kann. Wenn also ein von uns betriebener wichtiger Router im Backbone ausfällt, merken wir das idR. selber sofort und werden auch entsprechend tätig. Gleiches gilt für den Webserver auf dem Webhosting-Tarife liegen - fällt dieser aus, werden wir da aktiv. Auch am Wochenende und ohne Dazutun seitens unserer Kunden.

Bei Miet-Servern, untergestellten Servern, virtuellen Servern, DSL-Anbindungen (z.B. Router bei Ihnen im Haus) usw. ist es jedoch immer Kundenwahl - und bei weitem nicht jeder Kunde legt beim Abschluss der Verträge gleich Wert auf bessere SLA's (meist erst dann, wenn mal doch was passiert ist). Das ist natürlich auch sein gutes Recht - denn es ist völlig logisch, dass nicht jeder den optional bereitgestellten Notruf- und Eskalations-Apparat auch benötigt oder haben will.

Ausfall eines virtuellen Servers - ein Fall-Beispiel:

Nun hatten wir vergangenen Sonntag mal wieder nach langer Phase der relativen Ruhe einen Alarm-Fall: Auf einem kleinen virtualisierten Kunden-Server war der Webserver- und mysql-Dienst aufgrund einer vollgelaufenen Festplatte ausgefallen - nachdem von Webspace-Daten mehrere Duplikate / Kopien von Daten angelegt worden waren. Die genaue Ursache und warum man als Kunde mehr Daten produziert als Festplattenplatz bereitsteht, will ich hier nicht weiter ausbreiten.

Entscheidend ist: es gab einen Ausfall einer Handvoll Webseiten, die auf diesem virtuellen Server lagen. Und für unseren Kunden sind diese Websites natürlich fast das wichtigste auf der Welt, was völlig verständlich und nachvollziehbar ist. Nun hat der Kunde kein SLA für 100 Euro im Monat abgeschlossen, der ganze virtuelle Server liegt kostenmäßig ja nur bei ca. 30 Euro im Monat. Dennoch ist die Verfügbarkeit auch an einem Sonntag für den Kunden enorm wichtig und eigentlich hätte er in dieser Situation gerne jemanden auch am Sonntag sofort telefonisch erreichen können wollen (egal zu welchem Kurs). Da nicht in der höchsten Alarm-Stufe vom Monitor-System, wurde der Hilferuf nur mit einiger Verzögerung bemerkt und dann auch bearbeitet. Im Worst-Case (und auf dem was vertraglich tatsächlich vereinbart ist) hätte es aber durchaus auch bis Montag früh dauern können, bis dann mit der Bearbeitung begonnen worden wäre.

Verhältnismäßigkeit ?

Für einen Kunden der hier ein Dutzend physikalischer Server stehen hat und einen monatlichen Umsatz von mehreren hundert oder gar über tausend Euro tätigt, sind die 100 Euro natürlich im Verhältnis eher gering und nicht nur ein fairer, sondern eher günstiger Preis für den Service jederzeit einen kompetenten Techniker erreichen zu können. Bei einem virtuellen Server - oder vielleicht wenn die Website mit dem wichtigen eCommerce-Shop gar nur auf einem Webhosting-Tarif (Webspace) läuft, steht die bislang aufgerufene monatliche Summe jedoch in zugegebener Weise keinem sinnvollen Verhältnis zu den Kosten des VIP-SLA-Produktes.

Vor einigen Jahren, wo wir das VIP-SLA als "Produkt" rausbrachten, war die Lage insgesamt natürlich noch eine andere: Server waren deutlich teurer (einmalig und laufend), virtuelle Server gab es kaum und auch die Relevanz von Websites und sonstigen Diensten war oft noch eine deutlich geringere vom Stellenwert als es heute der Fall ist. Auch war die Sensibilisierung aller Kunden für die Verfügbarkeit eine andere als heute. Insofern war das VIP-SLA-Produkt auch nur für eine kleine und vielleicht "elitäre" Zielgruppe gemacht. Also auch gar nicht als Massenprodukt gedacht.

Anpassungsbedarf beim VIP-SLA?

Aus diesen Erwägungen heraus sehen wir hier durchaus Anpassungsbedarf unsere Verfügbarkeit und SLA-Tarife zu überarbeiten. Nur wie?

Eine monatliche Pauschalgebühr, wie wir sie haben, ist zwar schön einfach und übersichtlich - aber heute eben nicht mehr so "State of the Art". Deckt eben sicher auch nicht alle Kundenwünsche und -szenarien ab. Sollte man diese also runterbrechen und abgestuft anbieten ? Oder gleich direkt prozentual an den Monats- oder Jahres-Umsatz koppeln ? Oder sollte es überhaupt eine monatliche Gebühr geben? Warum keine einmalige Gebühr, man könnte ja auch über eine einmalige wie z.B. x Euro pro Notfall nachdenken ?

Und ist es überhaupt gerecht, von jemanden der beispielsweise fünf Server hier betreibt, die gleiche monatliche Gebühr zu nehmen, wie von jemanden der nur einen einzigen Server betreibt oder nur einen kleinen virtuellen Server oder gar nur ein kleines Webspace-li hat? Fünf Server fallen potentiell von der Ausfall-Wahrscheinlichkeit her gesehen ja auch öfter aus, als ein einziger Server, und bei einem virtuellen Server kann z.B. auch kein Netzteil kaputt gehen?!

Auf der anderen Seite gibt es hier auch Kunden mit vielen Servern, die den VIP-SLA abgeschlossen haben, die rufen wenn überhaupt mal alle 1-2 Jahre an. Das sind dann bei seltener Nutzung womöglich teure Anrufe, wenngleich die Gewissheit auch jemanden in seiner Not zu erreichen natürlich werthaltig und wichtig ist. Andere nutzen das mit weniger Servern auch schonmal öfter - wobei sich da dann die Frage stellt, ob es Sinn der Sache ist, dass ein Techniker an seinem Wochenende herausgerissen werden sollte, um Fragen zu beantworten, die eher Support-Fragen sind? Getreu dem Motto "ich zahle, also nutze ich auch" - ob Notfall oder allgemeine Frage... 

Vermutlich hängt eh alles beim Administrator: Ist dieser fit und mit Knowhow gesegnet, kennt sich also bestens aus, hat er seine untergestellten oder angemieteten Systeme gut im Griff. Ergo kommt es nur zu wenigen Ausfällen und in Folge zu Notrufen. Oder macht jemand die Administration nur eher mit gefährlichen Halbwissen - sozusagen mit erhöhtem Risiko, dass auch mal was schief gehen könnte? Also wird da mit erhöhter Wahrscheinlichkeit operiert, dass er einen bereitgestellten Service dann auch tatsächlich nutzt, um Wissenslücken auch am Sonntag zu ersetzen?

Wie hätten Sie es denn gerne?

Fest steht für mich, dass die 24/7/365-Tage Erreichbarkeit samt Eskalations-Mechanismen und garantierten Reaktionszeiten ein deutlicher Mehrwert ist - den aber nicht jeder Kunde gleichermassen braucht, aber doch einige gerne bezahlbar und vor allem in unterschiedlicher Intensivität haben möchten. Und sei es nur zur Gewissheit für den vielleicht nie eintreffenden Super-GAU. Dem gegenüber stehen Kosten für Mitarbeiter und eben einen halbwegs aufwendig angebotenen Service.

Mich würde an dieser Stelle deshalb interessieren, wie Portunity ein neues SLA-Modell konzeptionell und preislich aufsetzen soll? Wir sind bereit hier neue Wege zu beschreiten und freuen uns dazu über Ihre Anregung und Kommentare!

Seite 1 Seite 2 Seite 3 Seite 4

Diesen Artikel...


... auf weiteren sozialen Netzwerken posten:

Tags

Ein Tag ist ein Schlagwort, welches zu einem Produkt oder einer Seite passt. >> MEHR , um selber Tags hinzuzügen und Ihr persönliches Schlagwort-Register aufzubauen.

Noch kein Konto bei portunity.de? Jetzt kostenlos registrieren!

Trackbacks

Bisher gab es noch keine Links von externen Seiten. Trackback-URL

Kommentare

Leider sind zu diesem Artikel noch keine Kommentare vorhanden.
Seien Sie der/die Erste und schreiben Sie uns Ihren Kommentar zu diesem Artikel.
Kommentar schreiben Kommentar via Facebook

Über den Autor

Lea Rücker
Portunity GmbH
Founder of Portunity & Entrepreneur

Hi. I'm one of the founders of Portunity - where I work with some of the coolest people on earth on projects with and for the internet.

Hallo. Ich bin einer der Gründer von Portunity - wo ich mit einigen der coolsten Menschen dieser Erde an Projekten im und für das Internet arbeite.

12.02.2024
07.11.2023
27.01.2023
07.09.2022
26.07.2022
LocalSuite
LocalSuite: Sammlung von Tools für Ihr lokales Unternehmen - Schwerpunkte sind die Digitalisierung von Prozessabläufen und die Module für cleveres Online-Marketing.
Konferenzen.eu
Jetzt eine Telefonkonferenz starten? Schnell, keine Anmeldung erforderlich, kostenlos, normale Festnetznummer und sofort einsatzbereit: www.konferenzen.eu
MusikAnsagen.de
Individuelle musikalische Ansagen für Anrufbeantworter, Warteschleifen, Sprachmenüs und sonstige Telefonie-Anwendungen.
faxnummer.de
Mit dem kostenlosen Faxnummern - Service von Portunity erhalten Sie eine echte Ortnetz-Rufnummer und können sich so Ihre Faxe bequem per eMail zustellen lassen.
BankdatenCheck.de
Mit dem Webservice von BankdatenCheck.de können aus eigenen Applikationen aus dem Shop- und eCommerce-Umfeld Eingaben von Bankdaten auf Plausibilität überprüft werden.