Portunity Wiki:Aktuelle Ereignisse

Aus Portunity Wiki

(Unterschied zwischen Versionen)
Wechseln zu: Navigation, Suche
(Aktualisierung Caching DNS 1 Server)
(92.Speeddrive Wartung)
Zeile 77: Zeile 77:
*'''Update 12.09.2012 12:45 Uhr:''' Wir haben eine Festplatte aus dem RAID verloren und müssen für den Tausch den Host herunter fahren.
*'''Update 12.09.2012 12:45 Uhr:''' Wir haben eine Festplatte aus dem RAID verloren und müssen für den Tausch den Host herunter fahren.
*'''Update 14.09.2012 12:45 Uhr:''' Das RAID System im Unterbau des Speeddrive´s macht leider anhaltend Probleme. Es sind bis jetzt keine Daten beschädigt oder verloren gegangen und damit dies auch so bleibt, werden wir kommende Woche alles auf neue Hardware verlagern. Für die Umstellung / das kopieren der Daten wird der Speeddrive zeitweise / etwas länger nicht erreichbar sein. Wir werden dies kurzfristig kommunizieren.
*'''Update 14.09.2012 12:45 Uhr:''' Das RAID System im Unterbau des Speeddrive´s macht leider anhaltend Probleme. Es sind bis jetzt keine Daten beschädigt oder verloren gegangen und damit dies auch so bleibt, werden wir kommende Woche alles auf neue Hardware verlagern. Für die Umstellung / das kopieren der Daten wird der Speeddrive zeitweise / etwas länger nicht erreichbar sein. Wir werden dies kurzfristig kommunizieren.
 +
 +
*'''Update 18.09.2012:''' Auch hier hat sich einiges getan. Wir haben uns entschieden, auch diesen Dienst etwas zu "verjüngen". Der RAID ist wieder sync, alle Daten sind konsistent, dennoch kopieren wir die Daten bereits auf ein komplett neues Storage und installieren einen neuen Server in unserer Cloud. Wir werden kurzfristig das Storage umschwenken (wird der iSCSI eingebunden) und in ein paar Wochen den neuen Frontend-Server produktiv nehmen. Letzteres kündigen wir natürlich an.
== 19.09.2012 - Wartungsarbeiten POP Wuppertal ==
== 19.09.2012 - Wartungsarbeiten POP Wuppertal ==

Version vom 06:05, 19. Sep. 2012

Inhaltsverzeichnis

Hinweis

In diesem Artikel veröffentlichen wir alle umfangreicheren sowie geplanten Arbeiten an Systemen die unsere Kunden direkt oder indirekt betreffen. Störungen werden hier nur veröffentlicht wenn resultierende Nacharbeiten / Wartungsfenster entstehen. Kurze / Kleine Störungen erscheinen hier nicht.
Generell Twittern wir alle Störungen und Ankündigungen über den dedizierten Twitter - Channel: http://twitter.com/pty_ops

Die letzten Meldungen können Sie je nach Bereich immer einsehen unter:

Aktuelles

Wartungsfenster Frankfurt 10.10.2012 - 11.10.2012

Wir werden ab dem 10.10.2012 in Frankfurt größere Umbaumaßnamen durchführen. Planarbeiten:

  • Ausbau eines Rackbereiches in unserer Hauptlocation in FFM
    • Einbau dedizierte USV Anlage
    • Einbau PDU
    • Einbau IP-KVM (für ältere Server)

Umzug aus 2. Rechenzentrum, in dem uns die Anbindung zu klein geworden ist:

  • Tagsüber:
    • NS1 - Authoritativ
    • NS1 - Caching Server
    • ColdSpare Rechner
  • Nachts:
    • VoIP Plattform mit ALLEN VoIP Diensten (Telefonie, Telefonkette, Konferenzen, etc.)
    • Tunnel-Plattform
  • Es werden zu bestimmten Zeiten die entsprechenden Dienst nicht erreichbar sein. Der Umzug wird ca. 60min. in Anspruch nehmen zzgl. unvorhersehbare Dinge.
  • Wir werden versuchen die kritischen Arbeiten kurzfristig per Twitter-Channel anzukündigen.

12.09.12 - Bundesweite DSL Störung

Gestern Abend (12.09.12) zwischen ca. 20:00 Uhr und 23:55 Uhr kam es vereinzelt zu DSL Einwahlproblemen / Unterbrechungen. Dies sollte dann behoben sein. Leider ist seit ca. 02:00 Uhr heute morgen vereinzelt dieses Problem erneut Bundesweit aufgetreten und aktuell anhaltend. Es sind zudem nicht nur Portunity Kunden betroffen, sondern auch anderer DSL-Kollegen, mit denen wir teilweise auch in Kontakt stehen. Es sind vereinzelte DSL Zugänge in ganz Deutschland betroffen.

Wir haben die Störung der entsprechenden Stelle weiter geleitet und es wird daran gearbeitet. Leider liegt die Ursache außerhalb unseres Einflussbereiches.

  • Update 12:00 Uhr: Das Problem besteht weiterhin. Ein Teil der DSL-Accounts, bevorzugt aber nicht ausschliesslich aus bestimmten Regionen, kann sich weiterhin nicht einwählen. Betroffen sind inzwischen ca. 15% aller Kunden. Inzwischen wurde uns gegenüber eingeräumt, dass es einige Notfallarbeiten im Netz der Telefonica, die für die Durchleitung des DSL-Verkehrs verantwortlich ist gegeben hat, auch genau in den Regionen in denen wir die Probleme feststellen. Die uns gegenüber zuständigen Techniker können oder wollen dies jedoch nicht bestätigen. Man arbeite mit Hochdruck an einer Identifikation des Problems, wir erhalten jedoch nur tröpfchenweise Informationen. Wir als Ihr Lieferant halten dies für absolut unbefriedigend und versuchen seit Stunden mehr zu erfahren um Sie zu informieren.
  • Update 16:00 Uhr: Das Problem scheint seit etwa 15:00 Uhr gelöst worden zu sein oder nicht mehr zu bestehen. Jedenfalls gibt es seitdem keine Probleme mehr, Verbindungen aufzubauen. Gedroppte Sessions kamen zuverlässig und spontan immer wieder sofort neu rein. Wir geben dennoch keine Entwarnung, da eine Fehlerursache nicht gefunden, zumindest nicht zugegeben wurde. Wir halten Sie weiter auf dem Laufenden ...
  • Update 17:00 Uhr: Die gestern gemeldete Störung hat uns und viele unserer Kunden leider auch heute beschäftigt. Seit ca. 15.00 Uhr funktionieren wieder alle Einwahlen einwandfrei, wenngleich wir die genaue Ursache trotz intensiver Arbeit vieler Techniker auf beiden Seiten nicht identifizieren konnten, bzw. sie wurde uns gegenüber nicht zugegeben. Betroffen waren heute bis zu 15% aller Kunden, manche Verbindungen waren dauerhaft gestört, andere konnten sich nach einiger Zeit wieder einwählen. Wir geben daher noch keine endgültige Entwarnung und werden weiter intensiv nach den möglichen Ursachen suchen um zu verhindern, dass die Effekte erneut auftreten. Wir bitten vielmals um Entschuldigung und bedanken uns für Ihr Verständnis und Ihre Geduld!
  • Update 14.09.12 17:35 Uhr: Einige Kunden mussten Ihren Router neu starten (Strom raus / rein) oder einen Portreset bei der DTAG durchführen lassen. Es scheint also alles wieder normal zu laufen. Von der TelCo gibt es zumindest den Hinweis, das sie nicht verstehen, warum es erst jetzt geknallt hat und nicht schon früher. Das macht Hoffnung, das die Ursache gefunden und dann auch behoben wurde. Wir verabschieden uns ins hoffentlich ruhige Wochenende. Wenn wieder erwartend etwas ist, bitte auf der -300 anrufen und eine Nachricht auf dem AB hinterlassen. Interessant für uns ist dann: Ihr Standort (Stadt) Ihre Kundennummer und bitte Ihre Einwahlkennung. Vielen Dank.
  • Update 17.09.12 Das Wochenende war Störungsfrei, alle Kunden sind wieder seit Freitag eingewählt. Als Information haben wir leider nur mündlich erhalten, das es bei der ZISP - Zuführung eine Fehlkonfiguration des Lieferanten gab, also außerhalb unseres Einflussbereiches. Dort hat man uns vermutlich erst einmal "ignoriert", da nur "wir" die Störung gemeldet haben und dann doch irgendwann mal nach geschaut.....


  • Status: Entstört Wir warten aber noch auf Info von der TelCo.

Aktualisierung Caching DNS 1 Server

Für ein Systemupdate und den vorsorglichen Festplattentausch führen wir Wartungsarbeiten am NS1-Caching DNS Server durch, der auf folgende IPs antwortet:

  • 217.144.128.34
  • 2a02:a00::c1

Wir rechnen mit ca. 30 - 60min.

  • Status: DONE
  • Termin Umschaltung: Verschoben auf 11.09.2012 ab ca. 8 Uhr.
  • Der Dienst steht seit ca. 08:40 Uhr wieder wie gewohnt zur Verfügung.
  • Update 13:00 Uhr: Der Resolverdienst, der beim Debian enthalten ist, hat leider einige dicken Macken. Er antwortet mit falschen TTL´s und kann den Cache auch nicht kontrolliert leeren, wodurch unser Echtzeit DNS etwas "gestört" ist. Wir werden nun den Dienst selber kompilieren und tiefere Tests durchführen.... Der DNS1 wird leider noch einige Male kurzzeitig nicht zur Verfügung stehen. Wir bitten den Umstand zu entschuldigen.
  • Update 12.09.2012 07:30 Uhr: Leider haben wir es gestern nicht mehr hin bekommen, den NS1 sauber ans laufen zu bringen. Zusätzliche Hardwareprobleme haben uns jedoch veranlasst, einen neuen Server zu bestellen, was per Express bereits eingestielt ist. Wir werden somit den "Neuen" schön und schnell fertig machen und dann switchen. Das soll diese Woche noch vom Tisch sein ;)
  • Update 12.09.2012 10:00 Uhr: Die Caching DNS Server funktionieren jetzt ohne Einschränkungen. Das LIVE - Cache-Aktualisieren ebenso wie das TTL Counting. Dennoch werden wir den NS1 in Wuppertal noch durch einen komplett neuen Server ersetzen, um hier wieder für ein paar Jahre Ruhe rein zu bekommen ;)
  • Update 14.09.2012 08:20 Uhr: Guten morgen. Der neue Server ist bereits gestern im Datacenter Wuppertal, also bei uns, eingegangen. Wegen der DSL-Störung konnten wir hier leider noch nicht aktiv werden. Wir werden ihn aber heute auspacken, BIOS und Hardware prüfen, eine Testinstallation durchführen und ihn dann mind. übers Wochenende in den Speicher-Test schicken. Kommende Woche wird er dann (wenn alles in Ordnung ist) installiert und dann als NS1-Cache-Wuppertal produktiv gehen. Das Wichtigste aber: Seit dem 12.09ten laufen alle DNS-Cache Server von uns ohne jegliche Probleme *freu* :)
  • Update 17.09.2012: Wir werden morgen im Laufe des Tages den neuen Server produktiv nehmen. Es ist mit einer sehr geringen Offtime zu rechnen.
  • Update 18.09.2012: Wir haben den neuen Server (Neues Blech und Neuinstallation) nun produktiv und beenden damit diese Baustelle, die eigentlich kleiner sein sollte. Aber wenn, dann richtig. :) Wir danken für Ihr Verständnis.

92.Speeddrive Wartung

Wegen einer Störung führen wir Wartungsarbeiten am 92.speeddrive.de durch.

  • Status: wieder offen
  • Termin: 10.09.2012 ab ca. 12:00 Uhr
  • Update 12.09.2012 12:45 Uhr: Wir haben eine Festplatte aus dem RAID verloren und müssen für den Tausch den Host herunter fahren.
  • Update 14.09.2012 12:45 Uhr: Das RAID System im Unterbau des Speeddrive´s macht leider anhaltend Probleme. Es sind bis jetzt keine Daten beschädigt oder verloren gegangen und damit dies auch so bleibt, werden wir kommende Woche alles auf neue Hardware verlagern. Für die Umstellung / das kopieren der Daten wird der Speeddrive zeitweise / etwas länger nicht erreichbar sein. Wir werden dies kurzfristig kommunizieren.
  • Update 18.09.2012: Auch hier hat sich einiges getan. Wir haben uns entschieden, auch diesen Dienst etwas zu "verjüngen". Der RAID ist wieder sync, alle Daten sind konsistent, dennoch kopieren wir die Daten bereits auf ein komplett neues Storage und installieren einen neuen Server in unserer Cloud. Wir werden kurzfristig das Storage umschwenken (wird der iSCSI eingebunden) und in ein paar Wochen den neuen Frontend-Server produktiv nehmen. Letzteres kündigen wir natürlich an.

19.09.2012 - Wartungsarbeiten POP Wuppertal

Wir möchten Sie über zwei bevorstehende Wartungsmaßnahmen informieren:

  • Zeitraum: Mittwoch 19.09.2012, 4 - 6 Uhr (früh)
  • Geplante Ausfallzeit: keine
  • Art der Arbeit: Backbone-Arbeiten, Konfigurationsarbeiten
  • Betroffen: alle Housing-Kunden in Wuppertal sowie Portunity Dienste aus Wuppertal.
  • Status: GEPLANT

26.09.2012 - Wartungsarbeiten POP Wuppertal

  • Zeitraum: Mittwoch 26.09.2012, 4 - 6 Uhr (früh)
  • Geplante Ausfallzeit: ca. 10 Minuten
  • Art der Arbeit: Router-Upgrade
  • Betroffen: alle Housing-Kunden in Wuppertal sowie Portunity Dienste aus Wuppertal.
  • Status: GEPLANT

Twitter to Mail

Da wir gelegentlich das Feedback erhalten, der Twitter Channel würde nicht reichen, eine eMail im Störungsfall wäre besser haben wir uns folgende Erweiterung überlegt: Wir senden automatisch alle Tweets per eMail an alle, die im Kunden-Center dies Feature aktiviert haben.

Der Haupt-Weg bleibt aber Twitter, da dies 100% von unserer Infrastruktur unabhängig ist. Der Mailversand kann u.U. je nach alter einer Störung unterbrochen sein. Des weiteren dauert der Mailversand auch länger, da wir nicht nur 10 Mails versenden ;)

  • Status: BETA online


VPN-Tunnel Plattform

Aktuell entwickeln wir an neuen Features für die ([Tunnel-Plattform]), was genau wird noch nicht verraten :)

Der neue Server kommt nun nach Wuppertal und nicht mehr nach Frankfurt, da wir hier eine bessere Verfügbarkeit als die CoLos in FFM haben und wir einfach "näher dran sind".

Es wird sich dadurch jedoch die Basis-IP-Adresse des Servers ändern. Bei Nutzung des Hostnames "pptp.ffm.portunity.de" muss jedoch nichts geändert werden.

  • Kleine Feature Aussicht:
    • Volle IPv6 Unterstützung (sofern die Softwarehersteller dies unterstützen)
    • l2tp mit und ohne IPsec
    • Absenkung der Latenz um mind. 4 ms
    • ggf. weitere Features....


  • Termin: Noch offen. Vermutlich August/September 2012!
  • Status: soon


KVM Backup Host - NFS Backup

Für unsere Business V-Server sowie eigene virtuelle Server bauen wir den Backup-Mechanismus um, wodurch wir uns eine höhere Flexibilität, mehr Performance sowie schnellere Wiederherstellung im Restore-Fall erhoffen.

Dazu verwenden wir einen 3HE Supermicro Server mit 16 Bays, den wir zum Start mit nur 3 Stück 4TB Festplatten ausstatten und jederzeit mit weiteren 11 Platten erweitern können. Für den Start reichen 8 TeraByte ;)


  • Termin: kein Termin erforderlich, da schleichender Prozess.
  • Status: Ist im Testbetrieb :=)



Abgeschlossenes / Archive

12.09.12 - Bundesweite DSL Störung

Gestern Abend (12.09.12) zwischen ca. 20:00 Uhr und 23:55 Uhr kam es vereinzelt zu DSL Einwahlproblemen / Unterbrechungen. Dies sollte dann behoben sein. Leider ist seit ca. 02:00 Uhr heute morgen vereinzelt dieses Problem erneut Bundesweit aufgetreten und aktuell anhaltend. Es sind zudem nicht nur Portunity Kunden betroffen, sondern auch anderer DSL-Kollegen, mit denen wir teilweise auch in Kontakt stehen. Es sind vereinzelte DSL Zugänge in ganz Deutschland betroffen.

Wir haben die Störung der entsprechenden Stelle weiter geleitet und es wird daran gearbeitet. Leider liegt die Ursache außerhalb unseres Einflussbereiches.

  • Update 12:00 Uhr: Das Problem besteht weiterhin. Ein Teil der DSL-Accounts, bevorzugt aber nicht ausschliesslich aus bestimmten Regionen, kann sich weiterhin nicht einwählen. Betroffen sind inzwischen ca. 15% aller Kunden. Inzwischen wurde uns gegenüber eingeräumt, dass es einige Notfallarbeiten im Netz der Telefonica, die für die Durchleitung des DSL-Verkehrs verantwortlich ist gegeben hat, auch genau in den Regionen in denen wir die Probleme feststellen. Die uns gegenüber zuständigen Techniker können oder wollen dies jedoch nicht bestätigen. Man arbeite mit Hochdruck an einer Identifikation des Problems, wir erhalten jedoch nur tröpfchenweise Informationen. Wir als Ihr Lieferant halten dies für absolut unbefriedigend und versuchen seit Stunden mehr zu erfahren um Sie zu informieren.
  • Update 16:00 Uhr: Das Problem scheint seit etwa 15:00 Uhr gelöst worden zu sein oder nicht mehr zu bestehen. Jedenfalls gibt es seitdem keine Probleme mehr, Verbindungen aufzubauen. Gedroppte Sessions kamen zuverlässig und spontan immer wieder sofort neu rein. Wir geben dennoch keine Entwarnung, da eine Fehlerursache nicht gefunden, zumindest nicht zugegeben wurde. Wir halten Sie weiter auf dem Laufenden ...
  • Update 17:00 Uhr: Die gestern gemeldete Störung hat uns und viele unserer Kunden leider auch heute beschäftigt. Seit ca. 15.00 Uhr funktionieren wieder alle Einwahlen einwandfrei, wenngleich wir die genaue Ursache trotz intensiver Arbeit vieler Techniker auf beiden Seiten nicht identifizieren konnten, bzw. sie wurde uns gegenüber nicht zugegeben. Betroffen waren heute bis zu 15% aller Kunden, manche Verbindungen waren dauerhaft gestört, andere konnten sich nach einiger Zeit wieder einwählen. Wir geben daher noch keine endgültige Entwarnung und werden weiter intensiv nach den möglichen Ursachen suchen um zu verhindern, dass die Effekte erneut auftreten. Wir bitten vielmals um Entschuldigung und bedanken uns für Ihr Verständnis und Ihre Geduld!
  • Update 14.09.12 17:35 Uhr: Einige Kunden mussten Ihren Router neu starten (Strom raus / rein) oder einen Portreset bei der DTAG durchführen lassen. Es scheint also alles wieder normal zu laufen. Von der TelCo gibt es zumindest den Hinweis, das sie nicht verstehen, warum es erst jetzt geknallt hat und nicht schon früher. Das macht Hoffnung, das die Ursache gefunden und dann auch behoben wurde. Wir verabschieden uns ins hoffentlich ruhige Wochenende. Wenn wieder erwartend etwas ist, bitte auf der -300 anrufen und eine Nachricht auf dem AB hinterlassen. Interessant für uns ist dann: Ihr Standort (Stadt) Ihre Kundennummer und bitte Ihre Einwahlkennung. Vielen Dank.
  • Update 17.09.12 Das Wochenende war Störungsfrei, alle Kunden sind wieder seit Freitag eingewählt. Als Information haben wir leider nur mündlich erhalten, das es bei der ZISP - Zuführung eine Fehlkonfiguration des Lieferanten gab, also außerhalb unseres Einflussbereiches. Dort hat man uns vermutlich erst einmal "ignoriert", da nur "wir" die Störung gemeldet haben und dann doch irgendwann mal nach geschaut.....


  • Status: Entstört

Neuer Mail Backup 1 Server

Es wird ebenso einen neuen smtp-backup1.portunity.de Server geben, damit wir auch hier die neuen IPv4-Adressen aber auch IPv6 Adressen nutzen. Die alte IP-Adresse: 81.92.15.40 wird voraussichtlich zum 03.09.2012 abgeschaltet. Sollte dies zu knapp bemessen sein, so bitte bei uns im Support melden. Danke

  • Status: 05.09.2012 UMGESTELLT
  • Termin Umschaltung: Wir haben am 05.09.2012 den neuen Server mit IPv6 unter der neuen IP-Adresse produktiv genommen. Die Arbeiten verliefen soweit ruckelfrei :)
  • Termin Abschaltung: Der alte Server ist abgeschaltet.

Neuer Mail Relay Server

Es wird einen neuen smtp-relay.portunity.de Server geben, damit wir auch hier die neuen IPv4-Adressen aber auch IPv6 Adressen nutzen. Die alte IP-Adresse: 81.92.15.39 wird voraussichtlich zum 03.09.2012 abgeschaltet. Sollte dies zu knapp bemessen sein, so bitte bei uns im Support melden. Danke

  • Status: 05.09.2012 UMGESTELLT
  • Termin Umschaltung: Wir haben am 05.09.2012 den neuen Server mit IPv6 unter der neuen IP-Adresse produktiv genommen. Die Arbeiten verliefen soweit ruckelfrei :)
  • Termin Abschaltung: Der alte Server wird am 06.09.2012 abgeschaltet.

NTP & DNS Trouble

Leider hatten seit den Arbeiten in Frankfurt und dem damit neu installierten Caching DNS Server einige Schwierigkeiten. Zum einen reagierte der NTP-Dienst nicht sauber, der dort mit läuft.

  • Status: Behoben 28.08.2012

Update der ISP-Suite

Wir haben vom 20.08.2012 - 22.08.2012 in die ISP-Suite (Service-Center) einige Updates für den Bereich: VoIP eingespielt. Dies betrifft insbesondere den Abrechnungsbereich und die VoIP-Preislisten, sowie den VoIP-Preislisten-Editor. Nebenwirkungen wurden nicht erkannt oder gemeldet.


Störung CoLocation Frankfurt 17.08.2012

Um ca. 03:50 Uhr heute morgen machte der Router in FFM wieder Probleme. Die Kollegen haben dies umgehend festgestellt und einen Kaltstart durchgeführt. Seit ca. 04:05 Uhr alles bereits wieder erreichbar. Die Störung lag außerhalb unseres Einflussbereiches. (Sorry für den späten Tweet, mein Handy war nicht online.)

Im Gegensatz zu der Störung vom 13.08.12 haben wir nun jedoch ausführlichere Logfiles, welches nun analysiert werden. Aktuell gibt es 2 Verdächtige:

  • Gezielter Angriff gegen den Cisco Router
  • Hardwaredefekt

Betroffen: Dienste in Frankfurt: Telefonie Plattform mit Nebendiensten, VPN-Tunnel-Plattform, sekundäre DNS Server. Vermutlich auch die DSL-Plattform Nicht betroffen: Standort / Rechenzentrum Wuppertal

  • 17.08.12 - 16:22 Uhr: Der Cisco hat bis kurz vor den Crash ganz normal gearbeitet und auch die überwachten Dinge wie: Sessions, Traffic, CPU-Last, Speicher usw. sahen vollkommen normal aus. Einen konkreten Verdacht haben die Jungs aktuell leider nicht, es wird überlegt ein OS Update einzuspielen.
  • 20.08.2012: Der Arbeitsspeicher des Cisco scheint defekt zu sein. Wir haben den Interimsrouter in Betrieb genommen und tauschen den RAM nun aus....

Neue DNS - Server in Frankfurt

Die DNS Server in Frankfurt (Caching und Autoritativ) laufen zwar sehr gut, jedoch hat die eine oder andere Festplatte S.M.A.R.T. Warnungen und bevor dies zu Ausfällen führt, tauschen wir die Festplatten durch. Wir werden im gleichen Zug aber auch ein neues OS installieren, damit wir dann auch wieder "Ruhe haben" :)

Die betroffenen Server stehen für den Umbau nicht zur Verfügung, die Primärsysteme in Wuppertal laufen jedoch weiter.

  • Betroffen: ns2.portunity.de & ns-cache2.portunity.de (217.144.128.34)
  • Status: 15.08.2012 - Erfolgreich abgeschlossen


KVM Host - FFM

Für unsere CoLo in Frankfurt spendieren wir einen neuen V-Server-Host auf KVM Basis, damit wir einige neue, eigene Projekte realisieren können.

  • Termin: August/September 2012.
  • Status: 15.08.2012 - Erfolgreich eingehostet :)


Störung CoLocation Frankfurt 13.08.2012

Seit ca. 20:15 Uhr (13.08.2012) gibt es in einer CoLoCation in Frankfurt, in der Technik von uns steht eine Störung.


Betroffen: Dienste in Frankfurt: Telefonie Plattform mit Nebendiensten, VPN-Tunnel-Plattform, sekundäre DNS Server. Vermutlich auch die DSL-Plattform

Nicht betroffen: Standort / Rechenzentrum Wuppertal

  • 20:15 Uhr: Die genaue Ursache ist noch nicht bekannt.
  • 21:15 Uhr: Die Störung liegt außerhalb unseres Einflussbereiches
  • 21:40 Uhr: Unbefriedigend, jedoch endlich die Bestätigung erhalten, das sich nun gekümmert wird.
  • 22:14 Uhr: In FFM ist ein zentraler Router ausgefallen. Er lässt sich auch nicht mehr wiederbeleben. Er wird / ist jetzt durch einen Hotspare ersetzt werden/worden... heiße Phase....
  • 22:31 Uhr: Soweit sind alle IP4v Dienste wieder erreichbar. IPv6 ruckelt noch nicht, kommt aber noch ;)
    • Die Störung lag auf jeden Fall nicht in unserem Einflussbereich. :)
  • 22:41 Uhr: Nun rennen auch die IPv6 Netze auf der VPN-Tunnelplattform wieder.
    • Die Rufbereitschaft wünscht nun eine gute Nacht, bis morgen.


  • 20.08.2012: Der Arbeitsspeicher des Cisco scheint defekt zu sein. Wir haben den Interimsrouter in Betrieb genommen und tauschen den RAM nun aus....
  • 21.08.2012: Wir nehmen den "defekten" Router JETZT ausser Betrieb, damit am Donnerstag der RAM in Ruhe getauscht werden kann und wir den Router dann erst mal testen können. Es wird mal eben kurz ruckeln.

Sollte Ihnen dennoch etwas auffallen, sie bitte eine eMail mit der Fehlerbeschreibung an: support@portunity.de Wir melden uns dann morgen bei Ihnen. Danke


Weitere Infos zum Ausfall:

  • 14.08.2012: Wichtiger-Hinweis: Durch den aktuellen "Notbetrieb" sind leider ein paar alte IP-Adressen nun nicht mehr erreichbar. Betroffen ist primär die 82.139.223.34, was ein alter Caching / Resolver DNS Server war. Die IP-Adresse sollte eigentlich bereits seit Jahren nicht mehr antworten. Bitte passen Sie Ihre DNS-Server an, oder nutzen Ihren Router als DNS Server, welcher die korrekten Server automatisch zugewiesen bekommt. Wie lauten die Namen und IP-Adressen der Caching- / Resolving-Nameserver für Einwahlprodukte (DNS)?
  • Ursache war ein Router, der sich komplett abgeschossen hat und auch durch einen Neustart nicht mehr zu reaktivieren war. Die Techniker haben dann ein mitlaufendes Reservegerät umkonfiguriert, welches nun das Routing in der CoLoCation Frankfurt übernommen hat. Da Portunity sowieso morgen einen FFM Termin hat, prüfen wir den Router der Kollegen und tauschen ihn ggf. mit aus. Ende.

Technik - Forschungswoche

Unsere Techniker werden vom 06.08.12 - 10.08.12 eine Forschungswoche einschieben, um einige Projekte massiv voran zu bringen oder gar abzuschließen. Aus diesem Grund sind wir nicht ganz so gut direkt erreichbar. Wir sind natürlich da und kümmern uns um Ihre Anrufe, eMails sowie Tickets. Nur bei Techniker-Arbeiten kann es schon mal zu kleinen Verzögerungen kommen. -> Ausnahme natürlich Störungen: Ist Ihr Server bei uns oder gar unsere Infrastruktur gestört, sind wir natürlich sofort am Start :)

Wir bedanken uns für Ihr Verständnis und freuen uns schon auf die Herausforderungen.

Status: Wir haben die Woche richtig viel geschafft und konnten einige neue Fundamente für neue Produkte bauen. Da die Woche so super funktioniert hat erstellen wir nun noch einiges an Dokumentation und machen mit dem Ausbau weiter. So werden nicht nur der smtp-backup1.portunity.de und smtp-relay.portunity.de neu aufgesetzt, sondern auch interne Radius Server für die VPN-Tunnel Plattform.

Die OPS sagt DANKE. Allen, die uns unterstützt haben und allen, die Verständnis für eventuell längere Supportlaufzeiten aufgebracht haben.


KVM Cloud Host / Node

Für unsere Business V-Server sowie eigene virtuelle Server fügen wir in unsere Cloud einen zusätzlichen Server ein.


  • Termin: kein Termin erforderlich, da schleichender Prozess.
  • Status: done


Anbindungsprobleme 01.08.2012

Status: 01.08.2012 - Zwischen ca. 12:50 und 13:00 Uhr gab es offensichtlich eine globale Netzstörung, wodurch nicht nur unsere Standorte betroffen / nicht erreichbar waren, sondern auch andere namhafte Provider.

Es sind einige Leitungen der DTAG ausgefallen, was zu einer Überlastung der Netze geführt hat. Vielleicht der berühmte Bagger ;)


Klimatechnik Serverraum 1

Wir planen die Erweiterung der Klimatisierungstechnik in Serverraum 1 (Datacenter Wuppertal), da die aktuelle Klimaleistung nicht mehr genügt. Mit "nicht mehr genügt" ist gemeint, das wir aktuell nicht mehr Garantiert "n+1" haben, also ein 100% unabhängiges Reserve-Gerät. Da wir dies jedoch wünschen, rüsten wir auf.

  • Eiliges Update 29.06.12:Am 28.06.12 (wir Twitterten) stieg die Außentemperatur so stark an, das die Reserveanlage zugeschaltet werden musste. Diese versagte jedoch ihrer Leistung (trotz wöchentlichem Test), wodurch die Temperatur im Serverraum 1 leicht Anstieg. Diverse Sofortmaßnahmen und Analysen brachten uns zu dem Schluss die Nachrüstung zu beschleunigen und ggf. Interimslösungen zu installieren.
    • Es handelt sich um KEINEN kritischen Zustand. Erst ab ca. 36°C Aussentemp. steigt die Serverraumtemperatur mit an.
    • Die neuen Anlage(n) sind bestellt und werden Donnerstag in Betrieb genommen.
  • Status 04.07.12: Die beiden neuen Geräte wurden durch uns vorinstalliert.
  • Termin 05.07.12: Fertig Wir haben heute erfolgreich 10kW mehr Kühlleistung in Serverraum 1 in Betrieb genommen. Damit haben wir "jetzt" n+2 -> Also 2 Reserve-Anlagen

PTR-Störung beim RIPE-NCC (UPDATE)

Update 15:39 Uhr

Wir bekommen derzeit Meldungen von Kunden, dass die Zonen offenbar wiederhergestellt wurden.
Das RIPE NCC hat ebenfalls in einem Rundschreiben bestätigt, dass die Störung beseitigt sein soll.
https://www.ripe.net/internet-coordination/news/announcements/update-14-june-13-35-utc-reverse-dns-services-outage




Momentan liegt eine Störung betreffend der PTR-Records für bestimmte IPv4-Netze und IPv6-Präfixe vor: http://www.portunity.de/s/3l

Wir haben festgestellt dass - obwohl nicht explizit aufgeführt - auch Teile des Netzes 213.0.0.0/8 nicht mehr korrekt aufgelöst werden können.

Das RIPE verwaltet die IP-Adressen im europäischen Raum und hat daher auf seinen eigenen DNS-Servern NS-Records für die einzelnen IP-Blöcke hinterlegt, die dann zu den jeweiligen Providern (z.B. zu uns) führen. Offenbar ist dort bei einem Update oder Wartungsarbeiten die DNS-Zone kaputt gegangen, man ist seit gestern Abend dran diese wiederherzustellen. Momentan bekommen wir die Anfragen für die betroffenen IP-Adressen garnicht mehr weitergeleitet, weil der entsprechende Eintrag auf den DNS-Servern des RIPE fehlt und wir diesen derzeit auch nicht mehr erzeugen können.

Da wir auf dieses Problem leider keinen Einfluss haben kann ich Ihnen leider auch keinen ungefähren Zeitrahmen nennen, wie lange die Wiederherstellung der Zone dauert.

Wir empfehlen während dieser Zeit auf Mailservern/Spamfiltern auf die Prüfung der Konsistenz von A/AAAA-Record und PTR zu verzichten oder zumindest nur aus diesem Grund keine Mails mehr abzulehnen.

Diese IPv4-Netze von uns sind derzeit zumindest teilweise davon betroffen

  • 212.60.128.0/19
  • 213.240.176.0/20


Neue Telefonanlage

Wir planen die Erneuerung unserer Telefonanlage. Zum einen schaffen wir damit die ISDN - Technik ab und zum Anderen stellen wir auf Asterisk 1.8 um.

  • Betroffen sein kann:
    • Sämtliche Anrufe auf der 0202 / 69555xxx
    • Notrufe für Kunden mit VIP - SLA Vertrag
    • Fax Empfang
    • ENUM Validierungsanrufe
    • Neukundenanmeldungen mit Rückruf-Validierung

Wir rechnen jedoch nur mit einer kurzzeitigen Unterbrechung der Erreichbarkeit und nicht mit einer längerfristigen Umstellung.

  • Termin: 12.06.2012 !
  • Status: ABGESCHLOSSEN

Tausch der USV (UPS) Akkus

  • Aus Sicherheitsgründen und damit wir die gewohnte Stabilität von über 99,7% halten können tauschen wir nun alle fälligen USV-Akkus pauschal aus.
  • Da mit keinen Unterbrechungen der Stromzufuhr zu rechnen ist, nehmen wir den Tausch jeweils tagsüber vor (dann sind wir auch über eine längere Zeit zwecks Beobachtung noch vor Ort) und informieren nicht jeden betroffenen Kunden einzeln.
  • Start: 19.04.2012
  • Ende: 15.05.2012


09.05.2012 Abschaltung alte IP-Adresse 81.92.15.34 - Resolver DNS Server 1

Seit ca. 2 Jahren haben alle unsere DNS Server neue IP-Adressen erhalten. Leider haben noch nicht alle Kunden dies umgestellt, weshalb wir hier nun erneut eine Rundnachricht versenden und einen dreiwöchigen Aufschub eingerichtet haben.

Für ein sauberes IPv6 Routing in unserem Rechenzentrum ist die Abschaltung solcher alten IP-Adressen leider unerlässlich. Es handelt sich um eine technisch notwendige Änderung.

  • Status: WICHTIGE ANKÜNDIGUNG
  • Endgültige Abschaltung der IP-Adresse am 09.05.2012
  • Status: OFFLINE


26.04.2012 Durchstarten 92.Speeddrive

  • Wir müssen das Gateway 92.Speeddrive morgen mal eben durchstarten.
  • Der Dienst steht für ca. 5min, nicht zur Verfügung.
  • Start: 26.04.2012
  • Ende: nach ca. 5min. -> 26.04.2012 ca. 09:14 Uhr
  • Status: ABGESCHLOSSEN


Störung: Monitoring - System - 19.04.2012

  • Weiterführende Maßnahmen: Wir werden morgen früh 20.04.2012 den Haupt-Server umbauen. Die vorhandenen Festplatten sind nicht schnell genug und werden durch 6 Festplatten ersetzt.
  • Die Überwachung wird morgen früh ab ca. 8 Uhr nicht zur Verfügung stehen.
  • Status: ABGESCHLOSSEN
    • Freitag 12:20 Uhr: Die neuen 6 Festplatten wurden verbaut und werden nun eingerichtet und mit dem Betriebssystem / Daten / Programmen versehen. Dies geschieht weitestgehend im Betrieb...
    • Der Server ist nun mit dne zusätzlichen Festplatten super schnell und startet auch komplett in ca. 30 Sekunden durch.

24.04.2012: Tausch ns1.portunity.de - Auth. DNS Server 1

Unser autoritativer DNS Server 1 in Wuppertal hatte vor einigen Wochen ja einen Ausfall und musste kalt gestartet werden (wir Informierten via Twitter). Dies veranlasste uns einen neuen Server kaufen und damit den alten Server zu ersetzen. Dies wollen wir wir nun durchführen.

  • Die Arbeiten werden tagsüber vorgenommen
  • Einschränkung: Keine Domain Registrierungen oder Updates
  • Abschaltung der alten IP-Adresse: 81.92.15.33
  • Dauer der Umstellung: ca. 1 - 2 Stunden
  • Start: geplant ist 24.04.2012 ca. 10 Uhr
  • Ende: 24.04.2012 11:30 Uhr
  • Status: ABGESCHLOSSEN


Umstellung: IPv6 Umstellung - Dienstag 17.04.2012

Umbau des IPv6 Routings im Rechenzentrum Wuppertal.

  • Betroffen: Nur unsere IPv6 Dienste in Wuppertal: DNS Server, Mailserver.
  • Status: √ ABGESCHLOSSEN


Störung: Monitoring - System - 16.04.2012

  • Durch den Ausfall einer im RAID befindlichen SATA Platte, wird das System im Laufe des Tages herunter gefahren und die defekte Festplatte durch eine Neue ersetzt. Das System / die Überwachung steht dann nur eingeschränkt zur Verfügung.
    • Die defekte Festplatte wurde ersetzt und nun synchronisiert sich das RAID neu.... Es kann während dieser Phase zu Fehlalarmen kommen.
  • Status: √ ABGESCHLOSSEN
  • Weiterführende Maßnahmen: Wir werden den Monitorserver mittelfristig auf 2 Server aufteilen. Der Hauptserver übernimmt die Watchdogs und der PINGs und der 2. Server das Monitoring: Stromerfassung, Auslastungsmessung der Systeme etc...

Sicherheitslücke: Mittwoch 11.04.2012

Schwere Sicherheitslücke im Linux Samba-Dienst entdeckt.

Wir informierten die betroffenen Speeddrive Kunden per E-Mail, das der SMB - Dienst zur Zeit nur noch durch einen VPN-Tunnel zu erreichen ist.

  • Wir planen am Montag den 16.04.2012 die Aktualisierung des Servers sowie das einspielen des entsprechenden Patches. Der Dienst wird in der Zeit zwischen 9:00 Uhr bis "offen" nicht erreichbar sein.
  • Alle Arbeiten wurden um 13:15 Uhr erfolgreich abgeschlossen. Das System ist nun mit allen verfügbaren und vor allem den SAMBA-Dienst betreffenden Patches ausgestattet. Nun ist SAMBA (Die Windows - Freigabe) wieder ohne VPN Tunnel nutzbar.
  • Status: √ ABGESCHLOSSEN 16.04.2012
Persönliche Werkzeuge