Problemas con los servidores de Amazon Irlanda, gestión de desastres TI en directo

Estándar

Os ofrecemos la última información sobre los problemas de Amazon Irlanda, despues de que uno de los portales mas visitados como es Menéame.net este caído por un problema de conectividad.

Gracias a este problema, los que gestionamos sistemas de mayor o menor envergadura estamos comprobando y aprendiendo que tipo de operaciones y que tipo de gestiones realiza una de las mayores empresas de TI actuales frente a un gran desastre en alguna de sus instalaciones.

Uno de los puntos fuertes que podemos comprobar es como Amazon esta informando a sus clientes de forma muy transparente y rápida en que estado esta el problema y que es lo que estan haciendo para solucionarlo. Podrian caer en la tentación de ocultar la mayor cantidad de información, pero en lugar de hacerlo y ocultarlo, te informan de en que estado esta la incidencia.

Los siguientes son ejemplos de transparencia, cualidad que para una empresa con sistemas tan críticos es loable y necesaria:

  • Según la última actualización del estado en el panel de Amazon Web Services parece ser que están teniendo problemas con las gestión de snapshots en los servidores haciendo que en algunos casos se borren bloques de manera incorrecta. Esto esta retrasando la posibilidad de arrancar los servicios ya que los clientes afectados no pueden hacer uso de sus copias de forma adecuada, según vayan solucionando estos problemas irán avisando por email a los administradores de los sitios afectados para que empiecen la recuperación.
  • El servicio Amazon Relational Database Service (Ireland) también esta siendo reparado ya que sufre los mismos problemas de conectividad, en la última actualización de su estado nos indica que estan intentando recuperar las instancias e indican un método para que los clientes con backups automáticos tengan la opción de recuperarla con una recuperación Point-in-Time.

Otro de los puntos a tener en cuenta es un plan de recuperación. A todos nos ha pasado, quien mas, quien menos ha sufrido incidencias o desastres en su departamento y lo primero que te viene a la mente es… ¿por donde empezamos ahora ?.

Para esto hace falta un plan (o planes) que, aunque no tenga en cuenta todas las posibles causas de un desastre de sistemas, si nos de unas pautas sobre como reiniciar todos los servicios y poner todo en orden otra vez. Es importante en este plan tener responsabilidades y responsables asignados, información de backups, usuarios, hardware, etc. ya que sino toda esta información tendrá que ser recopilada sobre la marcha con el tiempo que roba a la resolución propia de la incidencia.

Por último, este problema con Amazon tambien nos ofrece una verdad intangible pero demoledora, y es que, ningún sistema es infalible. Suponemos que Amazon tendrá su centro de datos bien acondicionado y protegido, y aun así, ha caido un rayo y tienen estos problemas. Esta claro que contra incidencias mas “normales” cuanto mas grande y preparada este una empresa mas riesgos se minimizan, pero eso no evita al 100% que pueda pasar algo, y por lo tanto siempre hay que estar alerta y a ser posible tener un plan B, por si ese 0.000001% de probabilidad nos toca un día.

¿Que opinais del tema de Amazon?, deja un comentario