Home » Infraestructura » Alta disponibilidad

Alta disponibilidad

El objetivo de la alta disponibilidad es que el servicio continúe funcionando a pesar de que haya averías graves en cualquier punto del sistema. Para conseguirlo se han de eliminar todos los puntos únicos de fallo. Son muchos los componentes que pueden fallar, a continuación repasaremos los más importantes.

Fallo en un servidor

Cuando uno de los servidores sufre una avería que impide su funcionamiento, los servicios que estaban en aquella máquina se reparten entre los otros servidores. Esto es posible gracias a la virtualización y a tener los datos accesibles por red (SAN).

Fallo en un camino de red

Al disponer de dos caminos para llegar a los datos, el sistema tolera fallos en cualquier elemento de red: tarjetas de red de los servidores, switchs y controladora de red del SAN. El sistema autodetecta averías y automáticamente pasa a utilizar el camino alternativo.

Fallo en el SAN

El SAN es el componente más robusto de nuestra infraestructura, pero también el más crítico, ya que es donde todos los datos se encuentran almacenados. El hecho de que la probabilidad de una avería total sea muy reducida (absolutamente toda la maquinaria está duplicada) no es suficiente como para prescindir de las medidas de emergencia. Es por eso que hemos dotado al servidor de backup de los componentes necesarios para poder sustituir el SAN a partir de la ultima copia de los datos (máximo un día de desfase).

Fallo total

Por desgracia todas las medidas nombradas hasta ahora resultan insuficientes en caso de caída de las instalaciones. Por este motivo, una vez por semana realizamos una copia de todos los datos a otro datacenter de Barcelona. Esto supone un coste bastante importante para nosotros pero nos permite restablecer el servicio en cuestión de minutos. Es importante tener presente que la mayoría de proveedores comerciales de alojamiento no ofrecen este tipo de servicio.

Fallo en el servicio de correo

Tenemos tres instancias del servicio de correo funcionando de forma simultanea. En caso de que alguna de ellas falle, las otros son capaces de seguir manteniendo el servicio de correo en funcionamiento sin ningún tipo de interrupción.


javgen