Hoy tuvimos una caida del cluster por un tiempo bastante considerable (fueron al rededor de 30-45 minutos creo).

El problema fue que hice un cambio en la configuración del cluster para que usase America/Mexico_City como timezone.

El cluster no lo aceptó y, al intentar reiniciar 2 de los nodos, no aceptaron la interconexión más.

El procedimiento fue resetear los nodos; lo cual nos llevó a que el nodo restante se bloqueara; estando documentado que cuando hay sincronización completa (SSI), el "donor" o donante, se bloquea.

Siendo el nodo restante el único, procedió a bloquearse y nos dejó sin DB.

Esto sucedió por mi desconocimiento del bloqueo del nodo donante a la hora de sincronizar. Pudo haberse evitado si hubiese hecho la configuración en un solo nodo, reiniciado el nodo y, al fallar, lo hubiese re-syncronizado, hubiese, todavía, quedado un nodo disponible para el uso.

Lo explico porque, en futuras ocaciones, lo que hay que hacer es: actualiza y configura un nodo a la vez. Si falla, puedes re-syncronizarlo sin problemas de downtime. Además, haz ésto en altas horas de la madrugada para que el patrón ni cuenta se dé ;)