Hoy tuvimos una caida del cluster por un tiempo bastante considerable (fueron al rededor de 30-45 minutos creo).
El problema fue que hice un cambio en la configuración del cluster para que usase America/Mexico_City como timezone.
El cluster no lo aceptó y, al intentar reiniciar 2 de los nodos, no aceptaron la interconexión más.
El procedimiento fue resetear los nodos; lo cual nos llevó a que el nodo restante se bloqueara; estando documentado que cuando hay sincronización completa (SSI), el "donor" o donante, se bloquea.
Siendo el nodo restante el único, procedió a bloquearse y nos dejó sin DB.
Esto sucedió por mi desconocimiento del bloqueo del nodo donante a la hora de sincronizar. Pudo haberse evitado si hubiese hecho la configuración en un solo nodo, reiniciado el nodo y, al fallar, lo hubiese re-syncronizado, hubiese, todavía, quedado un nodo disponible para el uso.
Lo explico porque, en futuras ocaciones, lo que hay que hacer es: actualiza y configura un nodo a la vez. Si falla, puedes re-syncronizarlo sin problemas de downtime. Además, haz ésto en altas horas de la madrugada para que el patrón ni cuenta se dé ;)