Si me pilla un problema de cluster en Proxmox y necesito una respuesta rápida a la pregunta importante, suelo ir a una frase muy concreta.
¿Hay quorum o no lo hay?
Todo lo demás viene después.
Por eso corosync-quorumtool -s me gusta tanto. No tiene el barniz cómodo de pvecm status. No intenta ser amable. Te suelta la información bastante en seco y se acabó.
Y, sinceramente, a ciertas horas eso me parece perfecto.
Cuando un cluster Proxmox empieza a oler raro, hay una tentación muy humana y muy mala.
Abrir corosync.conf, ver muchas llaves, ponerse serio y empezar a tocar cosas sin haber leído antes el mapa.
Yo intento no hacerlo.
Antes de pensar en cambios, lo que quiero es una lectura corta del cableado lógico del cluster. Qué nodo es cuál. Qué nodeid tiene cada uno. Qué dirección ring0_addr usa el cluster para hablar con él. Y si el nombre que aparece ahí sigue correspondiendo con la historia que yo me estoy contando.
Hay una clase de susto de Proxmox que siempre llega mal.
No tienes un error bonito. No tienes un botón rojo. No tienes una frase útil que te diga “mira aquí”. Lo que tienes es una sensación rara. Un nodo tarda. El cluster parece vivo pero no termina de sonar limpio. pvecm status da una foto, sí, pero te falta la película.
Por eso tiro mucho de esto.
1 journalctl -u corosync -n 40 --no-pager No es el comando con mejor marketing de la serie. Tampoco el más cómodo de leer. Pero cuando quiero entender qué está haciendo la red del cluster en los últimos segundos o minutos, pocas cosas me resultan más útiles.
Hay un punto en cualquier avería de Proxmox donde deja de tener sentido refrescar la web.
Si /etc/pve empieza a comportarse raro, si un nodo parece estar dentro del cluster pero no termina de convencerte, o si el servicio pve-cluster sale activo y aun así todo huele regular, yo dejo de pedirle respuestas a la interfaz. Quiero saber qué viene diciendo pmxcfs de verdad.
Ahí es donde tiro de este comando.
Hay comandos que uso para entender el cluster. Y luego hay comandos que uso para dejar de discutir con él.
corosync-cfgtool -s está claramente en el segundo grupo.
Cuando la red del cluster da mala espina, cuando un nodo tarda en reaparecer, cuando pvecm status sale bien pero yo sigo desconfiando o cuando me planteo tocar interfaces de Corosync, este comando me ayuda a responder una pregunta muy concreta. Desde este nodo, ¿el enlace de Corosync sigue conectado a sus vecinos o solo estoy suponiéndolo?
Si solo pudiera lanzar un comando antes de reiniciar un nodo Proxmox, tocar la red del cluster o ponerme estupendo con una migración, sería pvecm status.
No porque me lo cuente todo. No lo hace. Pero sí porque me da la respuesta que manda antes de casi cualquier otra cosa. ¿El cluster tiene quorum o estoy a punto de hacer una tontería con muy mal timing?
A veces Proxmox te deja confiarte. La interfaz web abre, las VMs siguen arriba y pvecm nodes todavía te enumera miembros. Todo parece razonable. Luego miras pvecm status y te das cuenta de que la tranquilidad era más estética que real.
Hay un momento muy concreto en el que me gusta lanzar systemctl status corosync en Proxmox. Justo cuando el cluster parece suficientemente bien como para confiarse, pero no tan bien como para que yo quiera tocar algo sin mirar antes debajo del capó.
Porque una cosa es que la interfaz web cargue. Otra que pvecm nodes siga enseñando miembros. Y otra muy distinta que el servicio de Corosync esté realmente tranquilo. No medio vivo. No “bueno, parece que aguanta”. Tranquilo.
Hay días en los que abro pvecm status porque quiero una foto completa del cluster. Y hay días en los que no necesito toda la película. Necesito saber una cosa muy concreta y la necesito ya. Qué nodos siguen dentro del cluster, con qué voto aparecen y desde cuál estoy consultando. Para eso pvecm nodes me parece bastante mejor de lo que mucha gente le concede.
No vende humo. No da métricas elegantes. No pretende ser un panel de salud. Es una comprobación corta, seca y muy útil cuando el objetivo no es admirar el cluster, sino evitar una tontería antes de tocarlo.
No me preocupa actualizar Proxmox. Lo que me preocupa es hacerlo con esa falsa tranquilidad de quien ve cuatro checks verdes y piensa que ya está todo bajo control. En un nodo suelto ya hay margen para liarla. En un cluster pequeño, todavía más. No porque Proxmox sea frágil, sino porque en casa solemos mezclar infra razonable con decisiones que tomamos medio dormidos.
Mi experiencia con esto es bastante simple. Los upgrades salen bien cuando llegas con contexto. Se tuercen cuando entras con prisa, ejecutas apt full-upgrade porque hoy te viene bien y solo después descubres que había un paquete raro, un nodo con quorum justo o una VM donde no tocaba.
Hay días en los que Proxmox te mira con cara de niño bueno. Todo verde, ninguna alarma fea, la interfaz carga rápido y uno empieza a pensar que quizá hoy sí puede tocar cosas sin pagar peaje. A mí ese momento me da exactamente la reacción contraria. Cuando un cluster parece demasiado tranquilo, me obligo a revisar lo básico antes de hacer nada que pueda mover piezas importantes.
Lo digo porque ya he aprendido que el desastre raro casi nunca empieza con una explosión cinematográfica. Empieza con una confianza tonta. Un reinicio que parecía inocente. Una actualización lanzada deprisa. Una VM que mueves de nodo porque sí. Dos minutos después estás preguntándote por qué HA no se comporta como esperabas o por qué Corosync decide ponerse estupendo justo hoy.
Hay una fase muy concreta en cualquier homelab con Proxmox en la que uno se viene arriba. Montas el cluster, ves los nodos juntos en la interfaz, pruebas una migración y piensas que ya está, que lo serio era llegar hasta ahí. Luego pasan unas semanas, metes más carga, empiezas a mover backups, storage, tráfico de servicios, alguna copia pesada, algún reinicio tonto de switch, y descubres la parte menos sexy del asunto. El cluster no vive de la ilusión. Vive de red estable.
Hay un punto en todo homelab un poco serio en el que un solo servidor deja de tener gracia. No porque no sirva, sino porque se convierte en un cuello de botella para todo. Mantenimiento, pruebas, reinicios, cambios de disco, errores tontos, ganas de experimentar. De repente cualquier cosa toca demasiado. Ahí es donde un cluster de Proxmox empieza a tener sentido.
Yo llevo tiempo con un cluster pequeño de tres nodos y la experiencia me ha convencido de algo bastante concreto. Para casa, tres mini PCs bien elegidos me parecen una de las mejores formas de entrar en clustering de verdad sin irte al absurdo del rack enterprise ni al caos de reciclar hardware que nunca quiso trabajar junto.