Ir al contenido

Cluster

corosync-quorumtool -s en Proxmox: la lectura seca que uso para confirmar quorum y miembros sin depender de pvecm status

·2125 palabras·10 mins
Si me pilla un problema de cluster en Proxmox y necesito una respuesta rápida a la pregunta importante, suelo ir a una frase muy concreta. ¿Hay quorum o no lo hay? Todo lo demás viene después. Por eso corosync-quorumtool -s me gusta tanto. No tiene el barniz cómodo de pvecm status. No intenta ser amable. Te suelta la información bastante en seco y se acabó. Y, sinceramente, a ciertas horas eso me parece perfecto.

ls -la /etc/pve/nodes en Proxmox: cómo compruebo qué nodos sigue exponiendo pmxcfs cuando el cluster se tuerce

·2165 palabras·11 mins
Hay comandos que no arreglan nada, pero te ahorran hacer el idiota. ls -la /etc/pve/nodes es uno de ellos. No tiene épica. No luce bien en una charla. No impresiona a nadie. Pero cuando un cluster Proxmox empieza a ir raro y no te apetece sacar todavía la caja de herramientas pesada, esta comprobación corta me parece de las más agradecidas. ¿Por qué? Porque me enseña qué nodos sigue exponiendo pmxcfs dentro de la vista compartida de /etc/pve.

grep -nE "nodeid|ring0_addr|name:" /etc/pve/corosync.conf en Proxmox: cómo reviso el cableado lógico del cluster antes de tocar Corosync

·2241 palabras·11 mins
Cuando un cluster Proxmox empieza a oler raro, hay una tentación muy humana y muy mala. Abrir corosync.conf, ver muchas llaves, ponerse serio y empezar a tocar cosas sin haber leído antes el mapa. Yo intento no hacerlo. Antes de pensar en cambios, lo que quiero es una lectura corta del cableado lógico del cluster. Qué nodo es cuál. Qué nodeid tiene cada uno. Qué dirección ring0_addr usa el cluster para hablar con él. Y si el nombre que aparece ahí sigue correspondiendo con la historia que yo me estoy contando.

cat /etc/pve/.members en Proxmox: cómo veo el mapa rápido de nodos, IPs y quorum que maneja pmxcfs

·2251 palabras·11 mins
Hay comandos que parecen poca cosa hasta que una noche te ahorran una media hora de tonterías. cat /etc/pve/.members entra de lleno en esa categoría. No es el comando más famoso de Proxmox. No sale mucho en tutoriales para principiantes. No tiene ese aire heroico de pvecm status ni el dramatismo de journalctl -u corosync. Pero a mí me gusta muchísimo por una razón muy simple. Me da una foto corta, directa y muy útil de lo que pmxcfs cree que está pasando con el cluster.

mount | grep /etc/pve en Proxmox: cómo confirmo que pmxcfs sigue montado antes de culpar al cluster

·1941 palabras·10 mins
Hay comandos que no arreglan nada, pero te ahorran media hora de estupideces. Este es uno de ellos. 1 mount | grep "on /etc/pve " Cuando Proxmox empieza con comportamientos grises, yo no siempre salto primero a la web ni a pvecm status. Muchas veces hago esta comprobación antes que nada porque me responde una pregunta muy básica. /etc/pve sigue siendo el filesystem del cluster o ya estoy mirando otra cosa con cara de carpeta normal.

systemctl status pveproxy en Proxmox: cómo separo un panel web caído de un cluster que en realidad sigue bien

·2314 palabras·11 mins
Hay una clase de problema en Proxmox que me fastidia bastante porque invita a perder tiempo de forma absurda. Abres la interfaz web y algo no termina de cuadrar. Tarda demasiado en cargar. Devuelve un error raro. Te echa de una vista. O sencillamente no responde como debería y te deja con la duda de siempre. ¿Se ha roto el panel web o lo que está mal es otra cosa?

systemctl status pve-cluster en Proxmox: cómo compruebo pmxcfs antes de culpar a la web o a /etc/pve

·2284 palabras·11 mins
Hay un tipo de avería en Proxmox que me pone de mal humor bastante rápido. No hablo del desastre evidente, cuando un nodo se cae de verdad y todo el mundo se da cuenta. Hablo de esa capa más sutil donde la web va rara, /etc/pve tarda en responder, una configuración no aparece donde debería o el cluster transmite una sensación fea de “algo no está fino” aunque todavía no haya explotado nada serio.

pvesh get /cluster/resources --type node en Proxmox: la tabla que uso para ver CPU, RAM y uptime de todos los nodos de un golpe

·2393 palabras·12 mins
Hay comandos que uso para diagnosticar un problema. Y luego hay comandos que uso para no perder el tiempo antes de que el problema exista de verdad. pvesh get /cluster/resources --type node pertenece clarísimamente al segundo grupo. No es el más famoso de Proxmox. No tiene el aura de pvecm status, que sigue siendo el rey cuando quiero hablar de quorum. Tampoco tiene el punto bruto de pveperf, que ya conté en pveperf en Proxmox: la prueba rápida que hago para leer CPU, disco y fsync antes de culpar al nodo. Pero este comando tiene una virtud muy concreta que me encanta. Me enseña la foto corta de todos los nodos a la vez.

corosync-cfgtool -s en Proxmox: cómo confirmo si los enlaces del cluster siguen vivos de verdad

·2174 palabras·11 mins
Hay comandos que uso para entender el cluster. Y luego hay comandos que uso para dejar de discutir con él. corosync-cfgtool -s está claramente en el segundo grupo. Cuando la red del cluster da mala espina, cuando un nodo tarda en reaparecer, cuando pvecm status sale bien pero yo sigo desconfiando o cuando me planteo tocar interfaces de Corosync, este comando me ayuda a responder una pregunta muy concreta. Desde este nodo, ¿el enlace de Corosync sigue conectado a sus vecinos o solo estoy suponiéndolo?

pvesh get /cluster/status en Proxmox: la vista cruda que miro cuando la interfaz parece demasiado tranquila

·2492 palabras·12 mins
Hay días en los que la interfaz web de Proxmox me parece demasiado educada. Carga. Responde. Todo sigue más o menos en su sitio. Los nodos aparecen. Las VMs no se han caído. Y sin embargo noto esa sensación fea de que la foto está demasiado limpia para lo que ha pasado hace cinco minutos. Igual ha habido un reinicio raro. Igual una migración tardó más de la cuenta. Igual un nodo respondió lento y no me apetece fiarme solo de lo bonita que venga la web hoy.

pvecm status en Proxmox: cómo leo quorum, votes y ring ID antes de tocar un nodo

·2203 palabras·11 mins
Si solo pudiera lanzar un comando antes de reiniciar un nodo Proxmox, tocar la red del cluster o ponerme estupendo con una migración, sería pvecm status. No porque me lo cuente todo. No lo hace. Pero sí porque me da la respuesta que manda antes de casi cualquier otra cosa. ¿El cluster tiene quorum o estoy a punto de hacer una tontería con muy mal timing? A veces Proxmox te deja confiarte. La interfaz web abre, las VMs siguen arriba y pvecm nodes todavía te enumera miembros. Todo parece razonable. Luego miras pvecm status y te das cuenta de que la tranquilidad era más estética que real.

ceph -s en Proxmox: cómo leo la salud del cluster antes de tocar storage compartido

·2352 palabras·12 mins
Cuando una VM va torpe y hay storage compartido de por medio, la tentación es preciosa. Todo el mundo mira a Ceph, pone cara grave y empieza a hablar de latencia como si ya supiera qué pasa. Yo intento no entrar tan rápido en esa película. Antes de abrir la interfaz, antes de ponerme a revisar gráficas y antes de culpar al cluster entero, lanzo ceph -s. No porque el comando me vaya a explicar toda la historia. No lo hace. Pero sí porque me da en pocos segundos una lectura muy útil del tono real del cluster. Si está limpio, si viene tocado, si hay PGs degradadas, si hay OSDs en un estado raro o si el problema ya lleva rato dejando huellas bastante visibles.