Ir al contenido

Proxmox

systemctl status pvedaemon en Proxmox: qué miro cuando tareas, consola o acciones del nodo empiezan a ir raras

·2384 palabras·12 mins
Hay días en Proxmox en los que el panel carga y, aun así, todo transmite una sensación terrible. Entras. Ves los nodos. Navegas por las vistas. Parece que la web no está caída del todo. Pero cuando intentas hacer algo serio empiezan los gestos raros. Arrancar una VM tarda demasiado. Una acción queda colgada. La consola no termina de abrir. Una tarea se siente más lenta de lo razonable. Y de pronto aparece la duda incómoda.

systemctl status pveproxy en Proxmox: cómo separo un panel web caído de un cluster que en realidad sigue bien

·2314 palabras·11 mins
Hay una clase de problema en Proxmox que me fastidia bastante porque invita a perder tiempo de forma absurda. Abres la interfaz web y algo no termina de cuadrar. Tarda demasiado en cargar. Devuelve un error raro. Te echa de una vista. O sencillamente no responde como debería y te deja con la duda de siempre. ¿Se ha roto el panel web o lo que está mal es otra cosa?

systemctl status pve-cluster en Proxmox: cómo compruebo pmxcfs antes de culpar a la web o a /etc/pve

·2284 palabras·11 mins
Hay un tipo de avería en Proxmox que me pone de mal humor bastante rápido. No hablo del desastre evidente, cuando un nodo se cae de verdad y todo el mundo se da cuenta. Hablo de esa capa más sutil donde la web va rara, /etc/pve tarda en responder, una configuración no aparece donde debería o el cluster transmite una sensación fea de “algo no está fino” aunque todavía no haya explotado nada serio.

pvesh get /cluster/resources --type node en Proxmox: la tabla que uso para ver CPU, RAM y uptime de todos los nodos de un golpe

·2393 palabras·12 mins
Hay comandos que uso para diagnosticar un problema. Y luego hay comandos que uso para no perder el tiempo antes de que el problema exista de verdad. pvesh get /cluster/resources --type node pertenece clarísimamente al segundo grupo. No es el más famoso de Proxmox. No tiene el aura de pvecm status, que sigue siendo el rey cuando quiero hablar de quorum. Tampoco tiene el punto bruto de pveperf, que ya conté en pveperf en Proxmox: la prueba rápida que hago para leer CPU, disco y fsync antes de culpar al nodo. Pero este comando tiene una virtud muy concreta que me encanta. Me enseña la foto corta de todos los nodos a la vez.

corosync-cfgtool -s en Proxmox: cómo confirmo si los enlaces del cluster siguen vivos de verdad

·2174 palabras·11 mins
Hay comandos que uso para entender el cluster. Y luego hay comandos que uso para dejar de discutir con él. corosync-cfgtool -s está claramente en el segundo grupo. Cuando la red del cluster da mala espina, cuando un nodo tarda en reaparecer, cuando pvecm status sale bien pero yo sigo desconfiando o cuando me planteo tocar interfaces de Corosync, este comando me ayuda a responder una pregunta muy concreta. Desde este nodo, ¿el enlace de Corosync sigue conectado a sus vecinos o solo estoy suponiéndolo?

pvesh get /cluster/status en Proxmox: la vista cruda que miro cuando la interfaz parece demasiado tranquila

·2492 palabras·12 mins
Hay días en los que la interfaz web de Proxmox me parece demasiado educada. Carga. Responde. Todo sigue más o menos en su sitio. Los nodos aparecen. Las VMs no se han caído. Y sin embargo noto esa sensación fea de que la foto está demasiado limpia para lo que ha pasado hace cinco minutos. Igual ha habido un reinicio raro. Igual una migración tardó más de la cuenta. Igual un nodo respondió lento y no me apetece fiarme solo de lo bonita que venga la web hoy.

pvecm status en Proxmox: cómo leo quorum, votes y ring ID antes de tocar un nodo

·2203 palabras·11 mins
Si solo pudiera lanzar un comando antes de reiniciar un nodo Proxmox, tocar la red del cluster o ponerme estupendo con una migración, sería pvecm status. No porque me lo cuente todo. No lo hace. Pero sí porque me da la respuesta que manda antes de casi cualquier otra cosa. ¿El cluster tiene quorum o estoy a punto de hacer una tontería con muy mal timing? A veces Proxmox te deja confiarte. La interfaz web abre, las VMs siguen arriba y pvecm nodes todavía te enumera miembros. Todo parece razonable. Luego miras pvecm status y te das cuenta de que la tranquilidad era más estética que real.

ceph -s en Proxmox: cómo leo la salud del cluster antes de tocar storage compartido

·2352 palabras·12 mins
Cuando una VM va torpe y hay storage compartido de por medio, la tentación es preciosa. Todo el mundo mira a Ceph, pone cara grave y empieza a hablar de latencia como si ya supiera qué pasa. Yo intento no entrar tan rápido en esa película. Antes de abrir la interfaz, antes de ponerme a revisar gráficas y antes de culpar al cluster entero, lanzo ceph -s. No porque el comando me vaya a explicar toda la historia. No lo hace. Pero sí porque me da en pocos segundos una lectura muy útil del tono real del cluster. Si está limpio, si viene tocado, si hay PGs degradadas, si hay OSDs en un estado raro o si el problema ya lleva rato dejando huellas bastante visibles.

systemctl status corosync en Proxmox: cómo confirmo si el servicio del cluster está bien antes de tocar red o quorum

·2110 palabras·10 mins
Hay un momento muy concreto en el que me gusta lanzar systemctl status corosync en Proxmox. Justo cuando el cluster parece suficientemente bien como para confiarse, pero no tan bien como para que yo quiera tocar algo sin mirar antes debajo del capó. Porque una cosa es que la interfaz web cargue. Otra que pvecm nodes siga enseñando miembros. Y otra muy distinta que el servicio de Corosync esté realmente tranquilo. No medio vivo. No “bueno, parece que aguanta”. Tranquilo.

pveperf en Proxmox: la prueba rápida que hago para leer CPU, disco y fsync antes de culpar al nodo

Hay comandos que no parecen gran cosa hasta que te ahorran media tarde de diagnósticos torpes. pveperf está en esa categoría. No es bonito. No es moderno. No sirve para enseñar una captura impresionante en redes. Pero a mí me resulta muy útil porque me da en segundos una foto bastante honesta del nodo Proxmox antes de hacer dos cosas que salen caras cuando las haces mal. Actualizar confiado y culpar al cluster de algo que en realidad es culpa del host.

pvecm nodes en Proxmox: la comprobación corta que hago para confirmar quién sigue dentro del cluster

·2208 palabras·11 mins
Hay días en los que abro pvecm status porque quiero una foto completa del cluster. Y hay días en los que no necesito toda la película. Necesito saber una cosa muy concreta y la necesito ya. Qué nodos siguen dentro del cluster, con qué voto aparecen y desde cuál estoy consultando. Para eso pvecm nodes me parece bastante mejor de lo que mucha gente le concede. No vende humo. No da métricas elegantes. No pretende ser un panel de salud. Es una comprobación corta, seca y muy útil cuando el objetivo no es admirar el cluster, sino evitar una tontería antes de tocarlo.

pveversion -v en Proxmox: dónde veo paquetes raros antes de actualizar un cluster

Hay comandos que parecen un trámite y luego están los que te evitan una noche de mierda. pveversion -v está en el segundo grupo. Yo lo uso antes de actualizar un nodo Proxmox, antes de reiniciarlo y también cuando algo ya huele raro y quiero saber si el problema viene de una capa más aburrida de lo que me gustaría admitir. Porque sí, en homelab nos encanta echarle la culpa a Ceph, a Corosync, al storage compartido o a esa VM caprichosa que siempre aparece en el momento menos elegante. Pero muchas veces el drama empieza antes, en algo tan poco glamuroso como una versión que no cuadra, un kernel viejo todavía dando vueltas o un paquete medio roto que nadie miró con calma.