Ir al contenido

Storage

journalctl -u pvedaemon -n 40 --no-pager en Proxmox: cómo leo fallos recientes cuando tareas y storage se ponen raros

·2475 palabras·12 mins
Hay averías de Proxmox que son bastante honestas. Fallan, te sueltan un mensaje claro y listo. No hace falta montar una tesis. Y luego están las otras. Las que se presentan con una consola que tarda, una tarea que responde raro, un storage que a veces sale y a veces no, o una acción desde la web que no termina de cuadrar con la sensación del nodo. Ahí es donde systemctl status pvedaemon me da una foto útil, sí, pero muchas veces se me queda corto. Quiero historia reciente. Quiero saber qué ha pasado hace cinco minutos, no solo si el servicio sigue levantado.

systemctl status pvestatd en Proxmox: cómo leo el daemon que refresca estado, storage y métricas cuando un nodo empieza a oler raro

·2458 palabras·12 mins
Hay fallos en Proxmox que se ven clarísimos y hasta tienen algo de dignidad. Se cae un servicio. Un nodo desaparece. El quorum se rompe. Perfecto. Molesta, pero al menos sabes que tienes un problema de verdad delante. Luego están los otros. Los que empiezan con detalles pequeños y bastante irritantes. Un storage que aparece intermitente. Una cifra que no cuadra. Un nodo que sigue vivo, pero transmite esa sensación fea de que por dentro hay algo torcido. La web aún carga. El SSH también. No parece una caída limpia. Parece más bien que alguna pieza del sistema sigue haciendo trabajo, pero lo hace arrastrando una zapatilla.

ceph -s en Proxmox: cómo leo la salud del cluster antes de tocar storage compartido

·2352 palabras·12 mins
Cuando una VM va torpe y hay storage compartido de por medio, la tentación es preciosa. Todo el mundo mira a Ceph, pone cara grave y empieza a hablar de latencia como si ya supiera qué pasa. Yo intento no entrar tan rápido en esa película. Antes de abrir la interfaz, antes de ponerme a revisar gráficas y antes de culpar al cluster entero, lanzo ceph -s. No porque el comando me vaya a explicar toda la historia. No lo hace. Pero sí porque me da en pocos segundos una lectura muy útil del tono real del cluster. Si está limpio, si viene tocado, si hay PGs degradadas, si hay OSDs en un estado raro o si el problema ya lleva rato dejando huellas bastante visibles.

pveperf en Proxmox: la prueba rápida que hago para leer CPU, disco y fsync antes de culpar al nodo

Hay comandos que no parecen gran cosa hasta que te ahorran media tarde de diagnósticos torpes. pveperf está en esa categoría. No es bonito. No es moderno. No sirve para enseñar una captura impresionante en redes. Pero a mí me resulta muy útil porque me da en segundos una foto bastante honesta del nodo Proxmox antes de hacer dos cosas que salen caras cuando las haces mal. Actualizar confiado y culpar al cluster de algo que en realidad es culpa del host.

local-lvm en Proxmox: por qué en un nodo está activo y en otro no, y cómo no sacar conclusiones torpes

·2204 palabras·11 mins
Una de las cosas que más me gustan de Proxmox es que te deja ver bastante verdad si preguntas bien. Una de las cosas que más me fastidian es que también te deja interpretar mal esa verdad si vas demasiado deprisa. local-lvm es un ejemplo perfecto. Esta madrugada estuve comparando el estado de almacenamiento de tres nodos del mismo cluster. En dos de ellos, local-lvm aparecía activo, con su thin pool funcionando y varios discos locales viviendo ahí. En el tercero, la historia era otra. local-lvm salía inactivo y el sistema escupía un mensaje bastante poco ambiguo. no such logical volume pve/data.

Storage CIFS en Proxmox: cuando parece montado pero te responde "Host is down"

·2153 palabras·11 mins
Hay fallos que se agradecen porque son honestos. El servicio no arranca, el nodo se cae o el storage sale claramente inactivo y ya sabes que toca arreglar algo. Luego están los otros, los que te miran a la cara con media verdad. Esta madrugada me encontré justo uno de esos en Proxmox. Tenía un storage CIFS configurado en el cluster para usarlo con ISOs, backups puntuales y algún archivo compartido. Nada exótico. Lo raro fue esto. En dos nodos el recurso seguía apareciendo montado, el mount lo enseñaba sin rubor y, si te quedabas en la superficie, podías pensar que el problema era menor. Pero en cuanto intentaba tocar ese punto de montaje con df -h, la respuesta era bastante menos diplomática. Host is down.

pvesm status en Proxmox: cómo leo el almacenamiento de verdad y qué señales no ignoro

·2256 palabras·11 mins
Hay comandos que parecen poca cosa y luego te acaban enseñando medio estado del sistema si los lees con un poco de mala leche. pvesm status es uno de esos. Mucha gente lo abre, confirma que hay varios active, ve porcentajes que no dan miedo inmediato y pasa a otra cosa. Yo ya no lo hago así. Con los años he aprendido que el almacenamiento en Proxmox rara vez te avisa con un único dramatismo limpio. Más bien va dejando señales pequeñas. Un storage que sigue activo pero ya va demasiado lleno. Un local-lvm que aparece inactivo y no sabes si es normal o una chapuza heredada. Un backup server que aún aguanta, pero está más cerca del borde de lo que te gustaría admitir. Nada de eso suena a tragedia instantánea. Precisamente por eso conviene mirar bien.

Ceph en homelab: cuándo merece la pena y cuándo solo te roba horas

Ceph tiene muy buena prensa en el mundo homelab. Es normal. Sobre el papel suena brillante. Almacenamiento distribuido, replicación, tolerancia a fallos, integración muy seria con Proxmox y la sensación de que estás montando algo que se parece a un entorno de verdad. El problema es que, cuando bajas del PowerPoint al salón de casa, Ceph también te recuerda muy rápido que no le importan tus ilusiones. Yo no lo digo desde fuera. Lo tengo corriendo en un cluster pequeño de Proxmox y me gusta. De hecho, me sigue pareciendo una de las piezas más potentes que puedes montar en casa si sabes muy bien por qué la estás montando. Pero también creo que muchísima gente lo recomienda demasiado pronto, como si fuera el siguiente paso natural después de instalar tres nodos y aprender a pronunciar “quorum” sin pestañear.