Hay averías de Proxmox que son bastante honestas.
Fallan, te sueltan un mensaje claro y listo. No hace falta montar una tesis.
Y luego están las otras. Las que se presentan con una consola que tarda, una tarea que responde raro, un storage que a veces sale y a veces no, o una acción desde la web que no termina de cuadrar con la sensación del nodo. Ahí es donde systemctl status pvedaemon me da una foto útil, sí, pero muchas veces se me queda corto. Quiero historia reciente. Quiero saber qué ha pasado hace cinco minutos, no solo si el servicio sigue levantado.
Hay momentos en los que Proxmox no está caído, pero tampoco transmite precisamente paz.
El panel carga a medias. Responde raro. Hace un amago extraño después de tocar certificados. O simplemente alguien te dice que hace un rato iba y ahora va distinto. En ese punto, si ya confirmé que el puerto 8006 escucha y que el nodo responde por HTTPS localmente, suelo ir a una pieza que me gusta bastante más que refrescar la web diez veces.
Durante meses my “sistema de logs” era SSH al servidor, docker logs nombre-del-container y rezar para encontrar el error antes de perder la paciencia. Cuando algo fallaba a las 3 de la mañana y me despertaba una alerta, el proceso era: conectarme, buscar en logs, no encontrar nada relevante porque el container había reiniciado y los logs anteriores habían desaparecido, rendirse.
Loki lo cambió. No es el sistema de logs más potente del mercado, pero para un homelab es perfecto: consume poco, se integra directamente con Grafana y funciona bien con Kubernetes desde el primer día.