Llm · Homelab.es

Tu hardware acaba de recibir un upgrade gratis gracias a Google TurboQuant

28 de marzo de 2026·1276 palabras·6 mins

IA Ia Google Turboquant Ollama Homelab Llm

Imagínate que Richard Hendricks de Silicon Valley aparece con su algoritmo de compresión y lo aplica al KV cache de los LLMs. Más o menos eso es lo que acaba de presentar Google Research en ICLR 2026. Se llama TurboQuant y, si corre en tu hardware, es básicamente un upgrade gratuito. El problema que nadie te había contado bien # Cuando ejecutas un modelo de lenguaje grande —ya sea un Llama 3.3 70B o un Qwen 2.5 32B en tu homelab— el cuello de botella no es lo que imaginas. No es la velocidad de procesamiento del transformer, ni los pesos del modelo. Es el KV cache.

Open WebUI: la interfaz que le faltaba a Ollama en tu homelab

5 de marzo de 2026·1464 palabras·7 mins

self hosting IA Open-Webui Ollama Ia Llm Chatgpt Homelab Docker

En el post sobre Ollama expliqué cómo montar modelos de lenguaje en local. Lo que no conté es que usar Ollama directamente por terminal tiene sus limitaciones. Funciona, pero no es cómodo para el uso diario. Open WebUI resuelve eso. Es una interfaz web para Ollama que se parece mucho a ChatGPT en apariencia y funcionalidad, pero corre en tu propia red, sin enviar datos a nadie, y sin límites de uso.

Ollama: monté mi propio ChatGPT en casa y esto es lo que aprendí

1 de marzo de 2026·1410 palabras·7 mins

self hosting Ollama Ia Llm Self-Hosting Gpu Tutorial

¿Puedes tener un ChatGPT privado en tu homelab? Sí. ¿Es igual de bueno? No. ¿Merece la pena? Depende. Te cuento mi experiencia real después de meses usándolo.