No toda tarea empresarial de IA necesita un modelo de 70 000 millones de parámetros. Los modelos lingüísticos compactos de entre 3B y 14B parámetros han dado saltos de calidad notables y hoy se ejecutan en el hardware que muchas oficinas ya tienen. Esta guía explica qué opciones existen y cómo ponerlas en marcha.
La nueva generación de modelos pequeños
Phi-4 Mini (3800 millones de parámetros) de Microsoft es uno de los modelos pequeños más destacados del momento. Publicado bajo licencia MIT a principios de 2025, su uso comercial es libre. Según benchmarks de la comunidad, Phi-4 Mini obtiene alrededor de un 73% en el dataset MMLU, frente al 65% de Llama 3.2 3B de Meta, pese a estar en la misma clase de parámetros. En el benchmark de razonamiento MATH, se reporta que iguala el rendimiento de modelos 8B más grandes (fuente: datos de benchmarks de la comunidad publicados en localaimaster.com).
Su versión más grande, Phi-4 (14 000 millones de parámetros, finales de 2024), ofrece una calidad de razonamiento que antes requería modelos de 30B+ parámetros, con una fracción del coste de hardware, según evaluaciones de la comunidad.
Otros modelos destacados en esta categoría:
- Llama 3.2 3B (Meta, septiembre de 2024, licencia MIT): compacto, buen seguimiento de instrucciones, ampliamente compatible
- Qwen 2.5 7B (Alibaba Cloud, septiembre de 2024): excelente cobertura multilingüe, incluidos español, alemán y francés
- Qwen 3 (2025): mejora el razonamiento y la capacidad multilingüe respecto a su predecesor
- Gemma 3 2B (Google DeepMind, 2025, Apache 2.0): huella de memoria muy baja, indicado para dispositivos de borde
Todos están disponibles bajo licencias abiertas o permisivas y se instalan localmente mediante Ollama en menos de cinco minutos.
Por qué "pequeño" ya no equivale a "débil"
Tres factores han impulsado la mejora de calidad en los modelos pequeños:
1. Datos de entrenamiento de mayor calidad, no mayor volumen. La familia Phi de Microsoft fue entrenada desde el inicio con fuentes de texto cuidadosamente filtradas, un enfoque que hoy se adopta de forma generalizada en el sector.
2. Instruction tuning intensivo y RLHF. Los modelos pequeños modernos pasan por un proceso de alineación post-entrenamiento extenso, lo que los hace genuinamente útiles para tareas estructuradas cotidianas.
3. Cuantización. La cuantización de 4 bits (formatos GGUF, MLX-4bit) reduce los requisitos de memoria de forma drástica con una pérdida de calidad mínima para la mayoría de casos de uso empresariales. Un modelo de 7B en 4 bits ocupa unos 4–5 GB de RAM; uno de 3,8B, aproximadamente 2,5 GB.
Requisitos de hardware: lo que realmente se necesita
| Modelo | Tipo | RAM (4 bits) | Velocidad (según la comunidad) |
|---|---|---|---|
| Phi-4 Mini 3.8B | Texto, Razonamiento | ~2,5 GB | 60–100 tok/s (Apple M3) |
| Llama 3.2 3B | Texto, Instrucción | ~2 GB | 70–110 tok/s (Apple M3) |
| Phi-4 14B | Texto, Razonamiento | ~9 GB | 20–35 tok/s (Apple M3) |
| Qwen 2.5 7B | Texto, Multilingüe | ~4,5 GB | 35–60 tok/s (Apple M3) |
| Llama 3.2 8B | Texto, Instrucción | ~5 GB | 30–50 tok/s (Apple M3) |
Todas las velocidades son datos reportados por la comunidad en hardware Apple Silicon M3. Los valores varían según la longitud del contexto, el nivel de cuantización y la carga de trabajo.
Un Mac Mini M4 con 16 GB (desde unos 800 €) ejecuta todos los modelos de la tabla sin problemas. Según mediciones reportadas por la comunidad, Phi-4 Mini alcanza entre 200 y 350 tokens por segundo en GPUs modernas. Un portátil con chips Apple M2/M3 o un escritorio con una NVIDIA RTX 3060 (12 GB VRAM) es suficiente para todos los modelos de 3B a 14B en cuantización de 4 bits.
Si se necesita un servidor compartido para el equipo, un Mac Studio M3 Ultra (96–192 GB de memoria unificada) soporta modelos de 70B+ y múltiples usuarios simultáneos sin necesidad de un rack de hardware NVIDIA.
Casos de uso para pymes
Los modelos pequeños destacan en tareas bien definidas y repetibles:
Puntos fuertes:
- Procesamiento estructurado de texto: clasificación de correos, resúmenes de documentos, relleno de formularios
- Asistentes de chat tipo FAQ respaldados por una base de conocimiento local (RAG)
- Completado de código y soporte ligero de scripting
- Traducción y corrección lingüística, en especial Qwen 2.5 7B para lenguas europeas
Cuándo se necesitan modelos más grandes:
- Cadenas de razonamiento complejas en múltiples pasos
- Escritura creativa con matices elaborados
- Generación de código a gran escala en proyectos fuertemente acoplados
Para la mayoría de las tareas de automatización en una pyme —gestión documental, asistentes de chat internos, prefiltrado de soporte, redacción de textos de RRHH— la clase de 3B a 14B parámetros suele ser suficiente. Esto coincide con lo que reportan profesionales que operan estos sistemas en producción.
Ventaja RGPD: los datos nunca salen de tu infraestructura
Ejecutar un modelo pequeño en local ofrece una ventaja de cumplimiento práctica que conviene no subestimar.
Cuando Phi-4 Mini se ejecuta en el portátil de un empleado y procesa documentos de clientes, esos documentos nunca abandonan el dispositivo. No hay que negociar un contrato de tratamiento de datos (DPA) con un proveedor en la nube, ni hay transferencia transfronteriza a un tercer país, ni exposición ante un incidente de seguridad del proveedor. La documentación RGPD se limita a la configuración del propio dispositivo.
Para sectores con requisitos de protección de datos elevados —legal, sanidad, RRHH, finanzas— esta simplicidad estructural puede ser determinante. Consulta nuestra página de soberanía de datos y nuestra guía de IA local para una introducción más amplia a los despliegues on-premise.
Kit Digital: financiación para pymes españolas
Las pymes y autónomos españoles pueden valorar el Kit Digital como vía de financiación para implantar soluciones de IA local. Según nuestra interpretación de las bases reguladoras vigentes, determinadas categorías del programa —como «Gestión de Procesos» o «Inteligencia Artificial y Analítica»— podrían cubrir inversiones en hardware y software de IA local. No obstante, la elegibilidad concreta depende de la convocatoria en vigor y del agente digitalizador seleccionado.
Recomendamos consultar el catálogo actualizado en la plataforma oficial de Red.es o ponerse en contacto con un agente digitalizador acreditado para confirmar qué soluciones califican. Más información en nuestra página de Kit Digital.
Primeros pasos en 15 minutos con Ollama
# Instalar Ollama (macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Ejecutar Phi-4 (14B — requiere ~9 GB RAM en 4 bits)
ollama run phi4
# Llama 3.2 3B — opción más ligera
ollama run llama3.2:3b
# Qwen 2.5 7B — tareas multilingües
ollama run qwen2.5:7b
Consulta ollama.com/library para ver los tags de modelos actualizados. Si el equipo prefiere una interfaz en el navegador, Open WebUI se despliega como contenedor Docker en el mismo equipo y ofrece chat, cambio de modelo y gestión de usuarios sin necesidad de línea de comandos.
Coste real frente a la nube
La inferencia en la nube para un modelo equivalente a 7B tiene un precio publicado de entre 0,08 y 0,25 € por millón de tokens según los principales proveedores (según precios disponibles públicamente). Una pyme que genere entre 10 y 30 millones de tokens al mes en herramientas internas puede pagar entre 800 y 7.500 € anuales en cuotas de API, sin contar la latencia ni la transferencia de datos.
Un Mac Mini M4 desde ~800 € tiene un coste marginal de inferencia nulo. Según nuestro análisis de los precios públicos disponibles, el hardware local suele resultar competitivo en costes entre los 6 y los 18 meses con un uso moderado, aunque el punto exacto de equilibrio depende del volumen de inferencia real.
¿Quieres saber qué tamaño de modelo y configuración de hardware se adapta mejor a tus flujos de trabajo? Inicia un proyecto piloto con Freshlab — evaluamos tus casos de uso, recomendamos el equipo adecuado y te ponemos en marcha en días, no semanas.