DeepSeek-V3.1: Inferencia híbrida, FP8 y la mirada puesta en chips chinos

Detalles: Escrito por: : La Redacción; Categoría: Software; Publicado: 29 Agosto 2025; Visitas: 274

inteligencia artificial

Hace unos años, DeepSeek sorprendió al demostrar que se podía lograr un gran rendimiento con menos recursos.

Ahora, con el lanzamiento de DeepSeek-V3.1, la compañía da un paso más y apunta directamente a la próxima generación de chips chinos, en un contexto marcado por los controles de exportación de Estados Unidos y la creciente necesidad de autosuficiencia tecnológica en China.

Dos modos de inferencia: Think y Non-Think

La novedad más visible de esta versión es la inferencias híbrida, que introduce dos rutas conmutables:

Think Mode: orientado al razonamiento profundo y tareas complejas.
Non-Think Mode: enfocado en respuestas rápidas con menor latencia.

Ambos modos pueden alternarse desde la web y la app oficial, permitiendo al usuario decidir entre velocidad o calidad de razonamiento según la necesidad. Esto convierte a V3.1 en un sistema flexible para conversaciones extensas y tareas heterogéneas en un mismo flujo.

UE8M0 FP8: Ajustado a semiconductores chinos

Uno de los cambios más significativos es la adopción de UE8M0 FP8, un formato de datos optimizado para los chips nacionales chinos de próxima generación.

FP8 reduce a la mitad el tamaño frente a FP16/BF16.
Aumenta el rendimiento por ciclo y disminuye el consumo de memoria cuando hay soporte nativo.
Según DeepSeek, este esquema de escala no solo empaqueta pesos, sino que está integrado en el diseño de entrenamiento y ejecución.

Si los chips locales chinos integran soporte FP8 de forma nativa, el impacto en la industria de la IA y en la dependencia tecnológica de NVIDIA podría ser notable.

Ventana de contexto y disponibilidad

DeepSeek-V3.1 amplía su ventana de contexto hasta 128.000 tokens, ideal para documentos extensos y sesiones de diálogo prolongadas.

Disponibilidad: accesible vía API para integración en productos de terceros.
Recursos técnicos: alojados en Hugging Face, con detalles sobre el uso de UE8M0 FP8.
Benchmarks: en pruebas como MathArena (ETH Zürich), el modo Think se posiciona entre los modelos más competitivos, aunque GPT-5 lidera actualmente.

Competencia y geopolítica

El lanzamiento llega en un escenario delicado:

EE. UU. mantiene restricciones a la exportación de chips avanzados hacia China.
NVIDIA depende en un 13% del mercado chino, lo que podría verse afectado si las alternativas locales con FP8 ganan tracción.
Casos como el del chip H20 en China reflejan la incertidumbre entre permisos regulatorios y sustitutos locales.

Aunque DeepSeek enfrentó dificultades técnicas al intentar entrenar con hardware Huawei Ascend, y terminó volviendo a GPU de NVIDIA, la inferencia sí logró mantenerse en chips locales cuando fue posible.

👉 Esto sugiere que V3.1 es más un paso evolutivo que un salto definitivo, pero marca claramente la dirección estratégica.

Precios y hoja de ruta

DeepSeek anunció que desde el 6 de septiembre ajustará los precios de su API, en una estrategia para sostener y escalar el servicio.

Evolución reciente: R1 en mayo → V3 en marzo → V3.1 en agosto.
Arquitectura: basada en Mixture-of-Experts, con decenas de miles de millones de parámetros activos por token.

DeepSeek-V3.1 es un mensaje claro al ecosistema:

Inferencia híbrida para balancear rapidez y razonamiento.
FP8 nativo como apuesta estratégica para chips chinos.
Mayor ventana de contexto y disponibilidad vía API.

Si el hardware local se alinea con este estándar, el panorama de la IA en China podría transformarse, reduciendo la dependencia de NVIDIA y acelerando la consolidación de un ecosistema propio de semiconductores.

Fuente: somoslibres