
DeepSeek ha lanzado la última versión de su modelo V3-0324, una actualización que introduce mejoras en rendimiento, responde con mayor precisión a la llamada de funciones y ofrece interfaces más estéticas que su predecesor, algo que ya han comprobado algunos expertos en equipos Mac Studio con chip M3.
DeepSeek V3, lanzado en diciembre del año pasado, se entrenó con 671.000 millones de parámetros con arquitecutura Mixture of Experts (MoE), que divide un modelo de IA en pequeñas redes neuronales para que actúen de forma separada, como si fueran distintos aspectos.
El modelo también dispone de 37.000 millones de parámetros activados para cada token y, para "lograr una inferencia eficiente y una capacitación rentable", sus responsables recurrieron al mecanismo de atención latente multicabezal (MLA), tal y como explicaron entones en GitHub.
De este modo, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 40B. Esto significa que el modelo es capaz de superar a otros de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado.
Los responsables han compartido recientemente una actualización de V3 en Hugging Face. Se trata de V3-0324, una versión que "demuestra mejoras notables sobre su predecesor en varios aspectos clave", tal y como han señalado en esta publicación.
En primer lugar, brinda mejoras "significativas" en el rendimiento de referencia, con valores como un 81,2 en la evaluación de comprensión del lenguaje (MMLU-Pro), frente al 75.9 de V3; un 59,4 en AIME (frente a un 39,6) y un 49,2 en LiveCodeBench (frente a 39,2).
Por otra parte, esta actualización ofrece páginas web y 'front-ends' de juegos más estéticamente agradables y tiene una "mayor precisión en la llamada de funciones", de modo que soluciona algunos de los problemas advertidos en versiones anteriores del modelo de lenguaje.
Asimismo, adquiere nuevas competencias en la lengua china, con un estilo mejorado -alineado con el estilo de escritora R1- y una mejor calidad en textos de formato medio a largo. Además, se ha optimizado la reescritura interactiva multi-turno y la calidad de la traducción y la redacción de cartas optimizadas.
El investigador experto en aprendizaje automático de Apple Awni Hanun ha tenido la oportunidad de probar el nuevo modelo de DeepSeek en un ordenador Mac Studio de Apple con chip M3 y ha celebrado que "en cuatro bits ejecuta a más de 20 tokens por segundo".
Por su parte, el programador británico Simon Willison ha indicado que el nuevo DeepSeek V3-0324 es "un monstruo con licencia MIT de 641 GB, que se puede ejecutar en un Mac Studio M3 de 512 GB de nivel de consumidor".
Últimas Noticias
Muere una trabajadora francesa de UNICEF en un ataque con un dron contra Goma, en el este de RDC
Una empleada del Fondo de Naciones Unidas para la Infancia falleció tras el impacto de un artefacto aéreo en una zona urbana de la ciudad congoleña, incidente que conmocionó a la comunidad internacional y generó exigencias de respeto al derecho humanitario

Putin no planea viajar a la cumbre del G20 en Miami
El precio del crudo Brent se acerca a los 101 dólares, con las Bolsas europeas apuntando a leves descensos

EEUU investiga a 60 economías extranjeras por supuestas prácticas comerciales relacionadas con el trabajo forzoso

Gabriela Guillén abre su corazón en 'Supervivientes' sobre su relación con Bertín Osborne: "Lo quiero muchísimo"
