"La empresa china de inteligencia artificial (IA) DeepSeek ha conmocionado a la comunidad tecnológica con el lanzamiento de modelos de IA extremadamente eficientes que pueden competir con productos de vanguardia de empresas estadounidenses como OpenAI y Anthropic.
Fundada en 2023, DeepSeek ha logrado sus resultados con una fracción del dinero y la potencia de cálculo de sus competidores.
El modelo de «razonamiento» R1 de DeepSeek, presentado la semana pasada, provocó entusiasmo entre los investigadores, conmoción entre los inversores y respuestas de pesos pesados de la IA. La empresa presentó el 28 de enero un modelo capaz de trabajar tanto con imágenes como con texto.
¿Qué ha hecho DeepSeek y cómo lo ha hecho?
En diciembre, DeepSeek lanzó su modelo V3. Se trata de un modelo «estándar» muy potente que funciona a un nivel similar al GPT-4o de OpenAI y al Claude 3.5 de Anthropic.
Aunque estos modelos son propensos a cometer errores y a veces se inventan sus propios hechos, pueden llevar a cabo tareas como responder preguntas, escribir redacciones y generar código informático. En algunas pruebas de resolución de problemas y razonamiento matemático, obtienen mejores resultados que un humano medio.
La formación de V3 costó unos 5,58 millones de dólares. Es mucho más barato que el GPT-4, por ejemplo, cuyo desarrollo costó más de 100 millones de dólares.
DeepSeek también afirma haber entrenado a V3 utilizando unos 2.000 chips informáticos especializados, concretamente GPU H800 fabricadas por Nvidia. De nuevo, se trata de un número mucho menor que el de otras empresas, que pueden haber utilizado hasta 16.000 de los chips H100, más potentes.
El 20 de enero, DeepSeek lanzó otro modelo, llamado R1. Se trata de un modelo denominado de «razonamiento», que intenta resolver problemas complejos paso a paso. Estos modelos parecen ser mejores en muchas tareas que requieren contexto y tienen múltiples partes interrelacionadas, como la comprensión lectora y la planificación estratégica.
El modelo R1 es una versión ajustada del V3, modificada con una técnica llamada aprendizaje por refuerzo. R1 parece funcionar a un nivel similar al o1 de OpenAI, lanzado el año pasado.
DeepSeek también utilizó la misma técnica para hacer versiones «razonadas» de pequeños modelos de código abierto que pueden ejecutarse en ordenadores domésticos.
Este lanzamiento ha suscitado un enorme interés por DeepSeek, disparando la popularidad de su aplicación de chatbot V3 y provocando una caída masiva de los precios de las acciones tecnológicas a medida que los inversores reevalúan la industria de la IA. En el momento de escribir estas líneas, el fabricante de chips Nvidia ha perdido unos 600.000 millones de dólares.
Los avances de DeepSeek han consistido en lograr una mayor eficiencia: obtener buenos resultados con menos recursos. En concreto, los desarrolladores de DeepSeek han sido pioneros en dos técnicas que podrían adoptar los investigadores de IA en general.
La primera tiene que ver con una idea matemática llamada «sparsity». Los modelos de IA tienen muchos parámetros que determinan sus respuestas a las entradas (V3 tiene alrededor de 671.000 millones), pero sólo una pequeña fracción de estos parámetros se utiliza para una entrada determinada.
Sin embargo, no es fácil predecir qué parámetros serán necesarios. DeepSeek utilizó una nueva técnica para hacerlo y, a continuación, entrenó sólo esos parámetros. Como resultado, sus modelos necesitaron mucho menos entrenamiento que un enfoque convencional.
El otro truco tiene que ver con la forma en que V3 almacena la información en la memoria del ordenador. DeepSeek ha encontrado una forma inteligente de comprimir los datos relevantes, de modo que sea más fácil almacenarlos y acceder a ellos rápidamente.
Los modelos y técnicas de DeepSeek se han publicado bajo la licencia libre MIT, lo que significa que cualquiera puede descargarlos y modificarlos.
Aunque esto puede ser una mala noticia para algunas empresas de IA -cuyos beneficios podrían verse mermados por la existencia de modelos potentes de libre acceso-, es una gran noticia para la comunidad investigadora de IA en general.
En la actualidad, gran parte de la investigación sobre IA requiere acceso a enormes cantidades de recursos informáticos. Los investigadores que, como yo, trabajan en universidades (o en cualquier otro lugar, salvo las grandes empresas tecnológicas) han tenido una capacidad limitada para realizar pruebas y experimentos.
Los modelos y técnicas más eficaces cambian la situación. La experimentación y el desarrollo pueden ser ahora mucho más fáciles para nosotros.
Para los consumidores, el acceso a la IA también puede abaratarse. Es posible que más modelos de IA se ejecuten en los propios dispositivos de los usuarios, como portátiles o teléfonos, en lugar de funcionar «en la nube» por una cuota de suscripción.
Para los investigadores que ya disponen de muchos recursos, la mayor eficiencia puede tener un efecto menor. No está claro si el enfoque de DeepSeek contribuirá a crear modelos con un mejor rendimiento general o simplemente modelos más eficientes."
sia Times, 28/01/25, traducción DEEPL, enlaces en el original)
es profesor asociado de aprendizaje automático y director del Centro de Inteligencia Artificial de la Universidad de Sídney. A
No hay comentarios:
Publicar un comentario