DeepSeek: El chatbot chino que revoluciona la inteligencia artificial

Poco después de que Sam Altman y Donald Trump anunciaran una inversión récord en infraestructura de inteligencia artificial en Estados Unidos, en colaboración con empresas como NVIDIA y Microsoft, el lanzamiento del chatbot DeepSeek ha sacudido la industria tecnológica. En cuestión de días, DeepSeek superó a ChatGPT de OpenAI como la aplicación gratuita más descargada en iOS en Estados Unidos. Este acontecimiento también provocó una caída significativa en el valor de mercado de NVIDIA, que perdió cerca de 600.000 millones de dólares en un solo día.

¿Qué es DeepSeek y por qué es tan relevante?

DeepSeek es un modelo de lenguaje de gran escala (LLM) que destaca por su eficiencia y costos de operación significativamente menores en comparación con modelos estadounidenses como GPT-4. Su modelo R1 ha sido entrenado con 2,78 millones de horas de procesamiento y un costo aproximado de seis millones de dólares, lo que representa una fracción del presupuesto de OpenAI.

Este modelo ha sido desarrollado utilizando 2.000 GPUs H800 de NVIDIA, modificadas para cumplir con las restricciones de exportación impuestas por el gobierno de EE. UU. en octubre de 2023. Esta optimización ha permitido que DeepSeek alcance niveles de rendimiento comparables a sus homólogos occidentales con un menor consumo de recursos.

Innovaciones Técnicas de DeepSeek

Una de las características más innovadoras de DeepSeek es la implementación de la técnica «Mixture of Experts», también utilizada por el modelo Mixtral 8x7B de Mistral AI. Esta estrategia divide el modelo en varios submodelos especializados, lo que mejora la precisión y reduce los costos de cálculo. Cada uno de estos submodelos se enfoca en una tarea específica, permitiendo una asignación más eficiente de los recursos computacionales. Esto ha demostrado ser particularmente útil para mejorar la comprensión del lenguaje natural en aplicaciones avanzadas de inteligencia artificial.

Otra optimización clave de DeepSeek es su enfoque en la reducción del consumo energético. Mientras que otros modelos requieren infraestructuras costosas y un alto gasto de electricidad, DeepSeek ha diseñado su arquitectura para minimizar el uso de memoria y procesamiento sin perder calidad en sus respuestas. Según sus desarrolladores, esta optimización podría abrir la puerta a modelos de inteligencia artificial más sostenibles y accesibles a empresas de menor tamaño.

Además, DeepSeek ha explorado el uso de la Búsqueda en Árbol de Monte Carlo para mejorar la capacidad de razonamiento de la IA, aunque con resultados mixtos. Esta técnica, ampliamente utilizada en juegos de estrategia como el ajedrez y el Go, permite a la IA evaluar múltiples escenarios posibles antes de tomar una decisión. Sin embargo, su aplicación en modelos de lenguaje aún está en fase experimental y requiere más desarrollo para demostrar su efectividad en tareas de procesamiento de texto a gran escala.

A pesar de estos esfuerzos, la compañía aún no ha revelado detalles completos sobre los conjuntos de datos utilizados en el entrenamiento, lo que ha generado cierta controversia en la comunidad científica. Los investigadores han señalado la importancia de la transparencia en los modelos de IA, especialmente en un contexto donde la calidad y diversidad de los datos afectan directamente el desempeño y los sesgos de la tecnología. En respuesta a estas inquietudes, DeepSeek ha prometido futuras actualizaciones en las que podría ofrecer más información sobre su proceso de entrenamiento.

Controversias y Cuestionamientos

El rápido ascenso de DeepSeek no ha estado exento de polémica. Un artículo del Financial Times ha puesto en duda la autenticidad del modelo, sugiriendo que podría haber utilizado datos de otros modelos sin autorización.

El cuestionamiento sobre la autenticidad de DeepSeek se basa en la falta de claridad sobre su proceso de entrenamiento y en el hecho de que el rendimiento del chatbot es comparable a modelos que han requerido inversiones mucho mayores. Investigaciones independientes han señalado que algunos resultados generados por DeepSeek parecen demasiado similares a respuestas obtenidas por otros modelos de IA, lo que sugiere la posibilidad de que se haya basado en datos previamente utilizados por competidores.

Además, la falta de publicación de los conjuntos de datos utilizados en el entrenamiento ha generado sospechas en la comunidad académica. A diferencia de otros modelos de código abierto que comparten detalles sobre su base de datos y metodología, DeepSeek ha optado por un enfoque más hermético. Esto ha llevado a algunos expertos a especular sobre la posibilidad de que el modelo haya recurrido a técnicas de scraping o reentrenamiento sobre datos de otros modelos sin permiso.

Otro punto de preocupación es la presencia de sesgos en sus respuestas, lo que indica una posible supervisión del gobierno chino. El chatbot evita responder preguntas sobre eventos políticos sensibles, como la Plaza de Tiananmén o la independencia de Taiwán, lo que ha llevado a cuestionamientos sobre su imparcialidad y libertad de información.

Organizaciones defensoras de la transparencia en IA han expresado su preocupación sobre el control estatal que podría existir sobre DeepSeek. En particular, se teme que este modelo pueda convertirse en una herramienta para reforzar narrativas gubernamentales en lugar de proporcionar respuestas objetivas. En algunas pruebas realizadas por expertos, DeepSeek ha mostrado sesgos favorables a la política exterior china y ha evitado referencias a temas considerados polémicos en el país.

Impacto en la Industria de la IA

A pesar de los cuestionamientos que ha habido, incluido un ataque a su seguridad, la aparición de DeepSeek, independientemente de la veracidad y potencia del mismo, hace replantearse la hipótesis de que para alcanzar el éxito en un modelo fundacional es imprescindible invertir una fortuna en infraestructura. Su eficiencia en costos y la rapidez de su desarrollo sugieren que nuevos enfoques pueden permitir la creación de modelos competitivos con recursos limitados.

La compañía ha demostrado que modelos avanzados de IA pueden ser entrenados con hardware más accesible, lo que podría cambiar la dinámica del sector y abrir la puerta a más competidores en un mercado dominado por gigantes tecnológicos como OpenAI, Google y Microsoft.

NVIDIA, la empresa más impactada por la aparición de DeepSeek, ya había anticipado un cambio de paradigma. En el CES 2025, la compañía anunció una nueva línea de hardware más accesible para ejecutar modelos fundacionales en local, permitiendo a empresas y usuarios independientes experimentar con inteligencia artificial sin depender de grandes infraestructuras en la nube. Ya lo contamos en nuestro blog hace unas semanas.

En EE. UU., la aparición de DeepSeek ha sido interpretada como una «señal de alerta» para la industria local. Sin embargo, en el largo plazo, la mayor accesibilidad de modelos de IA podría beneficiar a empresas y gobiernos, fomentando una adopción más amplia de estas tecnologías. Su eficiencia en costos podría marcar un punto de inflexión en la industria, permitiendo que más empresas emergentes compitan en un sector dominado por gigantes como OpenAI, Google y Microsoft.

¿Cómo Probar DeepSeek?

Si quieres probar DeepSeek por ti mismo y formar tu propia opinión sobre su potencial y limitaciones, puedes acceder a la plataforma oficial en DeepSeek.com y descargarte su aplicación para el móvil escaneando el siguiente código QR.

El impacto de DeepSeek en la industria de la inteligencia artificial es innegable. Su ascenso rápido, innovaciones tecnológicas y eficiencia en costos lo han convertido en un fuerte competidor en el sector. No obstante, las controversias en torno a su autenticidad y posibles sesgos plantean preguntas importantes sobre la transparencia y regulación de la IA en el futuro.

La evolución de DeepSeek y su influencia en la industria global de la IA seguirá siendo un tema clave en los próximos meses, y solo el tiempo dirá si se consolidará como una alternativa viable a los modelos occidentales.