El Observatorio Cuyano

Cómo la pequeña start-up china de inteligencia artificial DeepSeek sorprendió a Silicon Valley

El multimillonario de los fondos de cobertura Liang Wenfeng construye un modelo con un presupuesto ajustado a pesar del intento de EE. UU. de frenar las ambiciones de alta tecnología de China.

por Eleanor Olcott en Beijing y Zijing Wu en Hong Kong

© FT montage/Getty/Bloomberg

Un pequeño laboratorio chino de inteligencia artificial sorprendió al mundo esta semana al revelar la receta técnica de su modelo de vanguardia, convirtiendo a su líder solitario en un héroe nacional que ha desafiado los intentos de EE. UU. de detener las ambiciones de alta tecnología de China.

DeepSeek, fundada por el administrador de fondos de cobertura Liang Wenfeng, lanzó su modelo R1 el lunes, explicando en un documento detallado cómo construir un gran modelo de lenguaje con un presupuesto limitado que puede aprender y mejorar automáticamente sin supervisión humana.

Las empresas estadounidenses, incluidas OpenAI y Google DeepMind, fueron pioneras en el desarrollo de modelos de razonamiento, un campo relativamente nuevo de investigación de IA que intenta hacer que los modelos coincidan con las capacidades cognitivas humanas. En diciembre, OpenAI, con sede en San Francisco, lanzó la versión completa de su modelo o1, pero mantuvo sus métodos en secreto.

El lanzamiento de la versión R1 de DeepSeek desató un frenético debate en Silicon Valley sobre si las empresas de inteligencia artificial estadounidenses con mejores recursos, incluidas Meta y Anthropic, pueden defender su ventaja técnica.

Mientras tanto, Liang se ha convertido en un foco de orgullo nacional en su país. Esta semana, fue el único líder de inteligencia artificial seleccionado para asistir a una reunión publicitada de empresarios con el segundo líder más poderoso del país, Li Qiang. A los empresarios se les dijo que "concentraran esfuerzos para romper con las tecnologías clave".

En 2021, Liang comenzó a comprar miles de unidades de procesamiento gráfico de Nvidia para su proyecto paralelo de inteligencia artificial mientras dirigía su fondo de comercio cuantitativo High-Flyer. Los expertos de la industria lo vieron como las acciones excéntricas de un multimillonario que busca un nuevo pasatiempo.

"Cuando lo conocimos por primera vez, era un tipo muy nerd con un peinado horrible que hablaba de construir un clúster de 10.000 chips para entrenar sus propios modelos. “No lo tomamos en serio”, dijo uno de los socios comerciales de Liang.

“No podía articular su visión más allá de decir: quiero construir esto, y será un cambio de juego. Pensamos que esto solo era posible con gigantes como ByteDance y Alibaba”, agregó la persona.

El estatus de Liang como forastero en el campo de la IA fue una fuente inesperada de fortaleza. En High-Flyer, construyó una fortuna utilizando IA y algoritmos para identificar patrones que podrían afectar los precios de las acciones. Su equipo se volvió experto en el uso de chips Nvidia para ganar dinero negociando acciones. En 2023, lanzó DeepSeek, anunciando su intención de desarrollar IA a nivel humano.

“Liang construyó un equipo de infraestructura excepcional que realmente entiende cómo funcionan los chips”, dijo un fundador de una empresa rival de LLM. “Se llevó a su mejor gente del fondo de cobertura a DeepSeek”.

Después de que Washington prohibiera a Nvidia exportar sus chips más potentes a China, las empresas locales de IA se vieron obligadas a encontrar formas innovadoras de maximizar la potencia de cálculo de un número limitado de chips locales, un problema que el equipo de Liang ya sabía cómo resolver.

“Los ingenieros de DeepSeek saben cómo liberar el potencial de estas GPU, incluso si no son de última generación”, dijo un investigador de IA cercano a la empresa.

Los expertos de la industria dicen que el enfoque singular de DeepSeek en la investigación lo convierte en un competidor peligroso porque está dispuesto a compartir sus avances en lugar de protegerlos para obtener ganancias comerciales. DeepSeek no ha recaudado dinero de fondos externos ni ha hecho movimientos significativos para monetizar sus modelos.

“DeepSeek se gestiona como los primeros días de DeepMind”, dijo un inversor de IA en Pekín. “Se centra exclusivamente en la investigación y la ingeniería”.

Liang, que participa personalmente en la investigación de DeepSeek, utiliza los ingresos de sus operaciones en fondos de cobertura para pagar los mejores salarios a los mejores talentos de IA. Junto con ByteDance, el propietario de TikTok, DeepSeek es conocido por ofrecer la remuneración más alta disponible para los ingenieros de inteligencia artificial en China, con personal basado en oficinas en Hangzhou y Beijing.

“Las oficinas de DeepSeek se sienten como un campus universitario para investigadores serios”, dijo el socio comercial. “El equipo cree en la visión de Liang: mostrar al mundo que los chinos pueden ser creativos y construir algo desde cero”.

DeepSeek y High-Flyer no respondieron a una solicitud de comentarios.

Liang ha calificado a DeepSeek como una empresa exclusivamente “local”, con personal con doctorados de las mejores escuelas chinas, las universidades de Pekín, Tsinghua y Beihang, en lugar de expertos de instituciones estadounidenses.

En una entrevista con la prensa nacional el año pasado, dijo que su equipo central “no tenía gente que regresara del extranjero. Todos son locales... Tenemos que desarrollar el mejor talento nosotros mismos”. La identidad de DeepSeek como una empresa LLM puramente china le ha valido elogios en casa.

DeepSeek afirmó que utilizó solo 2.048 Nvidia H800 y 5,6 millones de dólares para entrenar un modelo con 671.000 millones de parámetros, una fracción de lo que OpenAI y Google gastaron para entrenar modelos de tamaño comparable.

Ritwik Gupta, investigador de políticas de IA en la Universidad de California, Berkeley, dijo que los recientes lanzamientos de modelos de DeepSeek demuestran que "no hay foso cuando se trata de capacidades de IA".

"La primera persona que entrena modelos tiene que gastar muchos recursos para lograrlo", dijo. "Pero el segundo puede llegar más barato y más rápido".

Gupta agregó que China tenía un grupo de talentos de ingenieros de sistemas mucho más grande que los EE. UU. que entienden cómo aprovechar al máximo los recursos informáticos para entrenar y ejecutar modelos de manera más económica.

Los expertos de la industria dicen que, si bien DeepSeek ha mostrado resultados impresionantes con recursos limitados, sigue siendo una pregunta abierta si puede seguir siendo competitivo a medida que evoluciona la industria.

Los rendimientos de High-Flyer, su principal patrocinador, se quedaron atrás en 2024, lo que una persona cercana a Liang atribuyó a que la atención del fundador se centró principalmente en DeepSeek.

Sus rivales estadounidenses no se quedan de brazos cruzados. Están construyendo mega "grupos" de chips Blackwell de próxima generación de Nvidia, creando la potencia informática que amenaza con volver a crear una brecha de rendimiento con los rivales chinos.

Esta semana, OpenAI dijo que estaba creando una empresa conjunta con SoftBank de Japón, denominada Stargate, con planes de gastar al menos 100.000 millones de dólares en infraestructura de IA en Estados Unidos. xAI de Elon Musk está ampliando masivamente su supercomputadora Colossus para contener más de 1 millón de GPU para ayudar a entrenar sus modelos de IA Grok.

"DeepSeek tiene uno de los grupos de computación avanzada más grandes de China", dijo el socio comercial de Liang. "Tienen suficiente capacidad por ahora, pero no por mucho más tiempo".

Información adicional de Wenjie Ding en Pekín

Fuente: ft.com

El Observatorio Cuyano

sábado, 25 de enero de 2025

No hay comentarios:

Publicar un comentario

Gracias por su colaboración

Datos personales

Invítame un cafecito

Orbita Cero Mendoza - Argentina

Entrada destacada

Tiempo local

Seguidores

conicet

Centro Científico Tecnológico (CCT) Mendoza

IDITS

CONAE

INVAP

Observatorio Pierre Auger

ARSAT

Visitantes del blog

Etiquetas

Archivo del blog