De estilo reservado y contextura delgada, Liang Wenfeng da la impresión de ser tímido, incluso nervioso, en las reuniones. El fundador de DeepSeek -la startup china que hace poco alteró el mundo de la inteligencia artificial- es proclive a los silencios prolongados y las declaraciones titubeantes. Pero sus nuevos empleados aprenden rápido a no confundir con timidez esas cavilaciones calladas. Una vez que Liang procesa los puntos destacados de una discusión, dispara preguntas precisas y difíciles de responder sobre arquitectura de modelos, costos informáticos y otras complejidades de los sistemas de IA de DeepSeek.
Los empleados llaman laoban a Liang, "jefe", una señal habitual de respeto ante los superiores en las empresas de China. Lo raro es el grado en el que este "laoban" empodera a investigadores o incluso pasantes para que aborden proyectos experimentales; es habitual que se detenga frente a sus escritores en busca de novedades o que los empuje a considerar caminos de producción inusuales.
Mientras más técnica sea la conversación mejor será, especialmente si conduce a auténticos avances en el rendimiento, hitos que Liang comparte de manera personal en la red de mensajería interna Lark. "Es un verdadero nerd", afirma un exempleado de la firma que, al igual que muchas personas entrevistadas para este artículo, pidió el anonimato porque no estaba autorizada a hablar en público sobre la compañía. "A veces pienso que llega a entender mejor que los investigadores".
Liang y su joven empresa fueron catapultados a la prominencia internacional en el mes de enero, cuando difundieron R1, un modelo de IA que daba la sensación de ser un avance explosivo. R1 superaba a los jugadores occidentales dominantes en varias pruebas aceptadas que se emplean para evaluar el rendimiento de la IA, pero DeepSeek afirmaba que había desarrollado su modelo base, con el 5% del costo aproximado del GPT-4, el modelo detrás del Chat-GPT de OpenAI.
Los resultados de esas pruebas causaron un derrumbe por un billón de dólares en los mercados estadounidenses y plantearon preguntas espinosas sobre la estrategia norteamericana para detener el avance chino en IA. Amazon y Microsoft se apuraron a incorporar los modelos de DeepSeek en sus ofertas en la nube, junto con rivales correspondientes a Meta y Mistral AI. "En un fin de semana el interés por DeepSeek creció tanto que pasamos a la acción", dice Atul Deo, supervisor en Amazon.com Inc del mercado de modelos de lenguajes.
DeepSeek limpió la ventana empañada por la que los norteamericanos veían la situación de la IA en China; una imagen velada por el misterio, pero seguramente más intimidante de lo que estaban dispuestos a admitir. Antes del surgimiento de esta startup, muchas empresas y gobernantes norteamericanos albergaban la idea tranquilizadora de que China estaba notablemente rezagada detrás de Silicon Valley, lo que les otorgaba tiempo para enfrentarse a una paridad eventual.
La realidad es que Hangzhou, la ciudad donde se asienta DeepSeek, y otros centros de alta tecnología chinos vienen arrollando con pequeños dragones de IA, como suelen denominarse a las compañías del sector. Refinados chatbots de startups locales como MiniMax o Moonshot AI se dispararon en popularidad incluso en EE.UU.
La familia de modelos de lenguaje Qwen de Alibaba Group Holding Ltd figura de manera constante cerca de los líderes en modelos de lenguaje de Google y Anthropic; en abril el director ejecutivo de Baidu Inc., Robin Li, se ufanó de que el gigante de las búsquedas podría desarrollar modelos tan buenos como los de DeepSeek pero más baratos gracias a su nueva supercomputadora ensamblada con chips propios. Huawei Technologies Co también cosecha elogios por los productos que diseñó para competir con equipos de Nvidia Corp, cuyas unidades de procesamiento gráfico (GPU) impulsan los modelos más avanzados de IA en Estados Unidos y Europa.
Hasta hace no mucho tiempo el Partido Comunista Chino (PCCh) les cortaba las alas a lo que veía como un sector tecnológico fuera de control. Hubo revisiones y pesquisas antimonopólicas y de cumplimiento de datos, luminarias como el cofundador de Alibaba, Jack Ma, desaparecieron de la vista pública, y se aplicaron nuevas regulaciones en redes sociales, la economía informal y las apps de juegos. Ahora el PCCh realza a su industria tecnológica frente a la interferencia extranjera. El presidente Xi Jinpingacumula recursos en IA y semiconductores, fomenta la fuerza laboral altamente capacitada de China y promueve un ecosistema de software y hardware que sea "independiente, controlable y cooperativo".
Detrás de los avances recientes de China también figuran, irónicamente, las restricciones geopolíticas pensadas para contener el impulso de su IA. Wei Sun, analista en Counterpoint Technology Market Research, dice que ahora la distancia en IA entre Estados Unidos y China se mide en meses, no en años. "En China existe una ética colectiva y una disposición a trabajar con intensidad que conduce a la superioridad en la ejecución", indica Sun, al destacar que la escasez obligada de los chips de Nvidia desenterraron innovaciones en IA. "Esta dinámica crea una suerte de presión darwiniana: sobreviven los que pueden hacer más con menos".
Donde en China ven innovación muchos en Estados Unidos siguen sospechando de mala fe. Un informe de abril de una comisión bipartidaria de la Cámara de Representantes denunció vínculos "significativos" entre DeepSeek y el gobierno chino, y llegó a la conclusión de que la compañía ha robado datos de OpenAI y representa una "amenaza profunda" para la seguridad nacional norteamericana. El CEO de Anthropic, Dario Amodei, reclama mayores restricciones a las exportaciones de EE.UU.; en una publicación de blog de 3400 palabras alegó que DeepSeek debe haber contrabandeado grandes cantidades de GPU de Nvidia, incluyendo las más avanzadas H100. (Hace poco Bloomberg News informó que funcionarios estadounidenses investigan si DeepSeek eludió las restricciones comprando chips prohibidos mediante terceros en Singapur).
La embajada china calificó de "infundadas" las afirmaciones de la comisión legislativa. Nvidia dijo que los chips de DeepSeek se ajustaban a las normas de exportaciones y que agregar más restricciones podría beneficiar a los semiconductores chinos. Un portavoz del fabricante de microcircuitos sostiene que obligar a DeepSeek a utilizar más chips y servicios de China "impulsará a Huawei y a los proveedores extranjeros de infraestructura en IA".
La compañía en el centro del debate sigue siendo algo así como un enigma. DeepSeek se enorgullece de las fuentes abiertas de su tecnología en IA pero no es tan accesible respecto de su funcionamiento interno o sus intenciones. Revela detalles ultraespecíficos en documentos públicos pero no da información básica sobre el costo general de producir su IA, la conformación actual de sus GPU o el origen de sus datos.
Del propio Liang se conoce que es tan intrínsecamente poco sociable que algunos dirigentes del sector chino de la IA lo llaman en privado "el loco de la tecnología", variación de un apelativo que reservan a los emprendedores excéntricos con ambiciones desmedidas. No ha concedido una sola entrevista periodística en los últimos diez meses, y pocos conocían su aspecto hasta que apareció una foto de su rostro juvenil y con gafas durante una audiencia reciente con el primer ministro chino Li Qiang. Ni Liang ni sus colegas respondieron a pedidos repetidos de comentarios para este artículo, salvo por la contestación automática de un empleado que decía que el pedido estaba en proceso: "¡Gracias por su atención y apoyo a DeepSeek!", agregaba el email.
Para entender mejor cómo funciona la compañía y hasta qué punto encaja en las ambiciones generales del país respecto de la IA, Bloomberg Businessweek habló con 11 exempleados de Liang, aparte de con tres decenas de analistas, capitalistas de riesgo y directivos cercanos a la industria china de la IA.
La falta de presencia pública habilitó a críticos como Amodei o Sam Altman, jefe de OpenAI, a llenar el vacío con calumnias que tienen eco en audiencias norteamericanas inclinadas a ver a la tecnología china como una amenaza en las sombras. Pero incluso aquellos que sienten desconfianza de DeepSeek se ven obligados a lidiar con la proeza innegable de su IA. Dmitry Shevelenko, director de negocios de Perplexity AI Inc., afirma que ni una sola persona de su compañía, que crea un producto de búsquedas impulsado por IA, ha conseguido comunicarse con algún colega en DeepSeek.
De todos modos, Perplexity abrazó la tecnología de DeepSeek; la aloja únicamente en servidores de Estados Unidos y Europa y la capacita a posteriori para eliminar cualquier dato que indique censura del PCCh. Perplexity la denomina R1 1776 (una referencia al año de la fundación de Estados Unidos), lo que según Shevelenko es una homenaje a la libertad. "No sabemos cuáles son las motivaciones verdaderas de DeepSeek -acota-. Es un poco como una caja negra".
DeepSeek había anticipado que su IA podría causar preocupaciones en el exterior. En una presentación virtual que pasó inadvertida de marzo de 2024 en una conferencia de desarrolladores de Nvidia, Deli Chen, un investigador de aprendizaje profundo en DeepSeek, comentó que los valores deberían "desacoplarse" de los modelos extensos de lenguaje (LLM) y adaptarse a las diferentes sociedades. En una diapositiva de lógica fría, Chen presentó un prototipo de DeepSeek para adaptar las normas éticas incorporado a los chatbots que usan personas de distinta procedencia.
Con la rápida presión de un botón, los desarrolladores podrían determinar la legalidad de temas como el juego, la eutanasia, el trabajo sexual, la posesión de armas, el cannabis o los vientres subrogados. "Solo tienen que seleccionar las opciones que se ajusten a sus necesidades, y después podrán disfrutar de un modelo de servicio adaptado a la especificidad de sus valores", explicó Chen.
Encontrar ese tipo de atajos eficientes fue siempre la norma cultural en DeepSeek. Liang y sus amigos estudiaron varios campos técnicos en la Universidad de Zhejiang a mediados de los 2000: aprendizaje de máquinas, procesamiento de señales, ingeniería electrónica, etc.. Y aparentemente a cambio de apoyo (y también de dinero), desarrollaron programas de computación para operar con acciones durante la crisis financiera mundial.
Después de graduarse Liang siguió armando por su cuenta sistemas de transacciones cuantitativas; ganó una pequeña fortuna antes de unir fuerzas con varios amigos de la universidad en Hangzhou, donde lanzaron lo que en 2015 se conocería como High-Flyer Quant.
En sus publicaciones iniciales se jactaban de atraer talentos de Google y Facebook, y de buscar "genios" de matemática y códigos con la "brillantez rara" de Sheldon, el torpe protagonista de la serie The Big Bang Theory. Prometían aperitivos gratis, sillas Herman Miller, noches de póker, una cultura de oficina que aceptaba las remeras y las pantuflas y, con una pizca de cultura masculina de la fintech, la oportunidad de trabajar con "chicas adorables de hablar suave que nacieron en los ‘90" y una "diosa que regresó de Wall Street".
Con el tiempo miles de millones de dólares pasaron al patrimonio de High-Flyer, y su sector de inversiones e investigaciones se incrementó hasta los 100 empleados. Linag empezó a reclutar en serio para la división IA en 2019; el objetivo era minar enormes conjuntos de datos en busca de acciones subvaluadas, fluctuaciones diminutas de precio en operaciones de alta frecuencia, y tendencias macro que los inversores especializados en el sector pasaban por alto.
Al comienzo de la pandemia de covid-19 había construido con su equipo un sistema de computación de alto rendimiento con procesadores interconectados que corrían en tándem, una disposición que se denomina "racimo". Para ese racimo High-Flyer aseguraba haber adquirido unos 1.000 chips Nvidia 2080Ti -por lo general utilizados por jugadores y artistas 3D-, y otras 100 GPU de la serie Volta. (La GPU Volta, también llamada V100, fue el primer procesador de Nvidia optimizado para IA). Mientras que la previa arquitectura informática más pequeña de High-Flyer precisaba de dos meses para entrenar un nuevo modelo de análisis económico, el equipo siguiente necesitaba menos de cuatro días para procesar la misma carga de trabajo.
Esos modelos financieros eran impresionantes pero mucho más pequeños que los modelos generalistas que estaban levantando firmas estadounidenses como OpenAI. Liang promovió la construcción de una súpercomputadora considerablemente más grande formada por la entonces nueva GPU A100 de Nvidia, sucesora mejorada de la V100.
Un ex ingeniero de High-Flyer implicado en el proyecto dice que Liang fue "el mayor usuario individual" del racimo en crecimiento, y calcula que el 80 por ciento del poder de procesamiento usado en el desarrollo de modelos estaba asignado a su nombre de usuario. Este exingeniero agrega que Liang parecía obsesionado con el aprendizaje profundo; lo llamaba "su hobby caro". Volcar cientos de millones de dólares en ese tipo de infraestructura de IA tal vez era un exceso para una firma cuantitativa, pero Liang había generado ganancias más que suficientes para permitírselo. "Era poco dinero para Liang en ese momento -recuerda el ingeniero-. Más poder informático, mejores modelos, más ganancias en las operaciones".
Al menos esa era la esperanza. En una carta a inversores de diciembre de 2021, High-Flyer, que para entonces administraba activos por unos u$s 14.100 millones, se disculpaba por una serie de rendimientos decepcionantes. La firma atribuía el declive a sus sistemas de IA, que había seleccionado acciones con inteligencia pero no aprovechó para retirarse a tiempo en medio de la volatilidad por la pandemia.
Aun así, dispuso duplicar literalmente la apuesta a la IA: en enero de 2022, High-Flyer publicó en redes sociales que había acumulado unos 5000 A100 de Nvidia, cada uno de los cuales cuesta decenas de miles de dólares. En marzo anunció que ese racimo se había ampliado hasta los 10.000, apenas seis meses antes de que Nvidia advirtiera que nuevas restricciones en Estados Unidos podrían afectar la exportación de esos microcircuitos a China.
No queda claro cuánto de esa infraestructura estaba pensada en último caso para las operaciones cuantitativas y cuánto para el hobby caro de Liang. La siguiente primavera boreal, unos cinco meses después de que OpenAI presentara el ChatGPT, Liang designó a DeepSeek como un laboratorio de investigaciones independiente. Con oficinas separadas en Hangzhou y Beijing, las finanzas ya no eran el objetivo. En un manifiesto sin firma repleto de generalidades, High-Flyer se comprometía a evitar la mediocridad y abordar los principales problemas de la revolución de la IA. La meta por excelencia: la inteligencia artificial general.
A lo largo de 2023 el laboratorio de DeepSeek se apresuró a crear un asistente de código en IA, un chatbot de conocimiento general y un generador de arte de texto a 3D. Liang incorporó ingenieros de High-Flyer y contrató otros de la oficina de Microsoft Corp en Beijing y de universidades y compañías tecnológicas chinas de primer nivel.
Bo "Benjamin" Liu, que en septiembre se incorporó como estudiante investigador antes de empezar un doctorado, afirma que con frecuencia Liang asignaba tareas cruciales a pasantes que en otros lugares sólo se confiarían a empleados con antigüedad.
"Yo soy un ejemplo: cuando entré en la compañía nadie trabajaba en la RLHF infra -la infraestructura necesaria para apuntalar una técnica importante llamada ‘refuerzo de aprendizaje a partir de la respuesta humana'-, así que me dejó hacerlo. Confiaba en que pudieras hacer las cosas que nadie había hecho antes". (Esa confianza vino con un beneficio secundario para DeepSeek: los pasantes cobraban u$s 140 diarios con un subsidio mensual de u$s 420 para la vivienda, una remuneración generosa en China pero alrededor de un tercio de lo que ganan los pasantes en compañías de IA en Estados Unidos, y apenas una fracción de lo que perciben ingenieros a jornada completa en Silicon Valley).
Liang había hecho una apuesta enorme a la escasez, una técnica para entrenar y operar los LLM con mayor eficiencia subdividiéndolos en especialidades, indican dos exinvestigadores de DeepSeek. Cuando le hacías una pregunta al ChatGPT original, se activaba todo su cerebro LLM para determinar la respuesta ideal, ya fuera la suma de 2+2 o una receta de cocina. El modelo de escasez, en cambio, aprovecha mejor los recursos al dividirse en "expertos", de los cuales se activan los más relevantes para responder a una solicitud concreta.
Este método puede generar enormes ahorros en el costo informático, pero se torna sumamente complejo. Si una pregunta no es procesada por la cantidad suficiente de circuitos en el cerebro o termina en los lóbulos errados, la calidad de la respuesta decaerá. (El cerebro matemático sabrá cómo usar pi en una fórmula, pero no qué va en la receta de cocina).
Liang notó que había avances en ese punto en Google y el unicornio francés Mistral, que en diciembre de 2023 había presentado un modelo de escasez dividido en ocho expertos, y en el que cada consulta activaba sólo dos de los más relevantes según el contexto. Exhortó a su equipo a diseñar modelos con mayor cantidad de expertos, una técnica que alberga el potencial de aumentar las alucinaciones y fragmentar el conocimiento de la IA. "Esto desató un significativo debate interno", comentó el exmiembro del personal de DeepSeek.
Hubo más avances posteriores, todos compartidos en público y que cada vez llamaban más la atención de los rivales chinos. Luego, a fines de 2024, DeepSeek presentó el V3, un modelo de IA de uso general que era un 65% más grande que el equivalente de Meta Platforms, que entonces era el mayor LLM de fuente abierta disponible. Pero lo que de verdad cautivó la atención de los directivos en Google, OpenAI y Microsoft fue un extenso trabajo de investigación sobre el V3, alrededor de un mes antes de que DeepSeek entrara en el conocimiento público con su modelo de razonamiento R1.
Una estadística impactante se destacaba en el PDF: DeepSeek daba a entender que el costo total del V3 fue de apenas u$s 5,6 millones. Es probable que la suma se refiriera sólo a la última etapa de pruebas -un proceso de refinamiento de datos que transforma los prototipos en un producto completo-, y a muchos les pareció un presupuesto demencialmente bajo para todo el proyecto. En comparación, el entrenamiento acumulado de los modelos más avanzados pueden demandar hasta u$s 100 millones o más. Antes del ascenso de DeepSeek, Amodei de Anthropic llegó a pronosticar que el entrenamiento de los modelos de la próxima generación iba a costar cada uno entre u$s 10.000 millones y u$s 100.000 millones.
Leandro von Werra, director de investigaciones en la popular plataforma de IA Hugging Face Inc., que prepara clasificaciones de los LLM, dice que la "innovación arquitectónica" de DeepSeek no era lo más llamativo del modelo. La mayor revelación que sacó del texto de investigación era que la compañía tendría que haber desarrollado datos de alta calidad -ya fueran extraídos de la web o por otros medios- para dar vida al V3. "Sin conjuntos de datos muy fuertes, los modelos carecen de rendimiento -agrega Von Werra-. Del informe queda muy claro que DeepSeek tiene uno de los mejores conjuntos de datos para el entrenamiento de LLM que existen. Lamentablemente, el informe dedica al tema media página de un total de 50".
DeepSeek exhibía su rápido avance porque Liang veía al ethos de las fuentes abiertas como algo integral en su filosofía. Creía que ocultar las técnicas patentadas y cobrar por modelos potentes -el método seguido por laboratorios estadounidenses de primer nivel como OpenAi o Google- prioriza las ventajas de corto plazo frente al éxito perdurable.
Hacer que los modelos sean enteramente accesibles al público, y en gran medida gratuitos, era la manera más eficiente de que DeepSeek acelerara la adopción y consiguiera que los investigadores y las startups avanzaran a partir de su tecnología. La esperanza era crear una inercia de consumo y respuestas ante el producto. Casi dos años atrás, en el anuncio de su primer LLM, DeepSeek citó al inventor del sistema operativo Linux de fuentes abiertas: "Hablar es barato, muéstrenme el código".
Un domingo nublado de abril en el bullicioso aeropuerto internacional Xiaoshan de Hangzhou, los viajeros se encontraban con carteles digitales que publicitaban servicios de IA de Alibaba, ByteDance y Huawei. Un robot humanoide con cabello azul recibía a los pasajeros en la moderna terminal. En el exterior una startup de vehículos autónomos había estado probando pequeñas camionetas sin conductor para transportar carga. Pese a todo el ruido en torno a DeepSeek, los occidentales parecen olvidar que se trata de apenas uno de los muchos dragones de IA. Solo en Hangzhou, una megalópolis de 12,5 millones de habitantes, DeepSeek integra un grupo selecto de startups denominadas 'Los seis pequeños dragones' .
En el vistoso distrito del Lago Occidental está Game Science, el estudio detrás de Black Myth: Wukong, un exitoso juego de acción que se destaca por usar técnicas de aprendizaje de máquinas para que los personajes parezcan reales. A no mucha distancia se hallan dos bastiones en robótica y un unicornio concentrado en software de 3D espacial. También en los alrededores se ubica Zhejiang Qiangnao Technology, llamada BrainCo y conocida por ser la versión china de Neuralink.
Sus comienzos se remontan a una startup incubada en Harvard por el estudiante chinos Bicheng Han; ahora desarrolla miembros biónicos y tecnologías de actividad cerebral para dirigir a las computadoras en su laboratorio asociado en Hangzhou. La prótesis de una mano de BrainCo impulsada por IA se exhibe hoy en un centro de exposiciones en la Ciudad de la Inteligencia Artificial de China, otro polo tecnológico emergente en Hangzhou.
En semanas recientes los directivos de BrainCo organizaron recorridos por la muestra, indican personas que estuvieron presentes. Los participantes por lo general quieren invertir, pero al parecer los cerebritos no se mostraron muy desesperados por el capital extranjero. "No necesitan fondos -dijo un gerente de fondos que hizo la visita-. Con todo el entusiasmo que hay por los seis dragones, la gente les arroja dinero".
Detrás de todas estas startups aparece el gobierno del presidente Xi. La IA generativa, la robótica y otras ambiciones de tecnología de punta son el motor de una plataforma estatal que ante todo busca el "fortalecimiento y la autonomía" nacional, según lo expresó Xi en una reciente reunión del Politburó de la que informó la agencia noticiosa oficial Xinhua. "Debemos reconocer las brechas y redoblar los esfuerzos para impulsar la innovación tecnológica, el desarrollo industrial y las aplicaciones con IA", agregó.
Los dragones escuchan y no todos son tan pequeños. El predio principal de Alibaba, un conglomerado de u$s 300.000 millones, es una propiedad inmensa que tiene su propio lago en una zona de Hangzhou a unos 40 minutos en auto al oeste del Lago Occidental. Hace poco la compañía destinó u$s 53.000 millones para construir más centros de datos de IA en los próximos tres años, y ha dicho que los modelos recientes del Qwen3, su marca insignia, compiten con DeepSeek en rendimiento y ahorro de costos.
Fuera de China suele verse a Alibaba como una empresa de comercio electrónico, pero en 2022 separó su unidad en expansión que se ocupa de IA y la nube a un polo distinto en las afueras de Hangzhou. En sus salones de conferencias, grandes pantallas entregan cada 72 horas un "flash con novedades del sector" que detalla los logros más recientes de rivales como DeepSeek u OpenAI. Incluso en los baños se ofrece una actualización semanal, un recordatorio de que la sigue IA sigue adelante incluso cuando los humanos deben acudir al llamado de la naturaleza.
El pasado abril Ma, el esquivo fundador de Alibaba que hace cinco años fue dado por desaparecido durante la represión comunista del sector tecnológico chino, reapareció en el predio de la compañía para festejar los 15 años de su división en la nube. Durante una rara intervención, expresó su deseo de que la IA sirva a los humanos y no los domine, contaron varias personas que lo vieron. Los asistentes, algunos de los actuales siguieron la transmisión desde oficinas en Hong Kong o Tokio, dijeron sentirse estimulados por el regreso triunfal de Ma.
Fue un indicio de que las estrellas de la tecnología como Ma habrían vuelto a congraciarse con el PCCh -junto con advenedizos como Liang-, justo cuando los líderes tecnológicos en Estados Unidos pierden brillo. Existe en China un inflado orgullo nacional ávido de mostrar que pueden superar los obstáculos occidentales. George Chen, director gerente radicado en Hong Kong de la consultora Asia Group LLC, indica que hay ingenieros chinos que están volviendo a su país tras haber trabajado en Estados Unidos en Apple, Google, Microsoft y otras compañías líderes. Aunque en ello influye la hostilidad del gobierno de Trump, también se sienten atraídos por el hecho de que la acción parece haberse corrido a Oriente. "Silicon Valley ya no es un lugar atractivo para el talento chino", resume.
Kai-Fu Lee, fundador de 01.AI, otro unicornio chino, va un paso más lejos. Veterano él mismo de Apple, Google y Microsoft, Lee dice que la próxima generación de talentos no seguirá su camino a través de empresas norteamericanas como paso previo para fundar sus firmas propias en China. "Estos ingenieros jóvenes de IA se criaron en casa -apunta-. El éxito de DeepSeek, junto con el de otras startups de IA, motiva que más talento joven sea parte del renacimiento de la IA en China".
Ninguna compañía tecnológica suscita hoy tanto orgullo en China como DeepSeek. En una visita en abril a su familia en Hangzhou, Kirby Fung, un científico informático de 27 años de Canadá, llevó a su familia a recorrer el alma mater de Liang, la Universidad Zhejiang. Fung había hecho un programa de extensión allí y quería mostrarles a sus abuelos y a su hermano menor que había estudiado en el mismo lugar que Liang. "Queda bien contarles a mis amigos en Canadá que el tipo de DeepSeek estudió en mi facultad", explicó.
Turistas e influencers de las redes sociales también visitan regularmente la sede central de DeepSeek emplazada en un complejo de cuatro torres que dominan el famoso Gran Canal de China. Los turistas buscan rastros de Liang en comercios locales. Los que conocen a Liang dicen que reparte su tiempo entre Hangzhou y la oficina en Beijing de DeepSeek. Allí programadores veinteañeros trabajan en escritores de altura ajustable, con la despensa atiborrada de bebidas energizantes, fideos instantáneos y "palitos picantes". En una pizarra los empleados pueden solicitar otro tipo de comida.
Liang rara vez acepta reunirse con extraños; a veces se muestra bajo la forma de un holograma ante los pocos a los que acepta ver. Este año descartó una invitación a la influyente Reunión Cumbre de Acción sobre la IA en París, una cita que convocó a Altman, de OpenAI, al CEO de Alphabet y Google, Sundar Pichai, y a variedad de presidentes.
Mientras China celebra a DeepSeek, Estados Unidos la trata como un organismo extraño que misteriosamente apareció en el suministro de agua, y lo examina para determinar si es benigno o maligno. Los críticos acusan a DeepSeek de estar controlada por el PCCh, de arrebatar datos de entrenamiento de rivales norteamericanos y de contribuir a una vasta campaña de espionaje o de acción psicológica para socavar la hegemonía en IA de Silicon Valley.
"DeepSeek es una vía directa entre el sector tecnológico de Estados Unidos y el estado vigilado del Partido Comunista chino, que no sólo amenaza la intimidad de los ciudadanos norteamericanos sino nuestra seguridad nacional", señaló un portavoz de la comisión legislativa que investiga a la compañía.
DeepSeek, en cambio, no busca diferenciarse de cualquier otra startup de moda: es el producto de la "más pura energía de garaje", indicó en una publicación de febrero en X. Después de todo funciona en el mismo predio en Beijing donde están Google, no lejos de un Burger King y dos Tim Hortons. El hecho de que el sector no prestara mucha atención a DeepSeek hasta hace poco no implica que haya algo siniestro entre bambalinas. "El mundo de la IA no contaba con DeepSeek", observa Arnaud Barthelemy, socio en Alpha Intelligence Capital, una firma de capital de riesgo que invirtió en OpenAI y SenseTime. "Pero tendrían que haber contado con ella", completó.
Barthelemy cree que la verdadera lección que debe sacarse de DeepSeek es la eficacia con la que las compañías chinas convierten las restricciones en puntos fuertes. "Hay cantidad de mentes inteligentes en China que hicieron innovaciones con mucho menos recursos informáticos", ilustró.
De hecho, en mayo de 2023, el CEO de Nvidia, Jensen Huang, declaró a Businessweek que el exceso de regulación estadounidense de China no haría más que incentivar su innovación para superar a los que se interpusieran en el camino. Tras señalar que la influencia económica es una eficaz arma de la seguridad nacional, Huang destacó que las consecuencias no buscadas de las intervenciones estatales serían graves.
"Verse privados de un tercio del mercado de la industria tecnológica debería ser catastrófico -señaló aludiendo al riesgo de limitar las exportaciones estadounidenses a China-. Van a florecer sin competencia. Van a florecer y después exportarán a Europa, al sudeste de Asia". "Tienen que ser cuidadosos de hasta dónde empujan a la competencia -prosiguió-. La respuesta puede ser brusca y muy imprevisible. Los que no tienen nada que perder reaccionan de maneras muy sorprendentes".
La controversia subsiste en torno a una parte importante de la historia de DeepSeek; cuánto gastó para construir sus modelos. En un informe que suele citarse, la firma de investigaciones estadounidense SemiAnalysis calculó que High-Flyer y DeepSeek tuvieron acceso a racimos de unos 50.000 GPU de la serie H de primer nivel de Nvidia al costo de unos u$s 1.400 millones, algo que trataron de mantener en reserva.
SemiAnalysis considera que el grueso de esa infraestructura incluía GPU que podían ser exportadas. (EE.UU. permitió que Nvidia vendiera a China algunos chips modificados para limitar su rendimiento de modo de cumplir con las restricciones de la Casa Blanca). Pero la firma también alega que DeepSeek tuvo acceso a otros 10.000 chips H100 de Nvidia, de tecnología avanzada, cuya venta a China fue prohibida por el gobierno norteamericano.
Tres exempleados niegan con vehemencia las acusaciones; dicen que DeepSeek tiene menos de 20.000 GPU formadas por chips de Nvidia viejos y de exportación controlada. "Están esparciendo mentiras", comenta Bo Liu, candidato al doctorado, respecto de SemiAnalysis. La firma ha ratificado su informe.
Lo que no se cuestiona es que DeepSeek acepte el acceso a la potencia informática de que disponen las compañías norteamericanas. La empresa parece confiar en que podrá hacer mucho más que Silicon Valley. "La realidad es que los investigadores de LLM tienen un enorme apetito de recursos informáticos; si yo estuviera trabajando con decenas de miles de GPU serie H tal vez también terminaría derrochándolas en experimentos", comentó un ex empleado de DeepSeek. Pero el acceso a más recursos es un problema que los expertos chinos en tecnología quisieran abordar. "Deseo que un día las compañías chinas puedan tener 50.000 GPU", apunta el investigador. "¿Querrían ver de lo que somos capaces?".
