Alphabet Google está trabajando en una nueva iniciativa para mejorar la ejecución de sus chips de inteligencia artificial en PyTorch, el marco de software de IA más utilizado del mundo, en un movimiento que apunta a debilitar a Nvidia un dominio de larga data del mercado de la computación con inteligencia artificial, según personas familiarizadas con el asunto.
Esta iniciativa forma parte del ambicioso plan de Google para convertir sus Unidades de Procesamiento Tensor en una alternativa viable a las GPU de Nvidia, líderes del mercado. Las ventas de TPU se han convertido en un motor de crecimiento crucial para los ingresos de Google en la nube, ya que busca demostrar a los inversores que sus inversiones en IA están generando rentabilidad. Pero el hardware por sí solo no es suficiente para impulsar la adopción. La nueva iniciativa, conocida internamente como «TorchTPU», busca eliminar una barrera clave que ha frenado la adopción de chips TPU, haciéndolos totalmente compatibles y fáciles de usar para los desarrolladores, para aquellos clientes que ya han creado su infraestructura tecnológica con el software PyTorch, según las fuentes.
Google también está considerando liberar partes del software para acelerar su adopción entre los clientes, según algunas fuentes. En comparación con intentos anteriores de respaldar PyTorch en TPU, Google ha dedicado más enfoque organizacional, recursos e importancia estratégica a TorchTPU, a medida que crece la demanda de empresas que desean adoptar los chips pero ven la pila de software como un cuello de botella, dijeron las fuentes. PyTorch, un proyecto de código abierto fuertemente respaldado por Meta Platforms Es una de las herramientas más utilizadas por los desarrolladores que crean modelos de IA.
En Silicon Valley, muy pocos desarrolladores escriben cada línea de código de Nvidia, Advanced Micro Devices o Google realmente lo ejecutará. En cambio, estos desarrolladores recurren a herramientas como PyTorch, una colección de bibliotecas de código preescrito y frameworks que automatizan muchas tareas comunes en el desarrollo de software de IA. Lanzado originalmente en 2016, la historia de PyTorch ha estado estrechamente ligada al desarrollo de CUDA por parte de Nvidia, el software que algunos analistas de Wall Street consideran la defensa más sólida de la compañía frente a la competencia.
Los ingenieros de Nvidia han dedicado años a garantizar que el software desarrollado con PyTorch funcione con la mayor rapidez y eficiencia posible en sus chips. Google, en cambio, ha hecho que sus ejércitos internos de desarrolladores de software utilicen desde hace tiempo un marco de código diferente llamado Jax, y sus chips TPU emplean una herramienta llamada XLA para que dicho código se ejecute eficientemente.
Gran parte del software de IA y la optimización del rendimiento de Google se han basado en Jax, lo que ha ampliado la brecha entre cómo Google usa sus chips y cómo los clientes desean usarlos. Un portavoz de Google Cloud no hizo comentarios sobre los detalles del proyecto, pero confirmó a Reuters que la medida brindaría opciones a los clientes. «Estamos observando una demanda masiva y creciente de nuestra infraestructura de TPU y GPU», declaró el portavoz. «Nos centramos en brindar la flexibilidad y la escalabilidad que necesitan los desarrolladores, independientemente del hardware que elijan para desarrollar».
TPU PARA CLIENTES
Alphabet había reservado durante mucho tiempo la mayor parte de sus propios chips, o TPU, exclusivamente para uso interno. Esto cambió en 2022, cuando la unidad de computación en la nube de Google presionó con éxito para supervisar al grupo que vende las TPU. Esta medida aumentó drásticamente la asignación de TPU a Google Cloud y, a medida que crecía el interés de los clientes en la IA, Google ha buscado capitalizarlo incrementando la producción y las ventas de TPU a clientes externos.
Pero la discordancia entre los frameworks PyTorch utilizados por la mayoría de los desarrolladores de IA del mundo y los frameworks Jax, para los cuales los chips de Google están optimizados actualmente, significa que la mayoría de los desarrolladores no pueden adoptar fácilmente los chips de Google y lograr que rindan tan bien como los de Nvidia sin realizar un importante trabajo de ingeniería adicional. Este trabajo requiere tiempo y dinero en la vertiginosa carrera de la IA.
De tener éxito, la iniciativa «TorchTPU» de Google podría reducir significativamente los costos de cambio para las empresas que buscan alternativas a las GPU de Nvidia. El dominio de Nvidia se ha visto reforzado no solo por su hardware, sino también por su ecosistema de software CUDA, profundamente integrado en PyTorch y que se ha convertido en el método por defecto para que las empresas entrenen y ejecuten grandes modelos de IA.
Los clientes empresariales han estado diciéndole a Google que las TPU son más difíciles de adoptar para las cargas de trabajo de IA porque históricamente requerían que los desarrolladores cambiaran a Jax, un marco de aprendizaje automático favorecido internamente en Google, en lugar de PyTorch, que la mayoría de los desarrolladores de IA ya usan, dijeron las fuentes.
ESFUERZOS CONJUNTOS CON META
Para acelerar el desarrollo, Google colabora estrechamente con Meta, creador y administrador de PyTorch, según las fuentes. Ambos gigantes tecnológicos han estado negociando acuerdos para que Meta acceda a más TPU, una medida que The Information reportó por primera vez.
Las primeras ofertas de Meta se estructuraron como servicios gestionados por Google, en los que clientes como Meta instalaban chips de Google diseñados para ejecutar software y modelos de Google, con el apoyo operativo de Google.
Meta tiene un interés estratégico en desarrollar software que facilite la ejecución de TPU, con el fin de reducir los costes de inferencia y diversificar su infraestructura de IA, más allá de las GPU de Nvidia, para ganar poder de negociación, según las fuentes. Meta se negó a hacer comentarios. Este año, Google ha comenzado a vender TPU directamente a los centros de datos de sus clientes, en lugar de limitar el acceso a su propia nube. Amin Vahdat, veterano de Google, fue nombrado director de infraestructura de IA este mes, reportando directamente al director ejecutivo Sundar Pichai.
Google necesita esa infraestructura tanto para ejecutar sus propios productos de IA, incluido el chatbot Gemini y la búsqueda impulsada por IA, como para abastecer a los clientes de Google Cloud, que vende acceso a TPU a empresas como Anthropic.
Reporte de Krystal Hu, Kenrick Cai y Stephen Nellis en San Francisco; Edición de Kenneth Li y Matthew Lewis
Fuente: reuters

