top of page

Inteligencia Artificial - Parte II: Procesadores avanzados de IA y la nueva arquitectura de NVIDIA

  • Writer: JP Aguilar
    JP Aguilar
  • Aug 10
  • 5 min read
ree

Dominio de las GPU NVIDIA en IA:

NVIDIA se ha consolidado como líder del mercado de aceleradores de IA, con estimaciones que controlan entre el 70 % y el 95 % del mercado de procesadores de IA gracias a sus GPU y ecosistema de software. Sus GPU insignia para centros de datos (como la A100 y la nueva H100) son el estándar de facto para el entrenamiento y la implementación de grandes modelos de IA, gracias en parte a la plataforma de desarrollo CUDA de NVIDIA y al diseño de hardware de vanguardia. Los fabricantes de chips de la competencia (AMD, Google TPU, startups) están en auge, pero a día de hoy la arquitectura de GPU más reciente de NVIDIA define la vanguardia de la infraestructura de IA. De hecho, la demanda de chips de IA de NVIDIA en la industria es tan alta que el H100 cuesta aproximadamente 30 000 dólares cada uno en el mercado, y las «supercomputadoras de IA» completas construidas con GPU NVIDIA (como los sistemas NVIDIA DGX o los clústeres de GPU en la nube) constituyen la columna vertebral de computación de muchas empresas centradas en la IA.


GPU NVIDIA H100 "Hopper":

ree

La GPU H100 Tensor Core es el chip de alto rendimiento más reciente de NVIDIA para IA y HPC, basado en la arquitectura Hopper. Contiene la friolera de 80 000 millones de transistores fabricados mediante el proceso 4N de TSMC (clase de 5 nm), con un tamaño de chip de 814 mm². Cada H100 incorpora 16 896 núcleos CUDA y 528 núcleos Tensor especializados para operaciones matriciales. Cabe destacar que introduce núcleos Tensor de cuarta generación compatibles con nuevos tipos de datos de baja precisión (incluido FP8), lo que permite un rendimiento hasta seis veces superior para cálculos de IA que su predecesor (A100). Un H100 puede ofrecer ~60 TFLOPS de FP64, 120 TFLOPS de TF32 y hasta 1000 TFLOPS (1 PFLOP) de cómputo de precisión de 8 bits para tareas de aprendizaje profundo, lo que supone un salto de magnitud en el rendimiento bruto. Para alimentar los núcleos, utiliza 80 GB de memoria HBM3 integrada, lo que proporciona un excepcional ancho de banda de memoria de 2,0 TB/s para el entrenamiento de modelos de gran tamaño. Las GPU H100 también incorporan nuevas funciones, como un motor de transformador dedicado (para acelerar las redes neuronales de transformador, comunes en el procesamiento del lenguaje natural) y una virtualización mejorada de GPU multiinstancia (MIG) (cada H100 puede dividirse en 7 instancias de GPU aisladas para realizar múltiples tareas). Sin embargo, este rendimiento extremo conlleva una densidad de potencia muy alta: un módulo H100 SXM consume hasta ~700 W de potencia y suele requerir refrigeración avanzada (a menudo líquida) para disipar el calor. Los sistemas basados en Hopper utilizan NVLink (4.ª generación) y interconexiones NVSwitch para conectar múltiples GPU a más de 900 GB/s, lo que permite escalar a clústeres de nivel de supercomputadora. En resumen, el H100 de NVIDIA es actualmente el motor clave para los centros de datos de IA, ofreciendo aceleraciones sin precedentes para el entrenamiento de modelos gigantes, pero también lleva la infraestructura al límite en términos de requisitos de energía y refrigeración.



CPU NVIDIA Grace y Grace Hopper Superchip:

ree

Para complementar sus GPU, NVIDIA presentó en 2023 la CPU Grace, un procesador de alta gama para centros de datos basado en Arm, diseñado para cargas de trabajo de IA y HPC. Un solo chip Grace proporciona 72 núcleos Arm Neoverse V2 y utiliza memoria LPDDR5X para un alto ancho de banda y eficiencia. Se pueden combinar dos CPU Grace en un solo módulo (el Grace CPU Superchip) para ofrecer 144 núcleos y hasta 1 TB/s de ancho de banda de memoria mediante memoria LPDDR5X ECC. Grace está optimizado para la eficiencia energética (ofreciendo una eficiencia energética 5 veces superior a la de los sistemas de memoria DDR tradicionales) y está diseñado para gestionar tareas con uso intensivo de datos y partes de las cargas de trabajo de IA dependientes de la CPU con un menor consumo de energía. Fundamentalmente, NVIDIA diseñó Grace para una estrecha conexión con las GPU NVIDIA: la arquitectura Grace admite la conectividad NVLink-C2C (Chip a Chip), lo que permite vincular una CPU y una GPU en la misma placa con 900 GB/s de ancho de banda bidireccional. Esto dio lugar al superchip Grace Hopper (GH200), que combina una CPU Grace y una GPU H100 en una unidad conectada mediante NVLink-C2C. La plataforma Grace Hopper crea un espacio de direcciones de memoria CPU-GPU unificado (memoria coherente), lo que acelera drásticamente el intercambio de datos entre el procesador y el acelerador. El resultado es un módulo integrado ideal para modelos de IA gigantes que requieren tanto computación masiva (GPU) como acceso rápido a memoria de gran tamaño (CPU), con un cuello de botella mínimo. Este tipo de arquitectura de empaquetado conjunto es la respuesta de NVIDIA a los cuellos de botella de la CPU en los sistemas de IA. Al eliminar las limitaciones del bus PCIe con una interconexión NVLink mucho más rápida, acelera los procesos de IA y simplifica la programación. NVIDIA también está planeando futuros superchips de GPU Grace/"Blackwell" que escalarán aún más este enfoque, tratando eficazmente la CPU, la GPU (y la memoria) como una única unidad de alto rendimiento para la infraestructura de IA de próxima generación.



Unidades de Procesamiento de Datos (DPU BlueField):

ree

Otro elemento clave de la arquitectura del centro de datos de NVIDIA es la DPU de la serie BlueField, que gestiona las cargas de trabajo de red, almacenamiento y seguridad. Una DPU (Unidad de Procesamiento de Datos) es un SoC (Sistema en Chip) multinúcleo especializado que descarga las tareas de infraestructura de la CPU del servidor. La DPU BlueField-3 de NVIDIA (lanzada entre 2022 y 2023) contiene núcleos Arm y motores reforzados para el procesamiento de paquetes, además de ser compatible con redes Ethernet o InfiniBand de 400 Gb/s. En supercomputadoras de IA o clústeres grandes, las DPU BlueField actúan como tarjetas de interfaz de red inteligentes que gestionan redes RDMA de baja latencia, enrutamiento dinámico, acceso al almacenamiento, cifrado y virtualización, lo que libera ciclos de CPU y mejora la eficiencia general del clúster. NVIDIA concibe el centro de datos como la nueva unidad de computación, compuesta por CPU, GPU y DPU como tres pilares. En la práctica, esto significa que un servidor de IA moderno podría tener potentes GPU para computación, una CPU Grace/AMD/Intel para propósitos generales y una DPU BlueField para el movimiento rápido de datos. Al usar DPU para acelerar el manejo de datos a la velocidad de línea de la red, los clústeres de IA pueden lograr un mayor rendimiento y una menor latencia al escalar a miles de GPU, ya que la DPU descarga tareas como la transferencia de datos del modelo entre nodos o el cifrado/descifrado en hardware. Esto es especialmente crucial para el entrenamiento de IA en conjuntos de datos masivos: las DPU garantizan que las unidades de computación se mantengan alimentadas con datos sin que la CPU se convierta en un cuello de botella. Además, las DPU mejoran la seguridad y la eficiencia (por ejemplo, aislando el tráfico de red, reduciendo la sobrecarga de la CPU), lo cual es cada vez más importante a medida que las "fábricas de IA" (grandes centros de datos de IA) manejan grandes flujos de datos.



Podemos concluir que la arquitectura del centro de datos de NVIDIA no se trata solo de chips GPU sin procesar, es una plataforma integrada. Combina GPU de vanguardia (H100), CPU eficientes (Grace) y procesadores de plano de datos (BlueField DPU) con interconexiones de alta velocidad (NVLink, InfiniBand) y una completa pila de software. Este enfoque holístico permite a la infraestructura de IA actual entrenar modelos multimillonarios de parámetros y ofrecer aplicaciones de IA a escala, pero también impone requisitos rigurosos en el suministro de energía, la refrigeración y el diseño de las instalaciones, como describiremos en la tercera parte de este blog dedicado a las arquitecturas de centros de datos listos para la IA.

Comments


bottom of page