#Super Cloud: IA, Supercomputadoras nativas de la nube navegan hacia el TOP-500

132 0

Byline por Chintan Patel.

Las tecnologías NVIDIA impulsan 342 sistemas en la lista TOP-500 lanzada hoy en el evento ISC High Performance, incluido el 70% de todos los sistemas nuevos y ocho de los 10 principales.

La última clasificación de los sistemas más potentes del mundo muestra que los centros informáticos de alto rendimiento están adoptando cada vez más la IA. También demuestra que los usuarios continúan adoptando la combinación de IA de NVIDIA, computación acelerada y tecnologías de redes para ejecutar sus cargas de trabajo científicas y comerciales.

Por ejemplo, la cantidad de sistemas en la lista que usan InfiniBand aumentó un 21% con respecto al año pasado, aumentando su posición como la red de elección para manejar una marea creciente de AI, HPC y datos de simulación con baja latencia y aceleración.

Además, dos nuevos sistemas en la lista son lo que llamamos Superclouds: estilos emergentes de supercomputadoras compartidas con nuevas capacidades en la intersección de la IA, la computación de alto rendimiento y la nube.

SalesUp!

Aquí viene una Súper Cloud.

Microsoft Azure llevó los servicios de nube pública a un nuevo nivel con clústeres que ocuparon cuatro puestos consecutivos del puesto 26 al 29 en la lista TOP-500. Son partes de una Supernube, una supercomputadora de inteligencia artificial global, disponible a pedido desde hoy, para cualquier usuario del planeta.

Cada uno de los cuatro sistemas Azure entregó 16.59 petaflops en el banco de pruebas HPL, también conocido como Linpack, una medida tradicional del rendimiento del HPC en matemáticas de coma flotante de 64 bits que es la base para las clasificaciones TOP-500.

Comienza una Era Industrial de HPC.

El sistema Azure es un ejemplo de lo que el CEO de NVIDIA, Jensen Huang, llama “una revolución industrial de HPC” an industrial HPC revolution, la confluencia de la IA con computación de alto rendimiento y de computación acelerada, que está avanzando en todos los campos de la ciencia y la industria.

Bajo la capucha, ocho NVIDIA A100 Tensor Core GPUs alimentan cada instancia virtual del sistema Azure. Cada chip tiene su propio enlace HDR 200G InfiniBand que puede crear conexiones rápidas a miles de GPUs en la nube de Azure.

Investigadores del Reino Unido se vuelven Nativos de la Cloud.

La Universidad de Cambridge debutó con el sistema académico más rápido del Reino Unido, una supercomputadora que alcanzó el número 3 en la lista Green-500 de los sistemas con mayor eficiencia energética del mundo. Es otro tipo de supernube.

Llamada Wilkes-3, es la primera supercomputadora nativa de la nube del mundo, cloud-native supercomputer, que permite a los investigadores compartir recursos virtuales con privacidad y seguridad sin comprometer el rendimiento. Lo hace gracias a las NVIDIA BlueField DPUs, optimizadas para ejecutar seguridad, virtualización y otras tareas de procesamiento de datos.

El sistema utiliza 320 GPU A100 conectadas en una red InfiniBand HDR 200G para acelerar las simulaciones, la inteligencia artificial y el análisis de datos para la investigación académica, así como para los socios comerciales que exploran las fronteras de la ciencia y la medicina.

Los nuevos sistemas TOP-500 adoptan la IA.

Muchos de los nuevos sistemas impulsados por NVIDIA en la lista subrayan la creciente importancia de la IA en la computación de alto rendimiento para usuarios científicos y comerciales.

Perlmutter en el Centro Nacional de Computación Científica de Investigación Energética (NERSC), alcanzó el número 5 en el TOP-500 con 64.59 petaflops Linpack, gracias en parte a sus 6,144 GPUs A100.

El sistema ofreció más de medio exaflops de rendimiento en la última versión de HPL-AI. Es un punto de referencia emergente de cargas de trabajo de IA y HPC convergentes que utiliza matemáticas de precisión mixta, la base del aprendizaje profundo y muchos trabajos científicos y comerciales, al tiempo que ofrece la precisión total de las matemáticas de doble precisión.

El rendimiento de la IA es cada vez más importante porque la IA es “un área de crecimiento en el Departamento de Energía de EE. UU., donde la Prueba de Concepto se está moviendo hacia el uso en producción”, dijo Wahid Bhimji, Líder Interino del Grupo de Servicios de Datos y Análisis de NERSC.

HiPerGator 3 ocupó el puesto 22 con 17.20 petaflops y ocupó el puesto número 2 en el Green-500, lo que la convierte en la supercomputadora académica con mayor eficiencia energética del mundo. Perdió el primer lugar en el Green-500 por un pelo: solo 0.18 Gflops/vatio.

Como otros 12 en la lista más reciente, el sistema utiliza la arquitectura modular de NVIDIA DGX SuperPOD, una receta que permitió a la Universidad de Florida implementar rápidamente una de las supercomputadoras de inteligencia artificial académicas más poderosas del mundo. El sistema también la convirtió en una universidad líder en inteligencia artificial con el objetivo declarado de crear 30,000 graduados habilitados para inteligencia artificial para 2030.

MeluXina en Luxemburgo, ocupó el puesto 37 con 10.5 petaflops Linpack. Es uno de los primeros sistemas en debutar en la lista de una red de supercomputadoras nacionales europeas que aplicarán inteligencia artificial y análisis de datos en aplicaciones científicas y comerciales.

Cambridge-1 ocupó el puesto 42 en el TOP-500, alcanzando 9.68 petaflops, convirtiéndose en el sistema más poderoso del Reino Unido. Prestará servicios a los investigadores de la salud del Reino Unido en organizaciones académicas y comerciales como AstraZeneca, GSK y Oxford Nanopore.

BerzeLiUs alcanzó el puesto 83 con 5,25 petaflops, lo que lo convierte en el sistema más rápido de Suecia. Ejecuta HPC, IA y análisis de datos para investigación académica y comercial en una red InfiniBand de 200 G que conecta 60 NVIDIA DGX systems. Es uno de los 15 sistemas de la lista basados en sistemas NVIDIA DGX.

Diez sistemas impulsan el Momentum de HPL-AI.

En otra señal de la creciente importancia de las cargas de trabajo de IA, 10 sistemas de la lista informaron de sus puntuaciones en HPL-AI, 5 veces el número de junio pasado. La mayoría utilizó una optimización importante del código publicado en marzo, la primera actualización desde que los investigadores de la Universidad de Tennessee lanzaron el punto de referencia a fines de 2018.

El nuevo software agiliza las comunicaciones, permitiendo enlaces GPU a GPU que eliminan la espera de una CPU host. También implementa las comunicaciones como código de 16 bits en lugar del código más lento de 32 bits que es el predeterminado para Linpack.

“Redujimos el tiempo dedicado a las comunicaciones de chip a chip a la mitad y permitimos que otras cargas de trabajo se ejecutaran en paralelo, por lo que la mejora promedio del código nuevo en comparación con el original es de aproximadamente 2.7 veces”, dijo Azzam Haidar Ahmad, quien ayudó a definir el benchmark y ahora es Ingeniero Senior en NVIDIA.

Si bien se enfoca en matemáticas de precisión mixta, el punto de referencia aún ofrece la misma precisión de 64 bits de Linpack, gracias a una técnica de bucle en HPL-AI que refina rápidamente algunos cálculos.

Summit alcanza más de 1 Exaflops en HPL-AI.

Con las optimizaciones, los puntajes aumentaron significativamente con respecto a los puntos de referencia informados el año pasado utilizando la versión anterior del código.

Por ejemplo, la supercomputadora Summit en Oak Ridge National Lab, la primera en adoptar HPL-AI, anunció una puntuación de 445 petaflops en la primera versión del código en 2019. La prueba de Summit de este año con la última versión de HPL-AI alcanzó 1.15 exaflops.

Otros que adoptaron el punto de referencia incluyen la supercomputadora Fugaku de Japón, Selene de NVIDIA, que el sistema comercial más rápido del mundo, y Juwels, la supercomputadora más poderosa de Alemania.

“Estamos utilizando el punto de referencia HPL-AI porque es una buena medida del trabajo de precisión mixta en un número creciente de nuestras cargas de trabajo científicas y de inteligencia artificial, y también refleja resultados precisos de punto flotante de 64 bits”, dijo Thomas Lippert. Director del Centro de Supercomputación de Jülich.

Las GPU lideran el paquete Green-500.

En el Green-500 que mide la eficiencia energética en Linpack, 35 de los 40 sistemas principales se ejecutan con tecnologías NVIDIA, incluidos nueve de los 10 principales. Las supercomputadoras de la lista que utilizan GPU NVIDIA son 3.5 veces más eficientes en energía que las que no lo hacen, un Tendencia constante y creciente.

Para obtener más información, sintonice el discurso especial de NVIDIA ISC 2021 NVIDIA ISC 2021 Special Address el lunes 28 de junio a las 9:30 a.m. PT. Obtendrá una descripción detallada de las últimas noticias de Marc Hamilton de NVIDIA, seguida de un panel de preguntas y respuestas en vivo con expertos de NVIDIA HPC.

Related Post