#NVIDIA Anuncia una Importante Actualización de Triton a Medida

224 0

NVIDIA anunció hoy importantes actualizaciones de su Plataforma de Inferencia de IA, que ahora está siendo utilizada por Capital One, Microsoft, Samsung Medison, Siemens Energy y Snap, entre sus más de 25,000 clientes.

Las actualizaciones incluyen nuevas capacidades en el software de código abierto NVIDIA Triton Inference ServerTM, que proporciona inferencia multiplataforma en todos los modelos y marcos de IA, y NVIDIA TensorRTTM, que optimiza los modelos de IA y proporciona un tiempo de ejecución para la inferencia de alto rendimiento en las GPUs de NVIDIA.

Para las organizaciones que adoptan la IA, la necesidad de velocidad nunca ha sido más crítica. Ya sea para ofrecer recomendaciones más inteligentes, llevar el poder de la IA conversacional en tiempo real a más interacciones o avanzar en el descubrimiento científico, la Plataforma de Inferencia de IA de NVIDIA es el motor de aceleración que impulsa nuevas aplicaciones en diversas industrias de todo el mundo.

La compañía también presentó la GPU NVIDIA A2 Tensor Core, un acelerador de bajo consumo y tamaño reducido para la inferencia de IA en el borde, que ofrece hasta 20 veces más rendimiento de inferencia que las CPUs.

“La Plataforma de Inferencia de IA de NVIDIA está impulsando avances en prácticamente todas las industrias, incluida la atención médica, los servicios financieros, el comercio minorista, la fabricación y la supercomputación”, dijo Ian Buck, Vicepresidente y Gerente General de Computación Acelerada de NVIDIA. “Ya sea que brinde recomendaciones más inteligentes, aproveche el poder de la IA conversacional o promueva el descubrimiento científico, la Plataforma de NVIDIA para Inferencia proporciona un rendimiento versátil de baja latencia, alto rendimiento, con la facilidad de uso necesaria para impulsar nuevas aplicaciones clave de IA en todo el mundo”.

Optimizaciones clave de software.

Las actualizaciones de Triton Inference Server incluyen:

  • Analizador de Modelos de Triton: esta nueva herramienta automatiza una tarea de optimización clave al ayudar a seleccionar las mejores configuraciones para modelos de IA entre cientos de posibilidades. Logra el rendimiento óptimo al tiempo que garantiza la calidad de servicio requerida para las aplicaciones.
  • Funcionalidad multinodo – multi-GPUs: esta nueva funcionalidad permite que los modelos de lenguaje grandes basados ​​en Transformer, como Megatron 530B, que ya no caben en una sola GPU, puedan ser inferenciados a través de múltiples GPUs y nodos de servidor y proporciona rendimiento de inferencia en tiempo real.
  • RAPIDS FIL: este nuevo backend para la inferencia de GPU o CPU de bosques aleatorios y modelos de árboles de decisión impulsados ​​por gradientes proporciona a los desarrolladores un motor de implementación unificado para el aprendizaje profundo y el aprendizaje automático tradicional con Triton.
  • Integración de Amazon SageMaker: esta perfecta integración permite a los clientes implementar fácilmente modelos de múltiples marcos con alto rendimiento utilizando Triton dentro de SageMaker, el servicio de la inteligencia artificial totalmente administrado por AWS.
  • Compatibilidad con CPU de Arm: Triton ahora incluye backends para optimizar las cargas de trabajo de inferencia de IA en las CPUs de Arm, además de las GPUs NVIDIA y las CPUs x86.

Triton proporciona inferencia de IA en GPU y CPU en la nube, centro de datos, borde empresarial e integrado, está integrado en AWS, Google Cloud, Microsoft Azure, Alibaba Cloud y Tencent Cloud, y está incluido en NVIDIA AI Enterprise.

NVIDIA AI Enterprise es un paquete de software de un extremo a otro para el desarrollo y la implementación de IA. Está optimizado, certificado y respaldado por NVIDIA para permitir a los clientes ejecutar cargas de trabajo de IA en VMware vSphere en centros de datos locales y nubes privadas.

Además de TritonTensorRT ahora está integrado con TensorFlow y PyTorch, lo que proporciona un rendimiento 3 veces más rápido en comparación con la inferencia en el marco de referencia con sólo una línea de código. Esto proporciona a los desarrolladores el poder de TensorRT en un flujo de trabajo enormemente simplificado.

NVIDIA TensorRT 8.2, la última versión del SDK, acelera la inferencia de aprendizaje profundo de alto rendimiento, ofreciendo un alto rendimiento y baja latencia en la nube, en las instalaciones o en el perímetro. Con nuevas optimizaciones, se pueden ejecutar modelos de lenguaje con miles de millones de parámetros en tiempo real.

NVIDIA Triton admite la inferencia de IA en GPU y CPU en todos los entornos, incluidos el cloud, el data center, el edge empresarial y la tecnología integrada. Triton ahora está integrado en todas las principales plataformas de cloud, incluidas AWS, Google Cloud, Microsoft Azure, Alibaba Cloud y Tencent Cloud. Triton también se incluye en NVIDIA AI Enterprise, una suite de software integral para el desarrollo y la implementación de IA, que está optimizada, certificada y es compatible con NVIDIA para permitir a los clientes ejecutar cargas de trabajo de IA en data centers locales y en VMware vSphere.

Además del Servidor de Inferencia NVIDIA Triton, el conjunto de desarrollo de software NVIDIA TensorRT ahora acelera el procesamiento de inferencia directamente desde los frameworks TensorFlow y PyTorch con una sola línea de código para ofrecer un alto rendimiento en las GPU de NVIDIA, lo que proporciona a los desarrolladores un workflow enormemente simplificado.

NVIDIA TensorRT 8.2, la última versión del SDK, acelera la inferencia del deep learning de alto rendimiento, a fin de ofrecer un alto rendimiento y baja latencia, en el cloud, en las instalaciones o en el edge. Con las nuevas optimizaciones, los modelos de idiomas con miles de millones de parámetros se pueden ejecutar en tiempo real.

Los Líderes de Industrias Adoptan la Inferencia en la Plataforma de IA de NVIDIA.

Los líderes de la industria están utilizando la Plataforma de Inferencia de IA de NVIDIA para mejorar sus operaciones comerciales y ofrecer a los clientes nuevos servicios habilitados para IA.

Microsoft Azure Cognitive Services proporciona APIs basadas en el cloud a modelos de IA de alta calidad para crear aplicaciones inteligentes. Están usando NVIDIA Triton para ejecutar modelos de voz a texto que proporcionan a los usuarios de Microsoft Teams subtítulos precisos en vivo y transcripciones en tiempo real.

“Microsoft Teams es una herramienta esencial para la comunicación y la colaboración en todo el mundo, con casi 250 millones de usuarios activos mensuales”, dijo Shalendra Chhabra, Gerente Principal de PM para el Equipo Dispositivos, Reuniones y Llamadas de Teams de Microsoft. “Los modelos de IA como estos son increíblemente complejos, ya que requieren decenas de millones de parámetros de redes neuronales para ofrecer resultados precisos en docenas de idiomas diferentes. Cuanto más grande es un modelo, más difícil es ejecutarlo de manera rentable en tiempo real. Las GPUs de NVIDIA y el Servidor de Inferencia NVIDIA Triton en Microsoft Azure Cognitive Services están ayudando a impulsar las capacidades de transcripción y subtítulos en vivo de una manera rentable, utilizando 28 idiomas y dialectos, con la IA casi en tiempo real”.

Samsung Medison, una compañía global de equipos médicos y afiliada de Samsung Electronics, está utilizando NVIDIA TensorRT para proporcionar una mejor calidad de imágenes médicas con las funciones de Intelligent Assist para sus sistemas de ultrasonido. Samsung Medison se dedica a mejorar la vida de los pacientes y los profesionales de la salud al mejorar su comodidad, reducir el tiempo de escaneo, simplificar el workflow y, en definitiva, aumentar el rendimiento del sistema.

“Al aprovechar NVIDIA TensorRT en el nuevo sistema de ultrasonido de gama alta V8, podemos apoyar mejor a los expertos médicos al leer y diagnosticar imágenes”, dijo Won-Chul Bang, Vicepresidente y Jefe del Equipo de Experiencia del Cliente de Samsung Medison. “Estamos introduciendo activamente tecnologías basadas en IA en nuestros sistemas de ultrasonido para proporcionar un mejor apoyo a los profesionales médicos para que puedan centrarse en los aspectos más importantes del diagnóstico y tratamiento de los pacientes”.

Siemens Energy, la única compañía del mundo que se dedica exclusivamente a la energía y que cuenta con soluciones de tecnología energética líderes, está utilizando NVIDIA Triton para ayudar a sus clientes de plantas de energía a administrar sus instalaciones con IA.

“La flexibilidad del Servidor de Inferencia NVIDIA Triton está permitiendo que las plantas de energía altamente complicadas, a menudo equipadas con cámaras y sensores, pero con sistemas de software heredados, se unan a la revolución industrial autónoma que está teniendo lugar”, dijo Arik Ott, Gerente de la Cartera de Operaciones Autónomas de Siemens Energy.

La plataforma NVIDIA AI para inferencia incluye nuevos Sistemas Certificados por NVIDIA y una nueva GPU A2.

Los NVIDIA-Certified Systems™ permiten a los clientes identificar, adquirir e implementar sistemas para aplicaciones de IA modernas y diversas en una infraestructura de alto rendimiento, rentable y escalable, y ahora incluye dos nuevas categorías para la inteligencia artificial en el borde.

Las categorías ampliadas permiten a los socios OEM de NVIDIA ofrecer a los clientes una línea completa de Sistemas Certificados de NVIDIA con la tecnología de las GPUs basadas en la arquitectura NVIDIA Ampere para manejar cada carga de trabajo, sin importar cuán grande o pequeña sea. Esta sólida línea de GPU NVIDIA Tensor Core incluye la nueva GPU NVIDIA A2, un acelerador compacto de bajo consumo y de nivel de entrada para servidores de inferencia e inteligencia artificial de edge. Con la NVIDIA A30 para los servidores empresariales convencionales y la NVIDIA A100 para los servidores de IA de mayor rendimiento, la incorporación de NVIDIA A2 proporciona una oferta integral de inferencia de IA en el edge, el data center y el cloud.

Los principales proveedores de sistemas empresariales globales como Atos, Dell Technologies, GIGABYTE, Hewlett Packard Enterprise, Inspur, Lenovo y Supermicro admiten NVIDIA AI Enterprise en NVIDIA-Certified Systems en sus portafolios de sistemas de inteligencia artificial.

Varios proveedores líderes mundiales de sistemas empresariales como: AdvantechASRock RackASUS, Nettrix y QCT también ofrecen Sistemas Certificados por NVIDIA para una variedad de cargas de trabajo. Los primeros Sistemas Certificados por NVIDIA en pasar la certificación en las nuevas categorías en el borde estarán disponibles pronto, a través de proveedores líderes tales como: AdvantechGIGABYTE y Lenovo.

Disponibilidad.

NVIDIA Triton está disponible en el catálogo NVIDIA NGC, el centro de software de IA optimizado para GPU que incluye frameworks, kits de herramientas, modelos previamente entrenados y Jupyter Notebooks como código fuente abierto del repositorio Triton GitHub.

TensorRT está disponible para los miembros del programa para Desarrolladores de NVIDIA desde la página de TensorRT. Las últimas versiones de complementos, analizadores y muestras también están disponibles como código abierto desde el repositorio de GitHub de TensorRT. Los clientes pueden experimentar NVIDIA Triton en la Suite de Software NVIDIA AI Enterprise a través de laboratorios seleccionados disponibles en todo el mundo de NVIDIA LaunchPad, que se anunciaron hoy por separado.

La Suite de Software NVIDIA AI Enterprise está disponible a través de los socios del canal de NVIDIA de todo el mundo, incluidos: Atea, Axians, Carahsoft Technology Corp.ComputacenterInsight Enterprises, NTT, Presidio, Sirius, SoftServe, SVA System Vertrieb Alexander GmbH, TD SYNNEX, Trace3 y WWT.

Regístrate de forma gratuita para obtener más información sobre la plataforma de inferencia de NVIDIA durante NVIDIA GTC, que se realizará en línea hasta el 11 de noviembre. Mira el discurso de apertura de GTC a cargo de Jensen Huang, fundador y CEO de NVIDIA, que se transmitirá en vivo el 9 de noviembre y estará disponible en repetición.

Related Post