real time web analytics

Intel habla sobre la CPU Xeon Max y la GPU de la serie Max para aplicaciones de HPC • The Register

El último plan de Intel para alejar a los rivales de las cargas de trabajo informáticas de alto rendimiento implica una CPU con grandes pilas de memoria de gran ancho de banda y nuevos tipos de aceleradores, además de su esperada GPU de centro de datos que competirá cara a cara con los chips más potentes de Nvidia. .

Después de varios retrasos, el gigante x86 presentó formalmente el miércoles la nueva familia de CPU Xeon, antes conocida como Sapphire Rapids HBM, y su nueva GPU para centros de datos, mejor conocida como Ponte Vecchio. Ahora los conocerá como Intel Xeon CPU Max Series y Intel Data Center GPU Max Series, respectivamente, que se encontraban entre el grupo de detalles compartidos por Intel hoy, incluidas las comparaciones de rendimiento.

Estos chips, que llegarán a principios de 2023 junto con el Vanilla 4el generación de CPU escalables Xeon, han sido una fuente de curiosidad dentro de la comunidad de HPC durante años porque impulsarán la supercomputadora Aurora del Departamento de Energía de EE. lo más rápido.

Siempre vamos a empujar el sobre. A veces eso hace que tal vez no lo logremos

En una sesión informativa con los periodistas, Jeff McVeigh, director del Grupo de Super Cómputo de Intel, dijo que el nombre Max representa el deseo de la compañía de maximizar el ancho de banda, el cómputo y otras capacidades para una amplia gama de aplicaciones HPC, cuyos usuarios principales incluyen gobiernos, laboratorios de investigación y corporaciones.

McVeigh admitió que Intel ha perdido el tiempo que le tomó a la compañía comercializar estos chips, pero trató de convertir los errores en un propósito superior.

“Siempre vamos a empujar los límites. A veces eso hace que tal vez no lo logremos, pero lo hacemos para ayudar a nuestros desarrolladores, ayudar al ecosistema a ayudar a resolver [the world’s] mayores desafíos”, dijo.

En caso de que se pregunte si algún proveedor de servidores planea usar estos chips, la respuesta es sí. Intel dijo que hay más de 30 diseños de sistemas para Xeon Max provenientes de 12 proveedores, incluidos Hewlett Packard Enterprise, Dell, Lenovo y Supermicro. Es probable que se superpongan con los más de 15 diseños para el centro de datos CPU Max Series que provienen de cinco proveedores.

La primera CPU x86 con HBM

La serie Xeon Max incluirá hasta 56 núcleos de rendimiento, que se basan en las mismas características de microarquitectura Golden Cove que los 12 de Intel.el-CPU Gen Core, que debutaron el año pasado. Al igual que los chips Vanilla Sapphire Rapids que llegarán el próximo año, estos chips admitirán DDR5, PCIe 5.0 y Compute Express Link (CXL) 1.1, lo que permitirá que la memoria se conecte directamente a la CPU a través de PCIe 5.0.

Xeon Max, que viene con una potencia de diseño térmico (TDP) de 350 W, viene con 20 aceleradores integrados para cargas de trabajo de inteligencia artificial y HPC. Estos tipos de aceleradores incluyen Intel Advanced Vector Extensions 512 (AVX-512) e Intel Deep Learning Boost (DL Boost), Intel Data Streaming Accelerator (DSA) e Intel Advanced Matrix Extensions (AMX).

Con AVX-512, Intel afirmó que un sistema basado en Xeon Max puede proporcionar el doble de rendimiento de entrenamiento de aprendizaje profundo que un sistema que utiliza la CPU Epyc 7763 de gama alta de AMD, utilizando el punto de referencia MLPerf DeepCAM. Pero con AMX, la compañía dijo que el sistema Xeon Max puede proporcionar un rendimiento 3,6 veces más rápido. Como de costumbre, debemos tomar cualquier reclamo de rendimiento con pinzas.

A diferencia de Vanilla Sapphire Rapids, Xeon Max vendrá con 64 GB de HBM2e, lo que le dará a la CPU aproximadamente 1 TB/s de ancho de banda de memoria y más de 1 GB por núcleo.

Esta no es la primera vez que una CPU incorpora HBM. Ese honor sería para el A64FX basado en Arm de Fujitsu, que impulsa una de las supercomputadoras más rápidas del mundo en Japón. Pero Xeon Max es la primera CPU x86 del mundo con HBM, que según McVeigh llevará los beneficios de HBM a un público mucho más amplio.

Con 64 GB de HBM2e, un servidor de doble socket con dos CPU Xeon Max tendrá un total de 128 GB. Esto es significativo porque puede usar el HBM como memoria del sistema y, como resultado, olvidarse de colocar módulos DRAM si está de acuerdo con ese tipo de capacidad.

McVeigh dijo que esta configuración, llamada modo solo HBM, puede ayudar a los operadores de centros de datos a ahorrar dinero y energía, y no es necesario cambiar el código para que el software reconozca HBM.

Pero para los operadores de centros de datos que desean utilizar la memoria DDR como capacidad adicional o como memoria del sistema, existen opciones. En el modo plano de HBM, HBM y DDR actúan como dos regiones de memoria, pero para que el software reconozca esto, se necesitan cambios en el código. En el modo de almacenamiento en caché de HBM, HBM actúa como un caché para DDR; esto no requiere cambios de código.

McVeigh afirmó que HBM ayuda a Xeon Max a ofrecer una mejora importante en el rendimiento por vatio con respecto al Epyc 7773X centrado en HPC de AMD, que viene con 768 MB de caché L3. Con la memoria DDR5 instalada, Intel dijo que un sistema basado en Xeon Max usa un 63 por ciento menos de energía que el sistema basado en Epyc para proporcionar el mismo nivel de rendimiento para el punto de referencia de gradientes conjugados de alto rendimiento. Con solo HBM, el sistema Xeon Max usa un 67 por ciento menos de energía, según Intel.

Intel compartió varias otras comparaciones de rendimiento en las que un sistema Xeon Max fue entre un 20 % y 4,8 veces más rápido que un sistema basado en Epyc, según la carga de trabajo de HPC. Pero, como dijimos antes, cualquier yuxtaposición competitiva que ofrezca un proveedor debe analizarse con gran escrutinio.

También debemos considerar que AMD está planeando un sucesor para sus chips Epyc con mucho caché, cuyo nombre en código es Genoa-X, que puede llegar en algún momento del próximo año o 2024.

¿Una GPU digna de la atención de Nvidia?

Si bien la serie Max de GPU para centros de datos de Intel carece de una marca creativa como Xeon, la compañía espera que el acelerador antes conocido como Ponte Vecchio haga que la empresa sea más competitiva con las GPU para centros de datos de Nvidia, que tiene una sólida ventaja, y AMD, que está alcanzando arriba.

El fabricante de chips llamó a la GPU de la serie Max su “procesador de mayor densidad” debido a cómo empaqueta más de 100 mil millones de transistores en un sistema en paquete que comprende 47 chipsets, conocidos como “mosaicos” en la jerga de Intel. Estos mosaicos se reúnen en el paquete utilizando las tecnologías de empaquetado avanzadas de Intel: puente de interconexión multi-die integrado (EMIB) y Foveros.

La GPU de la serie Max viene con hasta 128 núcleos basados ​​en la microarquitectura Intel Xe HPC, una rama centrada en HPC de la arquitectura de GPU Xe del fabricante de chips. McVeigh dijo que esto permite que la configuración más poderosa de la GPU proporcione 52 teraflops de rendimiento máximo de FP64, una medida clave para HPC.

La GPU también viene con hasta 128 unidades de trazado de rayos, que están diseñadas para el software de simulación tradicional, así como para la creación de contenido digital y las aplicaciones de visualización previa. Cada GPU tiene 16 puertos Xe Link para permitir que varias GPU se comuniquen directamente entre sí.

Al igual que Xeon Max, la GPU de la serie Max viene equipada con HBM2e, excepto que la capacidad en este caso sube a 128 GB. La GPU también incluye una gran cantidad de caché, con un máximo de 408 MB de caché Rambo L2 (Rambo significa “memoria de acceso aleatorio, ancho de banda optimizado”) y hasta 64 MB de caché L1.

McVeigh dijo que Intel diseñó la jerarquía de memoria de la GPU para mantener la mayor cantidad de datos lo más cerca posible de los motores de cómputo del procesador.

“Se trata de: ¿Cómo alimentamos ese cómputo, cómo alimentamos ese gran motor multiteraflop con suficientes datos, con suficiente procesamiento para que realmente pueda ejecutar esas aplicaciones?” él dijo.

La GPU de la serie Max estará disponible en algunos factores de forma y configuraciones diferentes.

Para servidores estándar, está Intel Data Center GPU Max 1100, que es una tarjeta PCIe de doble ancho que viene con 56 núcleos Xe y unidades de trazado de rayos y 48 GB de HBM2e con un TDP de 300 W. La tarjeta también viene con un puente 53G SerDes Intel Xe Link para conectar hasta cuatro tarjetas.

Para los centros de datos que se adhieren a los diseños de servidor de Open Compute Project, existen dos módulos aceleradores OCP. La GPU Max Series 1350 viene con 112 núcleos Xe y 96 GB de HBM2e con un TDP de 450 W. La configuración más potente es la GPU Max Series 1550, que viene con 128 núcleos Xe y 128 GB de HBM2e con un TDP de 600 W. Ambos módulos vienen con un puente 53G SerDes Intel Xe Link que permite que hasta ocho OAM se comuniquen directamente.

Intel también proporciona cuatro GPU OAM de la serie Max en un subsistema, que puede admitir hasta 512 GB de HBM2e y 12,8 TBps de ancho de banda de memoria total. El TDP para el subsistema, que está diseñado para centros de datos con muchos servidores GPU, es de 1800 W o 2400 W, según las especificaciones.

El fabricante de chips dijo que ha realizado varias pruebas para cargas de trabajo de HPC e IA que muestran que su GPU de la serie Max funciona entre un 30 por ciento y 2,4 veces mejor que la GPU A100 de Nvidia, que salió originalmente en 2020, si necesita un recordatorio. Desafortunadamente, las notas al pie de página de Intel dificultan discernir qué factor de forma o configuración se usa para la GPU de la serie Max en múltiples casos.

Lo que también es importante tener en cuenta aquí es que Nvidia planea lanzar pronto su sucesor A100, el H100, que según el fabricante de GPU mejorará significativamente el rendimiento en varias medidas. Nvidia ya ha dicho que el H100 tendrá una capacidad de 60 teraflops para el cálculo FP64, lo que, al menos en papel, haría que el H100 fuera más rápido que la GPU de la serie Max en esta medida.

McVeigh dijo que Intel aún no tiene acceso al H100 de Nvidia.

“Estaremos ansiosos por compartir los resultados cuando los tengamos”, dijo, y agregó que la compañía espera continuar mejorando el rendimiento a través de ajustes en el código.

También debemos recordar que AMD está trabajando para volverse más competitivo en el espacio de la GPU del centro de datos con el Instinct MI300, que saldrá el próximo año.

Supercomputadora Aurora: si no es ahora, ¿cuándo?

Si bien Intel se está acercando a la comercialización de su nueva CPU y GPU Max, la supercomputadora Aurora del DOE que usa el chip aún no se ha puesto en línea.

Aurora se ha enfrentado a múltiples retrasos que ahora abarcan cuatro años. Anunciada por primera vez en 2015, la supercomputadora se retrasó desde su cronograma de finalización original de 2018 hasta 2021 porque el fabricante de chips enlató sus chips Xeon Phi de gama alta. Luego, los problemas de fabricación bien documentados de Intel, que afectaron a su nueva CPU y GPU Max, provocaron otro lanzamiento hasta 2022.

¿Aurora realmente estará operativa en 2022? Las posibilidades no parecen muy buenas, según la última actualización de McVeigh, especialmente dado que ahora quedan menos de 60 días en el calendario.

McVeigh dijo que el operador de Aurora, Argonne National Laboratory, no presentará los resultados de la lista de otoño actualizada de las 500 supercomputadoras más rápidas del mundo, que se espera que llegue la próxima semana, porque el sistema aún se está armando.

“Estamos ansiosos por hacer eso en 2023, y nuestro enfoque en este momento es realmente la instalación completa, la optimización total del trabajo y la optimización del sistema”, dijo. ®

Leave a Comment