Las CPU escalables Xeon de tercera generación de Intel ofrecen procesamiento de FPU de 16 bits

Intel hoy Anunciado sus procesadores Xeon escalables de tercera generación (es decir, oro y platino), junto con las nuevas generaciones de su memoria persistente Optane (léase: SSD extremadamente baja latencia, alta resistencia) y productos FPGA AI Stratix.

El hecho de que AMD actualmente esté superando a Intel en casi todas las métricas de rendimiento imaginables excepto La IA acelerada por hardware no es noticia en este momento. Claramente, tampoco es una novedad para Intel, ya que la compañía no hizo ningún reclamo en absoluto sobre el rendimiento de Xeon escala frente a los procesadores Epyc Rome de la competencia. Más interesante aún, Intel apenas mencionó las cargas de trabajo informáticas de propósito general.

Encontrar una explicación de la única mejora de generación en generación que no es de IA mostrada necesitaba saltar a través de múltiples notas al pie. Con suficiente determinación, finalmente descubrimos que la “ganancia de rendimiento promedio 1.9X” mencionada en la diapositiva general se refiere a los puntos de referencia SPECrate 2017 “estimados o simulados” que comparan un sistema Platinum 8380H de cuatro sockets con un cuatro sockets de cinco años E7-8890 v3.

Para ser justos, Intel parece haber introducido algunas innovaciones inusualmente impresionantes en el espacio de IA. “Deep Learning Boost”, que formalmente era solo una marca para el conjunto de instrucciones AVX-512, ahora también abarca un tipo de datos de punto flotante completamente nuevo de 16 bits.

Con generaciones anteriores de Xeon escalable, Intel fue pionera y presionó fuertemente para usar un entero de 8 bits:INT8—Proceso de inferencia con su biblioteca OpenVINO. Para las cargas de trabajo de inferencia, Intel argumentó que la menor precisión de INT8 fue aceptable en la mayoría de los casos, al tiempo que ofrecía una aceleración extrema de la tubería de inferencia. Sin embargo, para la capacitación, la mayoría de las aplicaciones aún necesitaban la mayor precisión de FP32 Procesamiento de coma flotante de 32 bits.

La nueva generación agrega soporte de procesador de punto flotante de 16 bits, que Intel llama bfloat16. Corte FP32 El ancho de bits de los modelos a la mitad acelera el procesamiento en sí mismo, pero lo más importante, reduce a la mitad la RAM necesaria para mantener los modelos en la memoria. Aprovechar el nuevo tipo de datos también es más simple para programadores y bases de código que usan FP32 modelos que la conversión a entero sería.

Intel también proporcionó cuidadosamente juego girando en torno a la eficiencia del tipo de datos BF16. No podemos recomendarlo ni como juego ni como herramienta educativa.

Aceleración de almacenamiento de optano

Intel también anunció una nueva generación un 25 por ciento más rápida de sus SSD de “memoria persistente” Optane, que se pueden utilizar para acelerar en gran medida la inteligencia artificial y otras tuberías de almacenamiento. Los SSD Optane operan en 3D Xpoint tecnología en lugar de la Flash NAND SSD típicos hacen. 3D Xpoint tiene una resistencia de escritura tremendamente más alta y una latencia más baja que NAND. La menor latencia y la mayor resistencia de escritura lo hacen particularmente atractivo como una tecnología de almacenamiento en caché rápida, que incluso puede acelerar todas las matrices de estado sólido.

La gran conclusión aquí es que la latencia extremadamente baja de Optane permite la aceleración de las tuberías de IA, que con frecuencia obstaculizan el almacenamiento, al ofrecer un acceso muy rápido a modelos demasiado grandes para mantenerlos completamente en RAM. Para las tuberías que involucran escrituras rápidas y pesadas, una capa de caché Optane también puede aumentar significativamente la esperanza de vida del almacenamiento primario NAND debajo de ella, al reducir el número total de escrituras que realmente deben asignarse.

Latencia frente a IOPS, con una carga de trabajo de lectura / escritura de 70/30. Las líneas naranja y verde son SSD NAND tradicionales de grado de centro de datos; La línea azul es Optane.
Agrandar / / Latencia frente a IOPS, con una carga de trabajo de lectura / escritura de 70/30. Las líneas naranja y verde son SSD NAND tradicionales de grado de centro de datos; La línea azul es Optane.

Por ejemplo, un Optane de 256GB tiene un 360PB especificación de resistencia de escritura, mientras que un SSD Samsung 850 Pro de 256 GB solo está especificado para 150 TB resistencia: mayor que una ventaja de 1,000: 1 para Optane.

Mientras tanto, este excelente hardware de Tom revisión desde 2019 demuestra hasta qué punto en el polvo Optane deja SSDs de grado de centro de datos tradicionales en términos de latencia.

Stratix 10 NX FPGA

Finalmente, Intel anunció una nueva versión de su Stratix FPGA. Las matrices programables Field Gate se pueden usar como aceleración de hardware para algunas cargas de trabajo, lo que permite que más núcleos de CPU de uso general aborden tareas que los FPGA no pueden.

Listado de imagen por Intel

Related Stories

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí