Antes da implantação da Frontier este ano, o 'triturador' de gabinete 1.5 serve à ciência
Por Tiffany Trader
28 de março de 2022
O supercomputador Frontier foi instalado no Oak Ridge National Laboratory do Departamento de Energia em 2021, com o gabinete final instalado em outubro. Enquanto a agitação do sistema de pico completo de 2 exaflops continua – ouvimos informações sobre problemas com a tecnologia de interconexão – o projeto Frontier está sendo executado com um sistema de teste menor com o mesmo design principal.
Com cerca de 40 petaflops de pico de precisão dupla, "Crusher" é uma iteração de 1,5 gabinete do supercomputador Cray EX Frontier. O Crusher atenderá aos primeiros usuários científicos enquanto a integração e o teste do sistema Frontier completo de 74 gabinetes continuam. O sistema Frontier está a caminho de ser o primeiro sistema exascale dos Estados Unidos ainda este ano e entrará em operação total de usuário em 1º de janeiro de 2023, de acordo com o Oak Ridge National Laboratory.
O Crusher consiste em 192 nós HPE Cray EX – cada um com uma CPU AMD "Trento" 7A53 Epyc e quatro GPUs AMD Instinct MI250X (para um total de 768 GPUs). O Trento usa os mesmos núcleos Zen-3 do Milan, otimizados para maior eficiência de memória. Os nós são conectados pela interconexão Slingshot-11 da HPE. Cada nó possui 512GiB de memória DDR4 na CPU e 512GiB HMB2e (128GiB por GPU) com memória coerente em todo o nó.
Por outro lado, o Frontier em tamanho real está programado para fornecer 2 exaflops de desempenho de precisão dupla de pico em 74 gabinetes em um envelope de potência de 29 MW. Ocupando um espaço de 372 m2 no Oak Ridge Leadership Computing Facility (OLCF), o Frontier abrange 9.408 nós, agregando 9,2 petabytes de memória (4,6 petabytes de DDR4 e 4,6 petabytes de HBM2e). Contagem total de GPU: 37.632. Existem 37 petabytes de armazenamento local de nó e acesso a 716 petabytes de armazenamento centralizado.
Os racks HPE Olympus usados na arquitetura Frontier são totalmente refrigerados a líquido, incluindo os DIMMs e NICs. Cada armário (quando seco) pesa 3.630 quilos. O sistema Frontier completo tem um total de 81.000 cabos.
Crusher, disse Oak Ridge, está pronto para "esmagar" a ciência, embora suspeitemos que o nome também possa ser uma homenagem ao diretor médico da série de televisão Star Trek: The Next Generation. Por extensão, a configuração completa seria a "Fronteira Final".
Quatro projetos já tiveram seus códigos otimizados com sucesso para o Crusher e, portanto, para o Frontier também. Eles são o projeto CANcer Distributed Learning Environment, ou CANDLE; o projeto Hidrodinâmica computacional em arquiteturas ∥ (paralelas), ou Cholla; o projeto de Dispersão Múltipla Localmente Autoconsistente, ou LSMS; e o projeto Nuclear Coupled-Cluster Oak Ridge, ou NuCCOR. Alguns desses códigos remontam ao primeiro sistema de arquitetura híbrida da OLCF, o supercomputador Cray XK7 Titan de 27 petaflop desativado que também empregava nós de CPU + GPU e que foi criado em 2012.
Destaques dos primeiros resultados:
"Crusher é o mais recente de uma longa linha de sistemas de teste e desenvolvimento que implantamos para os primeiros usuários de plataformas OLCF e é facilmente o mais poderoso deles que já fornecemos", disse Bronson Messer, diretor de ciência da OLCF da ORNL. "Os resultados que essas equipes de código estão obtendo na máquina são muito encorajadores quando olhamos para o alvorecer da era exascale com o Frontier."
"Ocupando apenas 44 pés quadrados de espaço, o Crusher tem 1/100 do tamanho do supercomputador Titan anterior, mas mais rápido do que todo o sistema de 4.352 pés quadrados, dando um enorme poder de computação para seu tamanho pequeno", relatou ainda o anúncio de Oak Ridge.
O Frontier foi originalmente programado para ser implantado na segunda metade de 2021 e aceito em 2022. Atrasos de algum tipo ou outro são típicos de sistemas de supercomputação desse escopo e escala, e o Frontier é a primeira implementação da arquitetura AMD A+A além a ser uma das primeiras máquinas exascale do mundo. Resta saber se o Frontier estará pronto a tempo para a lista Top500 do final de maio (não junho deste ano), como havia sido amplamente antecipado (dado que o sistema foi totalmente instalado antes do lançamento da lista de novembro de 2021). Oak Ridge não ofereceu um cronograma preciso para a implantação e aceitação da Frontier, além de afirmar que acontecerá em 2022, seguido de operações completas com início em 1º de janeiro de 2023.