Apple 11 Dez
A AMD divulgou nesta semana uma atualização do 30x25, plano de metas da empresa que prometia aumentar a eficiência de CPUs e GPUs para servidores em 30 vezes até 2025. Ao que parece, a gigante tem tudo para superar a projeção inicial, já tendo conquistado um aumento de mais de 28x um ano antes do fim do prazo, graças a uma combinação de avanços de hardware e otimizações de software.
Em 2021, a AMD anunciou uma promessa ousada: ampliar a eficiência dos processador EPYC e das GPUs Instinct, soluções da marca para data centers e servidores, em 30 vezes até 2025 através de um plano que ficou conhecido como "30x25".
Diante do prazo apertado de quatro anos, a meta parecia muito ambiciosa, mas era apoiada por um histórico positivo — o 25x20, plano anterior lançado em 2014 que previa ganhos de 25x até 2020, foi superado com tranquilidade pela gigante, cujo hardware mostrou ganhos de 31,7x em eficiência ao final do prazo graças às arquiteturas Zen 2 (CPUs) e CDNA 1 (GPUs).
Conforme aponta o relatório de atualização do 30x25, a AMD está prestes a repetir o sucesso da iniciativa anterior — a combinação de dois processadores EPYC 9575F (64 núcleos Zen 5 cada, clocks de até 5,0 GHz) com oito GPUs Instinct MI300X (arquitetura CDNA 3, 192 GB de memória HBM3 cada) já teria atingido avanços de 28,3x mais eficiência em comparação aos servidores de 2020.
O sistema, que também continha 2.304 GB de RAM DDR5, foi avaliado rodando o modelo Llama3.1-70B da Meta, com 70 bilhões de parâmetros e cálculos com dados no formato FP8. A AMD não detalha qual servidor antigo foi usado como base, mas é provável que a máquina em questão combine CPUs EPYC 7002 com núcleos Zen 2 e GPUs Instinct MI100 com arquitetura CDNA 1.
Sendo este o caso, os ganhos divulgados nesta semana são plausíveis quando analisamos as mudanças proporcionadas pelo hardware mais novo. Para começar, as MI100 não possuem suporte ao formato FP8, e trazem muito menos memória com taxas de transferência mais baixas (32 GB HBM2 a 1,2 GB/s por acelerador, contra 192 GB HBM3 a 5,3 GB/s da MI300X).
Além disso, é possível observar ganhos entre 14 e 28 vezes no poder de processamento de outros formatos de dados que também costumam ser usados para inferência de IA e que estão disponíveis na MI100, como INT8 e FP16.
Um cenário similar também pode ser visto em termos de CPU: comparado ao EPYC 7H12, de 64 núcleos Zen 2, clocks de até 3,3 GHz e TDP de 280 W por chip, há uma série de novas instruções disponíveis no 9575F, como AVX-512, bem como frequências muito mais altas (5,0 GHz) com TDP de 400 W por chip, salto de consumo que ainda é pequeno levando em conta as melhorias.
Outro ponto a chamar atenção são as tecnologias de fabricação usadas — a MI300X combina múltiplos chips empilhados uns sobre os outros e lado a lado, algo que ainda era pouco provável de ser feito em escala há quatro anos — e as otimizações de software mencionadas pela companhia.
A empresa deu atenção especial ao ROCm, seu pacote de ferramentas de desenvolvimento de software, nos últimos lançamentos, fechando parcerias com mais desenvolvedores e buscando tornar mais fácil a adaptação de códigos otimizados para outras arquiteturas, como a CUDA da NVIDIA.
O resultado final do 30x25 será publicado apenas nos últimos meses de 2025, mas é quase certo a essa altura que a meta será batida, pelo menos em cenários específicos, como o treinamento de IA. A gigante também confirmou que pretende anunciar os planos para os próximos anos na ocasião.
Comentários