Computação MultiGPUs para Inteligência Artificial (HPC SCIMIND4IA)

Infraestrutura de Computação de Alta Performance para IA

Infraestrutura de computação de alta performance refrigerada a líquido, essencial para avanços em inteligência artificial, modelagem de dados e simulações complexas. Os sistemas estão equipados com múltiplas GPUs que operam em paralelo, facilitando a análise de grandes volumes de dados e o processamento computacional em larga escala. A preparação para experimentos computacionais inclui a configuração de ambientes virtuais personalizados, e a geração de dados ocorre por meio de simulações avançadas e modelagens complexas. Com capacidades que vão desde o aprendizado profundo até a otimização de algoritmos, o SciMind é importante para pesquisa em diversas áreas, desde astrofísica até bioengenharia, permitindo que pesquisadores explorem fenômenos com precisão em simulações que replicam condições extremas, minimizando custos e maximizando a eficiência.

Detalhamento da Infraestrutura de HPC para IA do CBPF

A infraestrutura de HPC para IA do CBPF conta com diversas unidades de processamento gráfico e CPU de alto desempenho, distribuídas em nove servidores principais. Cada servidor é equipado com GPUs de última geração, incluindo RTX 3090, RTX 2080Ti, A5000, A6000, A100, H100, e ADA6000, totalizando até 145.000 núcleos de GPU em algumas unidades. As CPUs variam de AMD EPYC a Intel Xeon Platinum, Silver e Gold, com configurações que chegam a até 128 núcleos. A memória RAM utiliza a tecnologia DDR4 e DDR5, variando entre 0,512 TB e 4 TB por servidor. Os sistemas de armazenamento combinam SSDs em RAID1 e discos NVMe, oferecendo alta capacidade e velocidade. Esta infraestrutura robusta e diversificada, lançada entre 2018 e 2023, suporta uma ampla gama de projetos de pesquisa, proporcionando um ambiente otimizado para computação de alto desempenho.

RESPONSÁVEL TÉCNICO PELA INSTALAÇÃO ABERTA:

Paulo José Russano

+55 21 21417440

paulojrussano@cbpf.br

http://lattes.cnpq.br/2130375444190292

Regras e Orientações de Uso:

Sistema Operacional: O sistema operacional dos SciMinds é configurado e otimizado para suportar computação de alta performance, utilizando distribuições Linux especializadas em HPC. O uso de sistemas operacionais diferentes do Linux não é permitido.
Compiladores e Linguagens de Programação: Compiladores como GCC, LLVM, CUDA e linguagens como Python, C/C++ e Fortran estão instalados e prontos para uso. Outros compiladores e linguagens de programação serão avaliados para instalação conforme as necessidades dos projetos. Recomenda-se o uso de Docker ou Singularity para configurações de ambientes de execução específicos.
Bibliotecas e Frameworks: Bibliotecas e frameworks essenciais para computação de alto desempenho e aprendizado profundo, como Tensor Flow, PyTorch, MPI e OpenMP, estão previamente instalados.
Gerenciamento de Recursos e Filas de Trabalho: O sistema SLURM é utilizado para otimizar o uso das GPUs e garantir a alocação eficiente dos recursos. O acesso ao sistema fora do gerenciamento de filas não é permitido.
Documentação e Configuração de Ambientes: Os usuários devem documentar suas necessidades e preparar os ambientes de execução, incluindo dependências de software e variáveis de ambiente, antes de iniciar os experimentos.
Novos Usuários: Os novos usuários devem completar um treinamento específico para garantir o uso eficiente e seguro dos recursos computacionais. Este treinamento abrange as práticas e protocolos essenciais para operar dentro da infraestrutura de HPC e IA, com ênfase no gerenciamento adequado dos recursos, medidas de segurança e conformidade com as diretrizes institucionais. Somente após a conclusão bem-sucedida deste treinamento, os novos usuários terão acesso ao sistema, assegurando que todos os participantes estejam bem preparados para utilizar os recursos de maneira eficaz e responsável.