기술 블로그
C레벨 - 고난도
Meta의 GenAI 인프라 구축: 24,576 H100 GPU 클러스터
인프라
AI
스케일링
PyTorchNVIDIA H100Grand TetonArista 7800InfiniBandTectonicNCCL
배경
Meta는 AGI 개발을 위해 대규모 AI 클러스터에 투자. 3.4B+ 사용자를 위한 GenAI 서비스 인프라 필요.
도전 과제
대규모 GPU 클러스터의 네트워크 성능 최적화, 수천 GPU 간 동기식 체크포인트, 멀티모달 데이터 저장소 확장, 대규모 학습 작업 디버깅.
해결 방안
RoCE(Arista 7800)와 InfiniBand(NVIDIA Quantum2) 두 가지 네트워크 패브릭 비교. Grand Teton GPU 플랫폼, Tectonic 분산 스토리지와 Hammerspace NFS 병행. 네트워크 토폴로지 인식 스케줄링 및 NCCL 최적화.
결과
24,576개 H100 GPU 클러스터 2개 구축. 초기 10-90% 성능에서 90%+ 달성. 2024년 말까지 350,000 H100 GPU 확보.
핵심 인사이트
- 1.시뮬레이션보다 실제 시스템 구축과 테스트가 중요
- 2.소프트웨어/네트워크/하드웨어 전체 스택 최적화 필수
- 3.RoCE vs InfiniBand 트레이드오프는 워크로드에 따라 다름