Meta의 GenAI 인프라 구축: 24,576 H100 GPU 클러스터

인프라

스케일링

PyTorchNVIDIA H100Grand TetonArista 7800InfiniBandTectonicNCCL

2024년 3월조회 0면접 0회원문 보기

배경

Meta는 AGI 개발을 위해 대규모 AI 클러스터에 투자. 3.4B+ 사용자를 위한 GenAI 서비스 인프라 필요.

도전 과제

대규모 GPU 클러스터의 네트워크 성능 최적화, 수천 GPU 간 동기식 체크포인트, 멀티모달 데이터 저장소 확장, 대규모 학습 작업 디버깅.

해결 방안

RoCE(Arista 7800)와 InfiniBand(NVIDIA Quantum2) 두 가지 네트워크 패브릭 비교. Grand Teton GPU 플랫폼, Tectonic 분산 스토리지와 Hammerspace NFS 병행. 네트워크 토폴로지 인식 스케줄링 및 NCCL 최적화.

결과

24,576개 H100 GPU 클러스터 2개 구축. 초기 10-90% 성능에서 90%+ 달성. 2024년 말까지 350,000 H100 GPU 확보.

핵심 인사이트

1.시뮬레이션보다 실제 시스템 구축과 테스트가 중요
2.소프트웨어/네트워크/하드웨어 전체 스택 최적화 필수
3.RoCE vs InfiniBand 트레이드오프는 워크로드에 따라 다름

이 사례 기반 면접에 도전해보세요

Meta의 실제 기술적 결정과 트레이드오프를 깊이 파고드는 면접 질문 2개가 준비되어 있습니다

SYSTEM_DESIGN

ARCHITECTURE

타이머사례 참조 가능결과 아카이브

로그인 없이 바로 면접을 시작할 수 있습니다