Netflix
기술 블로그
B레벨 - 심화

Netflix의 카오스 엔지니어링과 장애 주입 자동화

SRE
마이크로서비스
장애대응
JavaSpring BootZuulEurekaHystrix
2020년 5월조회 1면접 0원문 보기

배경

Netflix는 전 세계 2억 이상의 구독자에게 끊김 없는 스트리밍을 제공합니다. 수천 개의 마이크로서비스로 구성된 시스템에서 부분적 장애는 불가피하며, 이를 사전에 발견하고 대비하는 것이 핵심입니다. Netflix는 Chaos Monkey에서 시작하여 업계 최초로 카오스 엔지니어링을 체계화했습니다.

도전 과제

수천 개의 마이크로서비스 간 복잡한 의존성에서 장애가 전파되는 경로를 모두 예측하는 것은 불가능했습니다. 수동 장애 테스트는 확장성이 부족했고, 프로덕션 환경에서의 장애 주입은 실제 사용자에게 영향을 줄 수 있어 안전한 실험 프레임워크가 필요했습니다.

해결 방안

Fault Injection Testing(FIT) 플랫폼을 개발하여 장애 주입을 자동화했습니다. 서비스 의존성 그래프를 자동 분석하여 영향 범위를 예측하고, Blast Radius를 제한하여 특정 사용자 세그먼트에만 장애를 주입합니다. 각 서비스의 Fallback 동작을 자동 검증하고, 이상 감지 시 자동으로 실험을 중단합니다.

결과

자동화된 카오스 테스트로 분기당 200건 이상의 잠재적 장애 시나리오를 발견합니다. 프로덕션 장애 발생 시 평균 복구 시간(MTTR)이 50% 감소했으며, 서비스 가용성 99.99%를 유지합니다.

핵심 인사이트

  • 1.장애 주입 자동화로 수동 테스트 대비 10배 이상 커버리지 확보
  • 2.Blast Radius 제한으로 프로덕션 실험의 안전성 보장
  • 3.서비스 의존성 그래프 자동 분석으로 장애 전파 경로 예측
  • 4.이상 감지 기반 자동 중단으로 실험 리스크 최소화

이 사례 기반 면접에 도전해보세요

Netflix의 실제 기술적 결정과 트레이드오프를 깊이 파고드는 면접 질문 5가 준비되어 있습니다

SRE
장애대응
마이크로서비스
타이머사례 참조 가능결과 아카이브

로그인 없이 바로 면접을 시작할 수 있습니다