기술 블로그
C레벨 - 고난도
Cloudflare Workers KV 재설계: 장애 복원력을 위한 하이브리드 스토리지
인프라
분산시스템
장애대응
Workers KVCloudflare R2Consistent HashingDistributed DatabaseKVSP
배경
Workers KV는 Cloudflare 플랫폼의 인증, 설정 관리, 에셋 전달 등 핵심 기능을 담당. 2025년 6월 12일 서드파티 클라우드 제공자 장애로 대규모 서비스 중단 발생.
도전 과제
이중화를 위한 듀얼 프로바이더 아키텍처가 복잡해져 단일 프로바이더로 통합했으나, 해당 프로바이더 장애 시 Access, Gateway, WARP 등 수십 개 의존 서비스 연쇄 장애.
해결 방안
하이브리드 스토리지 백엔드 구축: 소형 객체용 분산 DB(3중 복제) + 대형 객체용 R2. KVSP(HTTP 변환 레이어)로 샤드 라우팅 관리. 듀얼 프로바이더 쓰기 + 비동기 정합성 확보.
결과
내부 읽기 p99 레이턴시 5ms 미만 달성(기존 서드파티: p50 80ms, p99 200ms). Read-your-own-write 일관성 복원.
핵심 인사이트
- 1.핵심 인프라의 단일 장애점은 즉각적 아키텍처 개선이 필요
- 2.하이브리드 스토리지가 다양한 워크로드 특성에 동시 최적화 가능
- 3.분산 시스템의 일관성 보장에는 다층 방어 메커니즘 필수