정상 상태: 1000 RPS 처리 가능
갑작스런 이벤트: 2000 RPS 유입 (블랙프라이데이, 바이럴 등)
CPU 사용률: 50% → 90%
메모리 사용률: 60% → 85%
응답 시간: 100ms → 500ms
성공률: 100% → 80%
원래 요청: 2000 RPS
실패한 요청의 재시도: 400 RPS (20% 실패 × 2회 재시도)
사용자 수동 재시도: 200 RPS (답답해서 새로고침)
---
총 부하: 2600 RPS (30% 증가!)
더 높은 부하 → 더 많은 실패 → 더 많은 재시도 → 더 높은 부하...
2600 RPS → 성공률 60% → 재시도 1040 RPS → 총 3640 RPS
3640 RPS → 성공률 30% → 재시도 2548 RPS → 총 6188 RPS
6188 RPS → 성공률 5% → 재시도 5879 RPS → 총 12067 RPS
시스템 상태:
- CPU: 100% (컨텍스트 스위칭으로 실제 처리량 급감)
- 메모리: 100% (GC 폭증, OOM 발생)
- 네트워크: 포화 상태
- 성공률: 거의 0%
하지만 재시도는 계속 들어옴 → 회복 불가능!
콘서트 티켓 오픈: 평소 100명/초 → 갑자기 10,000명/초 접속
1분차: 초기 과부하
서버 처리 한계: 1,000명/초
실제 요청: 10,000명/초
성공률: 10% (1,000명 성공, 9,000명 실패)
2분차: 재시도 시작
기존 실패자 재시도: 9,000명
새로운 접속자: 10,000명
총 요청: 19,000명/초
성공률: 5% (1,000명 성공, 18,000명 실패)
3분차: 악순환 가속