Meta-Stability 발생 메커니즘

1단계: 초기 부하 증가

정상 상태: 1000 RPS 처리 가능
갑작스런 이벤트: 2000 RPS 유입 (블랙프라이데이, 바이럴 등)

2단계: 시스템 성능 저하

CPU 사용률: 50% → 90%
메모리 사용률: 60% → 85%
응답 시간: 100ms → 500ms
성공률: 100% → 80%

3단계: 재시도 폭증 (핵심 문제!)

원래 요청: 2000 RPS
실패한 요청의 재시도: 400 RPS (20% 실패 × 2회 재시도)
사용자 수동 재시도: 200 RPS (답답해서 새로고침)
---
총 부하: 2600 RPS (30% 증가!)

4단계: 연쇄 악화

더 높은 부하 → 더 많은 실패 → 더 많은 재시도 → 더 높은 부하...

2600 RPS → 성공률 60% → 재시도 1040 RPS → 총 3640 RPS
3640 RPS → 성공률 30% → 재시도 2548 RPS → 총 6188 RPS
6188 RPS → 성공률 5% → 재시도 5879 RPS → 총 12067 RPS

5단계: Meta-Stability 구간 진입

시스템 상태:
- CPU: 100% (컨텍스트 스위칭으로 실제 처리량 급감)
- 메모리: 100% (GC 폭증, OOM 발생)
- 네트워크: 포화 상태
- 성공률: 거의 0%

하지만 재시도는 계속 들어옴 → 회복 불가능!

구체적인 예시: 온라인 티켓팅 시스템

정상 상황

콘서트 티켓 오픈: 평소 100명/초 → 갑자기 10,000명/초 접속

Meta-Stability 발생 과정

1분차: 초기 과부하

서버 처리 한계: 1,000명/초
실제 요청: 10,000명/초
성공률: 10% (1,000명 성공, 9,000명 실패)

2분차: 재시도 시작

기존 실패자 재시도: 9,000명
새로운 접속자: 10,000명
총 요청: 19,000명/초

성공률: 5% (1,000명 성공, 18,000명 실패)

3분차: 악순환 가속