백엔드#배치#장애복구#설계
서버가 죽으면 발송은 어디서부터 다시 해야 하나
대량 푸시 발송 중에 서버가 죽었다. 10만 명 중 6만 명까지 보냈는데 서버가 재시작되면서 상태가 `PROCESSING`에 멈춰버렸다.
11
개발하면서 배운 것들을 기록합니다.
대량 푸시 발송 중에 서버가 죽었다. 10만 명 중 6만 명까지 보냈는데 서버가 재시작되면서 상태가 `PROCESSING`에 멈춰버렸다.
30만 명에게 푸시를 보내는 데 약 2시간이 걸린다.
→ CAS(Compare-And-Swap)는 "현재 값이 내가 예상한 값과 같을 때만 새 값으로 교체하라"는 동시성 제어 패턴이다. 상태 머신은 정해진 규칙에 따라 상태가 전이되는 구조를 말한다.
푸시 발송 서비스를 2대의 서버로 운영하고 있다.
알림센터에 알림이 안 들어간다는 리포트가 왔다. 푸시는 받은 사용자가 있는데, 알림센터에는 아무것도 없는 사용자가 있다고.
알림 서비스를 2대의 서버로 운영하고 있다. 하나는 Active, 하나는 Standby.