[Linux] 서버 장애 초동 대응 — 5분 트리아지
·
Linux
시나리오새벽 3시 15분, 온콜 알람이 울립니다. Slack에는 "사이트 안 열려요"가 쌓이고 노트북을 열었는데 무엇부터 봐야 할지 막막합니다. 직감으로 "아마 앱 버그겠지"라며 kill -9부터 치면 증거는 사라지고 30분 뒤 같은 장애가 반복됩니다. 트리아지는 가장 낮은 계층(IP 연결)부터 올라가며 가설을 좁히는 것입니다 — 그 첫 5분이 사후 원인 분석 전체를 결정합니다.서버 장애 초동 대응 — 5분 트리아지이번 챕터에서 배울 것1장애 계층(L3 IP → L4 포트 → L7 앱) 순서에 따라 원인을 좁혀갈 수 있다2ping → ss → curl → journalctl → strace 5단계를 손에 익혀 실행할 수 있다3죽이기 전에 strace·코어덤프·로그로 증거를 수집하는 원칙을 적용할 수 있다..