[컴] 카카오톡 장애 사건

 

카카오 장애 / 카카오택시 장애 / 분산 / 대규모 /백업 / 노하우

카카오톡 장애 사건

  • SK C&C 판교 데이터센터 화재로 인해 발생했다.
  • 화재원인 추정(2022-10-17) : UPS(무정전 전원장치) 설비에서 화재가 발생한 것으로 보인다고 한다. 이 장치는 배터리를 사용한다.

from ref. 4:

실제 이 시간(2022-10-15 18:04) 네이버 서비스 상당 부분은 복구돼 정상 가동되고 있음에도 카카오는 상당수 서비스가 아직 먹통이다. SK C&C도 이날 “일부 서비스들이 백업 미비 등으로 장애가 지속되는 부분은 해당 서비스 제공사에서 설명드릴 부분”이라고 했다.

카카오 관계자는 “서버 이중화는 다 되어있다고 하는데, 서비스 자체가 복잡하게 구성돼 있는데다 하나의 IDC(인터넷데이터센터) 전체가 영향을 받는 이슈다보니까 다른 서버로 전환하는데 시간이 걸리고 있다”며 “최대한 빨리 서비스가 복구될 수 있도록 노력 중”이라고 했다.

from ref. 5:

카카오 측은 “서버가 유기적으로 구성돼 있어 판교 데이터센터의 장애가 다른 데이터센터에도 영향을 미쳤다”고 해명했다. 데이터 분할 백업을 해놓긴 했지만 정작 데이터 분할 백업을 하는 이유가 된 유사시 데이터 안전성에 대해서는 단 한 번의 사고로 전체가 무력화되는 지점이 있다는 것을 스스로 인정한 셈이다. 서비스를 실시간으로 백업하는 시스템이 사실상 작동하지 않았다는 얘기다. 이에 대해 IT업계 관계자는 “서버가 탄 것도 아니고 단순 화재였는데 유사시 백업 서비스가 작동하고 우회경로로 바로 돌아가면 서비스 기능들은 정상 작동될 수 있었으나 이게 작동하지 않은 것으로 보인다”면서 “백업하는 목적이 고객 데이터 안전을 위한 것이 아니라, 백업 절차 준수 그 자체라는 점을 만천하에 드러낸 사건”이라고 지적했다.

해명에 대한 생각

카카오 측은 “서버가 유기적으로 구성돼 있어 판교 데이터센터의 장애가 다른 데이터센터에도 영향을 미쳤다”고 해명했다.

me:

이상한 해명이다. 유기적으로 구성돼있으면, 그 내용을 그대로 다른 곳에 똑같이 2중화를 했어야 한다. 즉 하나가 멈추면, 다른 하나로 트래픽이 가도록 만들어놨어야 한다. 저 이야기만 봐서는 이중화를 안했거나, 여러 데이터센터로 이중화, 즉 region 을 분리하는 것을 안해놨다는 이야기 같다.

Reference

  1. SK C&C 판교 데이터센터 화재로 인한 인터넷 서비스 장애 사건
  2. SK 판교데이터센터 화재 8시간 만에 완진…카톡 ’먹통’은 여전 | 연합뉴스, 2022-10-16
  3. [르포]“6년 전으로 되돌아갔다”…카카오 멈추자 택시 손님도 기사도 발만 동동 - 머니투데이
  4. “서버분산 기본조치도 안했나”, 카카오 먹통에 시민들 ‘분통’ - 머니투데이, 2022-10-15
  5. 문어발 확장 열올린 카카오…데이터 분산백업 기본도 안지켜 : 네이트 뉴스, 2022-10-16

댓글 없음:

댓글 쓰기