본문 바로가기
IT

카카오 데이터센터 화재와 DR(재해 복구 시스템)센터

by 데브길길잇 2022. 10. 24.
728x90
반응형

 

안녕하세요 dev-길길IT입니다.

2022년 10월 15일 오후 성남 판교에 위치한 SK C&C 데이터센터 내 화재가 발생하여 카카오를 포함한 해당 IDC를 사용하는 네이버, SK 계열사 등의 서비스들이 먹통이 되어버렸습니다. 특히 카카오는 전 국민이 이용하는 대표적인 메신저 앱 카카오톡을 비롯하여, 기프티콘을 주고받는 카카오 선물하기, 카카오 택시, T, 카카오 내비게이션뿐만 아니라 카카오 채팅으로 인증, 상담, 예약 서비스 등을 진행하는 소상공인, 기업들까지 피해가 막심하여 전 국민의 인터넷 망이 며칠간 멈췄다고 할 만큼 문제가 컸었는데요. 그러면서 재해복구 시스템인 DR센터의 중요성이 다시금 언급되며 화제가 되고 있습니다.

오늘은 카카오 사태와 DR센터에 대해 정리해드리겠습니다.

 

 

※ 목차
1. 카카오 사태의 원인, 데이터 센터 화재
2. DR(재해복구 시스템) 센터란?

     


    1. 카카오 사태의 원인, 데이터 센터 화재

    저 역시 2022년 10월 15일 오후 갑자기 카카오톡이 되지 않아 회사에 긴급하게 보고를 하는 등 주말에 업무를 지원했습니다. 뒤이어 데이터센터 화재로 인한 서비스 장애 안내를 받았습니다.

     

    1) 화재 원인

        - 서버의 경우 24시간 내내 돌아가면서 사용자들에게 서비스를 해야 하는 중요한 장비이기 때문에 전력이 차단되는 상황을 대비해야 합니다. 그래서 무정전 전원 장치(UPS) 즉, 배터리를 반드시 설치해서 갑자스럽게 전기가 끊어져도 조치가 이루어질 때까지 서버의 전원을 공급하게 합니다. 이 UPS에서 화재가 발생했다고 발표했습니다. 

     

    2) 피해 범위

        - 카카오의 메인 데이터 센터에 전력이 차단된 것이므로 카카오 서비스 전반이 중단되었습니다. 카카오톡, 카카오페이, 메일, 카카오 T(택시, 바이크, 킥보드 등), 카카오 페이지, 카카오 뷰 등이 있습니다. 이들 중에서 가장 크게 문제가 된 것은 소상공인들이 많이 사용하는 카카오페이와 카카오 로그인 인증 시스템을 사용하는 수많은 웹 서비스들이었습니다.

        - 그 외에도 Daum, 멜론, 브런치, 티스토리 서비스도 일부 중단되었습니다. 또한 같은 데이터 센터를 사용하는 네이버의 경우 네이버 사전에서 검색 결과 표시 오류, 네이버 블로그에서 이미지 등록 불가 오류 상황이 발생했습니다.

     

    3) 네이버 vs 카카오

        - 이번 사태를 책임지고 대표이사 직에서 사퇴한 카카오의 남궁훈 대표는 대국민 사과문을 통해서 "카카오뿐만 아니라 대한민국 IT 전반에 이런 일이 일어나지 않도록 하겠다"라고 입장을 밝혔습니다. 이유인즉슨, 데이터 센터 하나로 여러 주요 서비스를 하는 다른 기업들의 경우도 핵심 서버에 문제가 생기면 같은 상황이 될 것이라는 것입니다.

        - 하지만 같은 IDC 내에 있던 네이버의 경우 사고가 발생하고 4시간 만에 정상화가 되었습니다. 그 이유는 카카오와 네이버의 데이터센터의 분산 여부에 있습니다. 이렇게 되면서 DR 센터가 화두가 되었습니다.


    2. DR(Disaster Recovery system, 재해 복구 시스템) 센터란?

    1) DR(Disaster Recoverty) 센터란?

        - 원격 재해복구라고 불리는 DR센터는 국내 금융사에서는 의무적으로 도입하게 되어 있어 크고 작은 금융 서비스 사고들이 있었음에도 큰 대란으로 번지지 않은 사례가 많습니다. 금융업계는 1분 1초가 중요하고 보관하고 있는 데이터를 잘 관리해야만 더 많은 고객으로부터의 신뢰를 얻을 수 있기 때문입니다. DR센터가 처음 도입이 된 계기는 2001년 9·11 테러가 이유입니다. 세계적인 기업인 모건스탠리는 당시 뉴욕 맨해튼 세계무역센터에 본사를 두고, 타 지역에 백업센터를 두면서 서비스를 운영하고 있었습니다. 그 덕분에 중요한 정보와 데이터, 시스템들을 보호하고 피해를 최소화할 수 있었습니다.

    2003년 1월부터 금융권에서는 DR센터 구축을 의무사항으로 변경했습니다.

     

    2) DR센터의 원리

        - 시스템의 메인이 되는 서버와 동일한 서버를 분산된 장소에 두고, 한 사이트에서 문제가 발생하면 서비스가 바라보는 서버를 다른 사이트에 있는 곳으로 바꾸어서 지속적으로 서비스가 문제가 없게끔 하는 일종의 BackUp Plan 인프라 구성을 의미합니다. 운영 방침에 따라 크게 2가지 형태로 존재합니다.

       

    1) 미러 사이트(Mirror Site) / Active -Active

        - 유휴 상태인 서버를 2대 준비하고, 주고받는 네트워크 트래픽과 정보들을 양쪽 서버에 모두 실시간으로 저장합니다. 만약 한쪽에 문제가 생기더라도 다른 쪽에 있는 서버가 서비스를 지원하기 때문에 거의 중단 없이 계속 운영이 가능합니다. 단점으로는 구축에 들어가는 비용과 지속하기 위한 운영 비용이 많이 듭니다.

       

    2) 핫 사이트(Hot Site) / Active-Stand by

        - 유휴 상태인 서버가 1대가 있고, 동일한 데이터를 가지고 있으나 서비스는 중지 상태인 서버가 있습니다. 만약 유휴 상태의 서버에 장애가 생기는 경우 즉각 Fail over를 통해 Stand By 서버에 전원을 공급하여 서버를 부팅하고, Active 서버를 바라보던 서비스는 Stand By 서버를 바라보게 바꾸어 줍니다. 비용이 저렴하지만 일정 시간이 소요되어 서비스가 중단됩니다.

       

        - 통상적으로 주 센터와 DR센터의 거리는 30km 이상 떨어지게끔 하는 것이 권장됩니다. 따라서 각 조직과 기업별로 budget과 plan에 맞는 DR센터를 구축하여 시스템과 서비스에 영향이 없도록 하고 있습니다.

     

     

    3) 카카오와 네이버 DR센터 차이

        - 네이버의 경우 DR센터가 잘 구축되어있어 한 곳의 데이터 센터에 장애가 발생해도 다른 곳으로의 전환이 가능해 수시간 내로 서비스 정상화가 이루어질 수 있었습니다. 하지만 카카오의 경우 서비스에 대한 DR센터 자체가 존재하지 않아서 메인 데이터 센터에 장애가 생기면 해당 서버들을 복구하기까지 서비스가 되지 않았던 것입니다.


     

    마무리

    각종 피해를 호소하는 소상공인과 자영업자, 기업들부터 한 서비스 때문에 전 국민이 불편을 겪고 있는 상황에 대해 과학기술정보통신부 실장 중심의 상황실을 장관 주재로 격상해 지휘를 했던 정부. 그리고 불편함을 겪는 개개인의 사용자들을 보며 이번 사태가 많은 교훈을 주고 있습니다. 현재 피해 사례를 접수하고 보상안을 지급하는 과정을 진행 중이며 카카오와 SK C&C간 책임 공방 역시 진행되고 있습니다. 향후 어떤 행방을 보여줄지 카카오의 행보가 주목됩니다.

     

    읽어주셔서 감사합니다.

    728x90
    반응형

    댓글