1. 고가용성 시스템 관리 경험
가. 장애 대응, 주어진 시간은 **초
공군 장교로 복무하면서 높은 가용성이 요구되는 1급 국가정보시스템을 관리했습니다. 관리 대상 시스템은 방사능 피폭 상황에도 안정적으로 작동해야 했습니다.
고가용성을 유지하기 위한 장애대응 기준은 매우 엄격하였습니다. 시스템 관리자에게 주어진 장애 대응 시간은 **초였으며, 장애가 발생하는 즉시 조치를 취해야 했습니다. 장애에 대응하는 핵심 역량은 장애 원인을 분별할 수 있는 ‘빠르고 정확한 판단력’이었습니다. 이 역량을 높이기 위해 ‘Flow Chart’ 기반의 장애 원인 판별 방식을 도입하였습니다. 예를 들면, A 외부 시스템과의 연동 이상이 발생하면 첫 번째로 네트워크 연동 단말 상태 확인, 두 번째로 네트워크 주요 장비 상태 확인 등의 순서로 체계적으로 원인을 추려내는 것입니다.
관리자용 Flow Chart에서 장애 원인을 판단하는 분기점을 만들기 위해서는 실무에 대한 기본 지식이 필요했습니다. 실무지식을 채우기 위해 ‘네트워크 관리자 2급’ 및 ‘CCNP’ 자격을 취득하였습니다. 특히 ‘CCNP’ 과정은 시스템 내 복잡한 네트워크 영역의 이해에 큰 도움을 주었습니다. 시스템 내 가장 복잡도가 높은 부분이 라우터 기반의 네트워크 영역이었는데, CCNP의 Routing, Trouble Shooting 과목을 학습하면서 많은 부분에서 어려움이 해소되었습니다.
나. 시스템 안정화 방안 제시
워크스테이션(이하 WS)의 원인미상 결함에 대해 9개월 동안 여러 대안을 시도하여 결함 발생률을 24% 감소시켰습니다. 시스템에는 사용자 단말기인 WS의 **프로세스가 비정상적으로 다운되는 결함이 있었습니다. 본 결함에 대한 기존 접근방식은 결함 발생 부분의 소스코드를 수정하여 문제를 원천해결하는 것이었습니다. 제작사와 유지보수업체가 앞의 방식으로 문제 해결을 시도했지만, 원인조차 규명하지 못했습니다.
기존 접근과 달리, 시스템 안정성을 최대화하여 결함 발생률을 최소화하는 방향으로 접근했습니다. 우선, CPU, 메모리 사용률 등 본 결함의 특징을 잡을 수 있는 변수 7가지를 설정하고 3개월간 정밀분석했습니다. 그 결과, 해당 결함 시 간헐적으로 메모리 사용률이 순간적으로 상승하는 것과 WS 미사용 시에도 본 결함이 다수 발생하는 특징을 확인했습니다.
두 가지 특징을 근거로, 시스템 안정성을 높일 수 있는 두 가지 안을 차례로 제시했습니다. 첫 번째는 WS 메모리를 기존 *GB에서 두 배로 증설하는 방안이었습니다. 해당 결함이 자주 발생하는 WS 3대를 표본으로 잡고 3개월간 관찰한 결과 결함 발생률에 영향을 주지 못한 것으로 확인했습니다. 이후 WS 내 주요 프로그램을 주 1회 재실행하는 방안을 제시했습니다. 첫 번째 안과 동일한 기간 및 표본을 설정하여 관찰한 결과, 결함 발생률이 24% 감소한 것을 확인했습니다. 본 결함에 대해 집요하게 분석하고 성과를 낸 결과, 직속상관으로부터 인정을 받았고 상위기관의 업무분석회의에 본 결과에 대해 직접 발표했습니다.
2. 대규모 조직의 중간 관리 경험
가. 결정권자와의 소통은 요약과 질의응답으로
중간 관리자의 주요 역할은 실무의 핵심을 결정권자에게 명료하게 전달하는 것입니다. 결정권자는 항상 시간이 부족하기 때문에 문서의 핵심을 목차와 요약만으로도 전달되도록 노력하였습니다. 세부사항은 주로 질문에 대한 답변으로 전달했기 때문에 결정권자 입장에서 업무 핵심 관심사에 대해 상상하고 검증 받기를 반복했습니다. 이러한 경험을 토대로 실무자와 결정권자의 관심사의 차이를 이해하고 중간에서 커뮤니케이션하는데 자신감이 생겼습니다.
나. 일이 안풀리면 박카스로
10번의 문서 교환 보다는 박카스 한 박스가 더 효율적일 때도 있습니다. 관습적인 업무에 대해 상위 부서로부터 승인을 받아야했는데 좀처럼 승인이 떨어지지 않았습니다. 심지어 담당자에게 이메일을 보내도 일이 진행되지 않았습니다. 이런 상황에서 박카스 한 박스를 들고 해당 부서를 찾아가보라는 조언을 얻었습니다. 문서만으로 진행할 수 있는 일을 위해 박카스를 들고 담당자를 찾아간다는 것이 이해되지 않았습니다. 그럼에도 조언을 따라 담당자를 찾아가보니 여러 업무에 치여있는 모습을 볼 수 있었습니다. 협업 중인 업무에 대한 승인이 급하다는 사실을 전달하며 박카스 한 박스를 두고 왔습니다. 이후 일이 일사천리로 진행되었습니다. 이를 통해 모든 업무는 결국 사람 중심으로 진행되며, 때로는 대면을 통한 소통이 필요하다는 것을 깨달았습니다.