안정화

in #sct5 years ago (edited)

안녕하세요 @realmankwon입니다.

요즘 아침에 깨자마자 하는 일은 봇들이 살아있는지 데이터 처리는 잘 되었는지 입니다.
금일 오전에 확인을 하니 새벽 2시쯤에 모든 봇들이 일제히 중단이 되어 있었습니다.
보통은 exception 발생하고 봇이 한개 정도 중단이 되는 정도인데 이번 건은 모든 봇이 일제히 중단되어 동일한 이유로 동시에 죽은 것이 아닌가 생각이 됩니다.
관련해서 로그가 남기 마련인데 이번건은 exception 이 발생하지도 않았고 엄밀히 말해서는 죽었다기 보다 명령 대기 상태로 기다리고 있는 것처럼 보였습니다.
해당 원인을 계속해서 찾아 봐야할 것 같습니다.

뿐만 아니라 전송이 되지 않은 부분에 대해서도 방금 전 문의가 왔었고 확인해 보니 sct 에서 베네설정을 한 것만 되게끔 된 것을 확인을 했습니다.
해당 부분에 대해서 전수 조사를 한 뒤 늦게라도 지급을 할 예정입니다.

이렇듯 운영진의 테스트와 서비스 이후의 테스트에도 불구하고 예상치 못했던 상황에 대한 적용이 안되어 있는 것도 있고 휴먼 에러의 문제도 있습니다.
뿐만 아니라 시스템 자체적으로 제가 통제할 수 없는 영역도 있어서 서비스의 출시 이후 안정화에 주력을 할 예정입니다.
운영진 톡방에서도 나눈 얘기지만 현재 제가 일하고 있는 직장의 시스템도 10년 이상 운영 중이지만 잘 돌아가던 것이 어느날 갑자기 장애를 일으키곤 합니다.
회사의 경우는 협력업체도 많고 전문가도 더 많기 때문에 정확한 원인과 진단 이후 처리까지 잘 이루어 지지만 현재 저희팀의 경우는 각자의 생업이 있고 나머지 시간에 개발을 하는 중입니다.
또한 인프라의 영역은 개발자의 영역이 아니다 보니 그런 부분에 대해서 많은 공부가 필요한 상황입니다.
아직까지 일어나지 않은 영역까지 전부 책임을 질 수는 없지만 지금까지 나온 현상에 대해서는 재발하지 않도록 할 것입니다.
그 이후에 시스템이 중단되었거나 오류가 있을때 이를 최대한 빨리 인지하고 정상화 시킬 수 있는 체계를 구축하는 것이 현재로써는 가장 최선의 방법인 듯 합니다.

최대한 빨리 안정화가 될 수 있도록 노력하겠습니다.
불편하시더라도 조금만 더 인내해 주시길 부탁드립니다 ^^
주말 저녁 저는 오늘도 달립니다^^

Sort:  

항상 고생이 많으신 리얼맨님 따따따봉입니다!!

수고 정말 많으십니다!

항상 고생하시네요.