본문 바로가기

데이터 경진대회

LG Aimers 6기 후기

  aimers 3기부터 시작해서 벌써 4번째 aimers 참여를 하게 되었다.  3월에 대학원 입학을 하고나면 방학에도 바쁠 수 있을 거라 생각해서 이번에 좋은 성적을 낼 수 있는 마지막 기회라는 생각으로 임했다. 대회 사이트의 게시판에서 같이 참여할 팀원들을 구하고 2월 1일부터 온라인 해커톤이 시작 되었다.

 

  이전 대회들도 접하기 쉬운 데이터(주제)는 아니었는데 이번엔 난임이라는 더 생소한 주제가 주어졌다. 사전에 제공된 동영상 강의들을 다시 수강하고 관련된 논문들을 찾아보았다. 대체로 여성의 나이, 호르몬 수치 등이 난임 시술의 성공 확률과 높은 상관성을 갖는다는 내용이었다. 이런 배경지식들을 찾아보면서 데이터가 실제로 주어지고 나면 어떻게 분석, 처리할 지 미리 생각해보기도 했다. 

 

  2월 초중순까지는 대학원 연구실에 출근하며 대회 준비를 했었다. 근데 인천에서 고려대까지 왔다갔다 하다보니 시간도 오래 걸리고 체력적으로도 힘들어서 2월 중순부터는 집에 있으면서 대회 준비를 했다. 연구실의 컴퓨터를 원격으로 사용하면서 집에 있는 컴퓨터도 사용하니 여러 코드들을 동시에 실행이 가능하다는 점에서 효율적인 시간 사용이 가능했다. 

 

  이전 대회의 경우에는 데이터의 라벨 불균형이 심하다 보니 AutoML이 성능이 안 좋은 경우가 많았는데 이번에는 불균형이 크지 않으면서 평가식이 ROC-AUC이다보니 AutoML의 성능이 단일 머신러닝 모델들보다 더 좋게 나왔다. 팀원들과 최소 일주일에 2번정도 비대면 회의를 진행하면서 아이디어 공유를 활발히 하려고 노력했다. 나도 데이터 분석, 모델링 진행 상황을 다른 이들이 이해하기 쉽게 설명하려고 노력했다. 

  

   대회 초반에 좋은 성능의 모델을 찾아서 비교적 상위권에 있다가 다른 참가자들이 시간이 지날수록 더 높은 점수를 기록하면서 본선 진출 가능 순위에서 벗어났었다. 나는 사실 이때 포기할까 생각하기도 했었다. 그런데 다른 한 팀원이 그동안 회의했던 내용을 바탕으로 데이터에 전처리를 적용하여 높은 점수를 기록했다. 그래서 희망의 끈을 놓지 않을 수 있었고 그 코드를 베이스로 다시 특성공학과 변수선택을 추가해서 점수를 더 올릴 수 있었다. 

 

  결국 2월 마지막날 Public score로 16등으로 오프라인 해커톤을 마쳤다. 대회가 2월 한 달간 진행돼서 비교적 기간이 길었던 만큼 더 투자한 시간도 많았다. 그래서 과적합만 되지 않기를 바랐는데 다행히 최종 등수는 16등보다 높은 7등을 기록했다. 우리 팀은 AutoML 2개를 앙상블한 결과를 최종선택 했었는데 각각의 AutoML에서 학습시 교차검증을 진행하도록 해서 과적합을 막을 수 있었던 거 같다. 

  

   결과가 발표되고 이전 기수에서 매번 본선 진출에 실패해서 아쉬웠던 순간들이 머리 속에 떠올랐다. 그 당시에 조금 더 머신러닝에 대한 내공이 있었으면 본선에 올라갈 수도 있었을 텐데 하는 생각이 이제서야 들었다. 이번에 운이 좋아서 본선에 올라가게 되었는데 기회 된다면 7기에도 참여해서 본선에 가보고 싶다.