2024년 여름 방학 기간에 진행된 해당 경진대회에 참여했다. 이번에도 3,4기와 마찬가지로 팀원들을 대회 게시판(토론방)을 통해서 구했다. 나를 포함해 5명이 팀이 되었는데 중간에 한 명이 나가고 다른 팀원으로 대체 되었다. 아무래도 경진대회 경험이 많이 없는 팀원도 있다보니 잘 방향성을 못 잡고 어렵다 생각하여 나간 거 같았다. 대회 예선 시작전에 팀이 결성되어서 본선 진출이라는 목표를 갖고 대회를 맞이했다. 이번에도 지난 대회랑 같은 주제인 분류 문제였다. 어려운 주제는 아니라 생각할 수도 있지만 상대 평가이기 때문에 대회 참가자들이 모두 능력이 뛰어난 경우에 대회 주제에 상관없이 본선 진출이 어렵다. 왜냐하면 본선 진출 인원이 100명으로 제한되어 있기 때문이다. 팀당 최대 인원이 5명이라서 아무리 못해도 상위 30팀 안에는 들어가야 희망이 있다.
지난 회차 대회와 마찬가지로 엘리스라는 사이트를 통해서 대회가 진행되었다. 5기의 데이터는 Lg 디스플레이 제품의 불량 여부와 제품 공정 과정의 다양한 수치 데이터가 정형 데이터로 주어졌다. 당연히 불량보다 정상 제품의 경우가 많아서 불균형이 심했다. 4기에서도 라벨 불균형으로 인해서 정확한 예측 모델을 만들기가 어려웠는데 이번에도 같은 난관을 극복해야 했다. 아마도 내년 초 겨울에 진행되는 6기에서도 이러한 분류나 혹은 회귀 주제가 나올 거 같다.
대회가 끝난지 시간이 좀 지난 탓에 제대로 기억은 안나지만 아마 차량용 디스플레이 판넬 제품에 대한 공정 데이터로 기억한다. 이 분야에 대한 지식이 거의 없어서 데이터의 분석이나 인사이트 추출이 힘들었다. 게다가 각 공정과정에 대한 여러 수치 데이터가 주어지다 보니 데이터 칼럼들의 개수가 많았고 이를 모두 사용해 보거나 feature selection을 진행 했어야 했다. 나는 특성들간의 상관관계가 높은 특성들, 모델 학습시 중요도가 떨어지는 특성들을 파악하고 이들을 모델 학습에서 제외했다. 그리고 최대한 공정 과정에 대해 구글 검색, GPT 등을 사용해서 지식을 얻었고 특성공학도 나름대로 진행해 보았다. 또한, 지난 4기 대회의 수상팀 코드를 공개해 주었는데 한 팀이 stacking 방법으로 좋은 성적을 얻은 것을 보고 이번 대회에서 stacking 앙상블을 적용해 보았다.
처음에는 데이터 불균형 정도를 조금씩 조절해 주면서 모델학습을 진행하니 모델 성능이 향상되니 기분이 좋았다. 그리고 추가적으로 특성공학을 통해 주요 피처들을 사용하니 계속 성능이 좋아졌다. public 리더보드 상으로는 본선 진출할 정도의 등수까지는 올라왔었다. 그러나 모델 과적합을 크게 신경 안 쓰다보니 최종 등수는 50등으로 대회를 마무리 했다.
모델 과적합을 막기 위한 노력을 전혀 하지 않은 것은 아니다. 최대한 f1, 정확도, 정밀도 등 여러 평가 지표를 통해서 과적합 여부를 판단하려 했다. 그리고 검증 과정을 거쳐서 검증 데이터 셋에 대해서 모델의 성능을 확인했다. 그런데 여기서 문제가 모델의 검증 성능은 별로 안 좋은 반면 public 점수는 좋아서 과적합된 모델을 만들었을 확률이 높은데 이 문제를 해결할 생각을 하지 않은 것이다. 왜냐하면 검증 성능이 좋은 모델을 사용한 예측을 제출하면 public 점수가 낮아졌기 때문이다. 검증 성능이 좋은 모델의 예측 결과를 제출 했다가 최종 점수가 더 떨어지고 public 점수가 좋았던 예측이 오히려 더 정확한 예측이었으면 어쩌지라는 불안함 때문에 올바른 선택을 하지 못 했던 거 같다. 이러한 부분에 대해서는 더 공부하고 과적합을 확인할 수 있는 방법을 찾아야 겠다 생각했다.
당시에 최종 등수가 제발 잘 나오기를 기도했지만 결국 본선 진출에 이번에도 실패했다. 비록 다른 팀원들은 대회 참여도가 미미했지만 나 혼자 해도 본선은 통과할 수 있겠다고 자만한 것이 패착이었던 거 같다. 만약 더 뛰어난 통솔력이나 리더십이 있는 사람이었다면 마지막까지 다른 팀원들을 격려하고 또 필요할 때는 최대한 몰아부치면서 그 개개인의 능력을 최대한으로 이끌어 내어서 더 좋은 결과를 만들었을 것이다. 하지만 나는 이 상황이 그냥 대회가 빨리 끝났으면 했었고 팀원들에게 쓴소리를 하기도 싫었다. 어차피 나 혼자 해서 본선을 통과하면 되는 거 아닌가?라는 생각 때문에 이런 최악의 결과가 나온 거 아닌가 생각한다. 원래 팀 리더가 있었는데 학회가 대회 본선날에 열려서 어차피 본선에 가도 자기는 참가를 못한다는 이유로 중간에 팀을 나갔다.... 그리고 다른 팀원들도 처음 팀이 결성된 날에는 본선 진출을 목표로 열심히 하겠다고 했지만 실력이나 학벌의 좋고 나쁨을 떠나서 대회에 대한 흥미나 애정이 거의 없었다. 데이터 분석 결과를 공유하고 feature selection이나 특성공학 방법에 대해서 상의하고 과적합을 막을 방법들을 찾아볼 사람이 있어야 했는데 한 명도 없는 것이 아쉬웠다. 팀 결성 확정이 8월 13일쯤 (대회 중반)이라서 그냥 다른 팀을 찾거나 혼자 해볼까 하는 고민도 몇 십번 했었다. 같은 팀의 팀원들을 원망하기도 했지만 결국 팀을 구하는 단계에서 제대로 된 팀원, 팀을 구하지 않은 내 잘못이 제일 컸다.
그래서 나는 혼자 대회를 준비하다 싶이 했지만 아직은 실력이 부족했던 거 같다. 다음에는 더 제대로 준비해서 대회 참여하고 싶다.
'데이터 경진대회' 카테고리의 다른 글
LG Aimers 6기 본선 후기 (0) | 2025.04.13 |
---|---|
LG Aimers 6기 후기 (0) | 2025.03.11 |
데이터·AI를 활용한 물가 예측 경진대회 참여 후기 (0) | 2024.11.24 |
LG Aimers 4기 후기 (0) | 2024.02.29 |
[Dacon]대구 교통사고 피해 예측 AI 경진대회 후기 (0) | 2023.12.26 |