본문 바로가기

데이터 경진대회

[Dacon]대구 교통사고 피해 예측 AI 경진대회 후기

https://dacon.io/competitions/official/236193/overview/description

 

대구 교통사고 피해 예측 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 

  • 대회 참여 기간 : 23.11.15 ~ 23.12.11 
  • 대회 배경 : 이동수단의 발달에 따라 다양한 유형의 교통사고들이 계속 발생하고 있습니다. 한국자동차연구원과 대구디지털혁신진흥원에서는 해당 사고의 원인을 규명하고 사고율을 낮추기 위해, 시공간 정보로부터 사고위험도(ECLO)를 예측하는 AI 알고리즘 발굴을 목표로 본 대회를 개최합니다. 

 

  • 대회 참여 후기 :
    •  [외부 데이터 ]
        데이터를 처음 받아보고 어떤 방법으로 처리하고 가공해야 하는 지 많이 고민한 대회였다. 왜냐하면 예측을 해야하는 test 데이터에는 사고 당시의 피해자나 가해자의 나이, 성별이 주어지지 않은 반면에 train 데이터에는 이러한 사고에 대한 추가적인 데이터들이 제공되었기 때문이다.  나는 이러한 데이터가 예측을 진행하는데 큰 도움이 되지 않을 것이라고 임의로 판단하고 주의를 기울이지 않았다. 이 보다는 외부 데이터를 활용해서 예측에 도움이 되는 특성들을 만들고자 했다. 주로 찾아본 데이터는 대구 지역별 초등학교 개수 데이터, 보행자 사고 다발구간 데이터, 노약자 사고 다발구간 데이터 등 이었다. 하지만 외부 데이터는 크게 예측에 도움이 되지는 않았다. 이 시간에 주어진 데이터를 다시 살펴보고 EDA를 했었으면 더 좋은 결과를 얻었을 수도 있었다.  또한, 대회 측에서 처음에 제공하는 데이터에는 전국 자동차 사고 데이터도 있었는데 이를 처음부터 예측에 도움이 안 된다 생각하여 아예 제외하고 시작한 점이 너무 어리석었다. 다른 높은 점수의 팀들을 보면 해당 데이터도 학습에 포함시킨 사례가 많았다. 
    • [ 새로운 특성 만들기]
         ECLO를 토대로 사고 심각성을 살펴볼 때, 시간대 별로 사고 심각성이 다르게 나타난다는 것을 알았다. 주로 자정부터 새벽 6시까지 발생한 사고들이 ECLO가 높았다. 추가적으로 18시부터 24시 사이에 발생한 사고들도 사고 심각성이 높다고 판단했고 총 24시간을 4개의 부분으로 나누어서 그룹화 했고 이를 다른 특성으로 추가했다. 하지만 이는 과적합의 문제가 발생했고 다른 팀이 일몰 일출 시간을 기준으로 시간을 구분 짓는 방법을 택한 것 처럼 나의 개인 판단에 의해서만 데이터 가공을 하면 성능 개선을 크게 기대할 수 없다는 것을 알았다. 
         주말인 토요일 일요일에 차 사고의 심각성 수치가 다른 요일에 비해 높은 것을 파악하고 주말 특성을 새로 만들었고 이는 어느 정도 성능 개선 효과가 있었다. 
  • 개선해야 하는 점 
    1. 데이터 (정보)를 임의로 판단하여 학습에서 제외하는 것 
    2. 여러 방법들을 사용하지 않는 것 
    3. AI 모델들의 이해도가 아직 높지 않은 것 

 

'데이터 경진대회' 카테고리의 다른 글

LG Aimers 6기 후기  (0) 2025.03.11
LG Aimers 5기 후기  (3) 2024.11.27
데이터·AI를 활용한 물가 예측 경진대회 참여 후기  (0) 2024.11.24
LG Aimers 4기 후기  (0) 2024.02.29
LG aimers 3기 후기  (0) 2023.08.31