Validation of Variable Framework for AI-based Startup Survival Prediction: A Simulation Study Based on the Startup Survey
Keywords: 창업기업(Startup), 생존율 예측(Survival Prediction), 인공지능(Artificial Intelligence), 변수 설계(Feature Design), 창업기업실태조사(Startup Survey)
Submission Type: Abstract
Status: Accepted | Submitted at: 2025-05-23 23:42:51
Abstract
본 연구는 창업기업의 생존 여부를 예측하는 인공지능(AI) 분석 모델의 학습을 위해, 창업실태조사 보고서를 기반으로 설계된 변수 체계의 타당성을 시뮬레이션 방식으로 검증하는 것을 목적으로 하였다. 5개 영역(창업자 특성, 기업 일반 특성, 창업 실행, 경영성과, 기술혁신 등)에서 총 50개의 예측 변수를 도출하였으며, 이를 바탕으로 통계 기반 조건부 분포 및 생성 규칙에 따라 총 2,000개의 시뮬레이션 데이터를 구성하였다. 모델 학습에는 XGBoost와 Random Forest를 활용하였고, 데이터 불균형 보정을 위해 SMOTE, 성능 최적화를 위해 RandomizedSearchCV 튜닝을 적용하였다. 실험 결과, 두 모델 모두 평균 70% 이상의 정확도와 F1-score를 확보하였으며, 특히 Random Forest 모델이 AUC 0.704, Recall 0.897, F1 0.733으로 가장 우수한 성능을 보였다. 이는 폐업 기업의 조기 탐지에 매우 효과적인 구조인 것으로 판단하였다. 변수 중요도 분석에서는 기술개발 수행 여부, 자금 조달 방식, 고용 규모, 창업자의 학력과 직전 직업군 등이 공통적으로 높은 예측 기여도를 보였으며, 이는 창업실태조사 보고서에서 정책적으로 강조된 항목들과 일치하는 결과이다. 변수 간의 결합 효과도 일부 확인되었으며, 이는 향후 SHAP 기반의 설명 가능한 AI 적용을 통해 더 정교한 해석이 가능함을 시사한다. 이러한 결과는 창업실태조사 보고서가 AI 학습에 활용 가능한 데이터를 추출할 수 있음을 보여주며, 시뮬레이션 기반 변수 검증 프레임워크가 실측 데이터 확보 이전의 분석 설계에 있어 유효한 접근임을 입증한다. 또한 불균형 데이터 처리(SMOTE), 하이퍼파라미터 튜닝 등 실무 적용을 위한 정제 기법도 예측 모델 설계에 효과적으로 활용될 수 있음을 제시하였다.
Authors
- Kyung-Hyun Lee (First Author), Department of IT·Semiconductor Convergence Engineering, Sangidaehak-ro, Siheung si, Gyeonggi-do, Korea, Republic of Korea 2Catholic Kwandong University Industry Cooperation Foundation – khlee@cku.ac.kr