본문 바로가기

XGBoost

서울시 음식점의 장단기 운영 예측 #3 [분석과 결과]

분석을 위해 머신러닝 분류기 모델을 생성합니다. 참조 논문과 동일하게 Accuracy, F1 Score, ROC_AUC 성능평가를 통해  XGBoost가 적합한 모델임을 확인했습니다. 모델을 생성하고, SHAP 분석을 통해 각 요인(독립변수)의 영향력을 확인합니다.

 

분석 후 참조 논문과 같이 신규 음식점에 대한 장단기 운영 예측을 수행하려 하였으나 음식점의 폐업에는 '양도양수'가 빈번하게 일어나고 공공데이터만으로는 음식점의 폐업 사유가 운영 부진으로 인한 폐업인지 다른 사람에게 소유를 넘기기 위한 폐업인지 알 수 없기 때문에 장단기의 예측이 음식점 운영의 좋고 나쁨과 결부되기엔 적절하지 않다고 판단하여 분석 방법과 결과에 대해서만 설명합니다.

 

설명의 순서는 다음과 같습니다.

 

[모델: XGBoost]

1. GridSearchCV를 통한 최적의 하이퍼파라미터 탐색

2. 모델 생성

3. SHAP 분석(Importance, Summary plot)

4. SHAP 분석(Dpendence plot)

5. 결론


1. GridSearchCV를 통한 최적의 하이퍼파라미터 탐색

 - 참조 논문에서 제안한 내용을 기준으로 다음과 같은 범위를 탐색하였습니다.

 - 장단기의 데이터가 동일하게 2,000개이므로 Cost sensitive learing weights는 설정하지 않습니다.

 

[Model Hyperparameter Search Space]

하이퍼파라미터 범위
n_estimators 200, 400, 600
max_depth 5, 7, 9
learning_rate 0.07, 0.08, 0.09, 0.1
subsample 0.4, 0.5, 0.6
colsample_bytree 0.8, 0.9, 1.0
max_bin 33, 25
tree_method hist, approx

[Best Hyperparameter]

하이퍼파라미터
n_estimators 400
max_depth 9
learning_rate  0.09
subsample 0.5
colsample_bytree 1.0
max_bin 33
tree_method approx

2. 모델생성

 - K-Fold 교차검증을 5분할씩 10번 수행하여 모델을 생성하고, 총 50개의 모델의 Accuracy, F1 Score, ROC_AUC를 평균하여 모델의 성능을 평가합니다.

 

[ k-Fold Cross-Validation]

반복횟수 분할 데이터 섞음 총 모델 수
10 5 50

[Test Score Mean(Std)]

  Accuracy F1 Score ROC_AUC 
평균 0.654 0.653 0.716
표준편차 0.013 0.016 0.017

3. SHAP 분석(Importance, Summary plot)

 - 50개의 모델에 대한 SHAP value의 평균을 분석 데이터로 사용합니다.

 - Importance plot: 절대값, Summary plot: 양수/음수 산점도

 - SHAP value는 양수일 경우 양의 영향력을, 음수일 경우 음의 영향력을 가집니다.

    (양의 값: 5년 이상 운영으로 분류될 확률이 높음)

 - 변수의 값이 클수록 붉게, 작을수록 파랗게 표시됩니다.

 

 1) 참조 논문 결과: 2023년 8월 1일 기준 (5년 이상 영업 폐업 / 6개월 미만 영업 폐업)

   - 참조 논문의 결과를 '이전 결과'라고 한다면, 이전 결과에서는 1000m 내 60대 생활인구비시설규모가 가장 큰 영향력을 행사함을 확인할 수 있습니다. 두 요인 모두 값이 클수록 5년 이상 운영으로 분류될 확률이 높아집니다.

   - 세번 째로 큰 영향력을 행사는 요인은 300m 내 유사업태 수입니다. 위 두 경우와 반대로 값이 클수록 6개월 미만 영업으로 분류 될 확률을 높입니다.

 

[ 2023년 8월 1일 기준 ( 5년 이상 영업 폐업 / 6개월 미만 영업 폐업) 출처: 참조논문( ISSN 1225-0988 ❘ EISSN 2234-6457)]

 

 2) 2024년 11월 5일 기준 (5년 이상 영업중 / 1년 미만 영업 폐업)

   - 이전 결과와 동일하게 1000m 내 60대 생활인구비 시설규모가 가장 큰 영향력을 행사함을 확인할 수 있었습니다. 그리고 규모의 영향력이 다른 요인에 비해서 상대적으로 크고, 얇은 꼬리가 없고, 이전 결과에 비해 더 높은 영향력에 높은 값의 분포가 많은 특징을 보입니다. 시설규모가 고르게 분포하고, 큰 음식점이 많은 것으로 확인됩니다.

   - 300m 내 업태의 다양성의 경우 이전 결과에 비해 반대 방향으로 돌아서는 양상을 보입니다.

 

[ 2024년 11월 5일 기준 (5년 이상 영업중 / 1년 미만 영업 폐업)]

 

   - 가장 영향력이 큰 시설규모를 제외할 경우 모델의 성능과 영향력이 어떻게 바뀌는지 확인해보겠습니다.

   - 전체적으로 모델의 성능이 떨어지는 것을 확인할 수 있고, 1000m 내 60대 생활인구비가 여전히 영향력이 큰 것으로 보이나 이전 결과와 달랐던 300m 내 업태의 다양성이 가장 큰 영향력을 행사하는 것으로 확인됩니다.

 

[Test Score Mean(Std)]

  Accuracy F1 Score ROC_AUC 
평균 0.596(0.058) 0.608(0.045) 0.645(0.071)

 

[ 2024년 11월 5일 기준 (5년 이상 영업중 / 1년 미만 영업 폐업) 시설규모 제외]

 

 

4. SHAP 분석(Dpendence plot)

 - 요인의 영향력과 상호작용을 같이 나타낸 그래프입니다. 개별 변수에 대해 자세한 정보를 확인할 수 있습니다.

 

 1) 1000m 내 60대 생활인구 비율

   - 60대 생활인구 비율이 높아질 수록 장기 운영으로 분류될 확률이 높아집니다. 10% 이상이 될 경우 영향력이 퍼지는 경향을 보입니다.

   - 업태의 다양성은 고르게 분포하여 60대 비율과 상호작용이 없는 것을 확인할 수 있습니다.

 

[1000m 내 60대 생활인구 비율 vs 300m 내 업태 다양성 ]

 

 2) 300m 내 업태 다양성

   - 다양한 유사업태의 음식점이 모여 있는 경우  장기 운영으로 분류될 확률이 높아질 수 있지만 반대의 경우가 아주 없는 것은 아닌 것으로 보입니다. SHAP value의 0을 기준으로 우측으로 갈 수록 분포가 많아 지는 것을 확인할 수 있습니다.

   - 단기체류 외국인은 업태가 다양한 쪽으로 높은 분포를 보입니다.

 

[300m 내 업태 다양성 vs 300m 내 단기체류외국인]

 

5. 결론

 1) 장단기 운영 여부를 분류하는 목적은 음식점의 생존에 대한 문제임에 따라 단기 표본은 경영의 어려움으로 폐업하는 음식점 을 표본으로 추출해야 합니다. 하지만 공공데이터를 통해서는 구분이 안되는 치명적인 문제가 있었습니다. 또한 가장 영향력이 큰 시설규모의 경우 값이 커지면 음식점의 가치가 같이 커짐에 따라 양도양수의 빈도가 낮을 것으로 자연스럽게 예상할 수 있습니다. (글쓴이의 경험과 프렌차이즈 관리자의 인터뷰를 통해 단기간 운영한 잘 되는 음식점을 '양도양수' 하는 경우가 비번함을 알 수 있었음)

 

 2) 시설규모를 제외하면 60대 생활인구 비율과 업태의 다양성이 뚜렷한 영향력을 보이고 있습니다.

   

 3) 특히 노인 인구에 대해서는 통계청 「2024 고령자통계」의 내용을 미루어 볼 때 ‘24년 65세 이상 고령인구는 전체 인구의 19.2%로, 향후 계속 증가하여 ’25년에 20%, ‘36년에 30%, ’50년에 40%로 전망 되는 가운데  '23년 가구주 65세 이상 고령자 가구의 순자산액은 4억 5,540만 원(전년 대비 176만원 증가)으로 상대적 빈곤율 또한 증가하고 있지만 소득이 보장된 인구가 많은 것을 확인할 수 있습니다.

 

 4) 또한 2022년 65세 이상 고용률은 36.2%로 지난 10년간 6.1%p 상승하였고, ’21년 OECD 회원국 중 65세 이상 고용률은 우리 나라가 가장 높은 수준입니다.

 

 5) 따라서 단기 영업 후 폐업 사유를 확인할 수 없는 문제로 인해 직접적으로 본 모델을 기용하기는 어렵다고 생각됩니다. 다만 거시적인 측면에서 높은 60대 생활인구와 업태의 다양성이 장기적으로 음식점을 운영하는데 유리하다고 판단됩니다.