서울시 음식점의 장단기 운영 예측 #3 [분석과 결과]

분석을 위해 머신러닝 분류기 모델을 생성합니다. 참조 논문과 동일하게 Accuracy, F1 Score, ROC_AUC 성능평가를 통해 XGBoost가 적합한 모델임을 확인했습니다. 모델을 생성하고, SHAP 분석을 통해 각 요인(독립변수)의 영향력을 확인합니다.

분석 후 참조 논문과 같이 신규 음식점에 대한 장단기 운영 예측을 수행하려 하였으나 음식점의 폐업에는 '양도양수'가 빈번하게 일어나고 공공데이터만으로는 음식점의 폐업 사유가 운영 부진으로 인한 폐업인지 다른 사람에게 소유를 넘기기 위한 폐업인지 알 수 없기 때문에 장단기의 예측이 음식점 운영의 좋고 나쁨과 결부되기엔 적절하지 않다고 판단하여 분석 방법과 결과에 대해서만 설명합니다.

설명의 순서는 다음과 같습니다.

[모델: XGBoost]

1. GridSearchCV를 통한 최적의 하이퍼파라미터 탐색

2. 모델 생성

3. SHAP 분석(Importance, Summary plot)

4. SHAP 분석(Dpendence plot)

5. 결론

1. GridSearchCV를 통한 최적의 하이퍼파라미터 탐색

- 참조 논문에서 제안한 내용을 기준으로 다음과 같은 범위를 탐색하였습니다.

- 장단기의 데이터가 동일하게 2,000개이므로 Cost sensitive learing weights는 설정하지 않습니다.

[Model Hyperparameter Search Space]

하이퍼파라미터	범위
n_estimators	200, 400, 600
max_depth	5, 7, 9
learning_rate	0.07, 0.08, 0.09, 0.1
subsample	0.4, 0.5, 0.6
colsample_bytree	0.8, 0.9, 1.0
max_bin	33, 25
tree_method	hist, approx

[Best Hyperparameter]

하이퍼파라미터	값
n_estimators	400
max_depth	9
learning_rate	0.09
subsample	0.5
colsample_bytree	1.0
max_bin	33
tree_method	approx

2. 모델생성

- K-Fold 교차검증을 5분할씩 10번 수행하여 모델을 생성하고, 총 50개의 모델의 Accuracy, F1 Score, ROC_AUC를 평균하여 모델의 성능을 평가합니다.

[ k-Fold Cross-Validation]

반복횟수	분할	데이터 섞음	총 모델 수
10	5	○	50

[Test Score Mean(Std)]

	Accuracy	F1 Score	ROC_AUC
평균	0.654	0.653	0.716
표준편차	0.013	0.016	0.017

3. SHAP 분석(Importance, Summary plot)

- 50개의 모델에 대한 SHAP value의 평균을 분석 데이터로 사용합니다.

- Importance plot: 절대값, Summary plot: 양수/음수 산점도

- SHAP value는 양수일 경우 양의 영향력을, 음수일 경우 음의 영향력을 가집니다.

(양의 값: 5년 이상 운영으로 분류될 확률이 높음)

- 변수의 값이 클수록 붉게, 작을수록 파랗게 표시됩니다.

1) 참조 논문 결과: 2023년 8월 1일 기준 (5년 이상 영업 폐업 / 6개월 미만 영업 폐업)

- 참조 논문의 결과를 '이전 결과'라고 한다면, 이전 결과에서는 1000m 내 60대 생활인구비와 시설규모가 가장 큰 영향력을 행사함을 확인할 수 있습니다. 두 요인 모두 값이 클수록 5년 이상 운영으로 분류될 확률이 높아집니다.

- 세번 째로 큰 영향력을 행사는 요인은 300m 내 유사업태 수입니다. 위 두 경우와 반대로 값이 클수록 6개월 미만 영업으로 분류 될 확률을 높입니다.

[ 2023년 8월 1일 기준 ( 5년 이상 영업 폐업 / 6개월 미만 영업 폐업) 출처: 참조논문( ISSN 1225-0988 ❘ EISSN 2234-6457)]

2) 2024년 11월 5일 기준 (5년 이상 영업중 / 1년 미만 영업 폐업)

- 이전 결과와 동일하게 1000m 내 60대 생활인구비와 시설규모가 가장 큰 영향력을 행사함을 확인할 수 있었습니다. 그리고 시설규모의 영향력이 다른 요인에 비해서 상대적으로 크고, 얇은 꼬리가 없고, 이전 결과에 비해 더 높은 영향력에 높은 값의 분포가 많은 특징을 보입니다. 시설규모가 고르게 분포하고, 큰 음식점이 많은 것으로 확인됩니다.

- 300m 내 업태의 다양성의 경우 이전 결과에 비해 반대 방향으로 돌아서는 양상을 보입니다.

[ 2024년 11월 5일 기준 (5년 이상 영업중 / 1년 미만 영업 폐업)]

- 가장 영향력이 큰 시설규모를 제외할 경우 모델의 성능과 영향력이 어떻게 바뀌는지 확인해보겠습니다.

- 전체적으로 모델의 성능이 떨어지는 것을 확인할 수 있고, 1000m 내 60대 생활인구비가 여전히 영향력이 큰 것으로 보이나 이전 결과와 달랐던 300m 내 업태의 다양성이 가장 큰 영향력을 행사하는 것으로 확인됩니다.

[Test Score Mean(Std)]

	Accuracy	F1 Score	ROC_AUC
평균	0.596(0.058)	0.608(0.045)	0.645(0.071)

[ 2024년 11월 5일 기준 (5년 이상 영업중 / 1년 미만 영업 폐업) 시설규모 제외]

4. SHAP 분석(Dpendence plot)

- 요인의 영향력과 상호작용을 같이 나타낸 그래프입니다. 개별 변수에 대해 자세한 정보를 확인할 수 있습니다.

1) 1000m 내 60대 생활인구 비율

- 60대 생활인구 비율이 높아질 수록 장기 운영으로 분류될 확률이 높아집니다. 10% 이상이 될 경우 영향력이 퍼지는 경향을 보입니다.

- 업태의 다양성은 고르게 분포하여 60대 비율과 상호작용이 없는 것을 확인할 수 있습니다.

2) 300m 내 업태 다양성

- 다양한 유사업태의 음식점이 모여 있는 경우 장기 운영으로 분류될 확률이 높아질 수 있지만 반대의 경우가 아주 없는 것은 아닌 것으로 보입니다. SHAP value의 0을 기준으로 우측으로 갈 수록 분포가 많아 지는 것을 확인할 수 있습니다.

- 단기체류 외국인은 업태가 다양한 쪽으로 높은 분포를 보입니다.

5. 결론

1) 장단기 운영 여부를 분류하는 목적은 음식점의 생존에 대한 문제임에 따라 단기 표본은 경영의 어려움으로 폐업하는 음식점 을 표본으로 추출해야 합니다. 하지만 공공데이터를 통해서는 구분이 안되는 치명적인 문제가 있었습니다. 또한 가장 영향력이 큰 시설규모의 경우 값이 커지면 음식점의 가치가 같이 커짐에 따라 양도양수의 빈도가 낮을 것으로 자연스럽게 예상할 수 있습니다. (글쓴이의 경험과 프렌차이즈 관리자의 인터뷰를 통해 단기간 운영한 잘 되는 음식점을 '양도양수' 하는 경우가 비번함을 알 수 있었음)

2) 시설규모를 제외하면 60대 생활인구 비율과 업태의 다양성이 뚜렷한 영향력을 보이고 있습니다.

3) 특히 노인 인구에 대해서는 통계청 「2024 고령자통계」의 내용을 미루어 볼 때 ‘24년 65세 이상 고령인구는 전체 인구의 19.2%로, 향후 계속 증가하여 ’25년에 20%, ‘36년에 30%, ’50년에 40%로 전망 되는 가운데 '23년 가구주 65세 이상 고령자 가구의 순자산액은 4억 5,540만 원(전년 대비 176만원 증가)으로 상대적 빈곤율 또한 증가하고 있지만 소득이 보장된 인구가 많은 것을 확인할 수 있습니다.

4) 또한 2022년 65세 이상 고용률은 36.2%로 지난 10년간 6.1%p 상승하였고, ’21년 OECD 회원국 중 65세 이상 고용률은 우리 나라가 가장 높은 수준입니다.

5) 따라서 단기 영업 후 폐업 사유를 확인할 수 없는 문제로 인해 직접적으로 본 모델을 기용하기는 어렵다고 생각됩니다. 다만 거시적인 측면에서 높은 60대 생활인구와 업태의 다양성이 장기적으로 음식점을 운영하는데 유리하다고 판단됩니다.

저작자표시 변경금지 (새창열림)

'XGBoost' 카테고리의 다른 글

서울시 음식점의 장단기 운영 예측 #2 [데이터 수집] (0)	2024.11.22
서울시 음식점의 장단기 운영 예측 #1 [논문과 목표] (2)	2024.11.22

Easy Tools

서울시 음식점의 장단기 운영 예측 #3 [분석과 결과]

'XGBoost' 카테고리의 다른 글

티스토리툴바

서울시 음식점의 장단기 운영 예측 #3 [분석과 결과]

'XGBoost' 카테고리의 다른 글

'XGBoost' Related Articles

티스토리툴바