모델 생성에 사용된 데이터는 참조 논문에서 사용한 40개 중 우수하다고 판단된 26개의 요인(독립변수)입니다.
요인의 종류와 출처는 마지막에 작성하였습니다.
(※ 지가정보는 시설규모와 다중공선성 문제가 야기 될 수 있어 제외합니다.)
데이터 수집에서 알고 넘어가야 하는 부분이 2가지 있습니다.
1. 음식점의 정의 및 선택 기준
2. 거리정보
1. 음식점의 정의 및 선택 기준
1) 음식점의 종류
- 식품위생법에 따라 식품접객업은 일반음식점, 휴게음식점, 단란주점, 유흥주점, 위탁급식, 제과점으로 나눌 수 있습니다.
- 본 내용에서 이야기하는 음식점은 '일반음식점', '휴게음식점'만을 대상으로 합니다.
- 일반음식점은 주류를 판매할 수 있고, 휴게음식점은 불가합니다.
2) 연구 대상 음식점의 선택 기준
- 아래의 조건으로 장기와 단기로 나눠지고, 추출 대상이 됩니다.
(각 2,000개의 음식점을 무작위 추출하여 대상 음식점으로 사용)
- 2020, 2021년은 코로나-19로 인한 영향을 최소화 하고자 제외 합니다.
구분 | 영업기간 | 인허가기간 | 폐업년도 |
장기 | 5년이상 | 2017-01-01 ~ 2024-11-05 | - |
단기 | 2개월 이상 1년 미만 | - | 2023, 2024 |
3) 음식점에 대한 동일, 유사 업태
- 식품접객업에는 여러가지 업태(냉면집, 커피숍, 편의점 등)가 있고, 서로 동일하지 않은 업태는 유사업태라고 합니다.
- 동일, 유사 업태의 수/비율을 데이터로 사용할 때는 2024-11-05에 영업중일 경우 '2024-11-05', 폐업한 경우 '폐업일'이 겹치는
다른 음식점으로 합니다.
2. 거리정보
- 음식점을 기준으로 250~1000m 반경의 인구, 시설 등의 정보를 데이터로 사용합니다.
- 모든 데이터는 QGIS(https://www.qgis.org/)를 통해 동일한 척도로 변경하여 사용합니다.
- 인구정보의 경우 국가공간정보포털의 건물통합정보(2024년 7월 15일)를 통해 건물 연면적 대비 집계구의 인원수로 계산 됩니다.
- 거리 기준은 음식점과 건물통합정보는 건물 중심점을, 공공시설과 초중고는 꼭지점(모서리)을 사용합니다.
- 거리 길이는 유클리드 거리(Euclidean Distance)를 사용합니다.
[음식점 특징]
구분 | 출처 |
주류판매여부 | 지방행정 인허가 데이터 ( 2024년 11월 5일) |
시설규모 |
[동일업종, 유사업종]
구분 | 300m 내 | 출처 |
동일업태 수 | ○ | 지방행정 인허가 데이터 ( 2024년 11월 5일) |
유사업태 수 | ○ | |
동일업태 비율 | ○ | |
업태 다양성 | ○ |
[생활인구, 체류 외국인]
구분 | 300m 내 | 1000m 내 | 출처 |
생활인구 수 | ○ | 서울시 열린 데이터 광장 집계구 단위 생활인구 데이터 ( 2024년 11월 1일) |
|
20대 비율 | ○ | ○ | |
30대 비율 | ○ | ○ | |
40대 비율 | ○ | ○ | |
50대 비율 | ○ | ○ | |
60대 비율 | ○ | ○ | |
단기 체류 중국인 | ○ | ○ | |
단기 체류 외국인 | ○ | ○ | |
장기 체류 중국인 | ○ | ||
장기 체류 외국인 | ○ |
[근로인구]
구분 | 300m 내 | 출처 |
근로인구 | ○ | 스마트치안 빅데이터 플랫폼 직장인구 데이터 (2023년 6월 27일) |
[공공시설, 초중고]
구분 | 250m 내 | 출처 |
공공시설 | ○ | 서울시 열린 데이터 광장 도시계획시설(공공,문화체육시설) ( 2024년 11월 7일) |
초중고 | ○ |
'XGBoost' 카테고리의 다른 글
서울시 음식점의 장단기 운영 예측 #3 [분석과 결과] (3) | 2024.11.27 |
---|---|
서울시 음식점의 장단기 운영 예측 #1 [논문과 목표] (2) | 2024.11.22 |