본문 바로가기

XGBoost

서울시 음식점의 장단기 운영 예측 #2 [데이터 수집]

모델 생성에 사용된 데이터는 참조 논문에서 사용한 40개 중 우수하다고 판단된 26개의 요인(독립변수)입니다.

요인의 종류와 출처는 마지막에 작성하였습니다.

(※ 지가정보는 시설규모와 다중공선성 문제가 야기 될 수 있어 제외합니다.)

 

데이터 수집에서 알고 넘어가야 하는 부분이 2가지 있습니다.

 

1. 음식점의 정의 및 선택 기준

2. 거리정보


1. 음식점의 정의 및 선택 기준

 1) 음식점의 종류

   - 식품위생법에 따라 식품접객업은 일반음식점, 휴게음식점, 단란주점, 유흥주점, 위탁급식, 제과점으로 나눌 수 있습니다.

   - 본 내용에서 이야기하는 음식점은 '일반음식점', '휴게음식점'만을 대상으로 합니다.

   - 일반음식점은 주류를 판매할 수 있고, 휴게음식점은 불가합니다.

 

 2) 연구 대상 음식점의 선택 기준

   - 아래의 조건으로 장기와 단기로 나눠지고, 추출 대상이 됩니다.

     (각 2,000개의 음식점을 무작위 추출하여 대상 음식점으로 사용)

   - 2020, 2021년은 코로나-19로 인한 영향을 최소화 하고자 제외 합니다.

구분 영업기간 인허가기간 폐업년도
장기 5년이상 2017-01-01 ~ 2024-11-05 -
단기 2개월 이상 1년 미만 - 2023, 2024

 3) 음식점에 대한 동일, 유사 업태

   - 식품접객업에는 여러가지 업태(냉면집, 커피숍, 편의점 등)가 있고, 서로 동일하지 않은 업태는 유사업태라고 합니다.

   - 동일, 유사 업태의 수/비율을 데이터로 사용할 때는 2024-11-05에 영업중일 경우 '2024-11-05', 폐업한 경우 '폐업일'이 겹치는

     다른 음식점으로 합니다.


2. 거리정보

 - 음식점을 기준으로 250~1000m 반경의 인구, 시설 등의 정보를 데이터로 사용합니다.

 - 모든 데이터는 QGIS(https://www.qgis.org/)를 통해 동일한 척도로 변경하여 사용합니다.

 - 인구정보의 경우 국가공간정보포털의 건물통합정보(2024년 7월 15일)를 통해 건물 연면적 대비 집계구의 인원수로 계산 됩니다.

 - 거리 기준은 음식점과 건물통합정보는 건물 중심점을, 공공시설과 초중고는 꼭지점(모서리)을 사용합니다.

 - 거리 길이는 유클리드 거리(Euclidean Distance)를 사용합니다.

[QGIS를 이용한 음식점 반경 300m 밖에 있는 건물과의 거리]


[음식점 특징]

구분 출처
주류판매여부 지방행정 인허가 데이터
( 2024년 11월 5일)
시설규모

[동일업종, 유사업종]

구분 300m 내 출처
동일업태 수 지방행정 인허가 데이터
( 2024년 11월 5일)
유사업태 수
동일업태 비율
업태 다양성

[생활인구, 체류 외국인]

구분 300m 내 1000m 내 출처
생활인구 수   서울시 열린 데이터 광장
집계구 단위
생활인구 데이터
( 2024년 11월 1일)
20대 비율
30대 비율
40대 비율
50대 비율
60대 비율
단기 체류 중국인
단기 체류 외국인
장기 체류 중국인  
장기 체류 외국인  

[근로인구]

구분 300m 내 출처
근로인구 스마트치안 빅데이터 플랫폼 직장인구 데이터
(2023년 6월 27일)

[공공시설, 초중고]

구분 250m 내 출처
공공시설 서울시 열린 데이터 광장
도시계획시설(공공,문화체육시설)
( 2024년 11월 7일)
초중고