3-3. 시장데이터 수집 : 인구데이터 수집
데모그래픽 데이터: 가장 기본적이지만 쉽게 놓치는 데이터
데이터 분석을 할 때 **인구 데이터(데모그래픽 데이터)**는 가장 기본적인 정보로 여겨진다. 연령, 성별, 지역, 소득 수준, 교육 수준 등과 같은 데이터는 소비자 행동을 이해하고, 시장을 세분화하며, 맞춤형 전략을 수립하는 데 필수적인 요소다.
하지만 현실에서는 이 데이터를 수집하고 정리하는 과정이 생각보다 번거롭기 때문에, 쉽게 등한시되는 경우가 많다. 많은 분석가들이 데모그래픽 데이터의 중요성을 알고 있음에도 불구하고, 복잡한 수집 과정이나 데이터의 업데이트 주기 문제 때문에 이를 적극적으로 활용하지 않는 경우가 흔하다.
하지만 이러한 데이터를 제대로 활용하지 않으면, 분석의 기본적인 틀이 흔들릴 수 있다. 예를 들어, 특정 브랜드의 제품을 구매하는 소비자가 어떤 연령대에 속하는지, 특정 지역에서 특정 서비스의 수요가 얼마나 높은지 등을 모른다면, 마케팅 전략을 효과적으로 설계하기 어렵다. 즉, 데모그래픽 데이터는 단순히 ‘있으면 좋은 데이터’가 아니라, 분석의 기본적인 기반을 형성하는 요소라고 볼 수 있다.
그래서 이 글에서는 데모그래픽 데이터를 보다 체계적으로 수집하는 방법과 그 과정에서 고려해야 할 점들을 안내하고자 한다. 데이터를 보다 쉽게 확보하고 활용할 수 있도록, 실질적인 가이드라인을 제공하는 것이 목표다.
1. 데이터 소스
국가통계포털 (https://kosis.kr)로 들어가면 국내통계, 국제통계 등 다양한 통계를 볼 수 있는 탭들이 보인다. 그중에 국내통계 위에 마우스를 올리면 주제별 통계를 클릭한다.

주제별 통계를 클릭하면 인구가 나오고, 인구부문 > 총조사인구 > 전수부문 > 전수기본표 > 인구, 가구 및 주택을 클릭한다.

클릭하면 새로운 창이 뜨면서 데이터를 볼 수 있다. 화면에서 시점을 누르면 원하는 년도를 선택할 수 있다.

이제 데이터를 받아보자. API를 이용해서 받을 수도 있지만, 연 1회 정도 업데이트 되기 때문에 엑셀로 다운을 받아서 정제하는 것이 효율적이다.

다운로드를 누르면 설정창 팝업이 뜨는데, 그대로 다운로드를 받으면 된다.

데이터를 다운로드하여 보면 구조가 아래와 같다. 읍부, 면부, 동부는 각각 읍에 사는 인구, 면, 동에 사는 인구를 의미하기에 삭제해도 무방하다.

이제 분석이나 모델링 시에 활용하기 쉽도록 테이블 편집을 하면 끝난다.
1) 맨 앞에 컬럼을 추가해서 해당 셀의 시도명을 입력하기
2) 전국, 읍부, 면부, 동부, 시도명(서울특별시 등) 집계 열 삭제하기
3) 맨 앞에 컬럼을 추가해서 값에 연도 입력하기
그러면 아래와 같이 *RDBMS형태가 되어 분석 및 모델링에 활용하기 쉽다

RDBMS란
RDBMS(Relational Database Management System)는 관계형 데이터베이스 관리 시스템을 의미한다. 이는 데이터를 표 형태로 저장하고 관리하는 데이터베이스 시스템으로 각 표는 행과 열로 구성된다. 그래서 SQL(Structured Query Language)을 사용하여 데이터베이스를 관리하고 조작한다.