1. 데이터 종류
데이터 인프라 구축의 첫 단계는 데이터 수집이다. 데이터를 제대로 수집하려면, 먼저 어떤 유형의 데이터가 존재하는지를 이해하는 것이 중요하다. 일반적으로 데이터는 자사 데이터와 외부 데이터로 구분되지만, 실제 비즈니스 활용 관점에서 보면 고객 데이터, 성과 데이터, 운영 데이터, 환경(시장) 데이터 등으로 세분화할 수 있다. 각 데이터 유형은 수집 방식과 활용 목적이 다르며, 데이터의 특성에 따라 저장 방식과 분석 방법도 달라진다.
데이터 종류 | 데이터 소스 | 데이터 활용 | |
고객 데이터 | • 데모그래픽(연령, 성별 등) • 행동 (퍼널, 고객여정 등) • 사이코그래픽 (리뷰 등) | • CRM, 앱서비스 고객정보 • 외부 데이터 (카드사 등) | • 고객특성 이해 • 고객세분화, 타겟팅, 개인화 등 |
성과 데이터 | • 매출, 고객수, 판매량 등 | • 영업관리 데이터 (SAP, 세일즈포털 등) | • 성과 모니터링 및 변동 원인분석 • 비즈니스 요소간 메커니즘 이해 |
운영 데이터 | • 판매원 현황, 이동경로 등 | • 내부 운영데이터 | • 운영현황 모니터링 및 변동분석 • 운영효율화 및 개선 |
환경(시장) 데이터 | • 시장트렌드, 경쟁사 정보 • 데모그라피 (인구, 수명 등) | • 외부데이터 (패널, 공공데이터 등) • 크롤링 (온라인몰, 지도 등) | • 시장 모니터링, 경쟁사 분석 • 시장 규모, 추세분석 |
<데이터 종류와 활용 by 모딜리아니 디지털전환 작업실>
각 데이터마다 용도가 조금씩 다르고 수집방식도 여러 가지다. 고객 데이터는 비즈니스에서 가장 중요한 데이터 중 하나다. 고객이 누구인지, 어떤 행동을 했는지, 어떤 니즈를 가지고 있는지를 분석하여 마케팅과 제품 개선에 활용할 수 있다. 고객 데이터는 크게 온라인 고객 데이터와 오프라인 고객 데이터로 나뉜다. 온라인 고객 데이터는 웹사이트나 모바일 애플리케이션에서 고객이 남긴 행동 데이터를 의미한다. 이를 수집하는 대표적인 방법으로는 Google Analytics(GA)와 Adobe Analytics 같은 웹 분석 도구가 있다. 이러한 도구를 활용하면 방문자 수, 페이지 체류 시간, 클릭 경로, 전환율 등의 데이터를 추적할 수 있다. 또한, 뷰저블(Beusable)과 같은 시각화 도구를 사용하면 사용자의 마우스 움직임, 클릭 히트맵, 스크롤 패턴을 분석하여 웹사이트나 앱의 UX/UI를 최적화하는 데 도움을 줄 수 있다. 마우스 여정 데이터를 연구하는 방법도 있는데, 이는 고객이 웹사이트에서 어떤 경로를 따라 이동하는지 분석하여 사용자의 관심사를 예측하는 데 활용된다. 오프라인 고객 데이터는 물리적인 환경에서 고객이 남기는 데이터를 의미한다. 고객이 자동차나 모바일 기기 등과 같은 디지털 장치를 통해 생성하는 데이터가 대표적이다. 예를 들어, GPS 정보, Wi-Fi 신호, 통신사의 수발신 기록 등을 활용하면 고객의 이동 경로나 오프라인 매장 방문 패턴을 분석할 수 있다. 또한, Computer Vision(CV) 기술을 활용하면 CCTV 영상이나 매장 내 센서를 통해 고객의 동선을 추적하고, 오프라인 공간에서의 행동 데이터를 수집할 수도 있다. 이러한 데이터는 오프라인 매장 레이아웃 최적화, 방문자 분석, 광고 효과 측정 등의 목적으로 활용된다.
성과 데이터는 비즈니스 목표와 관련된 지표를 측정하는 데 사용된다. 제품 판매량, 웹사이트 전환율, 광고 캠페인 성과, 고객 유지율 등이 이에 해당한다. 이러한 데이터는 일반적으로 회사 내부 시스템에서 축적되지만, 데이터가 불규칙하게 쌓이거나 일관되지 않게 관리되는 경우가 많아 지표를 산출하기 어렵게 만드는 경우가 많다. 일정 규모 이상의 회사에서는 SAP, Salesforce와 같은 ERP나 CRM 시스템을 통해 데이터를 체계적으로 관리하고, API를 활용해 데이터를 가져올 수도 있다. 하지만 이러한 시스템이 없는 경우, 개별 데이터 파일을 통합하는 과정이 필요하며, 이를 위해 데이터 웨어하우스나 데이터 마트를 구축하기도 한다.
운영 데이터는 비즈니스 프로세스와 관련된 데이터를 의미한다. 예를 들어, 재고 관리 데이터, 물류 데이터, 고객 서비스 이력 등이 운영 데이터에 해당한다. 이러한 데이터는 비즈니스의 원활한 운영을 지원하는 데 필수적이며, 실시간으로 모니터링되어야 하는 경우가 많다. 특히, 이커머스 플랫폼에서는 주문 데이터와 배송 데이터를 통합하여 고객에게 정확한 배송 예상 시간을 제공하는 것이 중요한데, 이를 위해 실시간 데이터 처리 시스템을 구축하기도 한다.
환경(시장) 데이터는 비즈니스 외부에서 발생하는 데이터를 의미한다. 산업 동향, 경쟁사 정보, 고객 트렌드 등을 분석하기 위해 외부 데이터를 활용하는 것이 일반적이다. 이러한 데이터는 공공 데이터, 패널 데이터, 웹 크롤링 데이터 등을 통해 수집할 수 있다. 예를 들어, 정부 기관이나 연구소에서 제공하는 공공 데이터를 활용하면 특정 산업의 성장률이나 소비자 지출 패턴을 분석할 수 있다. 또한, KDI나 Snowflake와 같은 데이터 마켓플레이스에서 특정 데이터를 구매하여 활용할 수도 있다. 웹 크롤링을 활용하면 경쟁사의 가격 변동, 리뷰 분석, 트렌드 변화를 실시간으로 추적할 수 있으며, 이를 통해 비즈니스 전략을 최적화하는 데 도움을 줄 수 있다.
API는 응용 프로그램 인터페이스(Application Programming Interface)의 약자로, 데이터를 제공하기 위한 서비스 제공자가 만든 규칙으로, 이 규칙에 따라 외부에서 해당 데이터를 요청하여 받을 수 있습니다. 이를 쉽게 이해하자면, API는 서비스 제공자와 사용자가 소통할 수 있도록 정해놓은 메뉴판과 같습니다. 프로그램이 이 메뉴판에 따라 주문(요청)을 하면, 서비스 제공자는 그에 맞는 요리(데이터)를 제공해 줍니다. 예를 들어, 날씨 정보를 제공하는 API를 사용한다면, 우리는 특정 도시의 날씨 데이터를 요청하는 방법(요청 규칙)을 알고 있어야 하고, 그에 따라 API는 해당 도시의 날씨 정보를 반환합니다.
############## API를 이용한 날씨데이터 요청 예시 ##############
# 해당 서비스에서 제공해준 키 입력
api_key = "DBCO255DKCR"
# 파라메터 : 해당 서비스의 API에서 정해준 쿼리 조건 형태에 맞게 입력
city = "Seoul"
# 해당 시스템에 데이터를 요청하는 주소
url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}"
# 데이터 요청
response = requests.get(url)
# 요청결과를 테이블 형태로 정리
data = response.json()
print(f"City: {data['name']}") # 도시명
print(f"Temperature: {data['main']['temp']}K") # 기온
print(f"Weather: {data['weather'][0]['description']}") # 날씨설명
데이터 수집 방식은 데이터의 성격과 활용 목적에 따라 달라진다. 온라인과 오프라인에서 발생하는 데이터를 통합적으로 관리하고 분석할 수 있도록 데이터 인프라를 설계하는 것이 중요하며, 이를 위해 적절한 도구와 시스템을 구축하는 것이 필수적이다. 데이터의 종류를 명확히 이해하고 적절한 방식으로 수집하면, 이를 기반으로 보다 정확한 의사결정을 내릴 수 있으며, 데이터 기반 조직으로 성장할 수 있는 기반을 마련할 수 있다. 이제 각 데이터 종류별로 수집하는 방법들에 대해서 차례로 알아보자.