데이터사이언스 10

성과분석의 필요성 : 실패는 성공의 어머니다? 아니다?

원인과 결과, 즉 원리를 밝혀내려는 고민과 집중의 여부가 실패가 성공의 어머니가 되는 전제조건이다.실패는 성공의 어머니라는 말은 맞다. 하지만 이 말이 성립하려면 반드시 전제가 필요하다. 실패를 통해 성공으로 나아가기 위해서는 단순히 반복적인 시도만으로는 부족하다. 어떤 과정에서, 어떤 조건 속에서 시도되었는지를 명확히 파악하고, 어느 부분에서 어떤 특징을 보이며 실패했는지를 객관적으로 분석해야 한다. 그렇게 원인과 결과를 깊이 있게 이해해야만 다음 시도를 개선할 수 있고, 점진적으로 성공에 가까워질 수 있다. 거창한 의사결정 프로세스가 아니더라도 메타인지적 접근이 중요하다. 즉, 치밀하게 과정을 준비하고 정성스럽게 결과를 이해하며, 실패를 단순한 좌절이 아니라 개선을 위한 데이터로 활용하는 것이 핵심이..

6. 성과분석 2024.10.14

2. 머신러닝 기반 분석 : 순열 중요도 (Permutation Importance)

Feature Importance(변수중요도)가 해당 변수를 통해서 측정값 분류가 얼마나 잘 이뤄지는지를 확인하는 방식이라면, Permutation Importance(순열 중요도)는 변수의 값을 무작위로 변경하여 모델성능을 평가하여, 해당 변수가 모델의 성능에 미치는 영향을 측정하는 방식이다. 예를 들면 예측 모델이 있다면 예측 성능(예: 정확도, 평균 제곱 오차 등)이 특정 변수를 무작위로 섞었을 때 얼마나 감소하는지를 측정하여 피처의 중요도를 평가한다. 이를 통해서 모델이 해당 변수에 얼마나 의지하고 있는지 직접적으로 볼 수 있다. 장점은 Feature Importance가 분류기반 모델에서만 가능한 반면, Permutation Importance는 모델의 구조에 의존하지 않고 어떤 모델에도 적용할..

2. 머신러닝 기반 분석 : 변수 중요도 (Feature Importance)

변수 중요도 (Feature Importance)는 각 변수가 모델이 하나의 값을 정확히 예측 또는 분류하는데 얼마나 중요한지를 나타내는 지표다. 예를 들면 매출 변화에 날씨, 계절 등등 여러 변수들이 얼마나 영향을 끼치는지를 나타낸 수치다. 그래서 예측 및 분류모델에 따라 피처 중요도를 계산 방법이 조금씩 다르다. 가장 일반적인 측정방법은 다음과 같다. ▶  Decision Trees (의사결정 나무)의사결정 나무 모델에서의 변수 중요도는 각 변수가 결과값을 얼마나 잘 분류하는데 기여했는지를 계산한다. 특정 변수를 사용한 분류로 인해 발생하는 불순도의 감소(예: 지니 불순도 감소 또는 엔트로피 감소 등 기준은 여러 가지가 될 수 있다)가 클수록 해당 변수의 중요도가 높게 평가된다.▶  Random Fo..

3-3. 시장데이터 수집 : 인구데이터 수집

데모그래픽 데이터: 가장 기본적이지만 쉽게 놓치는 데이터데이터 분석을 할 때 **인구 데이터(데모그래픽 데이터)**는 가장 기본적인 정보로 여겨진다. 연령, 성별, 지역, 소득 수준, 교육 수준 등과 같은 데이터는 소비자 행동을 이해하고, 시장을 세분화하며, 맞춤형 전략을 수립하는 데 필수적인 요소다.하지만 현실에서는 이 데이터를 수집하고 정리하는 과정이 생각보다 번거롭기 때문에, 쉽게 등한시되는 경우가 많다. 많은 분석가들이 데모그래픽 데이터의 중요성을 알고 있음에도 불구하고, 복잡한 수집 과정이나 데이터의 업데이트 주기 문제 때문에 이를 적극적으로 활용하지 않는 경우가 흔하다.하지만 이러한 데이터를 제대로 활용하지 않으면, 분석의 기본적인 틀이 흔들릴 수 있다. 예를 들어, 특정 브랜드의 제품을 구매..

3-2. 시장데이터 수집 : 네이버 카페 크롤링 (selenium)

특정 주제에 대해서 시장트렌드나 사람들의 니즈를 확인하기 위해서 다양한 데이터가 활용된다. 그중에 가장 흔히 사용되는 온라인 커뮤니티, 그중에서도 네이버 카페 크롤링 방법을 알아보자.파이썬 라이브러리 버전 등 환경설정 문제를 피하기 위해서 Colab 같은 클라우드 환경을 주로 사용하지만, 네이버 카페의 경우 보안로그인(CAPTCHA) 과정이 필요해서 온프레미스 환경에서 구현되도록 했다.1) 네이버 로그인from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by i..

3-1. 시장데이터 수집

시장데이터는 시장을 이해하고 나아가서 최종적으로 시장이 어떻게 돌아가는지 정의하는데 매우 중요한 데이터다. 판매량, 고객수 등 성과지표에 문제가 생기면 급한 마음에 비즈니스 내부적인 문제만 바라보고 있을 수 있지만, 성과지표 감소의 이유를 고민하며 따라가다 보면 결국 시장에서 사람들의 바뀐 행동과 관심사를 따라가지 못하고 있다는 결론에 이르게 된다. 즉 사람들의 라이프스타일, 정보 습득방식, 구매하는 채널, 가치를 느끼는 부분들이 바뀌었는데 회사가 인식하지 못하고, 과거에 시장에서 먹히던(?) 방식을 유지하고 있는 경우가 많다. 안타깝게도 사람들이 원하는 방식과 니즈가 바뀐 것인데, 내부적으로 자사의 제품과 서비스만 바라보고 시장과 맞지 않은 개선방향으로 움직이고 또 실패하는 악순환이 발생하는 경우도 꽤..

2-2. 고객 데이터 수집 : 오프라인 고객 데이터 수집

1) GPS고객의 오프라인 위치 데이터를 수집하는 가장 널리 알려진 방법이다. 고객 휴대기기의 GPS 신호를 바탕으로 실시간 위치 데이터를 수집할 수 있다. 실시간으로 사용자가 움직이는 대로 위치 데이터를 수집할 수 있는 장점이 있는 반면, 실제 위치와의 오차가 다른 기술에 비해서 크다는 단점이 있다. 참고로 구글 지도에서 제공하는 GPS를 통한 위치 오차는 20m 내외로 제공하고 있다. 오차가 큰 단점을 보완하여 서비스화 시키기 위해서 지오펜싱(Geofencing)을 설정하여 활용하는 경우가 많다. 지오펜스는 원하는 영역 (보통 km 단위의 넓은 영역)의 좌표로 영역을 정해놓고, 사용자의 GPS 신호가 그 영역 안에 들어왔을 때 마케팅 메시지를 보낸다든가 하는 식으로 서비스를 제공하는 방식이다. 2) ..

1. 데이터 종류

데이터 인프라 구축의 첫 단계는 데이터 수집이다. 데이터를 제대로 수집하려면, 먼저 어떤 유형의 데이터가 존재하는지를 이해하는 것이 중요하다. 일반적으로 데이터는 자사 데이터와 외부 데이터로 구분되지만, 실제 비즈니스 활용 관점에서 보면 고객 데이터, 성과 데이터, 운영 데이터, 환경(시장) 데이터 등으로 세분화할 수 있다. 각 데이터 유형은 수집 방식과 활용 목적이 다르며, 데이터의 특성에 따라 저장 방식과 분석 방법도 달라진다. 데이터 종류데이터 소스데이터 활용고객 데이터 • 데모그래픽(연령, 성별 등)• 행동 (퍼널, 고객여정 등)• 사이코그래픽 (리뷰 등) • CRM, 앱서비스 고객정보• 외부 데이터 (카드사 등) • 고객특성 이해• 고객세분화, 타겟팅, 개인화 등성과 데이터 • 매출, 고객수,..

1. 시각화 분석 : 데이터 분석 시스템 (BI)

비즈니스 성과 지표(Key Performance Indicator, KPI)가 정해졌다면, 이를 단순히 정리하고 보고하는 것이 아니라 수시로 확인하고 분석할 수 있는 모니터링 시스템을 마련하는 것이 필수적이다. 기업 환경은 빠르게 변화하며, 특정 지표가 변동하는 이유를 실시간으로 분석할 수 있어야 효과적인 의사결정을 내릴 수 있다.현재 많은 조직에서는 여전히 엑셀(Excel)과 파워포인트(PowerPoint)를 활용하여 데이터를 정리하고, 이를 정리한 후 보고하는 방식을 따르고 있다. 이러한 방식은 익숙한 툴을 사용하기 때문에 접근성이 높다는 장점이 있지만, 담당자가 매주, 매월 수작업으로 데이터를 업데이트해야 한다는 리소스 문제가 있다. 또한, 특정한 성과 지표만을 수작업으로 정리하기 때문에, 제한된 ..

3-1. 성과지표 체계(KPI Tree) 수립 및 검증

성과지표 (KPI / KPD) 수립비즈니스의 성과는 일련의 과정을 통해서 발생한다. 예를 들어 매출은 고객의 제품에 대한 인지 > 홈페이지 방문 > 제품 탐색 > 장바구니 담기 > 구매와 같은 과정을 거쳐서 발생한다. 즉 고객의 여정을 통해서 매출이 발생한다. 성과지표도 이와 같이 구성된다. 비즈니스의 좋고 나쁨을 바로 알 수있는 지표들 (예를 들면, 유입자수, 매출액, 매출량, ROI 등)이 KPI로 정해진다. 핵심지표(KPI)를 통해서 현재 비즈니스의 상태를 확인할 수 있지만, 그 지표를 변동시키는 요소들과 각 요소별 중요성을 알기는 어렵다. 그래서 핵심 성과지표를 구성하는 보조지표인 핵심 보조지표(KPD : Key Performance Driver)가 필요하다. 보조지표는 여러 층으로 구성될 경우 ..

반응형