데이터분석 11

성과분석의 필요성 : 실패는 성공의 어머니다? 아니다?

원인과 결과, 즉 원리를 밝혀내려는 고민과 집중의 여부가 실패가 성공의 어머니가 되는 전제조건이다.실패는 성공의 어머니라는 말은 맞다. 하지만 이 말이 성립하려면 반드시 전제가 필요하다. 실패를 통해 성공으로 나아가기 위해서는 단순히 반복적인 시도만으로는 부족하다. 어떤 과정에서, 어떤 조건 속에서 시도되었는지를 명확히 파악하고, 어느 부분에서 어떤 특징을 보이며 실패했는지를 객관적으로 분석해야 한다. 그렇게 원인과 결과를 깊이 있게 이해해야만 다음 시도를 개선할 수 있고, 점진적으로 성공에 가까워질 수 있다. 거창한 의사결정 프로세스가 아니더라도 메타인지적 접근이 중요하다. 즉, 치밀하게 과정을 준비하고 정성스럽게 결과를 이해하며, 실패를 단순한 좌절이 아니라 개선을 위한 데이터로 활용하는 것이 핵심이..

6. 성과분석 2024.10.14

간접적 / 직접적 전략수행

데이터를 이용한 전략수행은 두 가지 방향으로 진행된다. 앞서 얘기했던 직접적 전략수행은 머신러닝처럼 데이터를 이용해서 직접적으로 과제를 해결하는 방식이다. 여기서 얘기할 '간접적 전략수행'은 데이터 분석을 통해 전략방향을 수립하고 그로부터 전략방향(아이디어)들을 도출해서 시장검증을 거치는 일련의 비즈니스 의사결정 프로세스의 발전을 가리킨다. 이러한 전략기획 및 수행의 경우 대게 실무부서가 주체가 되고 데이터는 그들의 선택을 돕는 역할을 한다. 직접적 전략수행직접적 전략수행은 자동화나 디지털화의 성능 및 성과만 뚜렷하면 실무에 도입하는 데 있어 (대체되는 인력의 반발을 제외하면) 비교적 수월하다. 데이터 담당자 입장에서도 본인의 업무에만 집중하면 되기 때문에 선호하는 방향이다. 간접적 전략수행반면 간접적 ..

3. UX 리서치 : 참여관찰법

사용자를 이해하는 방식은 여러 가지다. 그리고 각 방법들은 장단점이 있어서 어떤 방법이 더 좋고 나쁘고의 차이보다 케이스별, 활용하는 사람별로 알맞은 방법이 있고, 결국 해봐야 아는 셈이다.이번에 얘기할 조사방법은 참여관찰법이다. 참여관찰법은 문화인류학에서 주로 사용되는 조사방법으로 연구자가 연구 대상 집단의 일상생활 속으로 직접 들어가 그들의 행동, 언어, 상호작용 등을 관찰하고 기록하는 방법이다. 씩데이터라는 용어는 노키아 실패를 예견한 트리시아 왕 박사가 처음 사용했다. 트리시아 왕은 빅데이터를 제대로 활용하기 위해 인문학적 이해가 필요하다고 역설했고, 이것이 ‘씩데이터’ 개념이다. 씩데이터는 인류학자 클리포드 기어츠의 ‘thick description(두터운 묘사)’에서 따왔다. 기어츠는 어떤 사..

2. 머신러닝 기반 분석 : 순열 중요도 (Permutation Importance)

Feature Importance(변수중요도)가 해당 변수를 통해서 측정값 분류가 얼마나 잘 이뤄지는지를 확인하는 방식이라면, Permutation Importance(순열 중요도)는 변수의 값을 무작위로 변경하여 모델성능을 평가하여, 해당 변수가 모델의 성능에 미치는 영향을 측정하는 방식이다. 예를 들면 예측 모델이 있다면 예측 성능(예: 정확도, 평균 제곱 오차 등)이 특정 변수를 무작위로 섞었을 때 얼마나 감소하는지를 측정하여 피처의 중요도를 평가한다. 이를 통해서 모델이 해당 변수에 얼마나 의지하고 있는지 직접적으로 볼 수 있다. 장점은 Feature Importance가 분류기반 모델에서만 가능한 반면, Permutation Importance는 모델의 구조에 의존하지 않고 어떤 모델에도 적용할..

2. 머신러닝 기반 분석 : 변수 중요도 (Feature Importance)

변수 중요도 (Feature Importance)는 각 변수가 모델이 하나의 값을 정확히 예측 또는 분류하는데 얼마나 중요한지를 나타내는 지표다. 예를 들면 매출 변화에 날씨, 계절 등등 여러 변수들이 얼마나 영향을 끼치는지를 나타낸 수치다. 그래서 예측 및 분류모델에 따라 피처 중요도를 계산 방법이 조금씩 다르다. 가장 일반적인 측정방법은 다음과 같다. ▶  Decision Trees (의사결정 나무)의사결정 나무 모델에서의 변수 중요도는 각 변수가 결과값을 얼마나 잘 분류하는데 기여했는지를 계산한다. 특정 변수를 사용한 분류로 인해 발생하는 불순도의 감소(예: 지니 불순도 감소 또는 엔트로피 감소 등 기준은 여러 가지가 될 수 있다)가 클수록 해당 변수의 중요도가 높게 평가된다.▶  Random Fo..

3-3. 시장데이터 수집 : 인구데이터 수집

데모그래픽 데이터: 가장 기본적이지만 쉽게 놓치는 데이터데이터 분석을 할 때 **인구 데이터(데모그래픽 데이터)**는 가장 기본적인 정보로 여겨진다. 연령, 성별, 지역, 소득 수준, 교육 수준 등과 같은 데이터는 소비자 행동을 이해하고, 시장을 세분화하며, 맞춤형 전략을 수립하는 데 필수적인 요소다.하지만 현실에서는 이 데이터를 수집하고 정리하는 과정이 생각보다 번거롭기 때문에, 쉽게 등한시되는 경우가 많다. 많은 분석가들이 데모그래픽 데이터의 중요성을 알고 있음에도 불구하고, 복잡한 수집 과정이나 데이터의 업데이트 주기 문제 때문에 이를 적극적으로 활용하지 않는 경우가 흔하다.하지만 이러한 데이터를 제대로 활용하지 않으면, 분석의 기본적인 틀이 흔들릴 수 있다. 예를 들어, 특정 브랜드의 제품을 구매..

모딜리아니 인사이트 리포트 : 시장 트랜드

요즘 시장은 많은 제품들 중에 왜 우리 제품을 써야하는지설명할 수 있어야 구매가 이뤄지는 시대다. 세월이 흐르면 많은 것들이 바뀐다. 나이처럼 천천히 바뀌기에 한참 지난 후에 돌아보면 새삼 달라진 것을 느끼게 된다. 시장도 마찬가지다. 과거에는 경쟁제품들도 많지 않고, 고객들도 광고에 지금처럼 무분별하게 노출되지 않아서 좋은 제품을 기억에 남는 카피로 각인시키면 매출이 올라가던 시대였다. 그런데 오랜기간 많은 제품들과 많은 광고에 노출되고 써본 고객들은 똑똑해졌다. 요즘 시장은 많은 제품들 중에 왜 우리 제품을 써야하는지 설명할 수 있어야 구매가 이뤄지는 시대다. 특히 어려운 경제상황에서 고객이 소중한 돈을 지불하는데 아래 여섯 가지 소구점들로 정리할 수 있다. 과연 우리 제품과 서비스는 이 점을 소구할..

3-2. 시장데이터 수집 : 네이버 카페 크롤링 (selenium)

특정 주제에 대해서 시장트렌드나 사람들의 니즈를 확인하기 위해서 다양한 데이터가 활용된다. 그중에 가장 흔히 사용되는 온라인 커뮤니티, 그중에서도 네이버 카페 크롤링 방법을 알아보자.파이썬 라이브러리 버전 등 환경설정 문제를 피하기 위해서 Colab 같은 클라우드 환경을 주로 사용하지만, 네이버 카페의 경우 보안로그인(CAPTCHA) 과정이 필요해서 온프레미스 환경에서 구현되도록 했다.1) 네이버 로그인from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by i..

1. 데이터 종류

데이터 인프라 구축의 첫 단계는 데이터 수집이다. 데이터를 제대로 수집하려면, 먼저 어떤 유형의 데이터가 존재하는지를 이해하는 것이 중요하다. 일반적으로 데이터는 자사 데이터와 외부 데이터로 구분되지만, 실제 비즈니스 활용 관점에서 보면 고객 데이터, 성과 데이터, 운영 데이터, 환경(시장) 데이터 등으로 세분화할 수 있다. 각 데이터 유형은 수집 방식과 활용 목적이 다르며, 데이터의 특성에 따라 저장 방식과 분석 방법도 달라진다. 데이터 종류데이터 소스데이터 활용고객 데이터 • 데모그래픽(연령, 성별 등)• 행동 (퍼널, 고객여정 등)• 사이코그래픽 (리뷰 등) • CRM, 앱서비스 고객정보• 외부 데이터 (카드사 등) • 고객특성 이해• 고객세분화, 타겟팅, 개인화 등성과 데이터 • 매출, 고객수,..

1. 시각화 분석 : 데이터 분석 시스템 (BI)

비즈니스 성과 지표(Key Performance Indicator, KPI)가 정해졌다면, 이를 단순히 정리하고 보고하는 것이 아니라 수시로 확인하고 분석할 수 있는 모니터링 시스템을 마련하는 것이 필수적이다. 기업 환경은 빠르게 변화하며, 특정 지표가 변동하는 이유를 실시간으로 분석할 수 있어야 효과적인 의사결정을 내릴 수 있다.현재 많은 조직에서는 여전히 엑셀(Excel)과 파워포인트(PowerPoint)를 활용하여 데이터를 정리하고, 이를 정리한 후 보고하는 방식을 따르고 있다. 이러한 방식은 익숙한 툴을 사용하기 때문에 접근성이 높다는 장점이 있지만, 담당자가 매주, 매월 수작업으로 데이터를 업데이트해야 한다는 리소스 문제가 있다. 또한, 특정한 성과 지표만을 수작업으로 정리하기 때문에, 제한된 ..

반응형