3. 비즈니스 분석 8

2-2. 데이터 분석결과 : 빅데이터와 스몰데이터 II

빅데이터와 스몰데이터(리서치 결과)는 데이터 자체의 특징에서 차이가 있을 뿐만 아니라, 분석 결과물의 성격에서도 상당한 차이가 있다. 이는 두 데이터가 제공하는 정보의 종류가 다르고, 이를 해석하는 방식이 다르기 때문이다.빅데이터는 대규모 데이터를 기반으로 행태(Behavior)와 액션(Action)에 대한 수치적 분석이 가능하다. 즉, 많은 사람들이 어떤 방식으로 움직이고, 어떤 패턴을 보이는지 분석할 수 있다. 예를 들어, "방문 횟수가 10% 증가하면 구매 횟수가 2% 증가한다"는 식으로, 딱 떨어지는 수치 기반의 관계를 도출할 수 있다. 이러한 정보는 명확하고 선명하기 때문에, 실무자들을 설득하기가 상대적으로 쉽다. 또한, 데이터의 신뢰성이 높고 대규모 표본을 기반으로 하기 때문에, 객관적으로 보..

3. UX 리서치 : 참여관찰법

사용자를 이해하는 방식은 여러 가지다. 그리고 각 방법들은 장단점이 있어서 어떤 방법이 더 좋고 나쁘고의 차이보다 케이스별, 활용하는 사람별로 알맞은 방법이 있고, 결국 해봐야 아는 셈이다.이번에 얘기할 조사방법은 참여관찰법이다. 참여관찰법은 문화인류학에서 주로 사용되는 조사방법으로 연구자가 연구 대상 집단의 일상생활 속으로 직접 들어가 그들의 행동, 언어, 상호작용 등을 관찰하고 기록하는 방법이다. 씩데이터라는 용어는 노키아 실패를 예견한 트리시아 왕 박사가 처음 사용했다. 트리시아 왕은 빅데이터를 제대로 활용하기 위해 인문학적 이해가 필요하다고 역설했고, 이것이 ‘씩데이터’ 개념이다. 씩데이터는 인류학자 클리포드 기어츠의 ‘thick description(두터운 묘사)’에서 따왔다. 기어츠는 어떤 사..

2. 머신러닝 기반 분석 : 순열 중요도 (Permutation Importance)

Feature Importance(변수중요도)가 해당 변수를 통해서 측정값 분류가 얼마나 잘 이뤄지는지를 확인하는 방식이라면, Permutation Importance(순열 중요도)는 변수의 값을 무작위로 변경하여 모델성능을 평가하여, 해당 변수가 모델의 성능에 미치는 영향을 측정하는 방식이다. 예를 들면 예측 모델이 있다면 예측 성능(예: 정확도, 평균 제곱 오차 등)이 특정 변수를 무작위로 섞었을 때 얼마나 감소하는지를 측정하여 피처의 중요도를 평가한다. 이를 통해서 모델이 해당 변수에 얼마나 의지하고 있는지 직접적으로 볼 수 있다. 장점은 Feature Importance가 분류기반 모델에서만 가능한 반면, Permutation Importance는 모델의 구조에 의존하지 않고 어떤 모델에도 적용할..

2. 머신러닝 기반 분석 : 변수 중요도 (Feature Importance)

변수 중요도 (Feature Importance)는 각 변수가 모델이 하나의 값을 정확히 예측 또는 분류하는데 얼마나 중요한지를 나타내는 지표다. 예를 들면 매출 변화에 날씨, 계절 등등 여러 변수들이 얼마나 영향을 끼치는지를 나타낸 수치다. 그래서 예측 및 분류모델에 따라 피처 중요도를 계산 방법이 조금씩 다르다. 가장 일반적인 측정방법은 다음과 같다. ▶  Decision Trees (의사결정 나무)의사결정 나무 모델에서의 변수 중요도는 각 변수가 결과값을 얼마나 잘 분류하는데 기여했는지를 계산한다. 특정 변수를 사용한 분류로 인해 발생하는 불순도의 감소(예: 지니 불순도 감소 또는 엔트로피 감소 등 기준은 여러 가지가 될 수 있다)가 클수록 해당 변수의 중요도가 높게 평가된다.▶  Random Fo..

1. 시각화 분석 : 데이터 분석 시스템 (BI)

비즈니스 성과 지표(Key Performance Indicator, KPI)가 정해졌다면, 이를 단순히 정리하고 보고하는 것이 아니라 수시로 확인하고 분석할 수 있는 모니터링 시스템을 마련하는 것이 필수적이다. 기업 환경은 빠르게 변화하며, 특정 지표가 변동하는 이유를 실시간으로 분석할 수 있어야 효과적인 의사결정을 내릴 수 있다.현재 많은 조직에서는 여전히 엑셀(Excel)과 파워포인트(PowerPoint)를 활용하여 데이터를 정리하고, 이를 정리한 후 보고하는 방식을 따르고 있다. 이러한 방식은 익숙한 툴을 사용하기 때문에 접근성이 높다는 장점이 있지만, 담당자가 매주, 매월 수작업으로 데이터를 업데이트해야 한다는 리소스 문제가 있다. 또한, 특정한 성과 지표만을 수작업으로 정리하기 때문에, 제한된 ..

1. 시각화 분석 : 정보디자인

데이터 분석가(DA), 데이터 사이언티스트(DS), 비즈니스 애널리스트(BA) 등 데이터와 관련된 직무를 수행하는 사람들조차도 '정보디자인'이라는 개념에 익숙하지 않거나 데이터 탐색의 중요성을 느끼지 못하는 경우가 많다. 데이터를 활용해서 가치를 만들어내는 과정에서 이러한 인식 차이가 결과에서 큰 차이를 가져올 수 있다. 이번 글에서는 데이터 탐색의 이론적 측면, 특히 정보디자인에 대해 자세히 이야기해보려고 한다.정보디자인이란정보디자인은 원석과 같은 데이터 안에 숨겨져. 있는 정보를 시각화를 통해 뽑아내는 과정이다. 복잡한 데이터에서 정보를 추출하는 과정은 분류, 배열, 재배열 이렇게 세 가지 주요 단계로 이뤄진다.| 데이터 분류분류는 데이터를 어떤 카테고리로 구분할지 정의하는 단계로, 실무에서는 대게 ..

1. 시각화 분석 : 시각화 탐색 도구

데이터 분석에서 시각화 탐색은 매우 중요한 역할을 한다. 데이터를 수집하고 정리하는 것만으로는 충분하지 않으며, 데이터가 내포하고 있는 패턴을 발견하고 의미 있는 인사이트를 도출하기 위해서는 시각적으로 탐색하는 과정이 필요하다. 시각화 탐색은 데이터를 분류하고, 배열하며, 다양한 방식으로 재구성하는 반복적인 과정을 통해 숨겨진 관계를 발견하는 작업이다. 하지만 많은 데이터 분석가와 리서처들은 탐색 자체를 소홀히 하거나, 탐색을 하더라도 몇 개의 차트를 간단히 생성해보는 수준에서 그치는 경우가 많다.데이터에서 진정한 인사이트를 뽑아내려면 다양한 조건별로 차트를 수백 개 이상 생성하며 데이터를 탐색하는 과정이 필요하다. 단순히 특정 변수 간의 관계를 확인하는 것만으로는 충분하지 않으며, 다양한 조합과 조건에..

0. 데이터 분석 종류 (EDA / CDA / MDA)

앱서비스에 태깅작업 (각 요소를 클릭할 때 해당값이 테이블에 쌓일 수 있도록 태그를 붙이는 작업)을 매우 세밀하게 해 놓아서 해당 서비스에 들어온 사람의 세세한 모든 행동이 데이터로 잘 쌓여있다고 해보자. 자 이제 이 데이터로 무엇을 분석할 것인가. 어떤 주제로 분석할 것인가. 데이터를 분석하는 방법에는 크게 두 가지 접근이 있다. 첫 번째는 EDA(탐색적 데이터 분석), 즉 일단 여러 차트를 그려보면서 데이터 특성을 살펴보고, 그에 맞는 알고리즘을 적용하여 주어진 문제를 해결하거나 가설을 검증한다. 이때 분석가의 탐색능력과 알고 있는 알고리즘의 종류, 그리고 데이터의 형태에 맞는 알고리즘을 생각해 내는 능력이 매우 중요하다. (챗GPT의 발달로 이 역할은 점점 덜 중요해지고 있다. 챗GPT에 데이터를..

반응형