디지털전환 궤도 ③ 비즈니스 분석 10

데이터 분석결과 : 빅데이터와 스몰데이터 II

빅데이터와 스몰데이터(리서치 결과)는 데이터 자체의 특징도 차이가 있지만, 그에 따라 분석결과에서도 결과물의 성격이 다르다. 빅데이터 빅데이터는 대상의 행태, 즉 액션에 대한 수치여서 대규모 대상이 움직이는 다양한 흐름, 패턴, 특징을 볼 수 있다. 예를 들면 방문횟수가 10% 증가하면 구매횟수가 2%증가한다는 식의 딱 떨어지지만 선명한 정보가 나온다. 선명하기에 실무자들을 설득하기 수월하다. 하지만 나타난 행태에 대한 이유나 맥락은 알 수 없다. 스몰데이터 스몰데이터는 빈도를 측정하긴 하지만 근본적으로 특정행태에 대한 이유나 맥락을 이해하기 위해 측정된 수치들이기 때문에, 최종 결과물은 분석가의 해석을 통해서 그 이유와 맥락이 설명되어야 한다. 분석가의 해석 수준에 따라 결과물의 수준이 확연히 달라진다..

UX 리서치 : 참여관찰법

사용자를 이해하는 방식은 여러 가지다. 그리고 각 방법들은 장단점이 있어서 어떤 방법이 더 좋고 나쁘고의 차이보다 케이스별, 활용하는 사람별로 알맞은 방법이 있고, 결국 해봐야 아는 셈이다.이번에 얘기할 조사방법은 참여관찰법이다. 참여관찰법은 문화인류학에서 주로 사용되는 조사방법으로 연구자가 연구 대상 집단의 일상생활 속으로 직접 들어가 그들의 행동, 언어, 상호작용 등을 관찰하고 기록하는 방법이다. 씩데이터라는 용어는 노키아 실패를 예견한 트리시아 왕 박사가 처음 사용했다. 트리시아 왕은 빅데이터를 제대로 활용하기 위해 인문학적 이해가 필요하다고 역설했고, 이것이 ‘씩데이터’ 개념이다. 씩데이터는 인류학자 클리포드 기어츠의 ‘thick description(두터운 묘사)’에서 따왔다. 기어츠는 어떤 사..

머신러닝 기반 데이터 탐색 : 순열 중요도 (Permutation Importance)

Feature Importance(변수중요도)가 해당 변수를 통해서 측정값 분류가 얼마나 잘 이뤄지는지를 확인하는 방식이라면, Permutation Importance(순열 중요도)는 변수의 값을 무작위로 변경하여 모델성능을 평가하여, 해당 변수가 모델의 성능에 미치는 영향을 측정하는 방식이다. 예를 들면 예측 모델이 있다면 예측 성능(예: 정확도, 평균 제곱 오차 등)이 특정 변수를 무작위로 섞었을 때 얼마나 감소하는지를 측정하여 피처의 중요도를 평가한다. 이를 통해서 모델이 해당 변수에 얼마나 의지하고 있는지 직접적으로 볼 수 있다. 장점은 Feature Importance가 분류기반 모델에서만 가능한 반면, Permutation Importance는 모델의 구조에 의존하지 않고 어떤 모델에도 적용할..

머신러닝 기반 데이터 탐색 : 변수 중요도 (Feature Importance)

변수 중요도 (Feature Importance)는 각 변수가 모델이 하나의 값을 정확히 예측 또는 분류하는데 얼마나 중요한지를 나타내는 지표다. 예를 들면 매출 변화에 날씨, 계절 등등 여러 변수들이 얼마나 영향을 끼치는지를 나타낸 수치다. 그래서 예측 및 분류모델에 따라 피처 중요도를 계산 방법이 조금씩 다르다. 가장 일반적인 측정방법은 다음과 같다. ▶  Decision Trees (의사결정 나무)의사결정 나무 모델에서의 변수 중요도는 각 변수가 결과값을 얼마나 잘 분류하는데 기여했는지를 계산한다. 특정 변수를 사용한 분류로 인해 발생하는 불순도의 감소(예: 지니 불순도 감소 또는 엔트로피 감소 등 기준은 여러 가지가 될 수 있다)가 클수록 해당 변수의 중요도가 높게 평가된다.▶  Random Fo..

데이터 분석방법 : 시각화 기반 & 머신러닝 기반

데이터 분석은 데이터의 특성과 구조를 이해하고, 데이터가 포함하고 있는 정보와 관계를 파악하는 과정이다. 이를 위해 두 가지 주요 접근법이 있다. 시각화 기반 데이터 분석과 머신러닝 기반 데이터 분석이다. 1. 시각화 기반 데이터 분석 시각화 기반 데이터 분석은 데이터의 패턴과 관계를 시각적으로 이해하는 가장 직관적인 방법으로 주로 BI(Business Intelligence) 툴을 사용한다. 차트로 그리고 육안으로 판단해야 하기 때문에 1차원에서 3차원 정도의 뎁스(Depth)를 가진, 즉 성과지표를 설명하는 변수 1~3개 정도 바탕으로, 데이터를 분석할 수 있다. 차원별로 다양한 차트를 그려보며 분석할 수 있다. 1차원 데이터 (1개 변수) : 히스토그램, 막대그래프, 파이 차트 등을 사용하여 데이터..

비즈니스 분석 : 데이터 분석 시스템 (BI)

비즈니스 성과 지표가 정해졌다면 수시로 확인할 수 있도록 모니터링 시스템을 마련해야 한다. 지금도 많은 조직에서 엑셀로 데이터를 정리하고 정리한 결과를 파워포인트 등에 담아서 보고하는 방식을 따르고 있다. 이런 방식은 엑셀, 파워포인트 등 익숙한 툴을 사용한다는 이점이있지만 담당자 1명이 매주, 매월 수작업으로 시간을 들여 업데이트를 해야하는 리소스 문제가 있을 뿐더러, 수작업으로 준비가 되기 때문에 확인할 수 있는 몇몇 성과지표만을 제한적인 뷰로 볼 수 있다. 회의 시간에 저 지표는 왜 저런지 질문이 나오면 담당자는 확인해보겠다는 대답을 할 수 밖에 없다. 결코 담당자의 능력부족이나 게으름이 원인이 아니다. 그렇게 제한적인 지표만 확인해서는 지표들 간의 관계나 비즈니스가 진행되는 메커니즘을 이해하기 어..

데이터 분석 : 빅데이터와 스몰데이터 I

데이터 탐색이나 데이터 분석에 대해 이야기할 때, 우리는 종종 빅데이터만 떠올리곤 한다. 데이터 관련 프로세스가 빅데이터의 등장과 함께 발전해오고 있지만 잊지 말아야 할 점은, 설문조사 결과와 같은 스몰데이터도 여전히 정량적인 데이터이고 두 데이터 모두 중요하며 정보를 추출해야하는 분석대상이라는 점이다. (본 글에선 리서치를 통해 나온 정량적 결과를 스몰데이터라고 하겠다. 빅데이터와 스몰데이터의 구분기준에 대한 의견은 다양할 수 있다.) 빅데이터와 스몰데이터의 특징 빅데이터는 주로 소비자의 구매 패턴, 웹사이트 방문 기록, 거래기록 등과 같이 주로 행동, 행태, 상태에 대한 데이터로 이뤄진다. 대규모 데이터를 분석하여 거기에서 나타난 행동, 행태, 상태의 현황 및 패턴을 파악하는 데 중점을 둔다. 이처럼..

데이터 분석 : 정보디자인

데이터 분석가(DA), 데이터 사이언티스트(DS), 비즈니스 애널리스트(BA) 등 데이터와 관련된 직무를 수행하는 사람들조차도 '정보디자인'이라는 개념에 익숙하지 않거나 데이터 탐색의 중요성을 느끼지 못하는 경우가 많다. 데이터를 활용해서 가치를 만들어내는 과정에서 이러한 인식 차이가 결과에서 큰 차이를 가져올 수 있다. 이번 글에서는 데이터 탐색의 이론적 측면, 특히 정보디자인에 대해 자세히 이야기해보려고 한다.정보디자인이란정보디자인은 원석과 같은 데이터 안에 숨겨져. 있는 정보를 시각화를 통해 뽑아내는 과정이다. 복잡한 데이터에서 정보를 추출하는 과정은 분류, 배열, 재배열 이렇게 세 가지 주요 단계로 이뤄진다.| 데이터 분류분류는 데이터를 어떤 카테고리로 구분할지 정의하는 단계로, 실무에서는 대게 ..

데이터 분석 : 시각화 탐색 도구

데이터 분석에서 시각화 탐색은 매우 중요한 역할을 한다. 시각화 탐색은 데이터를 분류, 배열, 재배열하는 반복적인 과정을 통해 숨겨진 패턴과 인사이트를 발견하는 작업이다. 하지만 많은 데이터 분석가와 리서처들은 탐색 자체를 소홀히 하거나, 탐색을 하더라도 파이썬이나 엑셀을 이용해 몇 개의 차트를 그려보는 것에 그치는 경우가 많다. 데이터에서 진정한 인사이트를 뽑아내려면, 다양한 조건별로 차트를 수백 개 그려보는 것이 필요하다. 그러나 파이썬이나 엑셀로 이러한 작업을 수행하는 것은 공수가 많이 들어 비효율적이며, 직관적으로 데이터를 바로바로 확인하기 어렵다. 따라서 시각화 탐색을 할 때는 전문 시각화 도구를 사용하는 것이 좋다.시각화 탐색 도구의 필요성시각화 탐색을 효율적으로 수행하기 위해서는 여러 차트를..

데이터 분석 : 뼈대잡기 (Armature)

앱서비스에 태깅작업 (각 요소를 클릭할 때 해당값이 테이블에 쌓일 수 있도록 태그를 붙이는 작업)을 매우 세밀하게 해 놓아서 해당 서비스에 들어온 사람의 세세한 모든 행동이 데이터로 잘 쌓여있다고 해보자. 자 이제 이 데이터로 무엇을 분석할 것인가. 어떤 주제로 분석할 것인가. 데이터를 분석하는 방법에는 크게 두 가지 접근이 있다. 첫 번째는 EDA(탐색적 데이터 분석), 즉 일단 여러 차트를 그려보면서 데이터 특성을 살펴보고, 그에 맞는 알고리즘을 적용하여 주어진 문제를 해결하거나 가설을 검증한다. 이때 분석가의 탐색능력과 알고 있는 알고리즘의 종류, 그리고 데이터의 형태에 맞는 알고리즘을 생각해 내는 능력이 매우 중요하다. (챗GPT의 발달로 이 역할은 점점 덜 중요해지고 있다. 챗GPT에 데이터를 ..

반응형