데이터탐색 3

3. UX 리서치 : 참여관찰법

사용자를 이해하는 방식은 여러 가지다. 그리고 각 방법들은 장단점이 있어서 어떤 방법이 더 좋고 나쁘고의 차이보다 케이스별, 활용하는 사람별로 알맞은 방법이 있고, 결국 해봐야 아는 셈이다.이번에 얘기할 조사방법은 참여관찰법이다. 참여관찰법은 문화인류학에서 주로 사용되는 조사방법으로 연구자가 연구 대상 집단의 일상생활 속으로 직접 들어가 그들의 행동, 언어, 상호작용 등을 관찰하고 기록하는 방법이다. 씩데이터라는 용어는 노키아 실패를 예견한 트리시아 왕 박사가 처음 사용했다. 트리시아 왕은 빅데이터를 제대로 활용하기 위해 인문학적 이해가 필요하다고 역설했고, 이것이 ‘씩데이터’ 개념이다. 씩데이터는 인류학자 클리포드 기어츠의 ‘thick description(두터운 묘사)’에서 따왔다. 기어츠는 어떤 사..

2. 머신러닝 기반 분석 : 순열 중요도 (Permutation Importance)

Feature Importance(변수중요도)가 해당 변수를 통해서 측정값 분류가 얼마나 잘 이뤄지는지를 확인하는 방식이라면, Permutation Importance(순열 중요도)는 변수의 값을 무작위로 변경하여 모델성능을 평가하여, 해당 변수가 모델의 성능에 미치는 영향을 측정하는 방식이다. 예를 들면 예측 모델이 있다면 예측 성능(예: 정확도, 평균 제곱 오차 등)이 특정 변수를 무작위로 섞었을 때 얼마나 감소하는지를 측정하여 피처의 중요도를 평가한다. 이를 통해서 모델이 해당 변수에 얼마나 의지하고 있는지 직접적으로 볼 수 있다. 장점은 Feature Importance가 분류기반 모델에서만 가능한 반면, Permutation Importance는 모델의 구조에 의존하지 않고 어떤 모델에도 적용할..

2. 머신러닝 기반 분석 : 변수 중요도 (Feature Importance)

변수 중요도 (Feature Importance)는 각 변수가 모델이 하나의 값을 정확히 예측 또는 분류하는데 얼마나 중요한지를 나타내는 지표다. 예를 들면 매출 변화에 날씨, 계절 등등 여러 변수들이 얼마나 영향을 끼치는지를 나타낸 수치다. 그래서 예측 및 분류모델에 따라 피처 중요도를 계산 방법이 조금씩 다르다. 가장 일반적인 측정방법은 다음과 같다. ▶  Decision Trees (의사결정 나무)의사결정 나무 모델에서의 변수 중요도는 각 변수가 결과값을 얼마나 잘 분류하는데 기여했는지를 계산한다. 특정 변수를 사용한 분류로 인해 발생하는 불순도의 감소(예: 지니 불순도 감소 또는 엔트로피 감소 등 기준은 여러 가지가 될 수 있다)가 클수록 해당 변수의 중요도가 높게 평가된다.▶  Random Fo..

반응형