0. 데이터 분석 종류 (EDA / CDA / MDA)
앱서비스에 태깅작업 (각 요소를 클릭할 때 해당값이 테이블에 쌓일 수 있도록 태그를 붙이는 작업)을 매우 세밀하게 해 놓아서 해당 서비스에 들어온 사람의 세세한 모든 행동이 데이터로 잘 쌓여있다고 해보자. 자 이제 이 데이터로 무엇을 분석할 것인가. 어떤 주제로 분석할 것인가.
데이터를 분석하는 방법에는 크게 두 가지 접근이 있다. 첫 번째는 EDA(탐색적 데이터 분석), 즉 일단 여러 차트를 그려보면서 데이터 특성을 살펴보고, 그에 맞는 알고리즘을 적용하여 주어진 문제를 해결하거나 가설을 검증한다. 이때 분석가의 탐색능력과 알고 있는 알고리즘의 종류, 그리고 데이터의 형태에 맞는 알고리즘을 생각해 내는 능력이 매우 중요하다. (챗GPT의 발달로 이 역할은 점점 덜 중요해지고 있다. 챗GPT에 데이터를 업로드하고 원하는 결과를 설명하면 챗GPT가 최신 알고리즘까지 여러 개의 모델코드를 만들어 내어 분석가는 성능을 비교해 보고 선택하기만 하면 되기 때문이다). 분석과정에 있어서 특정한 프레임 없이 주어진 문제를 즉흥적이고 창의적으로 해결하는 방식이다.
EDA와 CDA
EDA는 Explorary Data Analysis의 약자로 우리말로 탐색적 데이터 분석이라고 하고, CDA는 Confirmatory Data Analysis라고 해서 확증적 데이터 분석이라고 한다.
CDA 같은 경우 보고자 하는 가설이나 프레임이 이미 정해져 있다. 흔히 진짜 A상품보다 B상품이 유의미하게 더 팔린 건지 혹은 여자보다 남자가 A제품을 좋아하는지 등을 데이터로 확인하는 것도 CDA에 속한다. 더 나아가면 앱서비스를 사용자를 분석한다고 할 때 마케팅퍼널로 잘 알려진 AARRR 프레임에 맞춰 분석하는 것도 CDA라고 할 수 있다.

도메인 지식은 조각에서의 뼈대(Armature)와 같다
두 방법 모두 장단점이 있고, 실무에서도 두 가지를 상황에 맞게 사용하게 된다. 그럼에도 CDA를 강조하는 이유는 마케팅퍼널 예시와 같이 해당 문제를 바라보는 좋은 프레임을 알지 못하면 문제를 즉흥적이고 단편적으로 바라보고 접근해서 결국 즉흥적이고 단편적인 결과가 도출되기 때문이다. 즉 CDA를 할 수 있는 도메인 지식이 부족하면 즉흥적이고 단편적인 분석과 모델링만 가능하기 때문이다.
예를 들어, 앱서비스의 데이터가 있고 매출액을 증대시키기 위한 방법을 찾아야 할 때 유입부터 재구매까지의 퍼널 프레임이 없다면 어떤 분석과 모델링을 시도할 수 있을까. 분석 주제는 마케팅, 경영, HR, 물류 등 회사마다 비즈니스마다 다양하다. 해당 도메인이 있다면 분석가는 그 도메인에서 잘 알려진 개념들(현상을 보는 틀)을 익히는 것이 매우 중요하다.