RFM의 한계를 넘어 고객의 미래를 확률로 예측하는 법. BG/NBD·Pareto/NBD와 Gamma-Gamma 모델로 생존 확률과 예측 생애가치(CLV)를 구하는 원리를 쉽게 설명합니다.

📚 고객을 이해하는 4단계
이커머스 고객 분석이 어떻게 진화해 왔는지 따라가는 4부작 시리즈입니다.
① RFM → ② 확률 기반 CLV → ③ AI 예측 → ④ 데이터·SSOT
지금 보시는 글은 두 번째인 확률 기반 CLV 편입니다.
자동차를 운전할 때 백미러만 보고 달릴 수는 없습니다. 지나온 길은 또렷이 보이지만, 정작 핸들을 꺾어야 할 앞길은 비춰주지 않으니까요. 앞 글에서 본 RFM이 딱 그렇습니다. 고객이 과거에 어땠는지는 선명하게 보여주지만, "이 고객이 앞으로 얼마나 더 살까", "떠날 확률은 얼마일까"라는 미래 예측에 관한 질문에는 답을 할 수 없습니다.
이번 글은 "고객을 이해하는 4단계" 시리즈의 2편입니다. RFM의 입력을 그대로 쓰면서도 한 걸음 더 나아가 미래를 확률로 예측하는 모델들 — BG/NBD와 Pareto/NBD로 대표되는 확률 기반 CLV(고객 생애 가치) 모델을 다룹니다.
[참고] BG/NBD, Pareto/NBD, Gamma-Gamma 모델은 마케팅 사이언스 학계(Fader·Hardie 등의 연구)에서 정립된 확률 모델입니다. 이 글은 마케터가 직관적으로 이해할 수 있도록 수식 대신 개념과 비유 위주로 설명합니다. 정확한 수식과 가정, 추정 방법은 원논문 및 Python
lifetimes등 공개 라이브러리 문서를 참고하시기 바랍니다.
RFM의 결정적 한계 — 진단과 예보의 차이
병원에 비유해 보겠습니다. RFM은 '검진 결과지'입니다. 지금까지 몸이 어떤 상태였는지를 숫자로 알려줍니다. 반면 우리가 진짜 원하는 건 '예후 진단'입니다. 이 환자가 앞으로 어떻게 될 것인가.
RFM으로 고객이 R1(오래 안 삼)으로 떨어진 걸 발견했을 때, 우리는 사실 이미 늦은 시점에 서 있습니다. 그 고객은 마지막 구매 한참 전부터 멀어지고 있었을 텐데, RFM은 '구매가 멈춘 결과'를 사후에 보여줄 뿐입니다. 게다가 RFM에는 또 다른 약점들이 있습니다.
임의적인 구간: 5등분으로 점수를 나누는 경계에 통계적 근거가 없습니다. R4와 R5의 실질적 차이가 큰지 작은지 알 수 없죠.
정적인 스냅샷: 고객은 매일 움직이고 구매하지만, 한 번 계산하면 다음 분석까지 나누는 기준(백분율)이 변하지 않습니다. 예를들어, 오늘 대형 이벤트를 진행하여 첫 구매자가 상당히 늘었다면 한달 전 기준과 분명 다른 기준으로 세그먼트를 분류해야 합니다.
숫자에 미래가 없음:
R5 F5 M5라는 코드는 "지금 좋은 고객"이라고 말할 뿐, "이 고객이 내년에 우리에게 얼마를 더 쓸 것인가"라는 사업적으로 가장 중요한 질문에 답하지 못합니다.
그래서 분석가들은 발상을 바꿉니다. 고객을 점수로 분류하는 대신, 고객의 행동을 하나의 확률 과정으로 모델링하자는 것이죠.
발상의 전환 — 고객 행동을 확률로 보다
핵심 아이디어는 고객의 행동을 두 개의 보이지 않는 프로세스로 나누는 것입니다.
① 구매 프로세스 — 살아있는 동안 얼마나 자주 사는가. 고객마다 고유의 구매 리듬이 있습니다. 어떤 사람은 한 달에 한 번, 어떤 사람은 분기에 한 번. 모델은 이 리듬을 확률 분포로 표현합니다. 사람마다 리듬이 다르다는 사실까지 분포로 담아내죠.
② 이탈 프로세스 — 언제 '조용히' 떠나는가. 비계약형 사업(쇼핑몰처럼 '해지 버튼'이 없는 관계)의 어려움은, 고객이 떠날 때 아무 말도 하지 않는다는 점입니다. 그냥 안 옵니다. 그래서 모델은 "이 고객이 아직 우리와 관계를 유지하고 있을(살아있을) 확률"을 추정합니다.
이 두 프로세스를 결합하면, 단순한 분류를 넘어 다음과 같은 '예측'이 가능해집니다.
이 고객이 지금도 살아있을 확률은 몇 %인가
향후 N개월간 예상 구매 횟수는 몇 번인가
(금액까지 결합하면) 이 고객의 예측 생애 가치(CLV)는 얼마인가
Pareto/NBD와 BG/NBD, 쉽게 이해하기
이 영역의 대표 모델 두 개를 비유로 구분해 보겠습니다.
Pareto/NBD — "고객은 살아있는 동안 자기 리듬대로 사다가, 어느 순간 조용히 떠난다." 여기서 이탈은 언제든 일어날 수 있는 사건으로 봅니다. 가장 고전적이고 정교하지만, 계산이 복잡합니다.
BG/NBD — Pareto/NBD를 더 다루기 쉽게 만든 모델입니다. 가정 하나를 바꿉니다. "고객은 구매를 한 직후에만 떠날지 말지를 결정한다." 현실을 약간 단순화한 대신 계산이 훨씬 가벼워, 실무에서 가장 널리 쓰입니다.
두 모델 모두 입력으로 필요한 건 놀랍도록 단순합니다. 고객의 거래 횟수(frequency), 마지막 구매 시점(recency), 관측 기간(T) — 사실상 RFM이 쓰는 것과 같은 거래 데이터입니다. 같은 재료로 '분류' 대신 '예측'을 만들어내는 것이죠.
여기에 Gamma-Gamma 모델을 결합하면 '금액'까지 예측에 넣을 수 있습니다. 구매 횟수와 평균 구매액이 (적절한 조건에서) 독립이라는 가정 아래, 고객별 예상 구매액을 추정합니다. 그 결과 "이 고객은 향후 1년간 약 4회 구매하고, 회당 평균 6만 원을 쓸 것"이라는 식의 예측 CLV가 나옵니다. 〔구체 추정 절차는 라이브러리 문서 확인〕
무엇이 좋아졌나 — 그리고 여전히 반쪽인 이유
확률 모델이 RFM 대비 분명히 나아진 점은 이렇습니다.
RFM | 확률 기반 CLV | |
|---|---|---|
시점 | 과거 요약 | 미래 예측 |
산출물 | 세그먼트 코드 | 생존 확률·예상 구매·예측 CLV |
근거 | 임의 구간 | 데이터로 추정한 확률 분포 |
활용 | "누가 좋은 고객인가" | "누구에게 얼마를 투자할 가치가 있나" |
특히 매력적인 건 적은 데이터로도 작동하고, 결과를 해석할 수 있다는 점입니다. 거래 내역만 있으면 되고, 추정된 파라미터에는 "이 고객의 평균 구매율", "이탈 경향" 같은 의미가 담겨 있어 "왜 이런 예측이 나왔는지"를 설명할 수 있습니다. 마케팅 예산을 예측 CLV가 높은 고객에게 우선 배분하는 식의 의사결정이 가능해지죠.
하지만 여기에도 결정적인 한계가 있습니다. 이 모델들이 보는 것은 오직 '구매라는 사건의 타이밍과 금액'뿐입니다. 고객이 구매를 멈추기 훨씬 전에 남기는 다른 신호들 — 사이트 방문이 뜸해지고, 장바구니에 담았다 그냥 나가고, 이메일을 더 이상 열지 않고, 고객센터에 불만을 남기는 — 이 모든 행동을 확률 모델은 보지 못합니다. 입력에 그런 데이터가 들어가지 않으니까요.
다시 말해, 확률 모델은 "구매 기록"이라는 한 줄기 정보로 미래를 추정합니다. 정교하지만, 고객이 보내는 풍부한 행동 신호를 외면한 반쪽짜리 예측인 셈입니다.
정리하며
확률 기반 CLV 모델은 RFM의 자연스러운 진화형입니다. 같은 거래 데이터를 쓰면서도, 백미러를 넘어 "이 고객이 앞으로 어떻게 될까"라는 앞 유리를 마케터에게 쥐여줍니다. 적은 데이터로 시작할 수 있고 해석도 명확해, 본격적인 AI 도입 전 강력한 베이스라인이 됩니다.
그러나 이 모델은 여전히 '구매 타이밍'이라는 좁은 창으로만 고객을 바라봅니다. 만약 고객이 떠나기 전에 흘리는 수많은 행동 신호 — 클릭, 체류, 장바구니, 이메일 반응 —까지 함께 읽을 수 있다면, 이탈을 훨씬 더 일찍 잡아낼 수 있지 않을까요?
바로 그 지점에서 머신러닝, 즉 AI 기반 예측이 등장합니다. 다음 편에서 이어가겠습니다.
확률 모델이든 AI든, 예측의 정확도는 결국 '얼마나 정확하고 통합된 데이터를 입력하느냐'에 달려 있습니다. 이 시리즈가 향하는 종착점이기도 합니다.
You may also interested in

Join our newsletter for the latest insights and updates



