AI가 준 그 숫자, 믿어도 될까?

AI가 준 그 숫자, 믿어도 될까?

AI에게 분석을 시키면 깔끔한 숫자가 나오지만, 그 답 뒤엔 누군가 혼자 채운 빈칸이 숨어 있습니다. 프롬프트 분석의 함정과 그 답을 의심하는 눈.

📚 시리즈 | 프롬프트 뒤에 숨은 것을 보는 눈 (1/3) AI에게 "분석해줘" 한 줄을 던지는 시대, 그 답 뒤에 무엇이 숨어 있는지 볼 줄 아는 '눈'을 3편에 걸쳐 키웁니다. ① 의심하는 눈 → ② 말의 모호함을 꿰뚫는 눈 → ③ 토대를 보는 눈 순서로 이어지며, 지금 보시는 글은 그 첫 번째인 '첫 번째 눈' 편입니다.

"지난달 신규 고객 재구매율 알려줘"

어느 이커머스 회사의 월요일 아침. 마케터가 AI에게 한 줄을 던집니다.

"지난달 신규 고객의 재구매율 알려줘."

몇 초 뒤, 깔끔한 표와 함께 답이 돌아옵니다.

"지난달 신규 고객의 재구매율은 23%입니다."

마케터는 이 숫자를 슬라이드에 넣어 대표에게 보고합니다. 대표는 "신규 고객이 다시 안 사고 빠져나가는구나, 재구매를 끌어올릴 리타기팅과 CRM 캠페인에 예산을 더 쓰자"며 다음 달 마케팅 방향을 정합니다.

여기까지, 무엇 하나 이상해 보이지 않습니다. 질문은 자연스러웠고, 답은 즉각적이었고, 표는 단정했습니다.

그런데 그 23%는 틀렸습니다.

AI는 당신이 묻지 않은 것을 혼자 정했다

문제는 AI가 거짓말을 했다는 게 아닙니다. AI는 당신의 질문에 빈칸이 너무 많다는 것을 알면서도, 그 빈칸을 혼자 채워 넣고 말해주지 않았다는 데 있습니다.

"지난달 신규 고객의 재구매율"이라는 짧은 문장 안에는 사실 이런 질문들이 숨어 있습니다.

  • '신규 고객'은 누구인가요? 회원가입을 한 사람? 첫 구매를 한 사람?

  • '지난달'은 달력상 한 달(5월 1일~31일)인가요, 아니면 오늘 기준 최근 30일인가요?

  • '재구매'는 며칠 안에 다시 사야 인정되나요? 7일? 30일? 기간 제한이 없나요?

  • 취소되거나 환불된 주문도 구매로 세나요?

AI는 이 모든 빈칸을 스스로 골랐습니다. 신규를 가입일로 잡고, 환불 주문도 포함하고, 재구매를 기간 제한 없이 셌을 수도 있습니다. 어느 쪽을 골랐는지는 답 어디에도 적혀 있지 않습니다. 그저 "23%"라는 확신에 찬 숫자만 남았을 뿐입니다.

빈칸을 다르게 채우면 답은 18%가 되기도, 31%가 되기도 합니다. 그리고 대표님의 마케팅 예산과 방향은 이 보이지 않는 선택 위에서 움직입니다.

분석은 코딩과 다릅니다

여기서 한 가지 오해를 짚고 넘어가야 합니다. "AI가 코딩도 잘하던데, 분석도 당연히 잘하겠지"라는 생각입니다.

AI를 데이터 분석에 본격적으로 활용해 온 Anthropic은 이 둘이 근본적으로 다른 일이라고 말합니다(확인된 출처: Anthropic 공식 블로그, How Anthropic enables self-service data analytics with Claude). 차이를 이커머스 실무자의 언어로 옮기면 이렇습니다.

코드는 틀리면 티가 납니다. 장바구니 기능을 잘못 짜면 버튼이 안 눌리고, 주문이 안 들어옵니다. 돌려보면 맞는지 틀린지 바로 압니다. 정답이 여러 개일 수도 있고요. 빨간 버튼이든 파란 버튼이든 눌리기만 하면 됩니다.

분석은 틀려도 티가 안 납니다. 재구매율을 잘못 계산해도, 결과는 여전히 깔끔한 표로, 단정한 숫자로 나옵니다. 게다가 정답은 보통 하나뿐입니다. 우리 회사의 진짜 재구매율은 23%이거나 18%이지, "둘 다 맞다"가 성립하지 않습니다.

코딩에는 "돌려보기"라는 안전장치가 있지만, 분석에는 그게 없습니다. 틀린 답이 가장 그럴듯한 얼굴로 당신 앞에 놓입니다. 이것이 AI 분석이 위험한 진짜 이유입니다.

"그럴듯하게 틀린 답"이 가장 비쌉니다

대놓고 이상한 답은 차라리 안전합니다. "재구매율 870%"라고 나오면 누구나 의심하고 다시 확인할 테니까요.

진짜 위험한 건 "23%"처럼 충분히 그럴듯해서 아무도 의심하지 않는 숫자입니다. 이런 숫자는 검토 없이 보고서에 들어가고, 회의를 통과하고, 예산을 움직이고, 캠페인의 방향을 바꿉니다. 잘못된 토대 위에 세운 의사결정은, 나중에 매출 지표가 흔들린 뒤에야 "그때 그 숫자가 틀렸었다"는 걸 알게 됩니다.

첫 번째 눈: 의심하는 눈

이 시리즈가 키우려는 건 AI를 쓰지 말자는 이야기가 아닙니다. 정반대입니다. AI에게 분석을 맡기되, 그 답 뒤에 무엇이 숨어 있는지 볼 줄 아는 눈을 갖추자는 것입니다.

그 첫 번째 눈은 바로 의심하는 눈입니다. 답이 깔끔할수록, 프롬프트가 간단했을수록 한 번 더 묻는 습관입니다.

"이 숫자, '신규'를 뭘로 봤지?"
"기간은 어떻게 잡았지?"
"환불은 뺐나?"

이 질문을 던질 줄 아는 사람과, 23%를 그대로 믿는 사람의 격차가 앞으로 점점 벌어질 것입니다.

그렇다면 AI는 대체 왜 빈칸을 제멋대로 채우는 걸까요? 사실 그건 AI만의 문제가 아닙니다. 우리 회사 안에 이미 답이 흩어져 있기 때문입니다. 다음 편에서는 한 회사 안에 '재구매율'이 다섯 개나 존재하는 이유를 들여다봅니다.

한 걸음 더: AI 분석은 '구조적으로' 틀린다

"그럴듯하게 틀린 답"은 운이 나빠서 나오는 게 아닙니다. Anthropic은 AI 분석이 틀리는 지점을 세 가지 실패 모드(failure mode) 로 정리했습니다(확인된 출처: Anthropic 공식 블로그). 이커머스 실무에 대입하면 다음과 같습니다.

① 말과 데이터가 어긋난다 (개념-엔티티 모호성) '활성 고객'이라는 말 하나에 대응되는 데이터 테이블과 조건이 수십 가지일 수 있습니다. 사람이 머릿속으로 "아 그건 최근 90일 안에 산 사람"이라고 메우는 맥락을, AI는 모른 채 그럴듯한 후보 하나를 고릅니다.

② 정의가 낡는다 (노후화) 작년에 정한 'VIP 등급' 기준이 올해 시즌엔 안 맞을 수 있습니다. 스키마와 정의는 계속 바뀌는데, AI가 참조하는 지식이 그 속도를 못 따라가면 옛 기준으로 계산합니다.

③ 맞는 답을 못 찾는다 (검색 실패) 정답이 되는 테이블이 분명히 존재해도, 수백 개의 테이블이 뒤섞인 데이터 창고에서 AI가 엉뚱한 곳을 집어 들 수 있습니다. 정보가 없어서가 아니라, 못 찾아서 틀립니다.

세 가지 모두 공통점이 있습니다. 모델이 더 똑똑해진다고 사라지지 않는다는 것입니다. 이것이 다음 편의 출발점입니다.

자주 묻는 질문

Q. 더 좋은 AI를 쓰면 이 문제가 해결되나요? A. 크게 달라지지 않습니다. 빈칸을 누가 채우느냐의 문제이지, 모델의 똑똑함 문제가 아니기 때문입니다. 이 점은 다음 편에서 실제 데이터로 보여드립니다.

Q. 그럼 AI 분석을 쓰지 말아야 하나요? A. 아닙니다. 질문에 정의를 함께 적어주고("신규=첫 구매, 기간=최근 30일, 환불 제외"), 답을 한 번 더 의심하는 것만으로도 정확도가 크게 올라갑니다.

다음 편: 「'재구매율'이 5개인 회사」 — 같은 질문에 회사가 다섯 가지 답을 내놓는 이유

最新のインサイトやニュースをニュースレターでお届けします。

Datarizeニュースレター、今すぐ購読してください。

Datarizeニュースレター、今すぐ購読してください。

Datarizeニュースレター、今すぐ購読してください。