1. 데이터 분석 주제, 목적
- 구독 기반 결제 서비스에서 구독 유형 및 콜센터 활용 빈도에 따른 고객 이탈 가능성을 분석
- '고객 유지율을 높인다'는 목표로 콜센터 운영 리소스를 효과적으로 사용하기 위한 비즈니스 인사이트 제공
- 고객 유지율을 높이기 위해 어떤 구독 유형에 집중해야 하는가?
- 고객 이탈을 저지하기 위해 한정된 고객 지원(콜센터) 리소스를 효과적으로 사용하는 방법은 무엇인가?
- 어떤 고객에게 집중적으로 콜센터 리소스를 사용해야 하는가?
- 가설 1. 구독 유형과 고객 유지는 관계가 있다.
- 고객 유지율은 구독 유형(연간 구독 vs. 월간 구독)에 따라 다르다.
- 연간 구독 고객이 월간 구독 고객보다 더 오래 구독 상태를 유지한다.
- 가설 2. 콜센터 활용과 고객 유지는 관계가 있다.
- 콜센터 사용 빈도와 고객 유지율은 상관관계가 있다.
- 콜센터를 자주 이용하는 고객은 더 오래 구독 상태를 유지한다.
- 사용 데이터: Customer Subscription Data(출처: kaggle)
Customer Subscription Data
Customer purchase and call center volume data for a subscription based product
www.kaggle.com
2. 데이터 특징
샘플 데이터는 아래와 같이 4 세트로 구성되어 있다.
(1) 구독 정보 :고객의 구독 유형(연간 구독 vs. 디지털 구독), 가입 날짜, 해지 날짜 등 구독 서비스에 대한 상태를 보여주는 데이터. -> 구독 유형별 유지 기간 차이 분석.
(2) 콜센터 데이터 :고객 문의 관련 콜센터 활동 기록(시간대, 날짜, 문의 내용). -> 고객 문의가 주로 발생하는 시간대 및 요일 확인
(3) 고객 데이터 :연령, 성별, 지역 등 고객의 기본 프로필 데이터. -> 특정 연령대나 지역에서 구독 유지율 차이 분석, 이탈 고객의 특징 분석.
(4) 제품 가격 데이터 -> 가격과 유지 기간 간의 상관관계, 높은 가격대 상품이 해지율에 미치는 영향 등 분석
구독 상태에 따라 다양한 차원에서 다변량 분석이 가능한 데이터다. 하나의 차원에서 뎁스 있게 분석하기는 어려운 데이터다.
3. 데이터 분석
# 가설 검정 1-1) 구독 유형과 고객 유지는 관계가 있다. (>기각!!)
# 수치화: 범주형 변수, 카이제곱 검정
result = spst.chi2_contingency(prd_type)
print(f'카이제곱 통계량: {result[0]}, p-value: {result[1]}, 자유도: {result[2]}')
# 시각화: 범주형 변수, 모자이크차트
from statsmodels.graphics.mosaicplot import mosaic
mosaic(data, ['product', 'Status'])
plt.show()
카이제곱 검정 및 모자이크차트 시각화 결과, 구독 상태(해지/유지)와 제품 유형 사이 상관관계는 없다.
# 가설 검정 1-2) 구독 유형과 구독 기간은 관계가 있다. (> 채택!!)
KDE Plot 으로 나타낸 시각화 결과, 제품 유형에 따라 구독 기간 및 구독 유지 양상에 차이가 존재함을 알 수 있다.
제품 2(월간구독, 노란-빨간색) 을 선택한 고객들은 제품 1(연간구독, 파란색) 를 선택한 고객들보다
1. 평균적으로 더 짧게 제품 구독을 유지한다.
2. 구독 시작 1년 이내에 구독을 해지하는 비율이 더 높다.
따라서, '제품 2(월간구독)을 구매한 지 1년 미만의 고객들'이 이탈 고위험군이다.
# 가설 2-1) 콜센터 활용과 구독 상태는 관계가 있다. (>기각!!)
# 사용 빈도 기준 설정
bin = [-np.inf, 1, 3, np.inf]
label = ['Low', 'Medium', 'High']
# 기준에 따라 콜센터 사용 빈도에 따른 고객 그룹 쪼개기
df['call_usage_group'] = pd.cut(df['case_id'], bins=bin, labels=label)
usage2 = pd.crosstab(df['Status'], df['call_usage_group'], normalize='index')
# 수치화: 범주형 변수들, 카이제곱 검정
result = spst.chi2_contingency(usage2)
print(f'카이제곱 통계량: {result[0]}, p-value: {result[1]}, 자유도: {result[2]}')
카이제곱 통계량: 0.0006018650460586652, p-value: 0.9996991127526206, 자유도: 2
-> 카이제곱검정 결과, p-value가 유의수준(5%)보다 크기 때문에 귀무가설(두 변수는 독립이다)를 기각할 수 없다.
모자이크 차트에서도 구독 상태(해지/유지)와 콜센터 이용 빈도 사이 상관관계는 없다.
# 가설 2-2) 콜센터 문의 빈도와 제품 유형은 관계가 있다. (> 채택!!)
result = spst.chi2_contingency(pd_call)
print(f'카이제곱 통계량: {result[0]}, p-value: {result[1]}, 자유도: {result[2]}')
카이제곱 검정 결과 제품의 유형과 콜센터 문의 빈도는 상관 관계가 있음을 알 수 있다.
더불어, 모자이크차트로 나타낸 시각화 결과, 제품 1을 구매한 고객들의 대부분은 문의 전화를 적게 하는 경향을 보이고 제품 2를 구매한 고객들은 문의 전화를 많이 하는 경향을 보인다.
따라서, 제품 2(월간구독)을 구매한 고객들이 구독 제품 이용 과정에서 불편함을 더 많이 느끼고, 더 많은 도움을 필요로 한다!
추가 탐색) 제품 2(월간구독)를 구매한 고객들이 문의 전화를 하는 이유는 지원요청(support)이다. (정확히 어떤 지원 요청을 했는지는 추가 데이터 수집이 필요함 (서비스 장애, 추가 콘텐츠 요구, 오류 정정 등))
4. 결론
data insight summary →
(1) 월간 구독 상품을 구매한 지 1년 미만의 신규 고객들을 이탈 고위험군으로 설정해야 한다.
(2) 이들은 지원 요청(support)을 주 목적으로 콜센터를 찾는 경향이 있다.
action item →
(1) further research
- 월간 구독 상품을 구매한 고객들의 콜센터 문의 유형을 세분화(서비스 장애, 추가 콘텐츠 요구, 오류 정정 등) 하여 추가 데이터 분석
- FAQ 유형을 즉시 응대할 수 있는 전담 상담원, 챗봇 등 마련
- 해지 고객의 마지막 문의 유형에 대한 개선책 마련
(2) promotion
- 월간 구독 상품을 구매한 지 1년 미만의 신규 고객 한정으로 특별 할인 프로모션, 전담 콜센터 창구/상담원 배정 등 혜택을 제공한다.
5. 첫 개인 미니 프로젝트를 수행하면서 느낀 점
- 삼정KPMG Future Academy에서 데이터 분석 공부를 시작한 이래 딱 두 달 만에 처음으로 과제 정의부터 수행까지 직접 진행해본 나의 첫 데이터 분석 프로젝트라, 다소 조잡하고 허술하더라도 개인적으론 의미가 깊은 프로젝트였다. 지금까지 배운 내용들을 전체적으로 다시 훑어보면서 복습하고, 어떤 걸 써야 좋을까 고민도 해보며 딱 하루 뿐인 프로젝트 일정이었지만 값진 경험을 했다.
- 방법보단 해석, 해석보단 인사이트!
- 주어진 데이터를 예쁘게 가공해서 읽어주기만 하는 데이터 분석가보단, 분석한 데이터를 기반으로 실제 비즈니스 임팩트를 만들 수 있는 인사이트를 제공하는 데이터 분석가가 되고 싶다!
'[삼정KPMG] Future Academy 3기' 카테고리의 다른 글
[Month #2] 삼정KPMG Future Academy 3기 2개월차 회고 (0) | 2025.01.25 |
---|---|
[Week #9] 데이터 수집 & 미니 데이터 분석 프로젝트 (1) | 2025.01.18 |
[Week #8] 파이썬 데이터 분석 & 데이터 시각화 (0) | 2025.01.13 |
[Week #7] Pandas, NumPy 라이브러리 (1) | 2025.01.05 |
[Month #1] 삼정KPMG Future Academy 3기 1개월차 회고 (4) | 2024.12.31 |