job다한 공부

THU 프로젝트에서의 데이터 분석 본문

기획

THU 프로젝트에서의 데이터 분석

시현한 하루 2025. 1. 5. 20:34
728x90

독일 THU(울름공과대학) 교환학생에서는 '고객 리드 중 고객 변환율 예측하기'라는 프로젝트를 진행했습니다. 지금 가지고 있는 리드 상담 데이터 중 누가 진짜 고객이 될 것인가를 판단하는 것이죠. 저는 여기서 데이터 분석 및 AI 모델 설계를 담당했습니다.

 

 

THU 프로젝트의 데이터 분석과정

Feature Engineering과 Feature Importance 평가

 데이터 분석 과정에서는 Feature Engineering의 일환으로, Random Forest 모델을 활용하여 Feature Importance(변수 중요도)를 평가하였습니다.

1. Ydata profiling(EDA): 데이터 구조 파악

  • ydata profiling은 빠르게 구조를 파악할 수 있습니다.
  • 이를 통해 결측치와 변수의 상관관계를 파악했습니다.

2. Random Forest 모델 활용

  • Random Forest는 다수의 결정 트리(Decision Tree)를 조합하여 예측 성능을 향상시키는 앙상블 학습 기법입니다.
  • 각 변수(Feature)가 모델 예측에 미치는 영향을 분석하여 중요도를 평가하였습니다.

3. Feature Importance 점수를 통한 변수 평가

  • Feature Importance 점수를 활용하여 각 변수의 상대적인 중요도를 측정하였습니다.
  • 이를 통해 모델 학습에 크게 기여하는 변수와 그렇지 않은 변수를 구분할 수 있습니다.

4. 중요도가 낮은 컬럼 제거

  • 중요도가 낮은 변수(예: Priority_Text, Source_Text, Company 등)는 모델 성능에 미치는 영향이 작으므로 제거하였습니다.
  • 불필요한 변수를 제거함으로써 모델의 복잡도를 줄이고, 연산 속도를 개선하며, 과적합(Overfitting) 방지에 기여하였습니다.

5. 중복 정보 포함 컬럼 제거

  • 특정 컬럼이 예측값을 암시하거나(정답이 나와버린 것이니 제외합니다), 비슷한 정보를 포함하고 있는 경우, 해당 컬럼을 제거하여 데이터의 독립성을 유지하였습니다.
  • 이 과정은 학습 성능을 개선하고, 모델의 일반화 성능을 높이는 데 도움이 됩니다.

6. 최종 변수 선택

6. 최종 변수 선택 및 모델 재학습

  • 중요도가 높은 정보와 기존의 유사 서비스를 조사해 필요한 변수와 정보를 구분했습니다.
  • 직접 데이터를 읽어보면서 데이터의 의미를 이해하고 필요한 부분을 선별할 수 잇었습니다.
  • 이러한 과정을 거쳐 모델의 해석 가능성을 높이고, 최적의 학습 성능을 확보하였습니다.

결론

데이터 분석에서는 객관적인 근거뿐만 아니라 비즈니스적 관점이 중요하다는 것을 알 수 있었습니다.

  • 불필요한 변수를 제거함으로써 모델의 성능을 향상시키고, 데이터의 품질을 높일 수 있습니다.
  • 또한, Feature Importance 분석을 활용하여 보다 효과적인 예측 모델을 구축할 수 있습니다.

 

728x90