AI 크리에이터 시청자 성별 & 연령대 분석 모델 v1 🔥

AI 크리에이터 시청자 성별 & 연령대 분석 모델 v1 🔥

"포화 상태라구요? 유튜브 광고 시장은 여전히 성장 중입니다."

많은 사람들이 유튜브 광고 시장이 포화 상태라고 말합니다.

하지만 과연 그럴까요? 

방송통신위원회의 인터넷 이용자 조사에 따르면 한국인의 88.1%가 유튜브를 사용하며, 이는 매년 증가하는 추세를 보인다고 합니다.

하루 평균 유튜브 이용 시간도 전년 대비 15% 증가했습니다. 이러한 통계는 유튜브와 인플루언서 마케팅이 여전히 성장하고 있으며, 광고주들에게 새로운 기회가 많음을 보여 줍니다.

하지만 에 의존하거나 단순히 영상 이미지만 보고 크리에이터를 찾거나 광고를 기획하는 방식은 이제 효과적이지 않습니다. 구독자 수, 조회수 같은 메타데이터와 시청자 연령/성별 분포 데이터, 나아가 시청자 관심사 분석같은 세부 데이터들을 조합하여 우리 타겟이 많이 찾는 키워드와 크리에이터를 찾아 캠페인의 성과를 극대화 해야합니다.

유광기 팀은 이러한 데이터 기반 접근에 집중하여, 최근 크리에이터의 영상 데이터로 채널 시청자의 성별과 연령대를 최대 95% 정확도로 유추하는 모델을 개발했습니다.

대규모 텍스트 데이터를 통해 사용자의 관심 주제를 파악하고 '토픽 모델링' 과 같은 방법론을 기반으로 모델의 전반을 구성하였습니다.

추후 이 모델은 기존의 표면적인 지표들을 넘어 시청자들의 세부적인 관심사까지 분석하여 더욱 정밀한 타겟팅을 지원할 예정입니다.


시청자 분석 알고리즘 v1.0

기술 요약

시스템 아키텍처 설명

1. 유튜브 콘텐츠 수집 단계

수집 방법: 유튜브 API와 웹 크롤링을 활용하여 유튜브에서 생성되는 방대한 양의 콘텐츠 데이터를 수집합니다.

저장: 수집한 데이터는 데이터베이스에 저장되어 향후 데이터 처리 및 모델 학습에 활용됩니다.

2. 데이터 전처리 단계

콘텐츠 데이터 처리: 수집된 유튜브 콘텐츠 데이터는 LLM 학습에 최적화되도록 클렌징과 변환 과정을 거칩니다.

인구통계 데이터 검증: 수집된 인구통계 데이터 또한 검증과 처리를 통해 분석의 신뢰도를 높입니다.

이 단계는 유광기의 기초가 되는 다양한 Raw-데이터를 확보하고 분류하는 과정으로, 다양한 데이터를 종합적으로 수집하고 유광기만의 분류 파이프라인을 거쳐 모델 성능에 중요한 영향을 미치는 기반을 마련합니다.

3. LLM 추론 준비 단계

프롬프트 준비: 인구통계 예측을 위한 프롬프트를 설계하고, 이를 통해 모델이 추론하는 데 필요한 맥락을 제공합니다.

핵심 작업: 이 단계는 모델이 데이터로부터 어떤 인사이트를 도출해야 할지 방향성을 설정하는 중요한 작업입니다. 적절한 프롬프트가 모델의 성능을 결정짓는 중요한 요소가 됩니다.

4. LLM 학습 (파인튜닝)

파인튜닝 작업: 수집된 데이터와 프롬프트 엔지니어링을 통해 모델을 파인튜닝하여 예측 정확도를 높입니다.

목적: LLM 모델이 인구통계 예측에 적합하도록 맞춤 학습을 수행하며, 이를 통해 모델이 특정 패턴과 트렌드를 인식하도록 합니다.

결과: 학습된 모델은 데이터의 특성을 보다 깊이 이해하며, 사용자에게 의미 있는 예측 결과를 제공합니다.

5. LLM 추론 및 결과

모델 추론: 학습된 모델을 통해 예측을 수행하며, 최종적으로 인구통계 예측 데이터를 생성합니다.

결과 활용: 이 데이터는 비즈니스 전략 수립, 마케팅 타겟팅 등 다양한 분야에서 유용하게 사용될 수 있습니다.

의의: 최종 결과물은 유튜브 콘텐츠와 인구통계를 연결함으로써, 새로운 인사이트를 제공하며 예측 결과에 기반한 인공지능 분석의 가능성을 보여줍니다.


모델의 정확도

(좌) Word2Vec 기법을 통한 Demography 유추 // (우) 파인튜닝 LLM 모델을 활용한 Demography 유추

위 그래프는 인구통계 예측에서 Word2Vec 기법을 사용한 모델(왼쪽)과 파인튜닝된 LLM 모델(오른쪽)의 성능을 비교한 결과를 보여줍니다.

Word2Vec 기반 모델은 텍스트 간 유사도를 측정하고 기본적인 관계를 학습하지만, 정확도가 다소 낮고 예측이 실제 데이터와 불일치하는 패턴이 빈번히 나타났습니다.

반면, 파인튜닝된 LLM 모델은 대규모 데이터 학습을 통해 보다 정교한 맥락 이해가 가능해졌으며, 이에 따라 예측 값이 실제 값과 훨씬 밀접하게 일치하는 양상을 보였습니다.

특히, 높은 빈도를 가지는 인구통계적 특성을 더욱 정확히 포착하고 있으며, 예측과 실제 결과 간 편차가 눈에 띄게 감소한 것을 확인할 수 있습니다.

이러한 성능 향상은 LLM이 데이터의 미묘한 패턴을 학습하고, 단어 수준의 관계를 넘어서 의미 단위의 연결을 이해할 수 있다는 점에서 기인합니다.

결과적으로 파인튜닝된 LLM 모델은 보다 높은 신뢰성을 바탕으로 인구통계 예측을 가능하게 하여, 마케팅과 타겟팅 전략에 있어 유용한 데이터를 제공합니다.


앞으로의 방향성

앞서 설명한 인구통계 예측 시스템은 유튜브 콘텐츠와 인구통계 데이터를 결합하여 사용자 특성을 파악하는 데 큰 가능성을 보여주었습니다.

유광기는 앞으로 멀티모달 접근을 통해 단순한 인구통계를 넘어, 개개인의 관심사, 라이프스타일, 구매력, 문화적 선호도까지 포괄하는 정교한 분석 모델을 개발하고자 합니다.

예를 들어, 특정 채널의 “10%가 활동적인 라이프스타일을 가지고 있는 10~20대 여성”, “15%가 프리미엄 소비 성향을 보이는 30대 남성 시청자”, “20%가 K-pop과 뷰티에 관심이 있는 20대 초반 여성 시청자” 같은 식으로 세분화된 데이터를 활용하여 분석을 진행할 계획입니다.

이러한 구체적인 정보는 각 세그먼트에 맞춘 맞춤형 마케팅을 가능하게 하며, 사용자 개개인의 깊이 있는 이해를 바탕으로 맞춤형 콘텐츠와 경험을 제공할 수 있게 될 것입니다.

이로써 마케터는 유광기를 통해 보다 정교한 타겟팅 전략을 구현하고, 사용자와의 소통을 한층 강화하는 마케팅 캠페인을 실현할 수 있을 것으로 기대하고 있습니다.