티스토리 뷰

안녕하세요

프로그래밍을 배우는 빛나는 샤트입니다.

 

 

이번 포스팅에서는 추천시스템 데이터셋의 유형의 두 가지인

Explicit와 Implicit 개념에 대해 알아보려고 합니다.

 

먼저, 여러분이 추천시스템을 만들려고 합니다.

어떤 과정을 통해 만들면 좋을까요?

 

추천 시스템 간단한 흐름

 

위 그림 처럼 어떤 선호/비선호에 관한 데이터를 모아 학습하고 예측할 수 있을 것입니다.

여기서 우리는 학습과 예측은 나중에 알아보고, 데이터의 두 가지를 알아보겠습니다.

 

1. 사용자가 직접적으로 알려주는 데이터(Explicit Dataset; 명시적 데이터셋)

 

explicit

[형용사] 분명한, 명쾌한

 

단어의 뜻처럼 뭔가 '누가 봐도 애매하지 않은 확실한' 느낌입니다.

즉, Explict dataset은 사용자가 직접 자신의 선호도를 표현한 Data입니다.

 

예시로는 유튜브를 들어보겠습니다.

좋아요, 싫어요, 댓글, 구독, 차단 등이 있습니다.

 

장점: 사용자의 호불호를 정확히 판단 가능

단점: 데이터를 얻기 힘들다. (사용자들의 자발적인 참여가 필요)

 

사용자 모두가 적극적으로 자신의 의견을 표출할 수록 좋은 데이터가 쌓이지만

세상 많은 사람들이 그렇게 적극적이진 않다는 게 문제입니다.

 

2. 사용자가 간접적으로 알려주는 데이터(Implict dataset; 암묵적 데이터셋)

 

implict

[형용사] 암시된, 내포된

 

단어의 뜻처럼 뭔가 '어떤 의미가 숨겨져 있어서 한 번 더 들여다봐야'하는 느낌입니다.

즉, Implicit dataset은 사용자가 간접적으로 선호도를 표현한 Data입니다.

 

예시로는 역시 유트브를 들어보겠습니다.

시청 기록, 시청 시간, 반복 구간, 자주 보는 카테고리, 접속하는 시간대 등이 있습니다.

 

장점: 수집 난이도가 낮고 활용할 수 있는 데이터가 다양하다.

단점: 부정적인 정보가 포함된 데이터도 모델링될 수 있다. (데이터에 잡음이 많다.)

특징: item의 availability나 반복되는 feeback 등을 고려해야 함

 1) availability: 동시간에 방영되는 두 TV Show의 경우 한쪽만 볼 수 있어서 다른 프로그램을 좋아한다고 해도 Implicit Data가 쌓이지 않는 상황

 2) 반복되는 Feedback은 유저가 한 번 이상 프로그램을 봤을 때 한 번 본 경우와 어떻게 다르게 평가할 것인가에 대한 고려

 

정리

 

LIST
댓글