[E08] Explicit Dataset(명시적) VS Implicit Dataset(암묵적)

티스토리 뷰

교육/AIFFEL(대전)1기

[E08] Explicit Dataset(명시적) VS Implicit Dataset(암묵적)

무엇보다_빛나는_샤트 2022. 2. 17. 00:12

안녕하세요

프로그래밍을 배우는 빛나는 샤트입니다.

이번 포스팅에서는 추천시스템 데이터셋의 유형의 두 가지인

Explicit와 Implicit 개념에 대해 알아보려고 합니다.

먼저, 여러분이 추천시스템을 만들려고 합니다.

어떤 과정을 통해 만들면 좋을까요?

위 그림 처럼 어떤 선호/비선호에 관한 데이터를 모아 학습하고 예측할 수 있을 것입니다.

여기서 우리는 학습과 예측은 나중에 알아보고, 데이터의 두 가지를 알아보겠습니다.

1. 사용자가 직접적으로 알려주는 데이터(Explicit Dataset; 명시적 데이터셋)

explicit

[형용사] 분명한, 명쾌한

단어의 뜻처럼 뭔가 '누가 봐도 애매하지 않은 확실한' 느낌입니다.

즉, Explict dataset은 사용자가 직접 자신의 선호도를 표현한 Data입니다.

예시로는 유튜브를 들어보겠습니다.

좋아요, 싫어요, 댓글, 구독, 차단 등이 있습니다.

장점: 사용자의 호불호를 정확히 판단 가능

단점: 데이터를 얻기 힘들다. (사용자들의 자발적인 참여가 필요)

사용자 모두가 적극적으로 자신의 의견을 표출할 수록 좋은 데이터가 쌓이지만

세상 많은 사람들이 그렇게 적극적이진 않다는 게 문제입니다.

2. 사용자가 간접적으로 알려주는 데이터(Implict dataset; 암묵적 데이터셋)

implict

[형용사] 암시된, 내포된

단어의 뜻처럼 뭔가 '어떤 의미가 숨겨져 있어서 한 번 더 들여다봐야'하는 느낌입니다.

즉, Implicit dataset은 사용자가 간접적으로 선호도를 표현한 Data입니다.

예시로는 역시 유트브를 들어보겠습니다.

시청 기록, 시청 시간, 반복 구간, 자주 보는 카테고리, 접속하는 시간대 등이 있습니다.

장점: 수집 난이도가 낮고 활용할 수 있는 데이터가 다양하다.

단점: 부정적인 정보가 포함된 데이터도 모델링될 수 있다. (데이터에 잡음이 많다.)

특징: item의 availability나 반복되는 feeback 등을 고려해야 함

1) availability: 동시간에 방영되는 두 TV Show의 경우 한쪽만 볼 수 있어서 다른 프로그램을 좋아한다고 해도 Implicit Data가 쌓이지 않는 상황

2) 반복되는 Feedback은 유저가 한 번 이상 프로그램을 봤을 때 한 번 본 경우와 어떻게 다르게 평가할 것인가에 대한 고려

정리

LIST

'교육 > AIFFEL(대전)1기' 카테고리의 다른 글

AIFFEL(대전) [Fundamental] 3-1 파이썬(Python) 변수와 함수 그리고 반환(return) (0)	2022.02.17
[E08] CSR Matrix (0)	2022.02.17
[Exploration] E08 영화 추천 시스템 (0)	2022.02.17
AIFFEL(대전) [Exploration]2장 머신러닝 데이터 분류하기 (0)	2022.02.17
[Exploration]np.where 활용 (0)	2022.02.17

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

샤트의 빛나는 프로그래밍

티스토리 뷰