티스토리 뷰
안녕하세요
프로그래밍을 배우는 빛나는 샤트입니다.
이번 포스팅에서는 추천시스템 데이터셋의 유형의 두 가지인
Explicit와 Implicit 개념에 대해 알아보려고 합니다.
먼저, 여러분이 추천시스템을 만들려고 합니다.
어떤 과정을 통해 만들면 좋을까요?
위 그림 처럼 어떤 선호/비선호에 관한 데이터를 모아 학습하고 예측할 수 있을 것입니다.
여기서 우리는 학습과 예측은 나중에 알아보고, 데이터의 두 가지를 알아보겠습니다.
1. 사용자가 직접적으로 알려주는 데이터(Explicit Dataset; 명시적 데이터셋)
explicit
[형용사] 분명한, 명쾌한
단어의 뜻처럼 뭔가 '누가 봐도 애매하지 않은 확실한' 느낌입니다.
즉, Explict dataset은 사용자가 직접 자신의 선호도를 표현한 Data입니다.
예시로는 유튜브를 들어보겠습니다.
좋아요, 싫어요, 댓글, 구독, 차단 등이 있습니다.
장점: 사용자의 호불호를 정확히 판단 가능
단점: 데이터를 얻기 힘들다. (사용자들의 자발적인 참여가 필요)
사용자 모두가 적극적으로 자신의 의견을 표출할 수록 좋은 데이터가 쌓이지만
세상 많은 사람들이 그렇게 적극적이진 않다는 게 문제입니다.
2. 사용자가 간접적으로 알려주는 데이터(Implict dataset; 암묵적 데이터셋)
implict
[형용사] 암시된, 내포된
단어의 뜻처럼 뭔가 '어떤 의미가 숨겨져 있어서 한 번 더 들여다봐야'하는 느낌입니다.
즉, Implicit dataset은 사용자가 간접적으로 선호도를 표현한 Data입니다.
예시로는 역시 유트브를 들어보겠습니다.
시청 기록, 시청 시간, 반복 구간, 자주 보는 카테고리, 접속하는 시간대 등이 있습니다.
장점: 수집 난이도가 낮고 활용할 수 있는 데이터가 다양하다.
단점: 부정적인 정보가 포함된 데이터도 모델링될 수 있다. (데이터에 잡음이 많다.)
특징: item의 availability나 반복되는 feeback 등을 고려해야 함
1) availability: 동시간에 방영되는 두 TV Show의 경우 한쪽만 볼 수 있어서 다른 프로그램을 좋아한다고 해도 Implicit Data가 쌓이지 않는 상황
2) 반복되는 Feedback은 유저가 한 번 이상 프로그램을 봤을 때 한 번 본 경우와 어떻게 다르게 평가할 것인가에 대한 고려
정리
'교육 > AIFFEL(대전)1기' 카테고리의 다른 글
AIFFEL(대전) [Fundamental] 3-1 파이썬(Python) 변수와 함수 그리고 반환(return) (0) | 2022.02.17 |
---|---|
[E08] CSR Matrix (0) | 2022.02.17 |
[Exploration] E08 영화 추천 시스템 (0) | 2022.02.17 |
AIFFEL(대전) [Exploration]2장 머신러닝 데이터 분류하기 (0) | 2022.02.17 |
[Exploration]np.where 활용 (0) | 2022.02.17 |
- Total
- Today
- Yesterday
- 모두의연구소
- 인공지능교육
- Python
- 모두의 연구소
- 서빙로봇
- 대전 인공지능
- 광주
- 양정연SLAM
- AIFFEL
- Slam
- 인공지능
- 광주AI
- 자율주행기술
- 실내자율주행
- AIFFEL교육
- AIFFEL후기
- 해커톤
- IT
- 멋쟁이사자처럼
- 자율주행로봇
- 광주인공지능사관학교
- SLAM공부
- ros
- 인공지능 교육
- 도전
- 아이펠
- SLAM강의
- 멘탈관리
- 배달로봇
- AIFFEL인공지능과정
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |