카테고리 없음

[추천시스템설계] Implicit Feedback models

외손잡이 2024. 5. 9. 22:12
작성자 장원준
일 시 2024. 5. 9  (목) 18:00 ~ 21:00
장 소 복지관 b128-1호
참가자 명단 임혜진, 이재영, 성창민, 김명원, 장원준
 사 진

Implic feedback 이란 사용자의 집적적인 평가나 선호도 평가 없이, 사용자의 행동으로부터 간접적으로 추론할 수 있는 데이터 이다. 

예) 페이지 조회수, 구매 이력, 장바구니 추가, 스트리밍 시간, 클릭 기록 등이 있다.

 

위 데이터셋을 활용해서 Latent Factor Model 에 적용하면, 

 

 

위와 같이 Binary Classification 으로 사용자가 시청을 할지 안할지를 판단한다. 없는 값을 0으로 간주하고, Logistic Regression 을 수행하면 

*데이터의 불균형 -> 별점이 없는 데이터가 애매해짐

*데이터의 거대함 -> 유저수 * 아이템수 임으로 데이터가 너무 커진다

*가짜 부정 -> 시청하지 않았다는 것이 싫다는 것이 아니므로 틀린 부정이 된다.

 

위와 같은 문제점을 해결하기 위해서 두가지 제안을 하였는데

 

Instance Reweighting , Bayesian Personalized Ranking 이 있다.

Instacne Reweighting 이란,

각 instance (행렬에서 하나의 요소) 에 어떤 instance가 중요한지에 대해 가중치를 부여하는 것이다. 

 

가중치는 휴리스틱에 근거하여 결정한다.

 

Instance Reweighting 은 Side-info 를 간단히 반영할 수 있고 implicit feedback을 집적적으로 적용할 수 있는 예이다. 

그러나 데이터셋의 정보에 의존적이라는 단점이 있다. 

 

Bayesian Personalized Ranking 이란,

각 사용자 별로 개인화 된 ranking function을 예측하는 기법이다.

 

Basic scheme: 

           원래 데이터셋의 positive 만 있음 (u, i) -> 사용자가 아이템을 봤는지 안봤는지만 있는 정보

           여기서 데이터셋을 증강하여 triple(u, i, j) 들을 생성 

          (u, i) : positive, (u, j) : negative

 

그 후 각 아이템 별 기호(preference)를 모델링 하고 , 이들의 차로 밑의 x를 정의

   

새로운 Latent factor model

 

 

  위는 Bayesian Personalized Ranking 의 최적화 기법이다 . obj 식을 최대화 하는게 목표이며 log sigmoid function 를 써주어 cross entropy를 적용한 것을 확인 할 수 있다.

 

  위와 같이 BPR이라 불리는 최적화 기법을 썼을 때 더 좋은 효율을 보여주는 특징이 있다. 

 

 위는 논문에서 가져온 성능 표인데 확실히 BPR ( Bayesian Persnonal Ranking)의 성능이 더 좋은 것을 볼 수 있었다.

오늘은 개인의 선호도까지 고려하는 추천 알고리즘을 배워보았는데, 확실히 고려사항이 늘어날 수록 성능이 더 좋아지는 것을 느꼈고 다음 시간에는 User를 고려하지 않는 모델을 공부해 볼 예정이다.