[Boostcamp AI Tech] Bandit for Recommendation

AI_ML

썬2 2022. 4. 8. 00:29

1. Multi-Armed Bandit (MAB)

k개의 슬롯머신에서 얻을 수 있는 reward의 확률이 모두 다르다고 가정.
수익을 최대화하힉 위해서는 arm을 순서대로 혹은 어떤 정책(policy)에 의해 당겨야 하는가?
exploration(탐색): 더 많은 정보를 얻기 위해 새로운 arm을 선택.
exploitation(활용): 기존의 경험 혹은 관측 값을 토대로 가장 좋은 arm을 선택하는 것.
exploration과 exploitation 사이의 trade-off 발생.
유저 추천: 클러스터링을 통해 비슷한 유저끼리 그룹화한 뒤에 해당 그룹 내에서 bandit을 구축함.

ELO Rating (0)	2022.04.20
DKT란? (0)	2022.04.20
[Boostcamp AI Tech] DeepCTR (0)	2022.04.07
[Boostcamp AI Tech] Context-aware Recommendation (0)	2022.04.07
[Boostcamp AI Tech] Recommender System with Deep Learning (0)	2022.04.06