- 著者: Longqi Yang, Yin Cui, Yuan Xuan, Chenyang Wang, Serge Belongie, and Deborah Estrin
- 所属:Cornell University
- 発表会議:RecSys 2018
[link]
Implicit-feedback Recommendersにおいて、IPSを導入したUnbiased Evaluatorを提案。実験データはMNARであることを示し、Unbiased Evaluatorと従来のAverage-over-all (AOA) Evaluatorの結果を比較することでAOA Evaluatorが従来の推薦アルゴリズムの性能を過大評価していることを示唆した。
- Explicit Feedback
- ユーザーからアイテムへの評価が陽に与えられている。(e.g. ★5)
- Implicit Feedback
- ユーザーからアイテムへの評価が与えられず、クリックや購入の有無(0/1)しか与えられない。
- Explicit Feedbackと比べて比較的容易に収集可能。
- 今回の論文はこっち
R(Z^)=∣U∣1u∈U∑∣Su∣1i∈Su∑c(Z^u,i)ここで Z^u,i はアイテム i をユーザー u に対して推薦する順位、 Su はユーザー u がpositive feedbackする全てのアイテム集合。AUCやDCGなどを計算したい場合、関数 c を下記
にする、とあるがAUCの式はおかしい気が。。。
この理想的なEvaluatorはユーザーが全てのアイテムを認識しているわけではないのでそもそも Su⊆I が観測できない->計算できない。
R^AOA(Z^)=∣U∣1u∈U∑∣Su∗∣1i∈Su∗∑c(Z^u,i)これをAverage-over-all (AOA) Evaluatorという。このとき、Suのうち観測できた集合をSu∗とする。 ユーザーuがアイテムiを観測した(1)か否か(0)を表す確率変数Ou,iを導入すると、
R^AOA(Z^)=∣U∣1u∈U∑∑i∈SuOu,i1i∈Su∑c(Z^u,i)⋅Ou,iと変形することができる。 しかしこれは
EO[R^AOA(Z^)]=R(Z^)である。
AOA Evaluatorに対して傾向スコア(=ユーザーuがアイテムiにpositive feedbackする確率Pu,i)の逆数で重み付け(Inverse-Propensity-Scoring: IPS)を行う。直感的にはよく観測されるアイテムの重みは小さく、あまり観測されないアイテムの重みは大きくなるように重み付けを行う。
R^IPS(Z^∣P)=∣U∣1u∈U∑∣Su∣1i∈Su∗∑Pu,ic(Z^u,i)=∣U∣1u∈U∑∣Su∣1i∈Su∑Pu,ic(Z^u,i)⋅Ou,iこれについて期待値を取ると
EO[R^IPS(Z^∣P)]=∣U∣1u∈U∑∣Su∣1i∈Su∑Pu,ic(Z^u,i)⋅EO[Ou,i]=∣U∣1u∈U∑∣Su∣1i∈Su∑c(Z^u,i)=R(Z^)理想的なEvaluatorに一致することがわかる。 実際にはこのEvaluatorの分散を抑えるためにSelf-Normalized IPS (SNIPS)を導入する。
R^SNIPS (Z^∣P)=∣U∣1u∈U∑∣Su∣1∑i∈Su∗Pu,i1EO[∑i∈Su∗Pu,i1]i∈Su∗∑Pu,ic(Z^u,i)=∣U∣1u∈U∑∑i∈Su∗Pu,i11i∈Su∗∑Pu,ic(Z^u,i)SNIPSの出典は下記参照。
まず、傾向スコアPu,iがuser independentであると仮定する。これはつまり、Pu,i=P(Ou,i=1)=P(O∗,i=1)=P∗,i。さらにP∗,i=P∗,iselect ⋅P∗,iinteract ∣ select とP∗,iinteract ∣ select =P∗,iinteract を仮定する。このとき、P∗,iinteract はuser independentなのでtrue popularity ni=∑u∈U1[i∈Su](観測できない)に比例する。
P^∗,iinteract ∝ni一方でP∗,iselect はべき乗分布を仮定して
P^∗,iselect ∝(ni∗)γこのときni∗=∑u∈U,i∈Su∗O∗,iなのでこっちは観測可能。なので、
P^∗,i∝(ni∗)γ⋅niniが観測できない問題について、ni∗がniでparameterizeされた二項分布ni∗∼B(ni,P∗,i)に従うと仮定すると、
P^∗,i=nini∗∝(ni∗)γ⋅niとなるので
ni∝(ni∗)21−γ最終的に、
P^∗,i∝(ni∗)(2γ+1)となるので、γを推定してやれば良い。γの推定については力尽きたので省略。
- cliteulike
- Mendeley的なやつ?
- 論文?を保存するかどうか
- Tradesy
- ECサイト
- 商品を買う / 欲しい物リストに入れるかどうか
- Amazon book
- Bayesian Personalized Ranking (BPR)
- Collaborative Metric Learning with Uniform Weights (U-CML)
- CML with Approximate-Rank Weights (A-CML)
- Probabilistic Matrix Factorization (PMF)
- ユーザーは人気アイテムとinteractionしがちである = 偏りがある
- 推薦システム自体が偏りのあるデータから学習しているので人気アイテムを推薦しがち
- 横軸はアイテムの観測回数、縦軸は上位50で推薦された回数
- アルゴリズム、データセット、評価尺度にかかわらず(AOAと比べたときに)評価値は下がった。
- 今までAOA Evaluatorでアルゴリズムが過大評価されていたことの示唆。
Yahoo! Music rating datasetを使用。このデータセットのテストデータは完全にランダムな推薦によって収集されているところがポイント。このテストデータとは別に訓練データからサンプリングすることで「バイアスありテストデータ」を作成。「(バイアスの無い)テストデータ」と「バイアスありテストデータ」に対する各Evaluatorの値の誤差を比較。
人気アイテムは推薦機会とfeedbackの機会が多いので、そうでないアイテムとの差について問題意識をもってlossを設計していきたいな〜