マーケティングサイエンス学習録

勉強したことをとりあえずここに集積していきます。

階層ベイズによるLTVモデリング:BTYDモデル(2)

こちらの記事の続編です。引き続き論文読んでいきます。

mks-nandemo.hatenablog.com

モデル概要

本論文で提案するモデルは、Schmittlein, Morrison, and Colombo(1987)で提案されたPrareto/NBDモデルをベースにしている。 これはBTYDモデルの1つであり、BTYDには多くの研究や亜種が存在する。本論文では、非契約型サービスを対象としている。サブスクのように会員・非会員ステータスがはっきりしているサービスでは「離反状態」を観測できるが、そうではない一般的なECサイトの場合「離反状態」なのか「単に期間が空いてるだけ」なのかわからないので推定する必要がある。

BTYDの歴史について、こちらの記事によくまとまっていました。

retina.ai

提案モデルと先行研究との違いは、下表の通り。

階層ベイズ法により、共変量の導入が簡単であったり、パラメータ同士の相関関係を自然に表現できる柔軟性が確保できる。

仮定

提案モデルにおける仮定について整理する。

個々のカスタマーに対する仮定

  1. 購買率は、強度λのポアソン過程に従う
  2. 生存時間は、離反率μの指数分布に従う
  3. 購買額は、平均ηの対数正規分布に従う

仮定2の指数分布に関しては、こちらの論文にて仮定の妥当性について言及がある。

これは、離脱が過去の生存時間に関係なくランダムに起きるという無記憶性を意味する。こ の仮定の妥当性は、離脱が企業に対する飽き、競合企業への乗り換え、転居、死去などの様々 な理由によって起きることと、一度購買が観測されるということは顧客の生存が確認されて 離脱プロセスがリセットされる、という2点から支持される。

また、仮定3については経験的にガンマ分布等よりは対数正規分布の当てはまりが良いことから仮定しているそう。ただし、先行研究ではガンマ分布や正規分布による仮定が多い。

カスタマー間の異質性に対する仮定

  1. 購買率λ、離反率μ、平均購買額ηは多変量対数正規分布に従う

仮定のおかげで、PLS間の相関関係が自然に推定できる(共分散行列を見れば良い)。

モデル詳細

各記号の意味は

  • 初回購買時刻を0とする
  • 観測終了時刻 T
  • 期間 (0, T]での購買回数 x
  • 観測期間における最終購買時刻 t_x
  •  n回目の購買額 s_n

図で表すとこんな感じ

http://merc.e.u-tokyo.ac.jp/mmrc/dp/pdf/MMRC183_2007.pdf より

共変量を入れこむには、このように多変量正規分布の平均パラメータをさらに共変量で回帰してあげる(階層ベイズでよくやる手法)

これら分布を使うことで、任意の期間 wにおける購買回数や購買額は以下のように推定できる。

購買回数

購買額

これ、生存時間τが観測されない潜在変数なので、MCMCをGibbsサンプラーで実施しているんですが式を追うのが大変なので一旦ここで。 もうこれ以上は業務に直結する、というより趣味の世界なので、もしGibbsサンプラーが構築できたらまた更新します。