提问的智慧：利用决策树进行推荐系统新用户引导-白红宇

提问的智慧：利用决策树进行推荐系统新用户引导

阅读量：6822 次

发布时间：2019-06-26

本文共 3775 字，大约阅读时间需要 12 分钟。

最近在重温决策树。

也深感决策树算法的优势

下面是一篇它在个性化推荐方面的文章：

==========================

图灵测试大家都很熟悉，通过问答形式来区分人和机器。小时候也做过假托《镜花缘》的逻辑题，需要你通过提问区分两个怪蜀黍谁来自“真话国”谁来自“假话国”。回到现实中，绝大多数推荐系统都无法回避冷启动问题——面对素不相识的用户，需要尽快把握其好恶给出尽量靠谱推荐。这时候通过问问题套瓷观察对方的反应，就是很常见和有效的做法（跟社交场合一样）。考虑到对象是形形色色千差万别的人，如何提出恰当给力的问题，就很值得研究和琢磨了。本文就来讲讲利用决策树的做法，源自论文《Adaptive Bootstrapping of Recommender Systems Using Decision Trees》。

背景

先说点题外话。几周前推荐系统论坛举办的相当成功。（这里感谢组织者的辛苦工作，以及淘宝同学的给力赞助。论坛官方已经放出材料和视频，几位同学的参会总结也相当给力，本文最后将一并给出链接。）

就我个人来讲，Koren博士的talk给我印象最为深刻。首先，极大的改造了我对netflix竞赛的看法。之前个人过于孤陋，觉得类似offline prediction竞赛，基于确定的数据集和目标函数，解决的不过是一个纯数学/算法问题：参赛者不用关心领域知识和用户需求（充其量看看数据的统计分布），不断的调整堆砌模型就ok了，离真正的推荐应用差之甚远。听了一圈发现，这些参赛者对于数据集其实有相当深刻的理解和思考，比如bias和temporal dynamics、用户不同反馈的理解，都很精彩且有启发性。这与实际构建推荐系统在很大程度上是契合的，首先要找到产品需求和数据中的规律，然后再加以利用。

其次，talk内容的针对性很强，不是一些形而上的抽象总结的或偏general的介绍，很多点跟实际应用的联系非常紧密。比如提到的bootstrapping a recommender，正是自己最近在琢磨的一个问题。最近构建的应用新用户比例过半，迫切需要解决对用户的judgement和profiling。由于工作没有深入到这里，之前只有一个大致的想法：人工或者机器找出一些区分度和接受度都较强的item，混合后提供给用户，通过用户的使用反馈逐渐确定其偏好；整个过程即可以是显式的用户引导（比如初始选择喜欢的item），也可以隐式的直接推荐。

结果Koren直接介绍了他们最近在这方面的工作，即《Adaptive Bootstrapping of Recommender System Using Decision Trees》这篇发表在WSDM2011的paper，提出用决策树的方法进行自适应的用户引导和判断。上周花时间找来读了一遍，写的相当清晰也很有意思。这里记下来备忘，如能帮同学们节约些时间更善。

设定

应用场景很明确，就是一个initial interview的过程，依次给出一些item要求用户进行显式的反馈，以此来构建对用户偏好的基本了解。

暂不考虑如何挑选，先来看看候选集合中的种子（即提出的问题）需要满足什么样的条件。作者认为，至少需要考虑以下几个因素：