作者简介: Dietmar Jannach 德国多特蒙德工业大学(Technische Universität Dortmund)计算机科学教授,服务研究组(Services Research Group)负责人,主要研究人工智能和基于知识的系统在实际中(特别是在电子商务领域)的应用,发表过多篇有关推荐系统、产品配置程序等销售支持系统的论文。他还与人共同创立ConfigWorks GmbH,该公司致力于下一代交互式推荐和建议系统研发。他还是2011年在美国芝加哥举办的第5届ACM推荐系统大会的副主席。

作者简介: Gerhard Friedrich奥地利克拉根福阿尔卑斯-亚德里大学(Alpen-Adria Universität Klagenfurt)教授、应用信息学院院长,智能系统和商业信息课题组组长,研究领域包括知识获取、约束满足、配置、计划和诊断。《人工智能通信》编辑,《大规模定制国际杂志》副主编。1993年到1997年,他在西门子奥地利公司担任配置和诊断系统部门负责人。他还是斯坦福研究院和西门子公司研究院客座研究员。

译者简介:
蒋凡 2006年至今在百度公司从事网页搜索引擎研发工作。2005年在微软亚洲研究院自然语言技术组参与机器翻译项目。

【推荐系统】讲义下载

采访记者:李盼,蒋凡
访谈整理:李盼(视频音质不好,文字整理仍有疏漏,一旦发现烦请大家指出)

能否简要向我们介绍一下《推荐系统》这本书有什么独特之处吗?

G:这本书的写作目的正如本书书名所言,为大家介绍推荐系统的技术概览。推荐系统为什么重要?它是一个人工的助手,我们希望它可以像人类一样帮你发现你需要的产品。这本书会告诉你在技术领域中,现在有什么是可以做到的,如何能实现这些人工智能。我认为这是十分重要的,因为推荐系统是供应商和顾客之间的一个媒介,它对两方面都有很大的帮助。

今年你们来参加这次的人工智能的大会有什么新的体验和经历吗?和往届的感受有什么不同?

G:大会刚刚开始,还没有结束……(那今年有什么特别的趋势吗?)每年都会有一个主题,我们也见到了很多不错的应用。比如今天我们就听到了一个演讲,关于如何把人工智能和医疗相结合,如何用技术来救人,我认为这是值得一提的成绩。当然我说的只是众多优秀应用中的一个。我们看到很多有趣的人工智能方面的应用,如何找到对的产品,如何建立一个对的产品,如何设置一个对的产品。人工智能越来越多的被应用在软件中,很多公司都希望可以做出更“复杂“的产品。我们看到理论越来越多地被应用于实践。当然今年的特别之处也包括本届大会在北京举行(笑)。

有人说要达到人工智能的另一个高度,必须要实现跨学科发展,你同意这个观点吗?

D:这对于推荐系统来说是尤为重要的,因为推荐系统不仅是关于算法和机器学习,也和决策学、心理学有很大联系。帮助人们找到他们想要的产品不是那么简单,有很多要求,比如需要建立好的UI界面等等。所需要的领域的知识也极其多。

G:推荐系统其实就是人类的决策过程,一旦有人的参与,事情就会很复杂。人类……是很奇怪的,要理解人类行为和心理是很困难的。另外,在真实世界还会有一些并不明显的影响因素,这些都会影响人的决策。

你认为哪些学科是最为重要的呢?

D:我认为比较有趣的反倒是这里面没有所谓的最重要的事。这是一个结合了很多学科的学科。累积事件很重要,用户界面也很重要,没有一个学科可以说自己是最重要的。跨学科是另一个领域,也是一件极富挑战性的事。

G:这也取决于你所说的跨学科的种类。推荐系统也融合了计算机科学的很多领域,不仅如此,它还融合了心理学、社会学。这是很有趣的。

你认为推荐系统的最终形式是什么样的?

G:我觉得最终形式应该是你无法辨别出这是人类销售助理还是计算机。就像是图灵机一样,当然,这是对我而言。但是也有可能会更好。我们其实昨天刚刚讨论过这个问题。计算机可以整合的信息比人类能够处理的信息要多得多。计算机对于谁买了什么比任何人都要清楚,它的数据库无比巨大。特别对于拥有大规模搜索引擎的公司来说,他们知道很多事,甚至可能比你的妻子或丈夫知道得都多。

D:我认为到那时你对推荐系统的信任程度要超过你的朋友。有点可怕(笑)。

有人说在未来,人工智能终将会超过人类的智能。你能预测出一个具体的时间吗?

G:对未来做预测可是很难的。很多人都预测过很多事,但是最讨巧的可能是预测一个人的死亡时间,这样无论如何都不会有人责怪你(笑)!很多人其实对于人工智能超过人类智能这件事存有怀疑,认为这是不可能的。有些人不同意,但是也无法证明,只有真正有了(超过人工智能的智能)才能证明这件事。我认为目前为止,无法证明的是,人类在处理信息方面比计算机有优势。所以对于我来说,问题是:为什么不可能呢?但是要具体预测时间还是很困难,可以肯定的是需要干的事还有很多。所以,我们需要为这件事的发生做好准备。但是人类能力可以自动化到什么程度是一个问题,过程虽然艰难,但是我们已经见到很多让人吃惊的成果。

D:这个问题很大程度上取决于你定义的智能是什么样的。所以答案是,我们也不知道。

在本书的最后一章中,你们提到推荐系统会融入其他学科,个性化搜索结果会把搜索引擎变成上下文感知的推荐系统,能说得再具体一些吗?在这过程中会有什么样的困难,需要什么样的技术呢?

D:首先,我要说的是推荐系统是一个临界线,你可以说这是个性化搜索。这并不十分明显,你可以想一下竞价广告,那里就有很多推荐系统的技术。也许很多相关领域都会渐渐融合起来,这样对于其中一个领域的贡献也可以适用到其他领域。上下文感知对推荐系统和搜索引擎来说都是一个很热的话题。它可以发现用户“现在”所关心的事,比如系统发现你之前买过鞋,现在在搜索衬衫,那你现在其实是想干什么?推荐系统可以根据你是想和朋友一起去看电影,还是想和家人呆在一起,做出不同推荐。这类技术现在正是热点话题。

人们对于自己在网上留下的踪迹越来越在意,关于隐私的话题也浮上桌面。推荐的相关程度和隐私有时候互相矛盾。你认为在这之间是否有一条不可逾越的线?

G:确实应该是有底线的。但是问题在于人们是否在意这条线在哪?系统得到更多关于你的信息,就能做出的更准确的推荐,问题在于我能否信任这个系统?它是否会把关于我的数据泄漏给别人?这个问题不光推荐系统要面对,而是很多基于互联网的应用都要面对的一个问题。如何确定用户可以信任这个系统?这是个社会学的问题。人们真的在乎这件事吗?会有人因为怕泄漏自己的信息而不用Facebook吗?

D:举个例子,这其实是一件可能发生的事,如果你去一家你喜欢的餐厅,侍者把你引向你熟悉的座位,询问你是否需要一些你熟悉并喜爱的食物,这好像没什么关系。但是如果你进了一家餐厅,有人问你:“昨天你去了路易斯餐厅,他们说你喜欢**,那你……”

G:所以最终决定权应该是在顾客手上。如果从顾客方面来的压力不够,为什么有人会做这样的投资呢?顾客可以说,我们不喜欢这样。然后作为计算机科学家,我们就会开始研究工具和办法。

有读者问,如果你买过什么东西,那么在未来你可能就不会再对同样的东西感兴趣了。怎么样能把一些干扰信息去除掉呢?

G:这取决于投资方决定采用什么样的推荐系统,我们其实有很多工具可以来实现这件事。其实问题在于公司是否想利用学界的研究成果来做这件事。我其实可以理解这个问题,因为我对现有的很多推荐系统都不满意,因为这些推荐系统完全都没有反映出现在这个领域的研究水平。

要解决这个问题你可以结合不同种类的推荐系统,比如基于内容的推荐系统和基于知识的推荐系统,就可以过滤掉这些信息。我们有一个记录,这些推荐可以选择性把记录中的物品过滤掉。或者如果有个人买了件很奇怪的东西,你可以询问这还是同一个人吗?这是什么原因呢?对于现行推荐系统的改进其实可以有很多。

有人说搜索引擎比较精确,但是缺少主动性。推荐系统比较主动,但是结果不够准确。如何平衡相关性和新颖性这两个重要指标呢?

D:这对于推荐系统来说是个重要问题。有人会在推荐中加入让人有新鲜感的东西,这是一种购物体验,会让你发现一些你都不知道的东西。学界很多人对这个话题很感兴趣,我对其中信息检索和搜索的部分不是很了解。对于推荐系统来说,这样做其实没有问题,但是对于搜索引擎来说,具有相关性的搜索结果才最重要。

有专家称只要采用了合适的模型,和SNS相结合的搜索引擎会得出更准确的结果?你们认为融合社交网络信息和搜索引擎信息重要吗?

D:对于搜索引擎来说我不知道,但是对于推荐系统来说,这确实是很重要的。SNS对于推荐系统有很多影响,它们之间存在双向的好处:首先,它蕴含的大数据,可以让我们知道更多资料,从而得出更靠谱的推荐;另外,对于SNS来说,推荐系统可以做的也更多,它可以多通道的推荐,朋友、群体、新闻,所以对于SNS的推荐系统来说,还有很多可以做的工作。有些开放的API你可以免费得到一些数据。

G:在大会上我们听见很多报告关于这方面的融合,确实有助于提高推荐的相关程度。但是这也取决于你所研究的具体的推荐领域。

对于推荐系统来说,向用户解释推荐结果也是很重要的。请问用户行为算法这方面有什么新的研究进展?

G:这是《推荐系统》这本书的作者之一 的研究方向。根据用户的知识库,我们就可以向用户做出更好的解释,向它们说明是什么样的因素在帮助系统做出这样的推荐。利用这样的系统,使用者确实体验更好了,他们对于系统的信任程度也提高了。

有一些比较出名的产品,他们的推荐系统也比较出名,比如Pandora Radio,或者像中国国内的jing.fm,他们都借助了专家标签系统,你们怎么看待这个流派的推荐系统?

D:在社交网络中,更加常用的是用户标签系统,这些系统永远都处在活跃状态,总是被不断添加和修改。这样可以为系统加入更多的知识。比如你买了一本好书,你可以把它推荐给别人。对于这个标签感兴趣的人可能就会收到相应的推荐。这样你可以借力于社交网络的影响力和社交网络的传播现象。从这个角度上来说每个人都是专家。

G:是的,这样不仅可以利用标签系统,还有社交方面的数据,比如“与你最近的邻居”。在本次大会中,同时也在很多研究报告里,我们都可以找到很多这类利用社交信息的标签系统。

D:这样的推荐系统中也会存在一些噪音,比如:“cool", “我的”之类的,所以我们必须过滤掉这些噪音。有一些研究表明,社交网络中人与人之间的影响力其实要大于专家的影响力。

G:所以更重要的问题是如何让更多人给出有用的信息,而不是倚重于某些专家。

这本书出版的时间是2011年,如果两位想在书里添加或者改进一些东西,会是什么呢?

D:我最先想到的就是要加入上下文感知方面的内容,这个领域在过去的20年中都没有引起重视。比如说你在周五晚上和周日下午做的事情会有什么区别?你是不是一个人?这些都会影响最终结果。怎么才能知道使用者现在正在干什么,时间地点这类信息呢?当然现在还可以加入GPS的数据,如何把所有这些数据加入来做出更完善的推荐系统。我认为这是很重要的一个部分。

G:当然还有一部分很重要的就是加入社交网络方面的内容。

D:还有一个遗憾就是这本书还没有涉及用户交互方面的内容,这个领域的研究也变得越来越重要了,下一版中会予以补充。


更多精彩,加入图灵访谈微信!