Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions

时间：2005年

关键词：Recommender systems, collaborative filtering, rating estimation methods, extensions to recommender systems.

论文位置：https://homepages.dcc.ufmg.br/~nivio/cursos/ri13/sources/recommender-systems-survey-2005.pdf

引用：Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE transactions on knowledge and data engineering, 2005, 17(6): 734-749.

摘要：这篇文章主要介绍了一下推荐系统领域的概况，描述了当前推荐系统的方法经常被分为三类：基于内容的推荐算法（content-based），基于协同过滤的推荐算法（collaborative），和混合推荐算法（hybrid）。这篇文章也描述了当前推荐系统的各种限制，讨论了提升推荐能力、在更大范围商品推荐的扩展可能性。这些扩展包括：提升对用户和物品的理解能力、将上下文信息融入到推荐过程里面、支持多规则打分、提供更灵活少干扰的推荐。

索引- 推荐系统、协同滤波、打分预测方法、推荐系统的扩展

1. Introduction

自90年代中期[45, 86, 97]，第一篇协同滤波的论文出现之后，推荐系统就变成了一个重要的研究领域。在过去的十年里，工业界和学术界都做了很多工作去提升推荐系统。该研究领域仍然存在大量的问题，而且存在大量的实际应用来帮助用户处理信息过载问题，并为他们提供个性化的建议、内容和服务，因此人们对该领域的研究兴趣仍然很高。推荐系统有许多应用，比如：Amazon推荐书籍、CD和其他产品[61]，MovieLen推荐电影[67]，VERSIFI科技推荐新闻[14]等等。此外，许多公司也把推荐系统融入了他们的商业服务里面[78]。

尽管当前已经很好了，但是当前的推荐系统仍然需要进一步的提升来使得推荐系统更有效，能够在更大范围的现实应用中进行推荐，例如：度假推荐、为投资者推荐金融服务以及在商店里用“智能”购物车购买的产品[106]。这些提升包括更好的表示用户行为和推荐项目信息的方法，更先进的推荐系统建模方法，将各种上下文信息整合到推荐过程中，利用多准则评分，开发较少干扰和更灵活的推荐方法，这些方法也依赖于更有效地确定推荐系统性能的措施。

在这片论文中，我们描述了各种各样来提升推荐系统性能的方法。接下来，在第二节我们会读目前的SOTA的推荐算法进行了详细的讲解。在第三届，我们会介绍目前推荐系统的限制并讨论一些初步的提升性能的方法。

2. The Survey of Recommender Systems

推荐系统的根源可以追溯到认知科学[87]、近似理论[81]、信息检索[89]、预测理论[6]等领域的广泛工作，而且还与管理科学[71]以及市场营销中的消费者选择模型[60]有联系，推荐系统作为一个独立的研究领域出现于20世纪90年代中期，当时研究人员开始关注明显依赖于评级结构的推荐问题。在其最常见的表述中，推荐问题被简化为估计用户没有看到过的项目的评分问题。直观地说，这种估计通常是基于这个用户对其他项目的评分以及一些其他可以被形式化描述的信息。一旦我们可以为尚未评分的项目评分，我们就可以向用户推荐评分最高的项目。

推荐系统问题可以按如下定义。令$ C$ 表示全体用户，$ S$ 表示所有可能被推荐的项目，比如书、电影、餐厅。项目$ S$ 的空间可能非常大，在一些应用中可能有成百上千甚至成千上万个，例如推荐书或CD。同理，用户$ C$ 的空间也可能非常大。令$ u$ 表示效用函数（utility），用来测量项目$ s$ 对用户$ c$ 的有用程度，即：$ u:C \times S \to R$ ，其中$ R$ 表示全序集。对于每个用户$ c \in C$ ，我们希望选择这样一个项目$ s’\in S$ 使得用户的效用最大，即：

$\forall c\in C, s'_c = \arg \max_{s\in S} u(c,s)$

在推荐系统中，一个项目的效用通常用评分来表示，其代表着一个用户对一个项目的喜爱程度，如John Doe给电影Harry Potter打了7分（10分制）。一般来说，效用可以是任意函数，包括利润函数。取决于应用程序，效用$ u$ 可以由用户指定，比如用户为某个项目打分，或者由应用程序计算，比如基于利润的效用函数来计算得到。

用户空间$ C$ 的每个元素，可以由用户的画像（profile）定义，包括不同的用户特征，比如：年龄、性别、收入、婚姻状况等。在最简单的情况下，画像可以只包含单一的元素，如用户ID。同样的，项目空间$ S$ 的每一个元素也是由一组特征定义的。例如：在电影推荐系统中，$ S$ 代表电影的集合，而每个电影不仅包含ID，还包含电影名、电影类型、导演、发布时间、领衔主演等。

推荐系统的主要问题是，效用$ u$ 并不是定义在整个$ C \times S$ 空间的，而是仅定义在空间的某一部分中（即只在这一部分中，效用函数$ u$ 是已知的）。这就意味着，我们需要将$ u$ 外推到整个$ C \times S$ 空间中。在推荐系统中，效用通常用评分来表示，并且最初只定义在用户先前评级的项目上。例如，在电影推荐应用里，最开始，用户给看过的电影（电影空间的自己）评分，一个电影推荐应用的user-item打分矩阵如表1，打分区间1-5。表1中的$ \varnothing$ 表示用户没给相关电影打过分。因此，推荐系统引擎需要能够预测$ \varnothing$ 位置的分数，根据这些预测给出正确建议。

从已知的评分中外推到未知的评分通常的做法是（a）使用启发式方法来定义效用函数，并以经验验证其性能；（b）通过优化某些性能度量标准来估计效用函数，比如均方误差损失。

一旦估计了未知的评分后，那么推荐系统就会选择评分中最高的一个或者N个来推荐给用户。

利用机器学习、近似理论和各种启发式方法，可以用多种不同的方法对未评分项目的评分进行估计。推荐问题普遍接受的形式化公式首次在文献 [45, 86, 97]中被提出。推荐系统通常根据他们的评分预测方法分类，推荐系统普遍被分为以下几类[8]：

基于内容的推荐算法：基于用户过去的喜好来为用户推荐项目
基于协同过滤的推荐算法：基于相似人群的喜好来为用户推荐项目
混合算法：将基于内容和算法和基于协同过滤的算法联合起来。

推荐系统除了给用户没见过的项目预测打分外，还能做基于爱好的过滤，即预测用户相关爱好 [22, 35, 51, 52]。举个例子，在一个基于爱好过滤的电影推荐应用中，我们将会注重预测相关电影，而不是个人评分。不过，这篇论文主要关注基于评分的推荐系统，因为大多数最流行的推荐系统方法都是基于评分的。

2.1 Content-based Methods

在基于内容的推荐系统方法中，用户$ c$ 对项目$ s$ 的效用$ u(c,s)$ 是根据与用户$ c$ 对项目$ s$ 相似的项目$ s_i$ 的效用$ u(c,s_i)$ 得到的。例如：在一个电影推荐系统中，为了给用户$ c$ 推荐电影，基于内容的推荐系统试图理解用户过去评价很高的电影的共性（如演员、导演、类型、主要事件等等）。然后，只有那些与用户喜好高度相似的电影才会被推荐。

基于内容的推荐方法起源于信息检索[7, 89]和信息过滤[10]的研究。由于信息检索和过滤社区所取得的显著和早期的进步，以及一些基于文本的应用程序的重要性，许多当前基于内容的系统都集中于推荐包含文本信息的项目，例如文档、网站（url）和Usenet新闻消息。对传统信息检索方法的改进来自于对户画像的使用，其中包含了关于用户口味、偏好和需求的信息。分析信息可以明确地从用户那里获得，例如通过问卷调查，也可以隐式地从他们的交易行为中学习。

令$ Content(s)$ 表示一个项目的画像，即项目$ s$ 的一组属性特征，它通常是通过从项目$ s$ 的内容中提取一组特征来计算的，并用于确定该项目是否适合用于推荐目的。因此，如前面所描述的一样，基于内容的推荐系统通常用来推荐基于文本的项目。在这些系统的内容通常是用关键词来描述。例如：一个基于内容的Fab推荐系统[8]，其推荐Web网页给用户，使用100个最重要的单词来表示Web网页的内容。同样的，Syskill & Webert推荐系统[77]使用128个能够提供最多信息的词语来表示文档，在文档$ d_j$ 中单词$ k_i$ 的重要程度是由一些使用不同方法定义的权重$ w_{ij}$ 来决定的

在信息检索中，确定关键词权重的一个最著名的测量方法是TF-IDF（ term frequency/inverse document frequency ）[89]方法，其定义如下：假设$ N$ 是可以推荐给用户的文档总数，其中，$ n_i$ 个文档存在关键字$ k_i$ 。同时，假设$ f_{i,j}$ 表示关键词$ k_i$ 出现在文档$ d_j$ 中的次数。那么，$ TF_{i,j}$ 表示在文档$ d_j$ 中关键词$ k_j$ 的词频，定义为：

$TF_{i,j} = \frac{f_{i,j}}{\max_z f_{z,j}}$

其中$ \max_z f_{z,j}$ 表示出现在文档$ d_j$ 中所有的关键词$ k_z$ 的最大次数。但是，有些关键词可能出现在很多文章里面，对于区分两篇文章是否相关没什么用，因此，$ IDF_i$（inverse document frequency）被用来联合$ TF_{i,j}$ 一起使用。关键词$ k_i$ 的$ IDF_i$ 通常定义为：

$IDF_I = \log \frac{N}{n_i}$

因此关键词$ k_i$ 在文章$ d_j$ 的TF-IDF权重定义为：

$w_{i,j} = TF_{i,j} \times IDF_{i}$

同时，$ Content(d_j)$ 被定义为：

$Content(d_j) = (w_{1j},...,w_{kj})$

就像之前所说的那样，基于内容的推荐系统会推荐那些与用户过去喜欢的东西相似的东西[56, 69, 77]。因此，不同的候选项目会与那些用户之前评过分的项目进行比较，最匹配的项目会被推荐。我们令$ ContentBasedProfile(c)$ 来表示用户$ c$ 的画像，其包括该用户的品味和喜好。这些画像是通过分析用户先前看到和评价的项目的内容获得的，通常通过信息检索中的关键词分析技术得到。举例：$ ContentBasedProfile(c)$ 可以被定义为一个权重向量$ (w_{c1},…,w_{ck})$ ，其中每个权重$ w_{ci}$ 表示为关键词$ k_i$ 对用户$ c$ 的重要性，使用各种各样的技术，通过对用户$ c$ 打过分的内容向量计算得到。比如：使用一些平均的方法，如Rocchio方法[85]，其可以通过对单个内容向量取平均来得到$ ContentBasedProfile(c)$ [8, 56]；另一方面，我们可以使用贝叶斯分类器来预测文章被喜欢的可能性[77]，Winnow算法[62]已经被正明能够很好的实现这一目的，特别是在存在许多可能特征的情况下[76]。

在基于内容的系统中，效用函数$ u(c,s)$ 被定义为：

$u(c,s) = score(ContentBasedProfile(c),Content(s))$

使用上面提到的基于信息检索范式去推荐网页、URL或者新闻消息时，$ ContentBasedProfile(c)$ 和$ Content(s)$ 可以被TF-IDF向量$ \vec{w_c}$ 和$ \vec{w_s}$ 来表示。此外，在信息检索文献中，效用函数$ u(c,s)$ 通常被用$ \vec{w_c}$ 和$ \vec{w_s}$ 定义的评分启发式方法表示，如余弦相似度[7, 89]：

$u(c,s) = \cos(\vec{w_c},\vec{w_s}) = \frac{\vec{w_c}·\vec{w_s}}{\left \| \vec{w_c}\right \|_2 \times\left \| \vec{w_s}\right \|_2} = \frac{\sum_{i=1}^Kw_{i,c}w_{i,s}}{\sqrt{\sum_{i=1}^Kw_{i,c}^2}\sqrt{\sum_{i=1}^Kw_{i,s}^2}}$

其中$ K$ 表示系统中关键词的总数。

举例：如果用户$ c$ 在网上读了很多生物学的文章，那么基于内容的推荐系统技术将会为用户$ c$ 推荐其他的生物学文章。这是一个案例，因为这些文章有很多生物学相关的词汇，因此用$ \vec{w_c}$ 定义的$ ContentBasedProfile(c)$ 将会以较高的权重来表示这些词$ k_i$ 。因此，一个使用余弦或者一个相关的相似度度量方法的推荐系统将会给那些有着高权重的生物学词汇的文章$ s$ 分配更高的效用$ u(c,s)$ ，而给生物词汇权重较低的文章较低的效用。

除了传统的基于信息检索的启发式方法，其他的基于内容的推荐技术也被用到过，比如贝叶斯分类器[70, 77]以及各类机器学习技术，如：聚类、决策树、神经网络[77]。这些技术不同于基于信息检索的方法，在这些方法中，他们并不基于一个启发式的公式，如：余弦相似度，来预测效用，而是从重要的数据出发，使用统计学习和机器学习技术学习一个模型来进行预测。举例：给定一组Web网页，其被用户分类为相关和不相关，我们使用朴素贝叶斯分类器去区分那些没有标签的Web网页[77] ，即给定网站的关键词组$ k_{1j},…,k_{nj}$ ，我们使用贝叶斯分类来估计网页$ p_j$ 属于特定类别$ C_i$ （相关、不相关）的概率$ P(C|k_{1,j}…k_{n,j})$ 。

此外，我们要假设所有的关键词都是互相独立的，因此，上述的概率正比于：

$P(C_i)\prod_x P(k_{x,j}|C_i)$

虽然在许多应用中，关键词独立的假设不一定适用，但是试验结果表明，贝叶斯分类器仍然有较高的准确率。因此，$ P(k_{x,j}|C_i)$ 和$ P(C_i)$ 可以从基础训练数据中估计到。因此，对于每个网页$ p_j$ ，会计算每一个类别$ C_i$ 的概率值$ P(C_i|k_{1,j}…k_{n,j})$ ，网页$ p_j$ 被分类为最高概率的$ C_i$ 。

虽然没有明确的解决推荐系统的问题，文本检索社区已经贡献了许多个被使用在基于内容的推荐系统中的技术。一个例子就是对自适应滤波 [101, 112]的研究，其注重于在递增的识别相关文档时变得更加精确。另一个例子是阈值设置[84, 111]，其注重于确定文档应该在多大程度上匹配给定的查询才能使其与用户相关。其他的文本检索方法可以在文献[50]或者Text Retrieval Conference (TREC) (http://trec.nist.gov)中找到。

正如文献[8, 97]观察到的那样，基于内容的推荐系统会存在一些缺陷。

Limited content analysis（有限制的内容分析），基于内容的技术受到与这些系统推荐的对象显式关联的特征的限制。因此，为了由足够的特征，内容必须是一个计算机可以自动分析的格式（如：文本），或者通过人工来为项目提取特征。尽管信息检索技术能够很好的从文本文件中提取特征，但是一些其他的领域在自动提取特征方面却有一些问题。比如：对多媒体数据自动提取数据会更加困难，比如：图形图像、音频、视频流等。此外，由于资源的限制，手工的提取项目的特征往往是不现实的[97]。

另一个限制内容分析的问题就是，如果两个不一样的项目有着相同的特征，他们是不能被区分开的。因此，因为基于文本的文件通常由他们最重要的关键词来表示，如果两个文章的特征相同，那么基于内容的推荐系统不能够区分一个文章是一个写的好的，还是写的差的。

Over-specialization（过度专一化），当系统根据用户的画像仅仅推荐那些高分的项目时，用户只能够接收到与他们早已评分过的项目相似的项目。举例：一个从来没有尝过希腊菜的人，将从来都不会受到希腊菜的推荐，即使这是全镇最好的希腊餐馆。这个问题，也在其他领域研究过，通过引入一些随机项来解决。比如，在进行信息过滤[98]时，使用遗传算法是一种可能的解决方案。另外，过度专一化的问题不仅仅是不能够推荐用户之前没见过的东西，在某些情况下，用户见过的物品也不应该被推荐，比如一样的文章但不同的标题。因此，一些基于内容的推荐系统，如DailyLearner [13]，过滤物品不仅仅依靠他们与用户的喜好的不同，还要观察其是否与之前看过的东西过度相似。此外，[112]中提出了五个冗余措施来评估被认为相关的文档是否也包含一些新的信息。总的来说，推荐系统的多样性是一个较好的特性。理想情况下，应该给用户一些列的选项，而不是同类的替代物。比如，把Woody Allen的所有电影都推荐给一个喜欢其中一部的用户，可能并不是一个很好的建议。

New user problem（冷启动问题），用户只有在给大量的项目打分后，基于内容的推荐系统才能够理解用户的喜好，然后给用户提供可靠的推荐。因此，一个新的用户，只有很少的评分，就不会得到准确的推荐。

2.2 Collaborative Methods

与基于内容的推荐方法不同，协同过滤推荐系统是基于别人对项目的评分来预测特定用户对物品的效用。即，用户$ c$ 对物品$ s$ 的效用$ u(c,s)$ 是基于那些与用户$ c$ 相似的人对项目的效用$ u(c_j,s)$ 来得到的。例如：在一个电影推荐系统中，为了为用户$ c$ 推荐电影，协同过滤系统通过找到$ c$ 的。够被推荐。

在学术界和工业界，已经存在许多协同过滤的系统。Grundy是第一个系统[87]，其采用模式化观念的方法，根据每个用户有限的信息量来建立用户模型。使用模式化观念，Grundy系统能够建立每个用户的模型，并用他们来为每个用户推荐相关书籍。之后，Tapestry系统依靠每个用户手动识别志同道合的用户[38]。GroupLens [53, 86], Video Recommender [45], and Ringo [97]，是第一个使用协同滤波算法去自动预测的系统。其他协同滤波推荐系统的例子，包括Amazon的图书推荐系统，PHOAKS帮助人们在万维网上查找相关信息[103]，Jester系统用来推荐笑话[39]。

根据文献[15]，协同滤波算法通常可以被分为两类，memory-based（基于记忆（基于启发）的算法），model-based（基于模型的算法）。

memory-based

基于记忆的算法[15, 27, 72, 86, 97]本质上来说是启发式的方法，根据用户以前评分的项目的整个集合进行评分预测。用户$ c$ 对未评分项目$ s$ 的评分$ r_{c,s}$ 通常是由其他用户（通常是$ N$ 个最相似的）给物品$ s$ 的评分聚合得到的，即：

$r_{c,s} = aggr_{c' \in \hat{C}}\ r(c',s)$

其中$ \hat{C}$ 表示与用户$ c$ 最相似的N个用户集合。聚合函数举例：

$(a)\ r_{c,s} = \frac{1}{N}\sum_{c' \in \hat{C}} r_{c',s} \\ (b)\ r_{c,s} = k\sum_{c' \in \hat{C}} sim(c,c') \times r_{c',s} \\ (c)\ r_{c,s} = \bar{r_c} + k\sum_{c' \in \hat{C}} sim(c,c') \times (r_{c',s} - \bar{r_{c'}}) \\$

其中，$ k$ 是归一化因子，通常选择$ k = 1 / \sum_{c’\in \hat{C}}|sim(c,c’)|$ 。公式$ (c)$ 中的用户平均打分值$ \hat{r_c} = (1/|S_c|)\sum_{s\in S_c}r_{c,s}$ 其中$ S_c = {s\in S|r_{c,s} \ne \varnothing}$ 。

在最简单的情况下，聚合函数可以是一个简单的平均，就像函数$ (a)$ 一样。但是，最常用的聚合函数是用加权平均，如函数$ (b)$ 。用户$ c$ 与$ c’$ 的相似度$ sim(c,c’)$ 被充当权重，两个用户越相似，则权重越大。注意，$ sim(x,y)$ 是一个启发式的认为指定的公式，是为了区分用户相似度的不同。不同的推荐应用程序可以使用自己的用户相似性度量，只要使用规范化因子k对计算进行规范化。在下面会介绍两个最常用的相似度度量方法。使用加权平均存在一个问题，那就是它没有考虑不同的用户可能会使用不同的评分标准，即评分的范围不同。函数$ (c)$ 解决了这个问题，在该函数中，并不是计算评分的绝对值，加权求和使用的是用户评分与其平均值的偏差。另一个方式来克服评分范围的区别的方法时采用基于爱好的过滤方法[22, 35, 51, 52]，这种方法注重于预测用户的相关爱好，而不是评分的绝对值。

目前，在协同过滤系统中，已经有各种各样的方法被用来计算用户间的相似度$ sim(c,c’)$ 。大多数的方法都是基于两个用户对他们都已评分的项目的评分来计算两个用户之间的相似度。两个最流行的相似度计算方法分别是基于相关性的方法和基于余弦的方法。我们令$ S_{xy}$ 表示用户$ x$ 和用户$ y$ 都评过分的项目集合，即$ S_{xy} = {s\in S|r_{x,s} \ne \phi,r_{y,s} \ne \phi}$ 。在协同过滤推荐系统中，$ S_{xy}$ 主要作为计算用户$ x$ 的最近邻的中间结果，通常使用直接计算的方法得到，即计算集合$ S_x$ 和$ S_y$ 的交集。但是，一些别的方法，比如协同过滤的图论方法，能够直接得确定$ x$ 的最近邻，而不需要计算所有用户$ y$ 的$ S_{xy}$ 。在基于相关性的方法中，采用Pearson相关系数[86, 97]来度量相似度：

$sim(x,y) = \frac{\sum_{s\in S_{xy}}(r_{x,s} - \bar{r_x})(r_{y,s} - \bar{r_y})}{\sqrt{\sum_{s\in S_{xy}}(r_{x,s} - \bar{r_x})^2 \sum_{s\in S_{xy}}(r_{y,s} - \bar{r_y})^2}}$

在基于余弦的方法[15, 91]中，用户$ x$ 和用户$ y$ 被看成两个向量，设$ m = |S_{xy}|$ ，那么，两个向量的相似性可以用余弦角度来测量：

$sim(x,y) = \cos (\vec{x},\vec{y}) = \frac{\vec{x}·\vec{y}}{||\vec{x}||_2\times ||\vec{y}||_2} = \frac{\sum_{s\in S_{xy}}r_{x,s}·r_{y,s}}{\sqrt{\sum_{s\in S_{xy}}r_{x,s}^2 \sum_{s\in S_{xy}}r_{y,s}^2}}$

其中$ \vec{x}·\vec{y}$ 表示两个向量的点乘。计算相似度的另一种方式是采用均方差度量，在文献[97]中被提到。注意，不同的推荐系统在计算用户之间的相似度和预测评分时，可能会采用不同的方法。一个常用的策略是提前计算所有用户的相似度$ sim(x,y)$ 以及$ S_{xy}$ ，然后每隔一段时间重新计算一次，因为通常短时间内用户的邻居不会改变的太多。然后，不论何时用户访问推荐系统时，可以用预先计算的相似度来进行推荐。

注意，基于内容的推荐算法和协同过滤算法都是使用信息检索文献中相同的余弦度量。但是，在基于内容的推荐系统中，其被用来计算TF-IDF权重向量的相似度，但是在协同过滤系统中，其被用来计算实际用户指定的评分向量之间的相似性。

许多提升性能的方法，比如default voting（默认打分）, inverse user frequency（用户频率的逆）, case amplification（事例放大） [15], and weighted-majority prediction（加权多数预测） [27, 72]，已经作为这些基于相关和余弦的标准技术的扩展。举例：默认打分[15]时基于记忆的方法的拓展，我们发现，当用户之间相交的打分很少时，这些方法在计算相似度时并不会很好的work，实证结果表明，对于缺失的打分，如果我们可以设置默认打分，可以提高评级预测的精度。

当上面的传统技术被用来计算用户的相似度时，[91]提出用同样的基于相关性的方法和基于余弦的方法来计算项目之间的相关性。这个方法进一步的拓展了top-N项目推荐[29]。另外，[29, 91]提出，基于项目的算法比传统的基于用户的方法效果更好，同时能够提供与目前最好的基于用户的算法相比肩甚至更好的效果。

model-based

相比于基于记忆的算法，基于模型的算法 [11, 15, 37, 39, 47, 64, 75, 105]会使用评分集合来训练一个模型，然后被用来进行评分预测。比如，[15]提出了一个基于概率的协同过滤方法，其中未知的评分可以被如下计算：

$r_{c,s} = E(r_{c,s}) = \sum_{i=1}^n i \times Pr(r_{c,s} = i | r_{c',s},s\in S_c)$

在这个方法中，我们假设评分值是$ 0$ 到$ n$ 之间的整数，概率表达式是在给定用户对先前打分的项目的分数后，用户$ c$ 会给项目$ s$ 特定评分的概率。为了估计这个概率值，[15]提出了两个可能的概率模型：聚类模型和贝叶斯模型。在第一个模型中，志趣相投的用户被聚类到一个类别中，给定用户的类别关系，同时假设用户的评分是相互独立的，比如：朴素贝叶斯的网络结构。类别的数量和模型的参数都从数据中学习到。第二个模型将域中的每个项目表示为贝叶斯网络中的一个节点，其中每个节点的状态对应于每个项目的可能评分值。网络的结构和条件概率都从数据中学习到。这个方法的限制是每个用户被聚类到一个类别中，但是有一些推荐系统会认为用户应该被分类到多个类别中，比如：在一个书籍推荐系统中，一个用户出于工作目的对一个主题感兴趣，而出于娱乐目的会对另一个完全不同的主题感兴趣。

此外，[11]在机器学习框架中提出了一协同过滤方法，其中可以使用各种机器学习技术（如人工神经网络）与特征提取技术（例如奇异值分解-一种用于降低矩阵维数的代数技术）相结合。[15]和[11]将各自基于模型的方法与基于内存的方法进行了比较，并指出在某些应用中，基于模型的方法在推荐的准确性方面优于基于内存的方法。然而，这两种情况下的比较纯粹是经验性的，没有提供支持这一主张的基本理论证据。

在一些文献中提到了几种其他的基于模型的协同过滤推荐系统。文献[115]中提出了一种统计模型的协同过滤方法，同时比较了几种不同的模型参数估计算法，包括K均值聚类和Gibbs采样。其他的协同滤波方法，包括贝叶斯模型[20]、概率相关模型[37]、线性回归[91]和最大熵模型[75]。最近，为了在推荐过程中用更复杂的概率模型，做了大量的研究。例如，[96]将推荐过程看成一个序列决策问题，并且提出使用马尔可夫模型来生成推荐。其他的用于推荐系统的概率模型包括probabilistic latent semantic analysis [47, 48]和基于潜在Dirichlet分配生成语义的多项式混合和方面模型的组合[64]。同样的，[99]还使用概率潜在语义分析提出了一种灵活的混合模型，允许用两组潜在变量显式地建模用户和项目的类别。[55]是用一个简单的概率模型证明了协同滤波在每个用户的数据相对较少的情况下仍然是很有用的，而且在某些受限的设置中，简单的协同过滤算法在实用性方面几乎与最好的算法一样有效。

就像基于内容的推荐算法一样，基于模型的推荐算法和基于启发式的方法的区别在于，基于模型的推荐算法并不是基于专门的启发式规则来得到效用的预测值，而是从基础数据中学习到一个模型。在文献[79]中提除了一种结合基于记忆和基于模型的方法，试验结果表明这种联合的方法可以提供更好的推荐意见。

在文献[108]中，提出了一种能够提升现存的协同过滤算法的不同的方法，在这种方法中，用户先前指定的评分输入集需要通过多种技术精心挑选，这些技术排除了噪音、冗余，并且利用到了评分数据的稀疏性。实验结果证明，这种方法提升了基于模型的协同过滤算法的准确率和有效性。同时，他也表明，这种输入选择技术可以帮助基于模型的算法解决从大型数据库中学习的问题。在最新的进展中，[109]提出了一种基于概率的协同过滤方法，其采用了另一种方法来结合基于记忆的算法和基于模型的算法。特别的，[109]提出（1）采用主动学习方法学习每个用户偏好的概率模型（2）在混合模型中使用存储的用户画像来进行推荐。该方法的后一个方面采用了传统基于内存的算法中使用的一些思想。

纯粹的协同过滤算法没有基于内容的推荐系统的某些问题，因为协同过滤系统使用其他用户进行推荐，因此，它可以处理任何内容，推荐各种各样的项目，哪怕这种东西与之前的东西都不相似。但是，协同过滤系统也有自己的局限性。

New user problem（冷启动问题），和基于内容的系统面临相同的问题，为了进行精确的推荐，系统必须首先从用户的打分中学习用户的喜好。有几个方法可以解决这个问题，大多数他们都采用混合推荐的方法，即结合基于内容的方法和协同过滤的方法。下一节将会介绍混会推荐系统的细节。[83, 109]提出了一个可供选择的方法，其采用了各种各样的方法来确定最佳（即，对推荐系统最有用的）项目供新用户评分。这些技术使用基于项目流行度、项目熵、用户个性化以及以上各项的组合的策略

New item problem（新项目问题），新的项目会被定期的加入到推荐系统中。但是协同过滤系统只依赖用户的喜好来进行推荐，因此，只有新的项目被一定数量的用户打分后，推荐系统才会推荐她。这个问题通过混合推荐方法来进行解决。

Sparsity（稀疏度问题），在任何一个推荐系统中，已经得到的评分的数目，相比于需要被预测的评分的数目来说，通常是比较少的。从一个小样本中有效率的进行评分预测是非常重要的。因此，协同滤波系统的成功取决于关键用户群的可用性。比如，在一个电影推荐系统中，有很多电影只被很少的人打过分，这些电影就会被很少的推荐，哪怕那些评过分的人给了很高的评分。另外，对于那些有着不同寻常口味的用户来说，会有比较少的相似的用户，这就导致其推荐的效果会很差[8]。一个解决评分稀疏性的问题的方法是当计算用户的相似度时使用用户的画像信息。也就是说，两个用户不仅仅会因为他们对项目的评分相似而被划为相似，也会因为两个人属于同种人被划为相似。比如，在餐馆推荐系统中，[76]使用了用户的性别、年龄、邮编、教育和工作信息。这种传统协同过滤算法的拓展被称之为demographic filtering”[76]。[49]提出了另一种计算用户相似度的方法，该文献通过应用关联检索框架和相关的扩展激活算法，通过消费者过去的交易和反馈来研究消费者之间的传递性关联，从而解决稀疏性问题。文献[11，90]采用了一种处理稀疏评级矩阵的不同方法，其中使用了降维技术奇异值分解（SVD）来降低稀疏评级矩阵的维数。奇异值分解是一种著名的矩阵分解方法，它提供原始矩阵的最佳低阶近似值[90]。

2.3 Hybrid Methods

一些推荐系统使用混合的方法，结合了协同过滤和基于内容的算法，这种方式避免了基于内容的算法与协同过滤算法的限制[8, 9, 21, 76, 94, 100, 105]。不同的结合方法可以分为以下几种：

分别实现协同过滤算法和基于内容的算法，将两者的预测结果结合以来
把一些基于内容的算法的一些特征融入到协同过滤算法中
把一些协同过滤算法的一些特征融入到基于内容的算法中
构建一个综合的模型，融合基于内容的算法和协同过滤算法的特征

以上的方法都在推荐系统中用到过，下面会提到。
Combining separate recommenders（结合两个分开的推荐系统）。一种构造混合的推荐系统的方法时分别实现协同过滤系统和基于内容的系统。我们会有两种不同的情况。第一种情况，我们可以使用线性组合[21]或者投票方案[76]将从单个推荐系统中获得的输出（评分）组合成一个最终输出。第二种情况，我们可以只使用其中的一个推荐系统，在任意给定的时刻选择使用一个比其它系统“更好”（即基于某种“质量”指标）的推荐者。比如，在DailyLearner系统[13]中，选择能够给出更高置信度的推荐，而文献[104]中选择的是与用户过去打分更一致的推荐。
Adding content-based characteristics to collaborative models（将基于内容的算法的特征加入到协同过滤算法中）。一些混合的推荐系统，包括Fab和文献76提到的“通过内容的协同滤波”方法，他们都是基于传统的协同滤波技术但是为每个用户保存了基于内容的画像。然后使用这些基于内容的画像，而不是共同打分的项目的分数，来计算两个用户之间的相似度。就像文献[76]提到的那样，这克服了纯协同过滤算法中的稀疏相关的问题，因为通常用户之间共同打分的项目数目不多。这种方法的另一个优点就是，用户被推荐的项目不仅仅是因为这个项目被相似的用户打分很高，也有可能是因为，基于该用户的画像，这个项目的评分会有很高[8]。[40]在使用各种不同的filterbots时采用了某种类似的方法，即在协作过滤社区中充当额外参与者的专业内容分析代理。那么，与filterbots打分一致的用户就有可能接收到更好的推荐效果。同样的，[65]使用了协同过滤方法，即传统用户的评分向量通过额外的评分来增加，这些评分是使用纯基于内容的预测器来计算的。
Adding collaborative characteristics to content-based models（将协同过滤算法的特征加入到基于内容的算法中）。最流行的方法就是在一组基于内容的画像上使用降维技术。比如，[100]使用了latent semantic indexing（LSI）创建一个用户画像集合的协作过滤视图，其中用户画像由关键词向量表示（如第2.1节所述），其性能比纯基于内容的方法好。
Developing a single unifying recommendation model（构建一个综合的推荐系统模型），最近近几年，许多研究者都在做这个。比如，文献[9]提出在一个基于规则的分类器中使用基于内容和协同过滤的特征（比如：用户的年龄、性别或电影题材）。[80]和[94]提出了一个统一的概率方法，能够结合协同过滤和基于内容的推荐，这种方法基于概率latent semantic analysis[46]。文献[25]和[5]提出了另一种方法，即使用贝叶斯混合效应回归模型，并采用马尔可夫链蒙特卡罗方法进行参数估计和预测。特别的，文献[5]在一个统计模型中使用用户和项目的画像信息来未用户$ i$ 和项目$ j$ 估计未知的评分$ r_{ij}$ ：

$r_{ij} = x_{ij}\mu + z_i\gamma_j+w_j\lambda_i + e_{ij} \\ e_{ij}\sim N(0,\sigma^2),\lambda_i \sim N(0,\Lambda),\gamma_j \sim N(0,\Gamma)$

其中，$ i = 1,…,I,j=1,…,J$ 分别表示用户和项目，$ e_{ij},\lambda_i,\gamma_j$ 是随机变量，分别表示噪声、用户异质性和项目异质性的不可观测来源。并且，$ x_{ij}$ 是一个包含着用户和项目特征的矩阵，$ z_i$ 是用户特征向量，$ w_j$ 是项目特征向量，模型的未知参数是$ \mu,\sigma^2,\Lambda,\Gamma$ ，这些参数使用马尔可夫链蒙特卡罗方法，从已知的打分数据中进行估计。总的来说，[5]使用了包含着一部分用户画像的用户属性$ {z_i}$ ，包含着一部分项目画像的项目属性$ {w_j}$ 以及他们的交集$ {x_{ij}}$ 来估计未知的项目的评分。

为了提高推荐准确性并解决传统推荐系统的问题，可以使用基于知识的技术来进行增强混合推荐系统[17]，比如基于案例推理。比如，基于知识的推荐系统Entree[17]，其使用了一些关于餐馆、饭菜和食物的领域知识来给用户推荐餐馆。基于知识的系统的主要缺点是，其需要获取知识，这也是许多人工智能应用的常见瓶颈。然而，基于知识的推荐系统已经被开发用于应用领域，其中领域知识以某种结构化的机器可读形式（例如，作为本体）容易获得。例如，Quickstep和Foxtrot系统[66]使用研究论文主题本体向用户推荐在线研究文章。

此外，一些论文，比如文献[8, 65, 76, 100]，实验比较了混合方法和纯协同滤波和基于内容的方法，证明混合方法比其他方法更精确。

2.4 Summary and Conclusions

如第2.1-2.3节所述，在过去几年中，对推荐技术进行了大量研究，这些技术使用了广泛的统计、机器学习，信息检索和其他技术，与使用协作和基于内容的启发式的早期推荐系统相比，它大大提高了技术水平。如上所述，基于所使用的推荐方法，推荐系统可以被分类为（a）基于内容的、协作的或混合的，以及（b）基于用于评分估计的推荐技术的类型的基于启发式的或基于模型的。我们使用这两个正交维度对推荐系统的研究进行分类，如下图中所示的2×3矩阵。

本节所述的推荐方法在多个应用程序中表现良好，包括推荐书籍、CD和新闻文章[64、88]，其中一些方法被用于“行业实力”推荐系统，例如部署在Amazon[61]、MovieLens[67]的推荐系统，和VERSIFI Technologies（以前AdapiveInfo.com网站)[14]。但是，协作方法和基于内容的方法都具有本节前面描述的某些限制。此外，为了提供更好的建议，并能够在更复杂的应用程序中使用推荐系统，例如推荐度假或某些类型的金融服务，本节所述的大多数方法都需要大量扩展。例如，即使对于传统的电影推荐应用程序，[3]也表明，通过扩展传统的基于内存的协作过滤方法来考虑上下文信息，例如看电影的时间、地点和对象，该推荐系统的性能优于单纯的传统协同过滤方法。许多现实生活中的推荐应用程序，包括一些商业应用程序，例如上面所描述的应用程序，可以说比电影推荐系统更复杂，并且需要考虑更多的因素来考虑推荐。因此，对于这类应用，开发更先进的推荐方法的需求更加迫切。在下一节中，我们将回顾扩展推荐方法的各种方法，以支持更复杂类型的推荐应用程序。

3. Extending Capabilities of Recommender Systems

就像第二节描述的和上面表中所总结的那样，推荐系统可以使用一些方法来进行拓展，这些方法包括，提升对用户和项目的理解，在推荐过程中加入上下文信息，支持多规则评分，提供更加灵活、更少干扰的推荐。这种更全面的推荐系统模型可以提供更好的推荐能力。在本节的剩余部分中，我们将描述所提到的扩展方法，并开发它们的各种研究机会。

3.1 Comprehensive understanding of users and items

文献[2, 8, 54, 105]指出，大多数的推荐方法都是基于对用户和项目画像所捕获的对用户和项目的有限的理解来进行打分的，并没有充分的利用用户过去的情况和其他可用的数据。例如，传统的协同过滤方法[45,86,97]在进行推荐的过程中完全没有使用用户和项目画像，仅仅依赖评分信息去做出推荐。尽管自从早期的推荐系统[13，76，79]以来，在将用户和项目画像合并到某些方法中已经取得了一些进展，但是这些画像往往非常简单，并且没有使用一些更先进的分析技术。除了使用传统的画像特征，例如关键词和简单的用户统计资料[69, 77]，基于数据挖掘规则[1，34]、序列[63]和描述用户兴趣的签名[26]的更高级的评测技术也可以用于构建用户画像。同时，除了使用传统的项目画像特征，例如关键词[9, 76]，上面所提到的更高级的评测技术也可以用来构建更详细的项目画像。关于推荐系统，基于数据挖掘的高级分析技术主要用于Web使用分析[59，68，110]，即发现用户的导航Web使用模式（即页面浏览序列），以便提供更好的网站建议；但是，这些技术还没有被使用广泛应用于基于评分的推荐系统中。

一旦用户和项目的画像建立起来了，就可以根据这些画像和先前指定的评级定义最通用的评分估算函数，如下所示。令用户$ i$ 的画像为包含$ p$ 个特征的向量，即$ \vec{c_i}=(a_{i1},…,a_{ip})$ 。同样的，令项目$ j$ 的画像为包含$ r$ 个特征的向量，即$ \vec{s_j} = (b_{j1},…,b_{jr})$ 。我们故意的没有精确的定义特征$ a_{ij}、b_{kl}$ ，这是因为，在不同的领域，他们可以表示不同的内容，比如数字、类型、规则、序列等等。令$ \vec{c}$ 表示所有的用户画像向量集合，即$ \vec{c} = (\vec{c_1},…,\vec{c_m})$ ，令$ \vec{s}$ 表示所有的项目画像向量集合，即$ \vec{s} = (\vec{s_1},…,\vec{s_n})$ 。那么，最通用的评分估算函数可以被定义为：

$r'_{ij} = \begin{cases} r_{ij} & & r_ij \ne \phi\\ u_{ij}(R,\vec{c},\vec{s}) & & r_ij = \phi \\ \end{cases} \\$

利用已知的评分$ R = {r_{ij} \ne \phi}$ ，用户画像$ \vec{c}$ ，和项目画像$ \vec{s}$ 来估计每一个未知的评分$ r’_{ij} = u_{ij}(R,\vec{c},\vec{s})$ 。我们可以使用不同的估计效用函数$ u_{ij}$ ，比如各种启发方式、最近邻分类器、决策树、 spline methods、radial basis functions（径向基函数）、回归函数和神经网络。另外，需要特别指出的是，在上式中，我们用到的是整个画像向量输入特征，包括用户$ i$ 的画像特征，也包括其他用户的，项目画像向量同理。因此，函数$ u_{ij}$ 清晰地包含了第二节提到的基于内容的算法、协同过滤算法和混合算法。但是，大多数现存的推荐系统所用的函数$ u_{ij}$ 都仅仅依赖于$ R,\vec{c},\vec{s}$ 的一个很小的子集。比如：传统暨基于记忆的协同过滤算法的函数$ u_{ij}$ 并没有用到$ \vec{c}，\vec{s}$ ，而且$ R$ 只用了列$ R_{j}$ ，并且通常仅限于列$ R_{j}$ 的N个最近邻$ R_{ij}$ 集合。

拓展由$ \vec{c},\vec{s}$ 定义的基于属性的画像来使用更高级的分析技术，如基于规则、基于序列、基于签名的方法，将会是一个有趣的研究问题，

3.2 Extensions for Model-Based Recommendation Techniques

就像第二节讨论的那样，一些基于模型的方法利用各种统计和机器学习技术提供了严格的评分估计方法。但是，数学和计算机科学的其他领域，比如数学近似理论 [16, 73,81]也可以用来提升3.1节定义的评分估计函数的效果。用基于近似的方法来定义函数$ u_{ij}$ 的一个例子就是，构建如下所示的径向基函数[16, 30, 92]，给定一组点$ X={x_1,…,x_m}$ ，其中$ x_i \in \mathbb{R}^N$ ，以及未知函数（比如评分函数）在这些点的函数值$ f(x_1),…,f(x_m)$ 。给定$ r_{f,X}(x_i) = f(x_i),i=1,…m$ ，径向基函数$ r_{f,X}$ 就能够估计函数$ f$ 在整个$ \mathbb{R}^N$ 空间的函数值，即：

$r_{f,X}(x) = \sum_{i=1}^m \alpha_i\phi(||x-x_i||)$

其中$ {\alpha_i,…,\alpha_m}$ 为实系数，$ ||x||$ 是某个范数，$ \phi$ 表示正定函数，即满足以下条件的函数：

$\sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j \phi(||x_i - x_j||) > 0$

即对于所有的离散点$ x_1,…,x_m \in \mathbb{R}^N$ ，所有的系数$ \alpha_1,…,\alpha_m \in R$ 都成立。一个著名的定理[92]表示，如果$ \phi$ 是一个正定函数，那么就会唯一存在一个函数$ r_{f,X}$ 满足条件$ r_{f,X}(x_i)=f(x_i),i=1,…m$ ，一些流行的正定函数如下：

${ 1.\phi(r) = r^{\beta},\ \ \ where\ \beta>0\ is\ a\ positive\ odd\ number\\ 2.\phi(r) = r^{k}log(r),\ \ \ where\ k\in \mathbb{N}(thin-plate\ splines) \\ 3.\phi(r) = e^{-\alpha r^2},\ \ \ where\ \alpha>0(Gaussian) \\ }$

使用径向基函数的一个优点就是，他们早已在近似理论中被广泛的研究过了，并且他们的理论性质和径向基函数在很多实际应用中的应用已经被很好的理解了。因此，使用他们来预测未知的评分将是个有趣的问题。

在推荐系统使用径向基函数有一个要注意的敌方，推荐系统空间$ \vec{c},\vec{s}$ 通常并不会构成一个$ N$ 维的欧几里得空间$ \mathbb{R}^N$ 。因此，将径向基函数从实数域推广到其他域中，并将它们应用到推荐系统将会是研究中的一个挑战。同时，研究其他的近似方法在估计函数$ u_{ij}$ 的实用性也将是一个有缺的研究主题。

3.3 Multidimensionality of recommendations

目前主流的推荐系统是在$ User \times Item$ 这两个维度上进行操作的。也就是说，他们使得他们的推荐系统仅仅依赖于用户和项目信息，而不会考虑其他的可能对系统来说是很重要的上下文信息。但是，在许多场景下，某种产品对用户的效用可能很大程度上取决于时间（例如，一年中的时间，如季节或月份，或一周中的某一天），也可能取决于与谁消费或分享产品，以及在什么情况下。在这种情况下，简单的推荐项目给用户可能是不够的，推荐系统必须要考虑额外的上下文信息，例如时间、地点、用户的公司等等。比如，当推荐度假套餐时，系统也会考虑一年的时间，和计划与谁一起旅行，旅行的条件、当时的限制条件以及其他的上下文信息。另一个例子是，与周三晚上和父母在家看租来的电影相比，用户在周六晚上和男友一起去电影院看电影时，对想看的电影类型的偏好会有明显的不同。如文献[2]所述，将传统的二维$ User \times Item$ 推荐方法扩展到多维环境中是很重要的。另外，[43]认为，在某些应用中，将用户任务的知识包含到推荐算法中可以得到更好的推荐。

为了考虑上下文信息，[2]提出，在多维空间$ D_1 \times …\times D_n$ 上来定义效用函数，而不是原来的二位空间，即：

$u:D_1 \times ... \times D_n \to R$

那么，推荐问题，就可以被定义为：选择“某个”维度$ D_{i1},…,D_{ik}(k<n)$ ，选择与他不重叠的“for whom”维度，为每个元组$ (d_{j1},…,d_{jl}) \in D_{j1}\times …\times D_{jl}(l<n)$ 推荐元组$ (d_{i1},…,d_{ik}) \in D_{i1}\times …\times D_{ik} $ ，来最大化效用函数$ u(d_1,…,d_n)$ ，即

$\forall(d_{j1},...,d_{jl}) \in D_{j1}\times ...\times D_{jl}, \ (d_{i1},...,d_{ik})=\mathop{\arg\min}_{(d_{i1}^{'},...d_{ik}^{'})\in D_{i1}\times ... \times D_{ik},\\(d_{j1}^{'},...d_{jl}^{'}) \in D_{j1}\times ... \times D_{jl}} u(d'_1,...,d'_n)$

比如，在电影推荐系统红，需要考虑的不止有电影特征$ d_1$ 和想要看电影的人的特征$ d_2$ ，还要考虑上下文（背景）信息，比如：（a）$ d_3$ ：在哪里和如何看电影（例如，在电影院，在家里的电视，视频或DVD）。（b） $ d_4$ ：与谁一起看电影看（例如，独自一人，与女朋友/男朋友，朋友，父母等）。（c）$ d_5$ ：什么时候看电影（例如，在工作日或周末，上午/下午/晚上，在首映之夜，等等）。正如之前讨论的那样，$ d_1,d_2,d_3,d_4,d_5$ 会被定义为特征向量，整体的效用函数$ u(d_1,d_2,d_3,d_4,d_5)$ 将会十分的复杂，需要考虑$ d_1,d_2,d_3,d_4,d_5$ 之间各种各样的相互影响。

正如[2,3]所提到的那样，许多二维的推荐系统并不能够直接的拓展到多维的情况下。另外，[3]提出了基于降维的推荐方法，其仅仅使用与用户指定的推荐标准相关的评分。例如，为想在周六晚上去电影院看电影的人推荐一部电影，如果仅依靠时间和地点数据就能够确定，基于降维的方法将只使用，可以在周末在电影院看的电影的评分来估计评分。通过仅仅选择与上下文相关的电影，基于降维的方法将多维度的打分空间降低到了用户和项目这个二维空间中。那么，第二节中讨论的任何一个基于二维空间的推荐方法就可以使用了。由于这些推荐仅基于与特定上下文相关的项目的评分，这相当于构建了一个本地模型，生成特定上下文下的推荐。

另一个能够处理多维推荐的方法是使用分层贝叶斯方法[5]，可以从二维拓展到多维空间。研究中的一个挑战是如何使这些扩展应用到非常大的维度的情况下。

3.4 Multi-criteria ratings

目前大多数的推荐系统都是处理单一规则评分，比如给电影和图书打分。但是，在一些应荣中，比如餐馆推荐，将多规则打分融入到推荐系统中是非常重要的。例如，许多餐厅指南，比如Zagat’s Guide，会提供三个评价标准：食物、装修、服务。尽管目前还没有看到过多规则打分的推荐系统文献，但其已经被运筹学界广泛研究过了[33, 102]。传统的多规则优化问题的解决方案包括：（a）：找到Pareto最优解；（b）：采用多个评价标准的线性组合，将问题转换成单一规则优化问题；（c）优化最重要的那个评价标准，将其他评价标准作为限制条件；（d）一次连续优化一个准则，将最优解转化为约束条件，并对其他准则重复该过程。最后一种方法的一个例子是连续特许权法（the method of successive concessions）[102]。

为了说明怎样将这些方法应用到推荐系统里，我们考虑将方法$ c$ 应用到餐馆推荐的问题中，即基于用户$ c$ 对食物、装修、服务的评价$ f_c(r), d_c(r), s_c(r)$ 来进行推荐。我们可以将食物质量$ f_c(r)$ 作为主要的评价标准，将其他的作为限制条件。即，我们可以找到一个能使$ f_c(r)$ 最大，并满足约束$ d_c(r)>\alpha_c, s_c(r)>\beta_c$ 的餐馆$ r$ ，其中$ \alpha_c,\beta_c$ 指的是装修和服务的最小评分值。这个问题实际上很复杂，因为我们通常没有用户对所有餐厅的装修$ d_c(r)$ 和服务$ s_c(r)$ 的打分。那么，推荐系统的任务也就变成了预测未知的$ d’_c(r), s’_c(r)$ 的评分，我们可以使用第二节描述的评分估计方法，来找到所有的满足约束$ d_c(r)>\alpha_c, s_c(r)>\beta_c$ 的餐馆。一旦我们找到所有满足这些估计评分约束的餐厅，我们就可以使用这些餐厅来搜索$ f_{c}(r)$ 的最大值。但是，就像装修和服务打分那样，我们可能也没有用户对所有餐厅的食物打分$ f_c(r)$ ，因此，我们也需要在进行推荐之前使用评分估计函数来预测$ f_c(r)$ 。

我们相信，对于上述多准则推荐问题，寻找Pareto最优解集的问题以及连续单准则优化的迭代方法也应该是一个有趣且具有挑战性的问题。

3.5 Non-intrusiveness

从某种意义上来说，许多推荐系统都是侵入式（intrusive）的推荐系统，因为它们需要来自用户的明确反馈，并且通常在很大程度上需要用户的参与。例如，在推荐新闻文章前，系统需要去获取之前读过的文章的评分，而且一般需要很多。但是，从用户那里获取许多文章的评分往往是不切实际的，因此，一些推荐系统使用非侵入式的决策方法，其中使用某些指标（proxy）来评估真实的评分。例如，用户花在阅读新闻报纸上的时间可以充当该用户给这篇文章的评分的指标。文献[18, 53, 66, 74, 94]给出了一些获取用户反馈的非侵入式的方法。但是非侵入式的评分（比如读文章的时间）通常是不准确的，并不能够完全的替代由用户提供的明确的打分。因此，为了维持推荐系统某个级别的准确性，最小化打扰（intrusiveness ）的问题还需要被研究解决。

探索侵入式问题的一种方法是确定系统应该向新用户请求的最佳评分数量。例如，在推荐任何的电影之前，MovieLens.org首先会让用户给固定数目的电影打分（比如20个），这个要求会给终端用户带来一定的成本，这些成本可以通过各种方式进行建模，最简单的模型时固定成本模型（即，为每部电影评级的成本为$ C$ ，则$ n$ 部电影评级的成本为$ C⋅n$ ）。那么，侵入式问题可以被描述为一个优化问题，即试图去找到找到一个最优的初始评分请求数$ n$ ，如下所示。用户每多一个评分，就会增加推荐系统的准确率（或者其他的测量标准），这也给用户带来了好处。定义和测量基于提供$ n$ 个原始评分而得到的预测准确率的提升的收益$ B(n)$ ，将是一个有趣的基于侵入式的研究问题。 知道了如何测量收益$ B(n)$ （比如，测量推荐系统预测时的准确率）之后，我们就需要去确定最优的原始评分数$ n$ 的值来最大化表达式$ B(n)-C·n$ ，显然，当边际效益等于边际成本，即$ \Delta B(n)=C$ 时，$ n$ 的最优值就达到了。不过，上面的最优问题的解需要假设$ B(n)$ 是一个单调递增的函数，并且边界效益$ \Delta B(n)$ 会逐渐收敛到0时。

另一个有趣的研究机会在于开发比上述固定成本模型更先进的边际成本模型，并且可能包括在推荐系统中使用隐式和显式评分的成本/效益分析。

最后，逐步选择好的训练数据进行建模的问题是主动学习的问题，这是机器学习文献中一个相当好的研究领域，并且已经提出了许多方法来解决这个问题[23，24，36，58]。我们相信应用主动学习方法来解决非侵入式问题是另一个有趣的研究机会。

3.6 Flexibility

从某种意义上上来说，大多数的推荐系统都是不灵活的，它们被供应商“硬连接”到系统中，因此只支持预定义的和固定的一组推荐。因此，终端用户不能根据他自己的需要实时的定制推荐。这个问题在文献[2]中被提出，同时[2]提出了Recommendation Query Language (RQL)来解决这个问题。RQL是一个很像SQL的语言，能够灵活的表达特定用户的推荐需求。例如，“给每一个纽约用户推荐三部超过两个小时的最好的电影”的这个需求可以用RQL描述为：

同时，大多数的推荐系统仅仅给单个用户推荐单个项目，而不能够处理群体。但是，在一些应用中，能够提供群体的推荐是非常重要的，比如，在旅游相关推荐系统里，可能会给东北的大学生（用户群体）在春假的时候推荐去弗洛里达度假（某个种类的产品）。支持群体推荐的一种方法是利用基于OLAP的多维推荐方法[19]。基于OLAP的系统自然支持聚合层次结构，在推荐系统中部署基于OLAP的方法的初始方法在[2,3]中给出。然而，对于如何在推荐系统中使用OLAP方法还需要做更多的工作，这是一个有趣而富有挑战性的研究课题。

3.7 Effectiveness of recommendations

在推荐系统文献中，开发好的度量标准来衡量推荐的有效性的问题已经得到了广泛的讨论。文献[41, 44, 69, 107]中有一些这样的工作。大多数的推荐系统文献，对推荐算法的性能评估都是基于覆盖率和准确率。覆盖率衡量推荐系统能够预测的项目的百分比[41]。准确度度量可以是统计或决策支持[41]，统计准确度指标主要是将估计的评分（如3.1节中的定义）与用户×项目矩阵中的实际评分R进行比较，并包括平均绝对误差（MAE），均方根误差，以及预测和评分之间的相关性。决策支持标准决定了推荐系统对高相关性项目（即用户评价较高的项目）的预测能力。它们包括经典的IR测量精度（推荐系统预测的“高”评级中真正“高”评级的百分比）、召回率（所有已知“高”评级中正确预测“高”评级的百分比）、F-measure（准确度和召回率的调和平均数），以及接收器工作特性（ROC）测量，证明了推荐系统中真阳性率和假阳性率之间的权衡[41]。

尽管这些经验上的评估方式很流行，但是也有它的局限性。一个限制是，这些度量通常是在用户选择评分的测试数据上执行的。然而，用户选择评分的项目很可能构成一个倾斜样本，例如，用户可能对他们喜欢的项目进行评分。换句话说，经验评估结果通常只显示系统对用户决定评分的项目的准确度，而系统正确评估随机项目的能力（在其正常的实际使用中应该能够这样做）没有得到测试。可以理解的是，在推荐系统设置下对用户进行控制实验是昂贵和耗时的，因此，在无偏随机样本上测试推荐质量的实验很少，例如[69]。然而，为了真正理解所提出的推荐技术的优点和局限性，必须进行高质量的实验。

此外，尽管前面提到的技术措施对于衡量推荐的准确性至关重要，但往往没有充分体现建议的“有用性”和“质量”。例如，正如[107]在超市应用程序中观察到的那样，推荐消费者无论如何都会购买的显而易见的商品（如牛奶或面包）将产生很高的准确率；但是，这对消费者并不是很有帮助。因此，制定以经济为导向的衡量指标，捕捉建议的商业价值也很重要，例如投资回报率（ROI）和客户终身价值（LTV）指标[32，88，95]。制定和研究能够弥补本节所述局限性的措施是一个有趣而重要的研究课题。

3.7 Other Extensions

推荐系统文献中探讨的其他重要研究问题包括推荐系统的可解释性[12,42]、可信度[28]、可伸缩性[4,39,91,93]和隐私[82,93]。但是，由于篇幅的限制，我们不会回顾这项工作，也不会讨论这些领域的研究机会。

4. Conclusions

推荐系统在过去的十年中取得了重大进展，许多基于内容的、协同过滤的和混合的方法被提出，并且开发了一些“工业实力”系统。然而，尽管有这些进步，本文所研究的新一代推荐系统仍然需要进一步改进，以使推荐方法在更广泛的应用范围内更有效。在本文中，我们回顾了当前推荐方法的各种局限性，并讨论了可以提供更好推荐功能的扩展。这些扩展包括，除其他外，改进了用户和项目的建模，将上下文信息纳入推荐过程，支持多标准评分，以及提供更灵活和更少干扰的推荐过程。我们希望本文所提出的问题能够促进推荐系统界对下一代推荐技术的讨论。

5. References

Adomavicius, G. and A. Tuzhilin. Expert-driven validation of rule-based user models in personalization applications. Data Mining and Knowledge Discovery, 5(1/2):33-58, 2001a.
Adomavicius, G. and A. Tuzhilin. Multidimensional recommender systems: a data warehousing approach. In Proc. of the 2nd Intl. Workshop on Electronic Commerce (WELCOM’01). Lecture Notes in Computer Science, vol. 2232, Springer, 2001b.
Adomavicius, G., R. Sankaranarayanan, S. Sen, and A. Tuzhilin. Incorporating Contextual Information in Recommender Systems Using a Multidimensional Approach. ACM Transactions on Information Systems, 23(1), January 2005.
Aggarwal, C. C., J. L. Wolf, K-L. Wu, and P. S. Yu. Horting hatches an egg: A new graphtheoretic approach to collaborative filtering. In Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 1999.
Ansari, A., S. Essegaier, and R. Kohli. Internet recommendations systems. Journal of Marketing Research, pages 363-375, August 2000.
Armstrong, J. S. Principles of Forecasting – A Handbook for Researchers and Practitioners, Kluwer Academic Publishers, 2001.
Baeza-Yates, R., B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, 1999.
Balabanovic, M. and Y. Shoham. Fab: Content-based, collaborative recommendation. Communications of the ACM, 40(3):66-72, 1997.
Basu, C., H. Hirsh, and W. Cohen. Recommendation as classification: Using social and content-based information in recommendation. In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
Belkin, N. and B. Croft. Information filtering and information retrieval. Communications of the ACM, 35(12):29-37, 1992.
Billsus, D. and M. Pazzani. Learning collaborative information filters. In International Conference on Machine Learning, Morgan Kaufmann Publishers, 1998.
Billsus, D. and M. Pazzani. A Personal News Agent That Talks, Learns and Explains. In Proceedings of the Third Annual Conference on Autonomous Agents, 1999.
Billsus, D. and M. Pazzani. User modeling for adaptive news access. User Modeling and User-Adapted Interaction, 10(2-3):147-180, 2000.
Billsus, D., C. A. Brunk, C. Evans, B. Gladish, and M. Pazzani. Adaptive interfaces for ubiquitous web access. Commnications of the ACM, 45(5):34-38, 2002.
Breese, J. S., D. Heckerman, and C. Kadie. Empirical analysis of predictive algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence, Madison, WI, July 1998.
Buhmann, M. D. Approximation and interpolation with radial functions. In Multivariate Approximation and Applications. Eds. N. Dyn, D. Leviatan, D. Levin, and A. Pinkus. Cambridge University Press, 2001.
Burke, R. Knowledge-based recommender systems. In A. Kent (ed.), Encyclopedia of Library and Information Systems. Volume 69, Supplement 32. Marcel Dekker, 2000.
Caglayan, A., M. Snorrason, J. Jacoby, J. Mazzu, R. Jones, and K. Kumar. Learn Sesame – a learning agent engine. Applied Artificial Intelligence, 11:393-412, 1997.
Chaudury, S. and U. Dayal. An overview of data warehousing and OLAP technology. ACM SIGMOD Record, 26(1):65-74, 1997.
Chien, Y-H. and E. I. George. A bayesian model for collaborative filtering. In Proc. of the 7th International Workshop on Artificial Intelligence and Statistics, 1999.
Claypool, M., A. Gokhale, T. Miranda, P. Murnikov, D. Netes, and M. Sartin. Combining content-based and collaborative filters in an online newspaper. In ACM SIGIR’99. Workshop on Recommender Systems: Algorithms and Evaluation, August 1999.
Cohen, W. W., R. E. Schapire, and Y. Singer. Learning to order things. Journal of Articial Intelligence Research, 10:243-270, 1999.
Cohn, D., L. Atlas, and R. Ladner. Improving Generalization with Active Learning. Machine Learning, 15(2):201-221, 1994.
Cohn, D., Z. Ghahramani, and M. Jordan. Active Learning with Statistical Models. Journal of Artificial Intelligence Research, 4:129-145, 1996.
Condliff, M., D. Lewis, D. Madigan, and C. Posse. Bayesian mixed-effects models for recommender systems. In ACM SIGIR’99 Workshop on Recommender Systems: Algorithms and Evaluation, August 1999.
Cortes, C., K. Fisher, D. Pregibon, A. Rogers, and F. Smith. Hancock: a language for extracting signatures from data streams. In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2000.
Delgado, J. and N. Ishii. Memory-based weighted-majority prediction for recommender systems. In ACM SIGIR’99 Workshop on Recommender Systems: Algorithms and Evaluation, 1999.
Dellarocas, C. The Digitization of Word of Mouth: Promise and Challenges of Online Feedback Mechanisms. Management Science, 49(10):1407-1424, 2003.
Deshpande, M. and G. Karypis. Item-Based Top-N Recommendation Algorithms. ACM Transactions on Information Systems, 22(1):143-177, 2004.
Duchon, J. Splines minimizing rotation-invariate semi-norms in Sobolev spaces. In Constructive Theory of Functions of Several Variables, ed. W. Schempp & Zeller, pp. 85-100, Springer, 1979.
Duda, R. O., P. E. Hart, and D. G. Stork. Pattern Classification, John Wiley & Sons, 2001.
Dwyer, F. R. Customer Lifetime Valuation to Support Marketing Decision Making. Journal of Direct Marketing, Vol 3(4), 1989.
Ehrgott, M. Multicriteria Optimization. Springer Verlag, September 2000.
Fawcett, T., and F. Provost. Combining data mining and machine learning for efficient user profiling. In Proceedings of the Second International Conference On Knowledge Discovery and Data Mining (KDD-96), 1996.
Freund, Y., R. Iyer, R.E. Schapire, and Y. Singer. An efficient boosting algorithm for combining preferences. In Proc. of the 15th Intl. Conference on Machine Learning, 1998.
Freund, Y., H. S. Seung, E. Shamir, and N. Tishby. Selective sampling using the query by committee algorithm. Machine Learning, 28(2-3):133-168, 1997.
Getoor, L. and M. Sahami. Using probabilistic relational models for collaborative filtering. In Workshop on Web Usage Analysis and User Profiling (WEBKDD’99), August 1999.
Goldberg, D., D. Nichols, B. M. Oki, and D. Terry. Using collaborative filtering to weave an information tapestry. Communications of the ACM, 35(12):61-70, 1992.
Goldberg, K., T. Roeder, D. Gupta, and C. Perkins. Eigentaste: A constant time collaborative filtering algorithm. Information Retrieval Journal, 4(2):133-151, July 2001.
Good, N., J. B. Schafer, J. A. Konstan, A. Borchers, B. Sarwar, J. L. Herlocker, and J. Riedl. Combining Collaborative Filtering with Personal Agents for Better Recommendations. In Proceedings of the Conference of the American Association of
Artificial Intelligence (AAAI-99), pp. 439-446, Orlando, Florida, July 1999,
Herlocker, J. L., J. A. Konstan, A. Borchers, and J. Riedl. An algorithmic framework for performing collaborative filtering. In Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99). 1999.
Herlocker, J. L., J. A. Konstan, and J. Riedl. Explaining collaborative filtering recommendations. In Proceedings of the ACM Conference on Computer Supported Cooperative Work, 2000.
Herlocker, J. L. and J. A. Konstan. Content-Independent Task-Focused Recommendation. IEEE Internet Computing, 5(6):40-47, 2001.
Herlocker, J. L., J. A. Konstan, L. G. Terveen, and J. T. Riedl. Evaluating Collaborative Filtering Recommender Systems. ACM Transactions on Information Systems, 22(1):5-53, 2004.
Hill, W., L. Stead, M. Rosenstein, and G. Furnas. Recommending and evaluating choices in a virtual community of use. In Proceedings of CHI’95.
Hofmann, T. Probabilistic Latent Semantic Analysis. In Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, pp. 289-296, 1999.
Hofmann, T. Collaborative Filtering via Gaussian Probabilistic Latent Semantic Analysis. In Proc. of the 26th Annual International ACM SIGIR Conference, Toronto, Canada, 2003.
Hofmann, T. Latent Semantic Models for Collaborative Filtering. ACM Transactions on Information Systems, 22(1):89-115, 2004.
Huang, Z., H. Chen, and D. Zeng. Applying Associative Retrieval Techniques to Alleviate the Sparsity Problem in Collaborative Filtering. ACM Transactions on Information Systems, 22(1):116-142, 2004.
Hull, D. A. The TREC-7 Filtering Track: Description and Analysis. In Proceedings of the 7th Text Retrieval Conference (TREC-7), pp., 1999.
Jin, R., L. Si, and C. Zhai. Preference-based Graphic Models for Collaborative Filtering. In Proceedings of the 19th Conference on Uncertainty in Artificial Intelligence (UAI 2003), Acapulco, Mexico, August 2003a.
Jin, R., L. Si, C. Zhai, and J. Callan. Collaborative Filtering with Decoupled Models for Preferences and Ratings. In Proc. of the 12th International Conference on Information and Knowledge Management (CIKM 2003), New Orleans, LA, November 2003b.
Konstan, J. A., B. N. Miller, D. Maltz, J. L. Herlocker, L. R. Gordon, and J. Riedl. GroupLens: Applying collaborative filtering to Usenet news. Communications of the ACM, 40(3):77-87, 1997.
Konstan, J. A., J. Riedl, A. Borchers, and J. L. Herlocker. Recommender systems: a GroupLens perspective. In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
Kumar, R., P. Raghavan, S. Rajagopalan, and A. Tomkins. Recommendation Systems: A Probabilistic Analysis. Journal of Computer and System Sciences, 63(1):42-61, 2001.
Lang, K. Newsweeder: Learning to filter netnews. In Proceedings of the 12th International Conference on Machine Learning, 1995.
Lee, W. S. Collaborative learning for recommender systems. In Proccedings of the International Conference on Machine Learning, 2001.
Lewis, D. and J. Catlett. Heterogeneous uncertainty sampling for supervised learning. In Proceedings of 11th International Conference on Machine Learning, pp. 148-156, 1994.
Li, J. and O. R. Zaïane. Combining Usage, Content and Structure Data to Improve Web Site Recommendation. In Proceedings of the 5th International Conference on Electronic Commerce and Web Technologies (EC-Web 04), pp. 305-315, Zaragoza, Spain, 2004.
Lilien, G. L., P. Kotler, K. S. Moorthy. Marketing Models, Prentice Hall, 1992.
Linden, G., B. Smith, and J. York. Amazon.com Recommendations: Item-to-Item Collaborative Filtering. IEEE Internet Computing, Jan.-Feb. 2003.
Littlestone, N. and M. Warmuth. The Weighted Majority Algorithm. Information and Computation, 108(2):212-261, 1994.
Mannila, H., H. Toivonen, and A. I. Verkamo. Discovering Frequent Episodes in Sequences. In Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95), 1995.
Marlin, B. Modeling User Rating Profiles for Collaborative Filtering. In Proceedings of the 17th Annual Conference on Neural Information Processing Systems (NIPS’03), 2003.
Melville, P., R. J. Mooney, and R. Nagarajan. Content-Boosted Collaborative Filtering for Improved Recommendations. In Proceedings of the Eighteenth National Conference on Artificial Intelligence, Edmonton, Canada, 2002.
Middleton, S. E., N. R. Shadbolt, and D. C. de Roure. Ontological User Profiling in Recommender Systems. ACM Transactions on Information Systems, 22(1):54-88, 2004.
Miller, B. N., I. Albert, S. K. Lam, J. A. Konstan, and J. Riedl. MovieLens Unplugged: Experiences with an Occasionally Connected Recommender System. In Proceedings of the International Conference on Intelligent User Interfaces, Miami, Florida, 2003.
Mobasher, B., H. Dai, T. Luo, and M. Nakagawa. Discovery and Evaluation of Aggregate Usage Profiles for Web Personalization. Data Mining and Knowledge Discovery, 6(1):61- 82, 2002.
Mooney, R. J. and L. Roy Content-based book recommending using learning for text categorization. In ACM SIGIR’99. Workshop on Recommender Systems: Algorithms and Evaluation, 1999.
Mooney, R. J., P. N. Bennett, and L. Roy. Book recommending using text categorization with extracted information. In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
Murthi, B. P. S. and S. Sarkar. The Role of the Management Sciences in Research on Personalization. Management Science, 49(10):1344-1362, 2003.
Nakamura, A. and N. Abe. Collaborative filtering using weighted majority prediction algorithms. In Proc. of the 15th International Conference on Machine Learning, 1998.
Nurnberger, G. Approximation by Spline Functions. Springer-Verlag, 1989.
Oard, D. W. and J. Kim. Implicit feedback for recommender systems. In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
Pavlov, D. and D. Pennock. A Maximum Entropy Approach To Collaborative Filtering in Dynamic, Sparse, High-Dimensional Domains. In Proceedings of the 16th Annual Conference on Neural Information Processing Systems (NIPS’02), 2002.
Pazzani, M. A framework for collaborative, content-based and demographic filtering. Artificial Intelligence Review, pages 393-408, December 1999.
Pazzani, M. and D. Billsus. Learning and revising user profiles: The identification of interesting web sites. Machine Learning, 27:313-331, 1997.
Peddy, C. C., and D. Armentrout. Building Solutions with Microsoft Commerce Server 2002. Microsoft Press, 2003.
Pennock, D. M. and E. Horvitz. Collaborative filtering by personality diagnosis: A hybrid memory- and model-based approach. In IJCAI’99 Workshop: Machine Learning for Information Filtering, August 1999.
Popescul, A., L. H. Ungar, D. M. Pennock, and S. Lawrence. Probabilistic Models for Unified Collaborative and Content-Based Recommendation in Sparse-Data Environments. In Proc. of the 17th Conf. on Uncertainty in Artificial Intelligence, Seattle, WA, 2001.
Powell, M. J. D. Approximation Theory and Methods, Cambridge University Press, 1981.
Ramakrishnan, N., B. J. Keller, B. J. Mirza, A. Y. Grama, and G. Karypis. Privacy Risks in Recommender Systems. IEEE Internet Computing, 5(6):54-62, 2001.
Rashid, A. M., I. Albert, D. Cosley, S. K. Lam, S. M. McNee, J. A. Konstan, and J. Riedl. Getting to Know You: Learning New User Preferences in Recommender Systems. In Proceedings of the International Conference on Intelligent User Interfaces, 2002.
Robertson S. and S. Walker. Threshold Setting in Adaptive Filtering. Journal of Documentation, 56:312-331, 2000.
Rocchio, J. J. Relevance Feedback in Information Retrieval. SMART Retrieval System – Experiments in Automatic Document Processing, G. Salton ed., PrenticeHall, Ch. 14, 1971.
Resnick, P., N. Iakovou, M. Sushak, P. Bergstrom, and J. Riedl. GroupLens: An open architecture for collaborative filtering of netnews. In Proceedings of the 1994 Computer Supported Cooperative Work Conference, 1994.
Rich, E. User Modeling via Stereotypes. Cognitive Science, 3(4):329-354, 1979.
Rosset, S., E. Neumann, U. Eick, N. Vatnik, and Y. Idan. Customer Lifetime Value Modeling and Its Use for Customer Retention Planning. In Proc. of the 8th ACM SIGKDD International Conf. on Knowledge Discovery and Data Mining (KDD-2002), July 2002.
Salton, G. Automatic Text Processing. Addison-Wesley, 1989.
Sarwar B., G. Karypis, J. Konstan, and J. Riedl. Application of dimensionality reduction in recommender systems – a case study. In Proc. of the ACM WebKDD Workshop, 2000.
Sarwar, B., G. Karypis, J. Konstan, and J. Riedl. Item-based Collaborative Filtering Recommendation Algorithms. In Proc. of the 10th International WWW Conference, 2001.
Schaback, R. and H. Wendland. Characterization and construction of radial basis functions. In Multivariate Approximation and Applications. Eds. N. Dyn, D. Leviatan, D. Levin and A. Pinkus. Cambridge University Press, 2001.
Schafer, J. B., J. A. Konstan, and J. Riedl. E-commerce recommendation applications. Data Mining and Knowledge Discovery, 5(1/2):115-153, 2001.
Schein, A. I., A. Popescul, L. H. Ungar, and D. M. Pennock. Methods and metrics for cold-start recommendations. In Proc. of the 25th Annual Intl. ACM SIGIR Conf., 2002.
Schmittlein, D. C., D. G. Morrison, and R. Colombo. Counting Your Customers: Who are they and what will they do next? Management Science, Vol. 33(1), 1987.
Shani, G., R. Brafman, and D. Heckerman. An MDP-based recommender system. In Proc. of Eighteenth Conference on Uncertainty in Artificial Intelligence, August 2002.
Shardanand, U. and P. Maes. Social information filtering: Algorithms for automating ‘word of mouth’. In Proc. of the Conf. on Human Factors in Computing Systems, 1995.
Sheth, B. and Maes P. Evolving agents for personalized information filtering. In Proceedings of the 9th IEEE Conference on Artificial Intelligence for Applications, 1993.
Si, L. and R. Jin. Flexible Mixture Model for Collaborative Filtering. In Proceedings of the 20th International Conference on Machine Learning, Washington, D.C., August 2003.
Soboroff, I. and C. Nicholas. Combining content and collaboration in text filtering. In IJCAI’99 Workshop: Machine Learning for Information Filtering, August 1999.
Somlo, G. and A. Howe. Adaptive Lightweight Text Filtering. In Proceedings of the 4th International Symposium on Intelligent Data Analysis, Lisbon, Portugal, September 2001.
Statnikov, R. B. and J. B. Matusov. Multicriteria Optimization and Engineering. Chapman & Hall, 1995.
Terveen, L., W. Hill, B. Amento, D. McDonald, and J. Creter. PHOAKS: A system for sharing recommendations. Communications of the ACM, 40(3):59-62, 1997.
Tran, T. and R. Cohen. Hybrid Recommender Systems for Electronic Commerce. In Knowledge-Based Electronic Markets, Papers from the AAAI Workshop, Technical Report WS-00-04, AAAI Press, 2000.
Ungar, L. H., and D. P. Foster. Clustering methods for collaborative filtering. In Recommender Systems. Papers from 1998 Workshop. Technical Report WS-98-08. AAAI Press, 1998.
Wade, W. A grocery cart that holds bread, butter and preferences. NY Times, Jan. 16, 2003.
Yang, Y. and B. Padmanabhan. On Evaluating Online Personalization, in Proceedings of the Workshop on Information Technology and Systems, pp. 35-41, December 2001.
Yu, K., X. Xu, J. Tao, M. Ester, and H.-P. Kriegel. Instance Selection Techniques for Memory-Based Collaborative Filtering. In Proceedings of Second SIAM International Conference on Data Mining (SDM’02), 2002.
Yu, K., A. Schwaighofer, V. Tresp, X. Xu, and H.-P. Kriegel. Probabilistic Memory-Based Collaborative Filtering. IEEE Transactions on Knowledge and Data Engineering, 16(1):56-69, 2004. 110. Zaïane, O. R., J. Srivastava, M. Spiliopoulou, B. M. Masand (eds.). WEBKDD 2002 – Mining Web Data for Discovering Usage Patterns and Profiles (Lecture Notes in Computer Science 2703), Springer, 2003.
Zhang Y. and J. Callan. Maximum Likelihood Estimation for Filtering Thresholds. In Proc. of the 24th Annual International ACM SIGIR Conference, New Orleans, LA, 2001.
Zhang, Y, J. Callan, and T. Minka. Novelty and redundancy detection in adaptive filtering. In Proceedings of the 25th Annual International ACM SIGIR Conference, pp. 81-88, 2002. Gediminas Adomavicius received the PhD degree in computer science from New York University in 2002. He is an assistant professor in the Department of Information and Decision Sciences at the Carlson School of Management, University of Minnesota. Dr. Adomavicius’ research focuses on personalization technologies, data mining, and combinatorial auction mechanisms. He has published more than 20 refereed journal and conference papers in these areas. He is a member of the ACM, IEEE, and IEEE Computer Society. Alexander Tuzhilin received Ph.D. in Computer Science from the Courant Institute of Mathematical Sciences, NYU. He is currently an Associate Professor of Information Systems at the Stern School of Business, NYU. His current research interests include knowledge discovery in databases, personalization and CRM technologies. He published widely in leading CS and IS journals and conference proceedings and served on program committees of numerous CS and IS conferences. Dr. Tuzhilin was as a Co-Chair of the Third IEEE International Conference on Data Mining in 2003. He currently serves on the Editorial Boards of the IEEE Transactions on Knowledge and Data Engineering, the Data Mining and Knowledge Discovery Journal, the INFORMS Journal on Computing, and the Electronic Commerce Research Journal.

文章作者: 白丁

文章链接: http://baidinghub.github.io/2020/08/08/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%EF%BC%88%E4%B8%80%EF%BC%89%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E7%BB%BC%E8%BF%B0/

深度学习推荐系统

打赏

微信
支付寶