术语和架构 Terminology & Architecture

让我们来看看一些与推荐系统相关的重要术语。

物品 / 文件

这些是系统推荐的实体，比如 Netflix 上的电影、Youtube 上的视频和 Spotify 上的歌曲。

查询 / 上下文

系统利用一些信息来推荐上述项目，这些信息构成查询。查询还可以是下列各项的组合：

用户信息，其中可能包括用户 id 或用户以前与之交互的物品。
一些额外的上下文，如用户的设备，用户的位置等。

嵌入

嵌入是一种将分类特征表示为连续值特征的方法。换句话说，嵌入是高维向量到低维空间 (称为嵌入空间) 的转换。在这种情况下，要推荐的查询或物品必须映射到嵌入空间。许多推荐系统依赖于学习一个适当的查询和物品的嵌入表示。

总体架构

推荐系统的一般架构包括以下三个主要部分：

1. 候选生成

这是推荐系统的第一阶段，从用户过去的活动中获取事件作为输入，并从大型语料库中检索一小部分 (数百个) 视频。主要有两种常见的候选生成方法：

基于内容的过滤

基于内容的过滤涉及到根据项目本身的属性来推荐物品。系统会推荐与用户过去喜欢的内容相似的内容。

协同过滤

协同过滤依赖于用户 - 物品的交互，依赖于相似的用户喜欢相似的东西的概念，例如购买了这个物品的顾客也购买了这个。

2. 打分

这就构成了第二阶段，在这一阶段，另一个模型进一步对候选人进行排名和打分，通常以 10 分为标准。例如，在 Youtube 的例子中，排名网络通过使用一组描述视频和用户的丰富特征，根据期望的目标函数为每个视频分配分数，从而完成这项任务。得分最高的视频将根据用户的得分进行排序，然后呈现给用户。

3. 重排

在第三阶段，系统考虑额外的约束，以确保多样性、新鲜度和公平性。例如，系统会删除用户之前明确不喜欢的内容，并考虑到网站上的所有的新内容。

一个典型推荐系统的总体结构

相似性度量

你如何辨别一个物品是否与另一个相似？事实证明，基于内容的过滤和协同过滤技术都使用了某种相似性度量。让我们来看两个这样的度量标准。

考虑两部电影 —— movie1 和 movie2，它们属于两个不同的类型。让我们在 2D 图上绘制电影，如果电影不属于某个类型，则赋值为 0，如果电影属于某个类型，则赋值为 1。

这里，电影 1(1,1) 同时属于类型 1 和类型 2，而电影 2 只属于类型 2(1,0)。这些位置可以被认为是向量，这些向量之间的角度说明了它们之间的相似性。

余弦相似度

它是两个向量夹角的余弦，similarity(movie1,movie2) = cos(movie1,movie2) = cos 45 大概是 0.7。余弦相似度为 1 表示相似度最高，余弦相似度为 0 表示不相似。

内积

两个向量的点积是角的余弦乘以范数 i 的乘积。similarity(movie1,movie2) = ||movie1|| ||movie 2|| cos(movie1,movie2).

Python 库

有许多专门为推荐目的而创建的 Python 库。以下是最受欢迎的一些：

Surprise[1]：一个 Python scikit 构建和分析推荐系统。
Implicit[2]：针对隐式数据集的快速 Python 协同过滤。
LightFM[3]: Python 实现了许多隐式和显式反馈的流行推荐算法。
pyspark.mlib.recommendation[4]： Apache Spark 上的机器学习 API。

结论

在本文中，我们讨论了推荐系统在缩小选择范围方面的重要性。我们还介绍了推荐系统的设计和构建过程。Python 实际上简化了这一过程，为此提供了对大量专用库的访问。试着用一个来建立你自己的个性化推荐引擎。

参考资料

[1]Surprise: http://surpriselib.com/

[2]Implicit: https://implicit.readthedocs.io/en/latest/quickstart.html

[3]LightFM: https://lyst.github.io/lightfm/docs/home.html

[4]pyspark.mlib.recommendation: _https://spark.apache.org/docs/2.1.1/api/python/modules/pyspark/mllib/recommendation.html

原文

英文原文：https://towardsdatascience.com/recommendation-systems-in-the-real-world-51e3948772f3

时间:2020-01-19 00:00 来源: 转发量:次

声明：本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：做机器学习项目的 checklist
下一篇：亚马逊畅销书的 NLP 分析——推荐系统、评论分类

网友评论：

发表评论

最新评论 进入详细评论页>>

推荐系统 pipeline 的构建过程和总体架构描述。

术语和架构 Terminology & Architecture

总体架构

1. 候选生成

2. 打分

3. 重排

相似性度量

余弦相似度

内积

推荐系统 Pipeline

1. 预处理

2. 模型训练

3. 超参数优化

4. 后处理

5. 评估

Python 库

结论

原文

时间:2020-01-19 00:00 来源: 转发量:次