当前位置:首页 » 手机资讯 » 怎样将知识图谱引入推荐系统
扩展阅读
手机怎样去除老照片网纹 2025-09-16 05:02:07
笔记本电脑怎样开wifi 2025-09-16 04:43:07

怎样将知识图谱引入推荐系统

发布时间: 2022-11-22 03:23:24

㈠ 推荐系统资料集合链接

推荐系统遇上深度学习系列:

推荐系统遇上深度学习(一)--FM模型理论和实践: https://www.jianshu.com/p/152ae633fb00

推荐系统遇上深度学习(二)--FFM模型理论和实践: https://www.jianshu.com/p/781cde3d5f3d

推荐系统遇上深度学习(三)--DeepFM模型理论和实践:

https://www.jianshu.com/p/6f1c2643d31b

推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案: https://www.jianshu.com/p/4a7525c018b2

推荐系统遇上深度学习(五)--Deep&Cross Network模型理论和实践:

https://www.jianshu.com/p/77719fc252fa

推荐系统遇上深度学习(六)--PNN模型理论和实践: https://www.jianshu.com/p/be784ab4abc2

推荐系统遇上深度学习(七)--NFM模型理论和实践:

https://www.jianshu.com/p/4e65723ee632

推荐系统遇上深度学习(八)--AFM模型理论和实践:

https://www.jianshu.com/p/83d3b2a1e55d

推荐系统遇上深度学习(九)--评价指标AUC原理及实践:

https://www.jianshu.com/p/4dde15a56d44

推荐系统遇上深度学习(十)--GBDT+LR融合方案实战

https://www.jianshu.com/p/96173f2c2fb4

推荐系统遇上深度学习(十一)--神经协同过滤NCF原理及实战

https://www.jianshu.com/p/6173dbde4f53

推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法

https://www.jianshu.com/p/95b2de50ce44

推荐系统遇上深度学习(十三)--linUCB方法浅析及实现

https://www.jianshu.com/p/e0e843d78e3c

推荐系统遇上深度学习(十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》

https://www.jianshu.com/p/c0384b213320

https://www.jianshu.com/p/4dfce7949fce

推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索

https://www.jianshu.com/p/b9113332e33e

推荐系统遇上深度学习(十六)--详解推荐系统中的常用评测指标

https://www.jianshu.com/p/665f9f168eff

推荐系统遇上深度学习(十七)--探秘阿里之MLR算法浅析及实现

https://www.jianshu.com/p/627fc0d755b2

推荐系统遇上深度学习(十八)--探秘阿里之深度兴趣网络(DIN)浅析及实现

https://www.jianshu.com/p/73b6f5d00f46

推荐系统遇上深度学习(十九)--探秘阿里之完整空间多任务模型ESSM

https://www.jianshu.com/p/35f00299c059

推荐系统遇上深度学习(二十)--贝叶斯个性化排序(BPR)算法原理及实战

https://www.jianshu.com/p/ba1936ee0b69

推荐系统遇上深度学习(二十一)--阶段性回顾

https://www.jianshu.com/p/99e8f24ec7df

推荐系统遇上深度学习(二十二)--DeepFM升级版XDeepFM模型强势来袭!

https://www.jianshu.com/p/b4128bc79df0

推荐系统遇上深度学习(二十三)--大一统信息检索模型IRGAN在推荐领域的应用

https://www.jianshu.com/p/d151b52e57f9

推荐系统遇上深度学习(二十四)--深度兴趣进化网络DIEN原理及实战

https://www.jianshu.com/p/6742d10b89a8

推荐系统遇上深度学习(二十五)--当知识图谱遇上个性化推荐

https://www.jianshu.com/p/6a5e796499e8

推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

https://www.jianshu.com/p/2e3cade31098

推荐系统遇上深度学习(二十七)--知识图谱与推荐系统结合之RippleNet模型原理及实现

https://www.jianshu.com/p/c5ffaf7ed449

推荐系统遇上深度学习(二十八)--知识图谱与推荐系统结合之MKR模型原理及实现

https://www.jianshu.com/p/af5226c7fbbb

推荐系统遇上深度学习(二十九)--协同记忆网络理论及实践

https://www.jianshu.com/p/3e80d8426f7f

推荐系统遇上深度学习(三十)--深度矩阵分解模型理论及实践

https://www.jianshu.com/p/63beb773f100

推荐系统遇上深度学习(三十一)--使用自注意力机制进行物品推荐

https://www.jianshu.com/p/9eb209343c56

推荐系统遇上深度学习(三十二)--《推荐系统实践》思维导图

https://www.jianshu.com/p/bbcec0dca4c9

推荐系统遇上深度学习(三十三)--Neural Attentive Item Similarity Model

https://www.jianshu.com/p/c695808100c7

推荐系统遇上深度学习(三十四)--YouTube深度学习推荐系统

https://www.jianshu.com/p/8fa4dcbd5588

推荐系统遇上深度学习(三十五)--强化学习在京东推荐中的探索(二)

https://www.jianshu.com/p/fae3736e0428

推荐系统遇上深度学习(三十六)--Learning and Transferring IDs Representation in E-commerce

https://www.jianshu.com/p/285978e29458

推荐系统遇上深度学习(三十七)--基于多任务学习的可解释性推荐系统

https://www.jianshu.com/p/5029ed9b34ca

推荐系统遇上深度学习(三十八)--CFGAN:一种基于GAN的协同过滤推荐框架

https://www.jianshu.com/p/c6d7d50a5049

推荐系统遇上深度学习(三十九)-推荐系统中召回策略演进

https://www.jianshu.com/p/ef3caa5672c8

推荐系统遇上深度学习(四十)-SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS

https://www.jianshu.com/p/9a4b3791fda2

推荐系统遇上深度学习(四十一)-Improved Recurrent Neural Networks for Session-based Recommendations

https://www.jianshu.com/p/e73f47050e0a

推荐系统遇上深度学习(四十二)-使用图神经网络做基于会话的推荐

https://www.jianshu.com/p/9186b2e40178

推荐系统遇上深度学习(四十三)-考虑用户微观行为的电商推荐

https://www.jianshu.com/p/c3bf6402ce6a

推荐系统遇上深度学习(四十四)-Airbnb实时搜索排序中的Embedding技巧

https://www.jianshu.com/p/01a762acdc6d

推荐系统遇上深度学习(四十五)-探秘阿里之深度会话兴趣网络DSIN

https://www.jianshu.com/p/82ccb10f9ede

推荐系统遇上深度学习(四十六)-阿里电商推荐中亿级商品的embedding策略

https://www.jianshu.com/p/229b686535f1

推荐系统遇上深度学习(四十七)-TEM:基于树模型构建可解释性推荐系统

https://www.jianshu.com/p/1f78ac6d3190

推荐系统遇上深度学习(四十八)-BST:将Transformer用于淘宝电商推荐

https://www.jianshu.com/p/caa2d87cb78c

推荐系统遇上深度学习(四十九)-九篇阿里推荐相关论文汇总!

https://www.jianshu.com/p/647669169f98

推荐系统遇上深度学习(五十)-使用强化学习优化用户的长期体验

https://www.jianshu.com/p/b356debb3b4d

推荐系统遇上深度学习(五十一)-谈谈推荐系统中的冷启动

https://www.jianshu.com/p/907d828b50bf

推荐系统遇上深度学习(五十二)-基于注意力机制的用户行为建模框架ATRank

https://www.jianshu.com/p/1fe9c66dac4a

推荐系统遇上深度学习(五十三)-DUPN:通过多任务学习用户的通用表示

https://www.jianshu.com/p/aba30d1726ae

推荐系统遇上深度学习(五十四)-使用GAN搭建强化学习仿真环境

https://www.jianshu.com/p/6215b95972ab

推荐系统遇上深度学习(五十五)-[阿里]考虑时空域影响的点击率预估模型DSTN

https://www.jianshu.com/p/a6a718529d85

推荐系统遇上深度学习(五十六)-[阿里]融合表示学习的点击率预估模型DeepMCP

https://www.jianshu.com/p/ecf649b8791b

推荐系统遇上深度学习(五十七)-[阿里]如何精确推荐一屏物品?

https://www.jianshu.com/p/fc8c87d7c2e5

推荐系统遇上深度学习(五十八)-基于“翻译”的序列推荐方法

https://www.jianshu.com/p/f716110f7b80

推荐系统遇上深度学习(五十九)-FM家族的新朋友FAT-DeepFFM

https://www.jianshu.com/p/08fc0d04fb9e

推荐系统遇上深度学习(六十)-FM家族的新朋友之TransFM

https://www.jianshu.com/p/6aad24b59def

㈡ 怎么利用知识图谱构建智能问答系统

科学知识图谱工具:Citespace及其升级版Citespace及其升级版是当前国内外研究人员在自己的研究中使用比较多的科学知识图谱绘制工具。该工具是陈超美博士开发的、供广大用户免费使用的软件工具。该软件易于获取,基于一定的数据集可得到用户想知道的某个方向的知识图谱,而且该知识图谱稳定、可读性良好、信息丰富。

㈢ 【转载】推荐系统论文整理和导读

此前整理过KDD21上工业界文章,本文主要整理和分类了Recsys 2021的Research Papers和Reprocibility papers。按照推荐系统的 研究方向 和使用的 推荐技术 来分类,方便大家 快速检索自己感兴趣的文章 。个人认为Recsys这个会议重点不在于”技术味多浓”或者”技术多先进”,而在于经常会涌现很多 新的观点 以及 有意思的研究点 ,涵盖推荐系统的各个方面,例如,Recsys 2021涵盖的一些很有意思的研究点包括:

还有些研究点也是值得一读的,比如推荐系统中的 冷启动 偏差与纠偏 序列推荐 可解释性,隐私保护 等,这些研究很有意思和启发性 ,有助于开拓大家的 研究思路**。

下面主要根据自己读题目或者摘要时的一些判断做的归类,按照 推荐系统研究方向分类 推荐技术分类 以及 专门实验性质的可复现型文章分类 ,可能存在漏归和错归的情况,请大家多多指正。

信息茧房/回音室(echo chamber)/过滤气泡(filter bubble) ,这3个概念类似,在国内外有不同的说法。大致是指使用社交媒体以及带有 算法推荐功能 的资讯类APP,可能会导致我们 只看得到自己感兴趣的、认同的内容 ,进而让大家都活在自己的 小世界里 ,彼此之间 难以认同和沟通 。关于这部分的概念可参见知乎文章: https://zhuanlan.hu.com/p/71844281。有四篇文章探讨了这样的问题。

此次大会在探索与利用上也有很多探讨,例如多臂老虎机、谷歌的新工作,即:用户侧的探索等。

涉及排序学习的纠偏、用户的偏差探索等。

Debiased Explainable Pairwise Ranking from Implicit Feedback

Khalil Damak, Sami Khenissi, and Olfa Nasraoui

Mitigating Confounding Bias in Recommendation via Information Bottleneck

Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming

User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms

Ningxia Wang, and Li Chen

利用图学习、表征学习等做冷启动。

Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders

Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis

Shared Neural Item Representations for Completely Cold Start Problem

Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung

涉及离线或在线评估方法,准确性和多样性等统一指标的设计等。

Evaluating Off-Policy Evaluation: Sensitivity and Robustness

Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno

Fast Multi-Step Critiquing for VAE-based Recommender Systems

Diego Antognini and Boi Faltings

Online Evaluation Methods for the Causal Effect of Recommendations

Masahiro Sato

Towards Unified Metrics for Accuracy and Diversity for Recommender Systems

Javier Parapar and Filip Radlinski

涉及session维度的短序列推荐;使用NLP中常用的Transformers做序列推荐的鸿沟探讨和解决,这个工作本人还挺感兴趣的,后续会精读下!

结合联邦学习做隐私保护等。

Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction

Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley

Large-scale Interactive Conversational Recommendation System

Ali Montazeralghaem, James Allan, and Philip S. Thomas

EX3: Explainable Attribute-aware Item-set Recommendations

Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang

Towards Source-Aligned Variational Models for Cross-Domain Recommendation

Aghiles Salah, Thanh Binh Tran, and Hady Lauw

利用视觉信息做推荐。

Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma

Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang

探讨了美食场景下,多用户意图的推荐系统的交互设计。

“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface

Alain Starke, Edis Asotic, and Christoph Trattner

涉及传统协同过滤、度量学习的迭代;新兴的图学习技术、联邦学习技术、强化学习技术等的探索。

Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All

Florian Wilhelm

Negative Interactions for Improved Collaborative-Filtering: Don’t go Deeper, go Higher
Harald Steck and Dawen Liang

ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation

Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram

知识图谱的应用以及图嵌入技术和上下文感知的表征技术的融合,这两个工作个人都挺感兴趣。

Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino

Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro

涉及训练、优化、检索、实时流等。

Jeremie Rappaz, Julian McAuley, and Karl Aberer

Reprocibility papers可复现实验性质的文章,共3篇。分别探索了:序列推荐中的 采样评估策略 ;对话推荐系统中 生成式和检索式的方法对比 神经网络 推荐系统和 矩阵分解 推荐系统的对比。

通过论文的整理和分类,笔者也发现了一些自己感兴趣的研究点,比如:推荐系统的回音室效应探讨文章;Transformers在序列推荐和NLP序列表征中的鸿沟和解决文章:Transformers4Rec;图嵌入表征和上下文感知表征的融合文章;NCF和MF的实验对比文章;

㈣ 美团大脑百亿级知识图谱的构建及应用进展

分享嘉宾:张鸿志博士 美团 算法专家

编辑整理:廖媛媛 美的集团

出品平台:DataFunTalk

导读: 美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:

--

“美团大脑”是什么?

以下是“美团大脑”构建的整体RoadMap,最先是2018年开始餐饮知识图谱构建,对美团丰富的结构化数据和用户行为数据进行初步挖掘,并在一些重要的数据维度上进行深入挖掘,比如说对到餐的用户评论进行情感分析。2019年,以标签图谱为代表,重点对非结构化的用户评论进行深入挖掘。2020年以后,开始结合各领域特点,逐个领域展开深度数据挖掘和建设,包括商品、美食、酒旅和到综和cross图谱等。

--

在搜索中,通常用户需要将其意图抽象为搜索引擎能够支持的一系列精搜关键词。标签知识图谱则是通过“标签”来承载用户需求,从而提升用户搜索体验。例如,通过标签知识图谱,用户可直接搜索“带孩子”或者“情侣约会”,就可返回合适的商户/内容供给。从信息增益角度来说,用户评论这种非结构化文本蕴含了大量的知识(比如某个商户适合的场景、人群、环境等),通过对非结构化数据的挖掘实现信息增益。该团队以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术,自下而上梳理用户需求,场景及主要关注点完成图谱构建。

标签知识图谱构建分为以下四个部分:知识抽取、关系挖掘、图谱打标和图谱应用。

① 知识抽取

标签挖掘采用简单的序列标注架构,包括Single span标签挖掘和跳字标签挖掘,此外还会结合语义判别或者上下文判别,采用远监督学习+结果投票方式获取更精准的标签。

② 关系挖掘

同义词挖掘:同义词挖掘被定义为给定包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。现有的同义词挖掘方法包括搜索日志挖掘、网络数据抽取、基于规则的相似度计算等,缺乏一定的通用性。当前我们的目标是寻找通用性强,可广泛应用到大规模数据集的标签同义词挖掘方法。

以下是作者给出的同义词挖掘的具体方案,首先将离线标签池或者线上查询标签进行向量表示获取向量索引,再进行向量哈希召回,进一步生成该标签的TopN的同义词对候选,最后使用同义词判别模型。该方案的优势在于降低了计算复杂度,提升了运算效率;对比倒排索引候选生成,可召回字面无overlap的同义词,准确率高,参数控制简单。

对于有标注数据,主流的标签词嵌入表示方法有word2vec、BERT等。word2vec方法实现较为简单,词向量取均值,忽略了词的顺序;BERT通过预训练过程中能捕捉到更为丰富的语义表示,但是直接取[CLS]标志位向量,其效果与word2vec相当。Sentence-Bert对于Bert模型做了相应的改进,通过双塔的预训练模型分别获取标签tagA和tagB表征向量,然后通过余弦相似性度量这两个向量的相似性,由此获取两个标签的语义相似性。

对于无标注数据来说,可以通过对比学习的方法获取句子的表示。如图所示,Bert原始模型对于不同相似度的句子的向量相似度都很高,经过对比学习的调整之后,向量的相似度能够较好地体现出文本相似度。

对比学习模型设计:首先给定一个sentence,对这个样本做扰动产生样本pair,常规来说,在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair;在训练的过程中,最大化batch内同一样本的相似度,最小化batch内其他样本的相似度。最终结果显示,无监督学习在一定程度上能达到监督学习的效果,同时无监督学习+监督学习相对于监督学习效果有显着提升。

同义词判别模型设计:将两个标签词拼接到Bert模型中,通过多层语义交互获取标签。

标签上下位挖掘:词汇包含关系是最重要的上下位关系挖掘来源,此外也可通过结合语义或统计的挖掘方法。但当前的难点是上下位的标准较难统一,通常需要结合领域需求,对算法挖掘结果进行修正。

③ 图谱打标:如何构建标签和商户供给的关联关系?

给定一个标签集合,通过标签及其同义词在商户UGC/团单里出现的频率,卡一个阈值从而获取候选tag-POI。这样会出现一个问题是,即使是频率很高但不一定有关联,因此需要通过一个商户打标判别模块去过滤bad case。

商户打标考虑标签与商户、用户评论、商户Taxonomy等三个层次的信息。具体来讲,标签-商户粒度,将标签与商户信息(商户名、商户三级类目、商户top标签)做拼接输入到Bert模型中做判别。

微观的用户评论粒度,判断每一个标签与提到该标签的评论(称为evidence)之间是正面、负面、不相关还是不确定的关系,因此可当作四分类的判别模型。我们有两种方案可选择,第一种是基于多任务学习的方法, 该方法的缺点在于新增标签成本较高,比如新增一个标签,必须为该标签新增一些训练数据。笔者最终采用的是基于语义交互的判别模型,将标签作为参数输入,使该模型能够基于语义判别,从而支持动态新增标签。

基于语义交互的判别模型,首先做向量表示,然后是交互,最终聚合比较结果,该方法的计算速度较快,而基于BERT的方法,计算量大但准确率较高。我们在准确率和速度上取balance,例如当POI有30多条的evidence,倾向于使用轻量级的方式;如果POI只有几条evidence,可以采用准确率较高的方式进行判别。

从宏观角度,主要看标签和类目是否匹配,主要有三种关系:一定不会,可能会,一定会。一般通过商户层关联结果进行投票结果,同时会增加一些规则,对于准确率要求较高时,可进行人工review。

④ 图谱应用:所挖掘数据的直接应用或者知识向量表示应用

在商户知识问答相关的场景,我们基于商户打标结果以及标签对应的evidence回答用户问题。

首先识别用户query中的标签并映射为id,然后通过搜索召回或者排序层透传给索引层,从而召回出有打标结果的商户,并展示给C端用户。A/B实验表明,用户的长尾需求搜索体验得到显着提升。此外,也在酒店搜索领域做了一些上线实验,通过同义词映射等补充召回手段,搜索结果有明显改善。

主要采用GNN模型实现,在构图中构建了两种边,Query-POI点击行为和Tag-POI关联信息;采用Graph Sage进行图学习,学习的目标是判断Tag和POI是否有关联关系或者Query和POI是否点击关系,进一步依据关联强度进行采样。上线后结果显示,在仅利用Query-POI信息构图时,线上无收益,在引入Tag-POI关联信息后线上效果得到显着提升。这可能是因为排序模型依赖于Query-POI点击行为信息去学习,引入Graph Sage学习相当于换了一种学习的方式,信息增益相对较少;引入Tag-POI信息相当于引入了新的知识信息,所以会带来显着提升。

此外,仅接入Query-POI向量相似度线上效果提升不佳,将Query和POI向量接入后效果得到显着提升。这可能是因为搜索的特征维度较高,容易忽略掉向量相似度特征,因此将Query和POI向量拼接进去后提升了特征维度。

该任务通过当前已知的Item去预测用户点击的Masked Item。比如说获取Item的上下文表征的时候,将相关的Attribute信息也进行向量表征,从而去判断Item是否有Attribute信息。

此外,还可以做Masked Item Attribute 预测,从而将标签的知识图谱信息融入到序列推荐任务中去。实验结果表明,引入知识信息后的准确率在不同的数据集上均有数量级的提升。同时,我们也做了线上转化的工作,将Item表征做向量召回;具体来说,基于用户历史上点击过的Item去召回topN相似的Item,从而补充线上推荐结果,在美食列表推荐页有显着提升。

--

菜品知识图谱的构建目标,一方面是构建对菜品的系统理解能力,另一方面是构建较为完备的菜品知识图谱,这里从不同的层次来说明菜品知识图谱的构建策略。

** * 菜名理解**

菜名中蕴含着最精准、获取成本最低的菜品信息,同时对菜名的理解也是后续显式知识推理泛化能力的前提。首先是抽取菜名的本质词/主体菜,然后序列标注去识别菜名中的每个成分。针对两种场景设计了不同的模型,对于有分词情况,将分词符号作为特殊符号添加到模型中,第一个模型是识别每个token对应的类型;对于无分词情况,需要先做Span-Trans的任务,然后再复用有分词情况的模块。

菜名理解是一个较为重要的信息来源,但是所蕴含的知识相对有限,从而提出了基于深度学习模型进行初步字符推断,可实现对不同字面表述的泛化处理。但是对需要专业知识的case表现欠佳,偶尔在字面极其匹配时出现case。

从知识内容丰富的文本中挖掘某些菜谱的基础知识,来构建源知识库;然后通过泛化推理去映射到具体SKU中。在食材推理中,比如菜品种有多道红烧肉,统计10道五花肉中有4道是指五花肉,6道是指带皮五花肉,因此肉就转化为带皮五花肉。对应地,佛跳墙有多道菜谱,先通过统计每种食材出现的概率,可以卡一个阈值,然后表明该菜谱的食谱是什么。

多源数据挖掘,基于菜名理解结果构建solid knowledge triple,同时也依赖菜名理解结果泛化规则。该策略主要适用于处理食材、功效、人群等标签。该方法准确率OK,有一定泛化能力,但覆盖率偏低。

业务内有一些比较好用的训练数据,例如1000万商户编辑自洽的店内分类树。基于该数据可产生5亿的 positive pairs 和 30G corpus。在模型训练中,会随机替换掉菜谱分类的 tab/shop,模型判断 tab/shop 是否被替换;50%的概率drop shop name,使得模型仅输入菜名时表现鲁棒。同时,对模型做了实体化改进,将分类标签作为bert的词进行训练,将该方法应用到下游模型中,在10w标注数据下,菜谱上下位/同义词模型准确率提升了1.8%。

首先使用ReseNet对菜谱图片进行编,使用Bert模型对菜谱文本信息做编码,通过对比学习loss去学习文本和店菜的匹配信息。这里采用双塔模型,一方面是下游应用较为方便,单塔模型可独立使用,也可inference出菜品图片的表示并缓存下来;另一方面是图片内容单纯,暂无交互式建模的必要。训练目标分别是图片与店菜匹配、图片与菜名对齐,图片与Tab对齐。

可基于多模态信息做菜品品类预测或者菜谱信息补全。比如,预测“猪肉白菜”加上了图片信息将更加直观和准确。基于文本和视图模态信息进行多视图半监督的菜谱属性抽取,以烹饪方式抽取为例,首先通过产生烹饪方法训练样本(红烧肉-红烧);然后采用CNN模型去训练预测菜谱烹饪方法,指导Bert模型Finetune文本模型或者多模态模型,基于商户/tab/菜品及评论信息预测菜品烹饪方法;最终对两个模型进行投票或者将两个特征拼接做预测。

综上,我们对菜品知识图谱构建进行相应的总结。菜品理解比较适合SKU的初始化;深度学习推理模型和显式推理模型比较适合做同义词、上下位、菜系等;最终是想通过多模态+结构化预训练和推理来解决单模态信息不完整、属性维度多、需要大量标注数据等问题,因此该方法被应用到几乎所有的场景中。

今天的分享就到这里,谢谢大家。

分享嘉宾:

㈤ 2020 推荐系统技术演进趋势了解

读知乎文章《推荐系统技术演进趋势:从召回到排序再到重排》笔记:

《推荐系统技术演进趋势:从召回到排序再到重排》这篇文章主要说了下最近两年,推荐系统技术的一些比较明显的技术发展趋势。主要从以下几个方面介绍:

推荐系统整体架构

召回技术演进趋势

排序模型技术演进趋势

重排技术演进趋势

推荐系统宏观架构:

细分四阶段:

1、传统:多路召回(每一路召回相当于单特征排序结果)

2、未来:模型召回(引入多特征,把单特征排序拓展成多特征排序的模型)

(1)模型召回

根据用户物品Embedding,采用类似Faiss等高效Embedding检索工具,快速找出和用户兴趣匹配的物品,这样就等于做出了利用多特征融合的召回模型了。

理论上来说,任何你能见到的有监督模型,都可以用来做这个召回模型,比如FM/FFM/DNN等,常说的所谓“双塔”模型,指的其实是用户侧和物品侧特征分离分别打Embedding的结构而已,并非具体的模型。

值得注意的一点是:如果在召回阶段使用模型召回,理论上也应该同步采用和排序模型相同的优化目标,尤其是如果排序阶段采用多目标优化的情况下,召回模型也应该对应采取相同的多目标优化。同理,如果整个流程中包含粗排模块,粗排也应该采用和精排相同的多目标优化,几个环节优化目标应保持一致。因为召回和粗排是精排的前置环节,否则,如果优化目标不一致,很可能会出现高质量精排目标,在前置环节就被过滤掉的可能,影响整体效果。

(2)用户行为序列召回

核心在于:这个物品聚合函数Fun如何定义的问题。这里需要注意的一点是:用户行为序列中的物品,是有时间顺序的。理论上,任何能够体现时序特点或特征局部性关联的模型,都比较适合应用在这里,典型的比如CNN、RNN、Transformer、GRU(RNN的变体模型)等,都比较适合用来集成用户行为序列信息。

在召回阶段,如何根据用户行为序列打embedding,可以采取有监督的模型,比如Next Item Prediction的预测方式即可;也可以采用无监督的方式,比如物品只要能打出embedding,就能无监督集成用户行为序列内容,例如Sum Pooling。

(3)用户多兴趣拆分 (利用用户行为物品序列,打出用户兴趣Embedding的做法)

(4)知识图谱融合召回

根据用户的兴趣实体,通过知识图谱的实体Embedding化表达后(或者直接在知识图谱节点上外扩),通过知识外扩或者可以根据Embedding相似性,拓展出相关实体。

(5)图神经网络模型召回

图神经网络的最终目的是要通过一定技术手段,获得图中节点的embedding编码。最常用的embedding聚合工具是CNN,对于某个图节点来说,它的输入可以有两类信息,一类是自身的属性信息,比如上面举的微博的例子;另外一类是图结构信息,就是和当前节点有直接边关联的其它节点信息。 通过CNN,可以对两类信息进行编码和聚合,形成图节点的embedding。 通过CNN等信息聚合器,在图节点上进行计算,并反复迭代更新图节点的embedding,就能够最终获得可靠的图节点embedding信息,而这种迭代过程,其实体现的是远距离的节点将信息逐步通过图结构传递信息的过程,所以图结构是可以进行知识传递和补充的。

我们可以进一步思考下,图节点因为可以带有属性信息,比如物品的Content信息,所以明显这对于解决物品侧的冷启动问题有帮助;而因为它也允许知识在图中远距离进行传递,所以比如对于用户行为比较少的场景,可以形成知识传递和补充,这说明它也比较适合用于数据稀疏的推荐场景;另外一面,图中的边往往是通过用户行为构建的,而用户行为,在统计层面来看,本质上是一种协同信息,比如我们常说的“A物品协同B物品”,本质上就是说很多用户行为了物品A后,大概率会去对物品B进行行为; 所以图具备的一个很好的优势是:它比较便于把协同信息、用户行为信息、内容属性信息等各种异质信息在一个统一的框架里进行融合,并统一表征为embedding的形式,这是它独有的一个优势,做起来比较自然。另外的一个特有优势,就是信息在图中的传播性,所以对于推荐的冷启动以及数据稀疏场景应该特别有用。

早期的图神经网络做推荐,因为需要全局信息,所以计算速度是个问题,往往图规模都非常小,不具备实战价值。而GraphSAGE则通过一些手段比如从临近节点进行采样等减少计算规模,加快计算速度,很多后期改进计算效率的方法都是从这个工作衍生的;而PinSage在GraphSAGE基础上(这是同一拨人做的),进一步采取大规模分布式计算,拓展了图计算的实用性,可以计算Pinterest的30亿规模节点、180亿规模边的巨型图,并产生了较好的落地效果。所以这两个工作可以重点借鉴一下。

总体而言,图模型召回,是个很有前景的值得探索的方向。

模型优化目标则体现了我们希望推荐系统去做好什么,往往跟业务目标有关联,这里我们主要从技术角度来探讨,而多目标优化以及ListWise最优是目前最常见的技术进化方向,ListWise优化目标在排序阶段和重排阶段都可采用,我们把它放到重排部分去讲,这里主要介绍多目标优化;

模型表达能力代表了模型是否具备充分利用有效特征及特征组合的能力,其中显示特征组合、新型特征抽取器、增强学习技术应用以及AutoML自动探索模型结构是这方面明显的技术进化方向;

从特征和信息角度,如何采用更丰富的新类型特征,以及信息和特征的扩充及融合是主要技术进化方向,用户长短期兴趣分离、用户行为序列数据的使用、图神经网络以及多模态融合等是这方面的主要技术趋势。

1.1 模型优化目标-多目标优化

推荐系统的多目标优化(点击,互动,时长等多个目标同时优化)严格来说不仅仅是趋势,而是目前很多公司的研发现状。对于推荐系统来说,不同的优化目标可能存在互相拉后腿的现象,多目标旨在平衡不同目标的相互影响,而如果多目标优化效果好,对于业务效果的推动作用也非常大。总而言之,多目标优化是值得推荐系统相关研发人员重点关注的技术方向。

从技术角度讲,多目标优化最关键的有两个问题。第一个问题是多个优化目标的模型结构问题;第二个问题是不同优化目标的重要性如何界定的问题(超参如何寻优)。

2.1 模型表达能力-显式特征组合

如果归纳下工业界CTR模型的演化历史的话,你会发现,特征工程及特征组合的自动化,一直是推动实用化推荐系统技术演进最主要的方向,而且没有之一。最早的LR模型,基本是人工特征工程及人工进行特征组合的,简单有效但是费时费力;再发展到LR+GBDT的 高阶特征组合自动化 ,以及FM模型的 二阶特征组合自动化 ;再往后就是DNN模型的引入,纯粹的简单DNN模型本质上其实是在FM模型的特征Embedding化基础上,添加几层MLP隐层来进行隐式的特征非线性自动组合而已。

2.2 模型表达能力-特征抽取器的进化

从特征抽取器的角度来看,目前主流的DNN 排序模型,最常用的特征抽取器仍然是MLP结构,图像领域的CNN、NLP领域的RNN和Transformer。

MLP结构通常是两层或者三层的MLP隐层。目前也有理论研究表明:MLP结构用来捕获特征组合,是效率比较低下的。

CNN捕获局部特征关联是非常有效的结构,但是并不太适合做纯特征输入的推荐模型,因为推荐领域的特征之间,在输入顺序上并无必然的序列关系,CNN的捕获远距离特征关系能力差的弱点,以及RNN的不可并行处理、所以速度慢的劣势等。

Transformer作为NLP领域最新型也是最有效的特征抽取器,从其工作机制来说,其实是非常适合用来做推荐的。为什么这么说呢?核心在于Transformer的Multi-Head Self Attention机制上。MHA结构在NLP里面,会对输入句子中任意两个单词的相关程度作出判断,而如果把这种关系套用到推荐领域,就是通过MHA来对任意特征进行特征组合,而上文说过,特征组合对于推荐是个很重要的环节,所以从这个角度来说,Transformer是特别适合来对特征组合进行建模的,一层Transformer Block代表了特征的二阶组合,更多的Transformer Block代表了更高阶的特征组合。但是,实际上如果应用Transformer来做推荐,其应用效果并没有体现出明显优势,甚至没有体现出什么优势,基本稍微好于或者类似于典型的MLP结构的效果。这意味着,可能我们需要针对推荐领域特点,对Transformer需要进行针对性的改造,而不是完全直接照搬NLP里的结构。

截一张张老师其他关于Transformer的图,足以说明Transformer的意义,但现在还不是很懂,哈哈~

2.3 AutoML在推荐的应用

AutoML在17年初开始出现,最近三年蓬勃发展,在比如图像领域、NLP领域等都有非常重要的研究进展,在这些领域,目前都能通过AutoML找到比人设计的效果更好的模型结构。

2.4 增强学习在推荐的应用

增强学习其实是比较吻合推荐场景建模的。一般而言,增强学习有几个关键要素:状态、行为以及回报。在推荐场景下,我们可以把状态St定义为用户的行为历史物品集合;推荐系统可选的行为空间则是根据用户当前状态St推荐给用户的推荐结果列表,这里可以看出,推荐场景下,用户行为空间是巨大无比的,这制约了很多无法对巨大行为空间建模的增强学习方法的应用;而回报呢,则是用户对推荐系统给出的列表内容进行互动的行为价值,比如可以定义点击了某个物品,则回报是1,购买了某个物品,回报是5….诸如此类。有了这几个要素的场景定义,就可以用典型的增强学习来对推荐进行建模。

3.1 多模态信息融合

多模态融合,从技术手段来说,本质上是把不同模态类型的信息,通过比如Embedding编码,映射到统一的语义空间内,使得不同模态的信息,表达相同语义的信息完全可类比。比如说自然语言说的单词“苹果”,和一张苹果的图片,应该通过一定的技术手段,对两者进行信息编码,比如打出的embedding,相似度是很高的,这意味着不同模态的知识映射到了相同的语义空间了。这样,你可以通过文本的苹果,比如搜索包含苹果的照片。

3.2 长期兴趣/短期兴趣分离

对于推荐系统而言,准确描述用户兴趣是非常重要的。目前常用的描述用户兴趣的方式主要有两类。一类是以用户侧特征的角度来表征用户兴趣,也是最常见的;另外一类是以用户发生过行为的物品序列作为用户兴趣的表征。

关于List Wise重排序,可以从两个角度来说,一个是优化目标或损失函数;一个是推荐模块的模型结构。

推荐系统里Learning to Rank做排序,我们知道常见的有三种优化目标:Point Wise、Pair Wise和List Wise。所以我们首先应该明确的一点是:List Wise它不是指的具体的某个或者某类模型,而是指的模型的优化目标或者损失函数定义方式,理论上各种不用的模型都可以使用List Wise损失来进行模型训练。最简单的损失函数定义是Point Wise,就是输入用户特征和单个物品特征,对这个物品进行打分,物品之间的排序,就是谁应该在谁前面,不用考虑。明显这种方式无论是训练还是在线推理,都非常简单直接效率高,但是它的缺点是没有考虑物品直接的关联,而这在排序中其实是有用的。Pair Wise损失在训练模型时,直接用两个物品的顺序关系来训练模型,就是说优化目标是物品A排序要高于物品B,类似这种优化目标。其实Pair Wise的Loss在推荐领域已经被非常广泛得使用,比如BPR损失,就是典型且非常有效的Pair Wise的Loss Function,经常被使用,尤其在隐式反馈中,是非常有效的优化目标。List Wise的Loss更关注整个列表中物品顺序关系,会从列表整体中物品顺序的角度考虑,来优化模型。在推荐中,List Wise损失函数因为训练数据的制作难,训练速度慢,在线推理速度慢等多种原因,尽管用的还比较少,但是因为更注重排序结果整体的最优性,所以也是目前很多推荐系统正在做的事情。

从模型结构上来看。因为重排序模块往往是放在精排模块之后,而精排已经对推荐物品做了比较准确的打分,所以往往重排模块的输入是精排模块的Top得分输出结果,也就是说,是有序的。而精排模块的打分或者排序对于重排模块来说,是非常重要的参考信息。于是,这个排序模块的输出顺序就比较重要,而能够考虑到输入的序列性的模型,自然就是重排模型的首选。我们知道,最常见的考虑时序性的模型是RNN和Transformer,所以经常把这两类模型用在重排模块,这是很自然的事情。一般的做法是:排序Top结果的物品有序,作为RNN或者Transformer的输入,RNN或者Transformer明显可以考虑在特征级别,融合当前物品上下文,也就是排序列表中其它物品,的特征,来从列表整体评估效果。RNN或者Transformer每个输入对应位置经过特征融合,再次输出预测得分,按照新预测的得分重新对物品排序,就完成了融合上下文信息,进行重新排序的目的。

参考资料:

1、推荐系统技术演进趋势:从召回到排序再到重排

https://zhuanlan.hu.com/p/100019681

2、模型召回典型工作:

FM模型召回: 推荐系统召回四模型之:全能的FM模型

DNN双塔召回:Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations

3、用户行为序列召回典型工作:

GRU:Recurrent Neural Networks with Top-k Gains for Session-based Recommendations

CNN:Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding

Transformer: Self-Attentive Sequential Recommendation

4、知识图谱融合召回典型工作:

KGAT: Knowledge Graph Attention Network for Recommendation

RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems

5、图神经网络模型召回典型工作:

GraphSAGE: Inctive Representation Learning on Large Graphs

PinSage: Graph Convolutional Neural Networks for Web-Scale Recommender Systems

6、模型多目标优化典型工作:

MMOE:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

帕累托最优:A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation

7、显式特征组合典型工作:

Deep& Cross: Deep & Cross Network for Ad Click Predictions

XDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

8、特征抽取器典型工作:

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction

9、对比CNN\RNN\特征抽取器: https://zhuanlan.hu.com/p/54743941

10、AutoML在推荐的应用典型工作:

ENAS结构搜索: AutoML在推荐排序网络结构搜索的应用

双线性特征组合: FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction

11、增强学习在推荐的应用典型工作:

Youtube: Top-K Off-Policy Correction for a REINFORCE Recommender System

Youtube: Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology

12、多模态融合典型工作:

DNN召回:Collaborative Multi-modal deep learning for the personalized proct retrieval in Facebook Marketplace

排序:Image Matters: Visually modeling user behaviors using Advanced Model Server

13、长短期兴趣分离典型工作:

1. Neural News Recommendation with Long- and Short-term User Representations

2. Sequence-Aware Recommendation with Long-Term and Short-Term Attention Memory Networks

14、List Wise重排序典型工作:

1.Personalized Re-ranking for Recommendation

2.Learning a Deep Listwise Context Model for Ranking Refinement

㈥ 人工智能对企业销售人员提升业绩有帮助吗

随着数据的爆发式增长、计算能力的大幅提升以及深度学习算法的发展和成熟,人工智能迎来了第三次浪潮,在众多领域的应用已经取得长足的进步,在营销领域,情况也是如此。

如今,营销流程中的各个环节均有人工智能的“身影”,计算机视觉、语音识别、自然语言处理、机器学习等技术的广泛应用正在掀起一场新的营销革命。


四、营销策略更加个性化

人工智能经历了从理解、推理、学习到提出见解的过程,而且可以在学习过程中涵盖更多的信息,所以营销策略更加个性化。

喜推人工智能决策平台,将知识图谱作为辅助信息引入推荐系统,有效地解决了传统的推荐系统中容易出现的数据稀疏性和冷启动问题。通过人工智能对海量数据的深度学习,可以跟踪并全面分析消费者行为,继而成为最了解消费者的营销助手,为营销人员提供最适合消费者的个性化营销建议。在对消费者实施营销策略之后,人工智能还能实时跟踪反馈情况,为企业带来极具个性化的体验营销方案。

五、广告投放精准化

传统的广告市场存在覆盖人群不精准、投放效率低等问题,而人工智能为广告投放提供了新的思路。

喜推人工智能决策平台,通过自动化的人群追踪,以自动规划、精准定向、控制频次、实时监测等方式减少预算浪费,强化投放效果。利用人工智能深度学习用户数据,识别用户行为轨迹,快速判断并过滤信息,即时定位受众群体,对数据进行预判分析,给出价格,经由程序化路径精准触达目标受众人群,实现从人工向自动化媒介管理的转变,让程序化广告向跨终端、跨平台、可跟踪历史足迹、用户分析、相似人群追投和瞬间兴趣投放转变。


(3)后记

在过去的20多年里,企业营销一直在变革,从单向营销、互动营销、发展到基于大数据的精准营销以及基于人工智能的智慧营销。在这个过程中,喜推科技一直深耕于企业营销领域,通过各种前沿的技术手段,赋能中小企业营销。

如今,人工智能时代已来,整个营销行业都将面临新一轮的变革与升级。喜推人工智能决策平台,基于大数据在营销过程中积累的品牌或商品标签、用户标签和渠道标签等,结合机器深度学习、自然语言处理等领域的多种算法,帮助企业形成渠道分发策略、物料生产策略和创意生成策略等前端营销应用工具,从而帮助企业找准消费者需求痛点,让场景触达更精准,让媒介管理更智能,实现企业营销的智慧化。

未来已来,喜推愿与你一同前行。

㈦ 浅谈知识图谱技术及其应用补全

前言及背景:在构建知识图谱的过程中,大量知识信息来源于文档和网页信息,在从文档提取知识的过程中往往会有偏差,这些偏差来自于看两方面:

(1)文档中会有很多噪声信息,即无用信息,它的产生可能来自于知识抽取算法本身,也可能和语言文字本身的有效性有关;

(2)文档信息量有限,不会把所有知识都涵盖进去,尤其是很多常识性知识。


以上都会导致知识图谱是不完整的,所以 知识图谱补全 在构建知识图谱中日益重要。
通过 已获取的知识 来对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。该过程可以利用本知识库内部的知识,也可以引入第三方知识库的知识来帮助完成。
整理了一份200G的AI资料包:
①人工智能课程及项目【含课件源码】
②超详解人工智能学习路线图
③人工智能必看优质书籍电子书汇总
④国内外知名精华资源
⑤优质人工智能资源网站整理(找前辈、找代码、找论文都有)
⑥人工智能行业报告
⑦人工智能论文合集
/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/","uri":"","width":31,"height":27,"darkImgUrl":"https://p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula">
资料在网盘里排列的非常整齐干净!希望对大家的学习有所帮助, 私信备注【05】添加领取


知识图谱补全分为两个层次: 概念层次的知识补全 实例层次的知识补全
往往提到知识图谱构建过程中只是提及了实体和关系的抽取,然后就可以生成实体和关系组成的RDF了。
但是,仅仅获取三元组是不够的,还要考虑这些,因为三元组中的实体除了具有属性和关系之外,还可以 映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多

例如:实体奥巴马的类型在不同关系中是有变化的。
在出生信息描述中,类型为人;在创作回忆录的描述中其类型还可以是作家;在任职描述中还可以是政治家。

实体类型的概念层次模型
在这里:人、作家、政治家这些概念之间是有层次的,也就是所说的概念的层次模型。

1、概念层次的知识补全——主要是要解决实体的类型信息缺失问题
正如前面的例子所描述,一旦一个实体被判别为人这个类型,那么在以构建好的知识模式中,该实体除了人的类型外仍需要向下层概念搜索,以发现更多的类别描述信息。
(1)基于描述逻辑的规则推理机制。
本体论和模式 :实体都可以归结为一种本体,而这种本体会具有一组模式来保证其独特性,这组模式可以用规则来描述,因此,对于本体而言,其可以由这组规则来描述。
例如,奥巴马是个实体,他的本体可以归为人,而人的模式就是可以使用语言和工具、可以改造其他事务等等,这些模式可以通过规则来描述,于是基于描述逻辑的规则推理方法就出现了。
描述逻辑 是一种常见的知识表示方式,它建立在概念和关系之上。
比如,可以将关于人的实体实例(可以是文本)收集起来,从中提取出其中模式并以规则的形式记录下来,这样一来,只要遇到一个新的实体实例 ,只需将其代入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。
(2)基于机器学习类型推理机制
经过基于描述逻辑的规则推理的发展阶段后,机器学习相关研究开始占据主流,此时 不是单纯地利用实例产生的规则等内部线索来进行判断,同时也要利用外部的特征和线索来学习类型的预测
对一个未知类型实体e1而言,如果能找到一个与其类似的且已知类型的实体e2的话,那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。
此类方法主要可以分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理(如,Markov逻辑网)几个方向。
(3)基于表示学习类型推理机制
将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结构等其他特征的支持,此时嵌入式方法可以发挥其自身优势。

2、实例层次的知识补全
可以理解为:对于一个实例三元组(SPO,主谓宾),其中可能缺失情况为(?,P,O),(S,?,O)或者(S,P,?),这就如同知识库中不存在这个三元组,此时需要预测缺失的实体或者关系是什么。
事实上, 很多缺失的知识是可以通过已经获得的知识来推知的 ,有时这个过程也被称为 链接预测

注意 :有时知识不是缺失的,而是 新出现 的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此时需要将其作为新知识补充道知识库中,但此种情形 不是传统意义的补全
(1)基于随机游走的概率补全方法
(2)基于表示学习的补全方法

知识图谱嵌入流程:
①结构嵌入表示法
②张量神经网络法
③矩阵分解法
④翻译法


(3)其他补全方法
跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全

面临的挑战和主要发展方向:
(1)解决长尾实体及关系的稀疏性。
知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。
(2)实体的一对多、多对一和多对多问题。
对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。
(3)三元组的动态增加和变化导致KG的动态变化加剧。
新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。
(4)KG中关系预测路径长度会不断增长。
关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。

㈧ 基于知识图谱的推荐系统

传统的推荐系统只使用用户和物品的历史交互信息(显式或隐式反馈)作为输入,但这会导致两个问题:
(1)数据的稀疏性问题: 在实际应用场景中,用户和物品的交互信息往往是非常稀疏的。例如,一个电影类APP可能包含了上万部电影,然而一个用户打过分的电影可能平均只有几十部。使用如此少量的已观测数据来预测大量的未知信息,会极大地增加算法的过拟合风险;
(2)冷启动问题: 对于新加入的用户或者物品,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐。
一般情况下,解决稀疏性和冷启动问题的方法,就是在推荐算法中额外引入一些辅助信息作为输入。这些辅助信息可以丰富对用户和物品的描述,从而有效地弥补交互信息的稀疏或缺失。在各种辅助信息中,知识图谱作为一种新兴类型的辅助信息,这几年的相关研究比较多。

知识图谱是一种语义网络,其节点代表实体,边代表实体之间的各种语义关系。一个知识图谱由若干个三元组 组成,其中 和 代表一条关系的头节点和尾节点, 代表节点之间的关系。

知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱在诸多推荐场景中都有应用的潜力,例如电影、新闻、景点、餐馆、购物等。和其它种类的辅助信息相比,知识图谱的引入可以让推荐结果具有以下特征:
(1)精确性
知识图谱为物品引入了更多的语义关系,可以深层次地发现用户兴趣。比如下图中展示的,用户喜欢霸王别姬这部电影,这部电影的主演的是张国荣,而张国荣正好也主演了阿飞正传,所以用户也可能喜欢阿飞正传这部电影。

基于利用KG信息的方式不同,可以将知识图谱与推荐系统的结合方法分为三类:分别是基于嵌入的方法、基于路径的方法和统一方法。
1.基于嵌入的方法
基于嵌入的方法通常直接使用来自 KG 的信息来丰富项目或用户的表示。为了利用 KG 信息,需要使用知识图嵌入 (KGE) 算法将 KG 编码为低秩嵌入。根据用户是否包含在KG中,基于嵌入的方法可以分为两类,分别是基于项目图的和基于用户-项目图的。
(1)基于项目图的
该图是由从数据集或外部知识库中提取的项目及其相关属性构成,不包含用户信息。该方法利用知识图嵌入 (KGE) 算法对图进行编码,可以获得项目更全面的表示,然后将项目边信息集成到推荐框架中。具体来说就是可以通过多方面的信息得到项目的潜在向量,这些信息包括KG、用户-项目交互矩阵、项目内容和项目属性等。然后利用偏好得分函数 ,通过得到的用户和项目的潜在向量来计算用户 选择项目 的概率,并根据概率结果得到用户的偏好排名。
(2)基于用户-项目图的
该图中用户、项目及其相关属性充当节点;它们的属性级关系(品牌、类别等)和用户相关关系(共同购买、共同查看等)作为边。该方法从构建出的图谱可以得出实体嵌入,然后根据偏好得分函数 得到结果。和基于项目图不同的是,这个偏好得分函数中,可以加入关系嵌入 一起计算。

基于嵌入的方法主要包含两个模块:图嵌入模块,主要利用图嵌入的方法学习知识图谱中实体和关系的表征;和推荐模块,以建模用户对物品的偏好。按照这两个模块的结合方式,可将这一方向的工作划分为三类,分别是依次学习,联合学习和交替学习。
(1)依次学习
该方法首先使用知识图谱特征学习得到实体向量和关系向量,然后将这些低维向量引入推荐系统,学习得到用户向量和物品向量。

目前对于基于知识图谱的推荐系统还在初学习阶段,对各种方法的具体模型了解还不是很多,前几天看了一篇何向南的结合知识图谱的 文章 ,应该是目前基于知识图谱的推荐系统的文章中效果比较好的,这篇文章利用了多任务学习策略,考虑到KG可能存在缺失的事实,联合训练了KG完成模块和推荐模块。根据目前的了解来说,基于知识图谱的推荐系统在动态推荐、多任务学习和跨域推荐等方面都有很好的研究前景。

https://www.cnblogs.com/niuxichuan/p/9317711.html
A Survey on Knowledge Graph-Based Recommender Systems

㈨ 百分点公司的动态知识图谱主要应用在什么场景下

动态知识图谱主要应用在信息检索,推荐系统,互联网金融行业等场景,很多应用场景和想法都可以延伸到其他的各行各业。