㈠ 推薦系統資料集合鏈接
推薦系統遇上深度學習系列:
推薦系統遇上深度學習(一)--FM模型理論和實踐: https://www.jianshu.com/p/152ae633fb00
推薦系統遇上深度學習(二)--FFM模型理論和實踐: https://www.jianshu.com/p/781cde3d5f3d
推薦系統遇上深度學習(三)--DeepFM模型理論和實踐:
https://www.jianshu.com/p/6f1c2643d31b
推薦系統遇上深度學習(四)--多值離散特徵的embedding解決方案: https://www.jianshu.com/p/4a7525c018b2
推薦系統遇上深度學習(五)--Deep&Cross Network模型理論和實踐:
https://www.jianshu.com/p/77719fc252fa
推薦系統遇上深度學習(六)--PNN模型理論和實踐: https://www.jianshu.com/p/be784ab4abc2
推薦系統遇上深度學習(七)--NFM模型理論和實踐:
https://www.jianshu.com/p/4e65723ee632
推薦系統遇上深度學習(八)--AFM模型理論和實踐:
https://www.jianshu.com/p/83d3b2a1e55d
推薦系統遇上深度學習(九)--評價指標AUC原理及實踐:
https://www.jianshu.com/p/4dde15a56d44
推薦系統遇上深度學習(十)--GBDT+LR融合方案實戰
https://www.jianshu.com/p/96173f2c2fb4
推薦系統遇上深度學習(十一)--神經協同過濾NCF原理及實戰
https://www.jianshu.com/p/6173dbde4f53
推薦系統遇上深度學習(十二)--推薦系統中的EE問題及基本Bandit演算法
https://www.jianshu.com/p/95b2de50ce44
推薦系統遇上深度學習(十三)--linUCB方法淺析及實現
https://www.jianshu.com/p/e0e843d78e3c
推薦系統遇上深度學習(十四)--《DRN:A Deep Reinforcement Learning Framework for News Recommendation》
https://www.jianshu.com/p/c0384b213320
https://www.jianshu.com/p/4dfce7949fce
推薦系統遇上深度學習(十五)--強化學習在京東推薦中的探索
https://www.jianshu.com/p/b9113332e33e
推薦系統遇上深度學習(十六)--詳解推薦系統中的常用評測指標
https://www.jianshu.com/p/665f9f168eff
推薦系統遇上深度學習(十七)--探秘阿里之MLR演算法淺析及實現
https://www.jianshu.com/p/627fc0d755b2
推薦系統遇上深度學習(十八)--探秘阿里之深度興趣網路(DIN)淺析及實現
https://www.jianshu.com/p/73b6f5d00f46
推薦系統遇上深度學習(十九)--探秘阿里之完整空間多任務模型ESSM
https://www.jianshu.com/p/35f00299c059
推薦系統遇上深度學習(二十)--貝葉斯個性化排序(BPR)演算法原理及實戰
https://www.jianshu.com/p/ba1936ee0b69
推薦系統遇上深度學習(二十一)--階段性回顧
https://www.jianshu.com/p/99e8f24ec7df
推薦系統遇上深度學習(二十二)--DeepFM升級版XDeepFM模型強勢來襲!
https://www.jianshu.com/p/b4128bc79df0
推薦系統遇上深度學習(二十三)--大一統信息檢索模型IRGAN在推薦領域的應用
https://www.jianshu.com/p/d151b52e57f9
推薦系統遇上深度學習(二十四)--深度興趣進化網路DIEN原理及實戰
https://www.jianshu.com/p/6742d10b89a8
推薦系統遇上深度學習(二十五)--當知識圖譜遇上個性化推薦
https://www.jianshu.com/p/6a5e796499e8
推薦系統遇上深度學習(二十六)--知識圖譜與推薦系統結合之DKN模型原理及實現
https://www.jianshu.com/p/2e3cade31098
推薦系統遇上深度學習(二十七)--知識圖譜與推薦系統結合之RippleNet模型原理及實現
https://www.jianshu.com/p/c5ffaf7ed449
推薦系統遇上深度學習(二十八)--知識圖譜與推薦系統結合之MKR模型原理及實現
https://www.jianshu.com/p/af5226c7fbbb
推薦系統遇上深度學習(二十九)--協同記憶網路理論及實踐
https://www.jianshu.com/p/3e80d8426f7f
推薦系統遇上深度學習(三十)--深度矩陣分解模型理論及實踐
https://www.jianshu.com/p/63beb773f100
推薦系統遇上深度學習(三十一)--使用自注意力機制進行物品推薦
https://www.jianshu.com/p/9eb209343c56
推薦系統遇上深度學習(三十二)--《推薦系統實踐》思維導圖
https://www.jianshu.com/p/bbcec0dca4c9
推薦系統遇上深度學習(三十三)--Neural Attentive Item Similarity Model
https://www.jianshu.com/p/c695808100c7
推薦系統遇上深度學習(三十四)--YouTube深度學習推薦系統
https://www.jianshu.com/p/8fa4dcbd5588
推薦系統遇上深度學習(三十五)--強化學習在京東推薦中的探索(二)
https://www.jianshu.com/p/fae3736e0428
推薦系統遇上深度學習(三十六)--Learning and Transferring IDs Representation in E-commerce
https://www.jianshu.com/p/285978e29458
推薦系統遇上深度學習(三十七)--基於多任務學習的可解釋性推薦系統
https://www.jianshu.com/p/5029ed9b34ca
推薦系統遇上深度學習(三十八)--CFGAN:一種基於GAN的協同過濾推薦框架
https://www.jianshu.com/p/c6d7d50a5049
推薦系統遇上深度學習(三十九)-推薦系統中召回策略演進
https://www.jianshu.com/p/ef3caa5672c8
推薦系統遇上深度學習(四十)-SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS
https://www.jianshu.com/p/9a4b3791fda2
推薦系統遇上深度學習(四十一)-Improved Recurrent Neural Networks for Session-based Recommendations
https://www.jianshu.com/p/e73f47050e0a
推薦系統遇上深度學習(四十二)-使用圖神經網路做基於會話的推薦
https://www.jianshu.com/p/9186b2e40178
推薦系統遇上深度學習(四十三)-考慮用戶微觀行為的電商推薦
https://www.jianshu.com/p/c3bf6402ce6a
推薦系統遇上深度學習(四十四)-Airbnb實時搜索排序中的Embedding技巧
https://www.jianshu.com/p/01a762acdc6d
推薦系統遇上深度學習(四十五)-探秘阿里之深度會話興趣網路DSIN
https://www.jianshu.com/p/82ccb10f9ede
推薦系統遇上深度學習(四十六)-阿里電商推薦中億級商品的embedding策略
https://www.jianshu.com/p/229b686535f1
推薦系統遇上深度學習(四十七)-TEM:基於樹模型構建可解釋性推薦系統
https://www.jianshu.com/p/1f78ac6d3190
推薦系統遇上深度學習(四十八)-BST:將Transformer用於淘寶電商推薦
https://www.jianshu.com/p/caa2d87cb78c
推薦系統遇上深度學習(四十九)-九篇阿里推薦相關論文匯總!
https://www.jianshu.com/p/647669169f98
推薦系統遇上深度學習(五十)-使用強化學習優化用戶的長期體驗
https://www.jianshu.com/p/b356debb3b4d
推薦系統遇上深度學習(五十一)-談談推薦系統中的冷啟動
https://www.jianshu.com/p/907d828b50bf
推薦系統遇上深度學習(五十二)-基於注意力機制的用戶行為建模框架ATRank
https://www.jianshu.com/p/1fe9c66dac4a
推薦系統遇上深度學習(五十三)-DUPN:通過多任務學慣用戶的通用表示
https://www.jianshu.com/p/aba30d1726ae
推薦系統遇上深度學習(五十四)-使用GAN搭建強化學習模擬環境
https://www.jianshu.com/p/6215b95972ab
推薦系統遇上深度學習(五十五)-[阿里]考慮時空域影響的點擊率預估模型DSTN
https://www.jianshu.com/p/a6a718529d85
推薦系統遇上深度學習(五十六)-[阿里]融合表示學習的點擊率預估模型DeepMCP
https://www.jianshu.com/p/ecf649b8791b
推薦系統遇上深度學習(五十七)-[阿里]如何精確推薦一屏物品?
https://www.jianshu.com/p/fc8c87d7c2e5
推薦系統遇上深度學習(五十八)-基於「翻譯」的序列推薦方法
https://www.jianshu.com/p/f716110f7b80
推薦系統遇上深度學習(五十九)-FM家族的新朋友FAT-DeepFFM
https://www.jianshu.com/p/08fc0d04fb9e
推薦系統遇上深度學習(六十)-FM家族的新朋友之TransFM
https://www.jianshu.com/p/6aad24b59def
㈡ 怎麼利用知識圖譜構建智能問答系統
科學知識圖譜工具:Citespace及其升級版Citespace及其升級版是當前國內外研究人員在自己的研究中使用比較多的科學知識圖譜繪制工具。該工具是陳超美博士開發的、供廣大用戶免費使用的軟體工具。該軟體易於獲取,基於一定的數據集可得到用戶想知道的某個方向的知識圖譜,而且該知識圖譜穩定、可讀性良好、信息豐富。
㈢ 【轉載】推薦系統論文整理和導讀
此前整理過KDD21上工業界文章,本文主要整理和分類了Recsys 2021的Research Papers和Reprocibility papers。按照推薦系統的 研究方向 和使用的 推薦技術 來分類,方便大家 快速檢索自己感興趣的文章 。個人認為Recsys這個會議重點不在於」技術味多濃」或者」技術多先進」,而在於經常會涌現很多 新的觀點 以及 有意思的研究點 ,涵蓋推薦系統的各個方面,例如,Recsys 2021涵蓋的一些很有意思的研究點包括:
還有些研究點也是值得一讀的,比如推薦系統中的 冷啟動 , 偏差與糾偏 , 序列推薦 , 可解釋性,隱私保護 等,這些研究很有意思和啟發性 ,有助於開拓大家的 研究思路**。
下面主要根據自己讀題目或者摘要時的一些判斷做的歸類,按照 推薦系統研究方向分類 、 推薦技術分類 以及 專門實驗性質的可復現型文章分類 ,可能存在漏歸和錯歸的情況,請大家多多指正。
信息繭房/迴音室(echo chamber)/過濾氣泡(filter bubble) ,這3個概念類似,在國內外有不同的說法。大致是指使用社交媒體以及帶有 演算法推薦功能 的資訊類APP,可能會導致我們 只看得到自己感興趣的、認同的內容 ,進而讓大家都活在自己的 小世界裡 ,彼此之間 難以認同和溝通 。關於這部分的概念可參見知乎文章: https://zhuanlan.hu.com/p/71844281。有四篇文章探討了這樣的問題。
此次大會在探索與利用上也有很多探討,例如多臂老虎機、谷歌的新工作,即:用戶側的探索等。
涉及排序學習的糾偏、用戶的偏差探索等。
Debiased Explainable Pairwise Ranking from Implicit Feedback
Khalil Damak, Sami Khenissi, and Olfa Nasraoui
Mitigating Confounding Bias in Recommendation via Information Bottleneck
Dugang Liu, Pengxiang Cheng, Hong Zhu, Zhenhua Dong, Xiuqiang He, Weike Pan, and Zhong Ming
User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms
Ningxia Wang, and Li Chen
利用圖學習、表徵學習等做冷啟動。
Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders
Guillaume Salha-Galvan, Romain Hennequin, Benjamin Chapus, Viet-Anh Tran, and Michalis Vazirgiannis
Shared Neural Item Representations for Completely Cold Start Problem
Ramin Raziperchikolaei, Guannan Liang, and Young-joo Chung
涉及離線或在線評估方法,准確性和多樣性等統一指標的設計等。
Evaluating Off-Policy Evaluation: Sensitivity and Robustness
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno
Fast Multi-Step Critiquing for VAE-based Recommender Systems
Diego Antognini and Boi Faltings
Online Evaluation Methods for the Causal Effect of Recommendations
Masahiro Sato
Towards Unified Metrics for Accuracy and Diversity for Recommender Systems
Javier Parapar and Filip Radlinski
涉及session維度的短序列推薦;使用NLP中常用的Transformers做序列推薦的鴻溝探討和解決,這個工作本人還挺感興趣的,後續會精讀下!
結合聯邦學習做隱私保護等。
Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction
Zhenrui Yue, Zhankui He, Huimin Zeng, and Julian McAuley
Large-scale Interactive Conversational Recommendation System
Ali Montazeralghaem, James Allan, and Philip S. Thomas
EX3: Explainable Attribute-aware Item-set Recommendations
Yikun Xian, Tong Zhao, Jin Li, Jim Chan, Andrey Kan, Jun Ma, Xin Luna Dong, Christos Faloutsos, George Karypis, S. Muthukrishnan, and Yongfeng Zhang
Towards Source-Aligned Variational Models for Cross-Domain Recommendation
Aghiles Salah, Thanh Binh Tran, and Hady Lauw
利用視覺信息做推薦。
Ambareesh Revanur, Vijay Kumar, and Deepthi Sharma
Huiyuan Chen, Yusan Lin, Fei Wang, and Hao Yang
探討了美食場景下,多用戶意圖的推薦系統的交互設計。
「Serving Each User」: Supporting Different Eating Goals Through a Multi-List Recommender Interface
Alain Starke, Edis Asotic, and Christoph Trattner
涉及傳統協同過濾、度量學習的迭代;新興的圖學習技術、聯邦學習技術、強化學習技術等的探索。
Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All
Florian Wilhelm
Negative Interactions for Improved Collaborative-Filtering: Don』t go Deeper, go Higher
Harald Steck and Dawen Liang
ProtoCF: Prototypical Collaborative Filtering for Few-shot Item Recommendation
Aravind Sankar, Junting Wang, Adit Krishnan, and Hari Sundaram
知識圖譜的應用以及圖嵌入技術和上下文感知的表徵技術的融合,這兩個工作個人都挺感興趣。
Antonio Ferrara, Vito Walter Anelli, Tommaso Di Noia, and Alberto Carlo Maria Mancino
Marco Polignano, Cataldo Musto, Marco de Gemmis, Pasquale Lops, and Giovanni Semeraro
涉及訓練、優化、檢索、實時流等。
Jeremie Rappaz, Julian McAuley, and Karl Aberer
Reprocibility papers可復現實驗性質的文章,共3篇。分別探索了:序列推薦中的 采樣評估策略 ;對話推薦系統中 生成式和檢索式的方法對比 ; 神經網路 推薦系統和 矩陣分解 推薦系統的對比。
通過論文的整理和分類,筆者也發現了一些自己感興趣的研究點,比如:推薦系統的迴音室效應探討文章;Transformers在序列推薦和NLP序列表徵中的鴻溝和解決文章:Transformers4Rec;圖嵌入表徵和上下文感知表徵的融合文章;NCF和MF的實驗對比文章;
㈣ 美團大腦百億級知識圖譜的構建及應用進展
分享嘉賓:張鴻志博士 美團 演算法專家
編輯整理:廖媛媛 美的集團
出品平台:DataFunTalk
導讀: 美團作為中國最大的在線本地生活服務平台,連接著數億用戶和數千萬商戶,其背後蘊含著豐富的與日常生活相關的知識。美團知識圖譜團隊從2018年開始著力於圖譜構建和利用知識圖譜賦能業務,改善用戶體驗。具體來說,「美團大腦」是通過對美團業務中千萬數量級的商家、十億級別的商品和菜品、數十億的用戶評論和百萬級別的場景進行深入的理解來構建用戶、商戶、商品和場景之間的知識關聯,進而形成的生活服務領域的知識大腦。目前,「美團大腦」已經覆蓋了數十億實體、數百億的三元組,在餐飲、外賣、酒店、到綜等領域驗證了知識圖譜的有效性。今天我們介紹美團大腦中生活服務知識圖譜的構建及應用,主要圍繞以下3個方面展開:
--
「美團大腦」是什麼?
以下是「美團大腦」構建的整體RoadMap,最先是2018年開始餐飲知識圖譜構建,對美團豐富的結構化數據和用戶行為數據進行初步挖掘,並在一些重要的數據維度上進行深入挖掘,比如說對到餐的用戶評論進行情感分析。2019年,以標簽圖譜為代表,重點對非結構化的用戶評論進行深入挖掘。2020年以後,開始結合各領域特點,逐個領域展開深度數據挖掘和建設,包括商品、美食、酒旅和到綜和cross圖譜等。
--
在搜索中,通常用戶需要將其意圖抽象為搜索引擎能夠支持的一系列精搜關鍵詞。標簽知識圖譜則是通過「標簽」來承載用戶需求,從而提升用戶搜索體驗。例如,通過標簽知識圖譜,用戶可直接搜索「帶孩子」或者「情侶約會」,就可返回合適的商戶/內容供給。從信息增益角度來說,用戶評論這種非結構化文本蘊含了大量的知識(比如某個商戶適合的場景、人群、環境等),通過對非結構化數據的挖掘實現信息增益。該團隊以生活服務領域的海量評論數據作為主要知識來源,通過標簽挖掘、標簽間關系挖掘以及標簽-商戶關聯等關鍵技術,自下而上梳理用戶需求,場景及主要關注點完成圖譜構建。
標簽知識圖譜構建分為以下四個部分:知識抽取、關系挖掘、圖譜打標和圖譜應用。
① 知識抽取
標簽挖掘採用簡單的序列標注架構,包括Single span標簽挖掘和跳字標簽挖掘,此外還會結合語義判別或者上下文判別,採用遠監督學習+結果投票方式獲取更精準的標簽。
② 關系挖掘
同義詞挖掘:同義詞挖掘被定義為給定包含N個詞的池子,M個業務標簽詞,查找M中每個詞在N中的同義詞。現有的同義詞挖掘方法包括搜索日誌挖掘、網路數據抽取、基於規則的相似度計算等,缺乏一定的通用性。當前我們的目標是尋找通用性強,可廣泛應用到大規模數據集的標簽同義詞挖掘方法。
以下是作者給出的同義詞挖掘的具體方案,首先將離線標簽池或者線上查詢標簽進行向量表示獲取向量索引,再進行向量哈希召回,進一步生成該標簽的TopN的同義詞對候選,最後使用同義詞判別模型。該方案的優勢在於降低了計算復雜度,提升了運算效率;對比倒排索引候選生成,可召回字面無overlap的同義詞,准確率高,參數控制簡單。
對於有標注數據,主流的標簽詞嵌入表示方法有word2vec、BERT等。word2vec方法實現較為簡單,詞向量取均值,忽略了詞的順序;BERT通過預訓練過程中能捕捉到更為豐富的語義表示,但是直接取[CLS]標志位向量,其效果與word2vec相當。Sentence-Bert對於Bert模型做了相應的改進,通過雙塔的預訓練模型分別獲取標簽tagA和tagB表徵向量,然後通過餘弦相似性度量這兩個向量的相似性,由此獲取兩個標簽的語義相似性。
對於無標注數據來說,可以通過對比學習的方法獲取句子的表示。如圖所示,Bert原始模型對於不同相似度的句子的向量相似度都很高,經過對比學習的調整之後,向量的相似度能夠較好地體現出文本相似度。
對比學習模型設計:首先給定一個sentence,對這個樣本做擾動產生樣本pair,常規來說,在embedding層加上Adversarial Attack、在詞彙級別做Shuffling或者丟掉一些詞等構成pair;在訓練的過程中,最大化batch內同一樣本的相似度,最小化batch內其他樣本的相似度。最終結果顯示,無監督學習在一定程度上能達到監督學習的效果,同時無監督學習+監督學習相對於監督學習效果有顯著提升。
同義詞判別模型設計:將兩個標簽詞拼接到Bert模型中,通過多層語義交互獲取標簽。
標簽上下位挖掘:詞彙包含關系是最重要的上下位關系挖掘來源,此外也可通過結合語義或統計的挖掘方法。但當前的難點是上下位的標准較難統一,通常需要結合領域需求,對演算法挖掘結果進行修正。
③ 圖譜打標:如何構建標簽和商戶供給的關聯關系?
給定一個標簽集合,通過標簽及其同義詞在商戶UGC/團單里出現的頻率,卡一個閾值從而獲取候選tag-POI。這樣會出現一個問題是,即使是頻率很高但不一定有關聯,因此需要通過一個商戶打標判別模塊去過濾bad case。
商戶打標考慮標簽與商戶、用戶評論、商戶Taxonomy等三個層次的信息。具體來講,標簽-商戶粒度,將標簽與商戶信息(商戶名、商戶三級類目、商戶top標簽)做拼接輸入到Bert模型中做判別。
微觀的用戶評論粒度,判斷每一個標簽與提到該標簽的評論(稱為evidence)之間是正面、負面、不相關還是不確定的關系,因此可當作四分類的判別模型。我們有兩種方案可選擇,第一種是基於多任務學習的方法, 該方法的缺點在於新增標簽成本較高,比如新增一個標簽,必須為該標簽新增一些訓練數據。筆者最終採用的是基於語義交互的判別模型,將標簽作為參數輸入,使該模型能夠基於語義判別,從而支持動態新增標簽。
基於語義交互的判別模型,首先做向量表示,然後是交互,最終聚合比較結果,該方法的計算速度較快,而基於BERT的方法,計算量大但准確率較高。我們在准確率和速度上取balance,例如當POI有30多條的evidence,傾向於使用輕量級的方式;如果POI只有幾條evidence,可以採用准確率較高的方式進行判別。
從宏觀角度,主要看標簽和類目是否匹配,主要有三種關系:一定不會,可能會,一定會。一般通過商戶層關聯結果進行投票結果,同時會增加一些規則,對於准確率要求較高時,可進行人工review。
④ 圖譜應用:所挖掘數據的直接應用或者知識向量表示應用
在商戶知識問答相關的場景,我們基於商戶打標結果以及標簽對應的evidence回答用戶問題。
首先識別用戶query中的標簽並映射為id,然後通過搜索召回或者排序層透傳給索引層,從而召回出有打標結果的商戶,並展示給C端用戶。A/B實驗表明,用戶的長尾需求搜索體驗得到顯著提升。此外,也在酒店搜索領域做了一些上線實驗,通過同義詞映射等補充召回手段,搜索結果有明顯改善。
主要採用GNN模型實現,在構圖中構建了兩種邊,Query-POI點擊行為和Tag-POI關聯信息;採用Graph Sage進行圖學習,學習的目標是判斷Tag和POI是否有關聯關系或者Query和POI是否點擊關系,進一步依據關聯強度進行采樣。上線後結果顯示,在僅利用Query-POI信息構圖時,線上無收益,在引入Tag-POI關聯信息後線上效果得到顯著提升。這可能是因為排序模型依賴於Query-POI點擊行為信息去學習,引入Graph Sage學習相當於換了一種學習的方式,信息增益相對較少;引入Tag-POI信息相當於引入了新的知識信息,所以會帶來顯著提升。
此外,僅接入Query-POI向量相似度線上效果提升不佳,將Query和POI向量接入後效果得到顯著提升。這可能是因為搜索的特徵維度較高,容易忽略掉向量相似度特徵,因此將Query和POI向量拼接進去後提升了特徵維度。
該任務通過當前已知的Item去預測用戶點擊的Masked Item。比如說獲取Item的上下文表徵的時候,將相關的Attribute信息也進行向量表徵,從而去判斷Item是否有Attribute信息。
此外,還可以做Masked Item Attribute 預測,從而將標簽的知識圖譜信息融入到序列推薦任務中去。實驗結果表明,引入知識信息後的准確率在不同的數據集上均有數量級的提升。同時,我們也做了線上轉化的工作,將Item表徵做向量召回;具體來說,基於用戶歷史上點擊過的Item去召回topN相似的Item,從而補充線上推薦結果,在美食列表推薦頁有顯著提升。
--
菜品知識圖譜的構建目標,一方面是構建對菜品的系統理解能力,另一方面是構建較為完備的菜品知識圖譜,這里從不同的層次來說明菜品知識圖譜的構建策略。
** * 菜名理解**
菜名中蘊含著最精準、獲取成本最低的菜品信息,同時對菜名的理解也是後續顯式知識推理泛化能力的前提。首先是抽取菜名的本質詞/主體菜,然後序列標注去識別菜名中的每個成分。針對兩種場景設計了不同的模型,對於有分詞情況,將分詞符號作為特殊符號添加到模型中,第一個模型是識別每個token對應的類型;對於無分詞情況,需要先做Span-Trans的任務,然後再復用有分詞情況的模塊。
菜名理解是一個較為重要的信息來源,但是所蘊含的知識相對有限,從而提出了基於深度學習模型進行初步字元推斷,可實現對不同字面表述的泛化處理。但是對需要專業知識的case表現欠佳,偶爾在字面極其匹配時出現case。
從知識內容豐富的文本中挖掘某些菜譜的基礎知識,來構建源知識庫;然後通過泛化推理去映射到具體SKU中。在食材推理中,比如菜品種有多道紅燒肉,統計10道五花肉中有4道是指五花肉,6道是指帶皮五花肉,因此肉就轉化為帶皮五花肉。對應地,佛跳牆有多道菜譜,先通過統計每種食材出現的概率,可以卡一個閾值,然後表明該菜譜的食譜是什麼。
多源數據挖掘,基於菜名理解結果構建solid knowledge triple,同時也依賴菜名理解結果泛化規則。該策略主要適用於處理食材、功效、人群等標簽。該方法准確率OK,有一定泛化能力,但覆蓋率偏低。
業務內有一些比較好用的訓練數據,例如1000萬商戶編輯自洽的店內分類樹。基於該數據可產生5億的 positive pairs 和 30G corpus。在模型訓練中,會隨機替換掉菜譜分類的 tab/shop,模型判斷 tab/shop 是否被替換;50%的概率drop shop name,使得模型僅輸入菜名時表現魯棒。同時,對模型做了實體化改進,將分類標簽作為bert的詞進行訓練,將該方法應用到下游模型中,在10w標注數據下,菜譜上下位/同義詞模型准確率提升了1.8%。
首先使用ReseNet對菜譜圖片進行編,使用Bert模型對菜譜文本信息做編碼,通過對比學習loss去學習文本和店菜的匹配信息。這里採用雙塔模型,一方面是下游應用較為方便,單塔模型可獨立使用,也可inference出菜品圖片的表示並緩存下來;另一方面是圖片內容單純,暫無互動式建模的必要。訓練目標分別是圖片與店菜匹配、圖片與菜名對齊,圖片與Tab對齊。
可基於多模態信息做菜品品類預測或者菜譜信息補全。比如,預測「豬肉白菜」加上了圖片信息將更加直觀和准確。基於文本和視圖模態信息進行多視圖半監督的菜譜屬性抽取,以烹飪方式抽取為例,首先通過產生烹飪方法訓練樣本(紅燒肉-紅燒);然後採用CNN模型去訓練預測菜譜烹飪方法,指導Bert模型Finetune文本模型或者多模態模型,基於商戶/tab/菜品及評論信息預測菜品烹飪方法;最終對兩個模型進行投票或者將兩個特徵拼接做預測。
綜上,我們對菜品知識圖譜構建進行相應的總結。菜品理解比較適合SKU的初始化;深度學習推理模型和顯式推理模型比較適合做同義詞、上下位、菜系等;最終是想通過多模態+結構化預訓練和推理來解決單模態信息不完整、屬性維度多、需要大量標注數據等問題,因此該方法被應用到幾乎所有的場景中。
今天的分享就到這里,謝謝大家。
分享嘉賓:
㈤ 2020 推薦系統技術演進趨勢了解
讀知乎文章《推薦系統技術演進趨勢:從召回到排序再到重排》筆記:
《推薦系統技術演進趨勢:從召回到排序再到重排》這篇文章主要說了下最近兩年,推薦系統技術的一些比較明顯的技術發展趨勢。主要從以下幾個方面介紹:
推薦系統整體架構
召回技術演進趨勢
排序模型技術演進趨勢
重排技術演進趨勢
推薦系統宏觀架構:
細分四階段:
1、傳統:多路召回(每一路召回相當於單特徵排序結果)
2、未來:模型召回(引入多特徵,把單特徵排序拓展成多特徵排序的模型)
(1)模型召回
根據用戶物品Embedding,採用類似Faiss等高效Embedding檢索工具,快速找出和用戶興趣匹配的物品,這樣就等於做出了利用多特徵融合的召回模型了。
理論上來說,任何你能見到的有監督模型,都可以用來做這個召回模型,比如FM/FFM/DNN等,常說的所謂「雙塔」模型,指的其實是用戶側和物品側特徵分離分別打Embedding的結構而已,並非具體的模型。
值得注意的一點是:如果在召回階段使用模型召回,理論上也應該同步採用和排序模型相同的優化目標,尤其是如果排序階段採用多目標優化的情況下,召回模型也應該對應採取相同的多目標優化。同理,如果整個流程中包含粗排模塊,粗排也應該採用和精排相同的多目標優化,幾個環節優化目標應保持一致。因為召回和粗排是精排的前置環節,否則,如果優化目標不一致,很可能會出現高質量精排目標,在前置環節就被過濾掉的可能,影響整體效果。
(2)用戶行為序列召回
核心在於:這個物品聚合函數Fun如何定義的問題。這里需要注意的一點是:用戶行為序列中的物品,是有時間順序的。理論上,任何能夠體現時序特點或特徵局部性關聯的模型,都比較適合應用在這里,典型的比如CNN、RNN、Transformer、GRU(RNN的變體模型)等,都比較適合用來集成用戶行為序列信息。
在召回階段,如何根據用戶行為序列打embedding,可以採取有監督的模型,比如Next Item Prediction的預測方式即可;也可以採用無監督的方式,比如物品只要能打出embedding,就能無監督集成用戶行為序列內容,例如Sum Pooling。
(3)用戶多興趣拆分 (利用用戶行為物品序列,打出用戶興趣Embedding的做法)
(4)知識圖譜融合召回
根據用戶的興趣實體,通過知識圖譜的實體Embedding化表達後(或者直接在知識圖譜節點上外擴),通過知識外擴或者可以根據Embedding相似性,拓展出相關實體。
(5)圖神經網路模型召回
圖神經網路的最終目的是要通過一定技術手段,獲得圖中節點的embedding編碼。最常用的embedding聚合工具是CNN,對於某個圖節點來說,它的輸入可以有兩類信息,一類是自身的屬性信息,比如上面舉的微博的例子;另外一類是圖結構信息,就是和當前節點有直接邊關聯的其它節點信息。 通過CNN,可以對兩類信息進行編碼和聚合,形成圖節點的embedding。 通過CNN等信息聚合器,在圖節點上進行計算,並反復迭代更新圖節點的embedding,就能夠最終獲得可靠的圖節點embedding信息,而這種迭代過程,其實體現的是遠距離的節點將信息逐步通過圖結構傳遞信息的過程,所以圖結構是可以進行知識傳遞和補充的。
我們可以進一步思考下,圖節點因為可以帶有屬性信息,比如物品的Content信息,所以明顯這對於解決物品側的冷啟動問題有幫助;而因為它也允許知識在圖中遠距離進行傳遞,所以比如對於用戶行為比較少的場景,可以形成知識傳遞和補充,這說明它也比較適合用於數據稀疏的推薦場景;另外一面,圖中的邊往往是通過用戶行為構建的,而用戶行為,在統計層面來看,本質上是一種協同信息,比如我們常說的「A物品協同B物品」,本質上就是說很多用戶行為了物品A後,大概率會去對物品B進行行為; 所以圖具備的一個很好的優勢是:它比較便於把協同信息、用戶行為信息、內容屬性信息等各種異質信息在一個統一的框架里進行融合,並統一表徵為embedding的形式,這是它獨有的一個優勢,做起來比較自然。另外的一個特有優勢,就是信息在圖中的傳播性,所以對於推薦的冷啟動以及數據稀疏場景應該特別有用。
早期的圖神經網路做推薦,因為需要全局信息,所以計算速度是個問題,往往圖規模都非常小,不具備實戰價值。而GraphSAGE則通過一些手段比如從臨近節點進行采樣等減少計算規模,加快計算速度,很多後期改進計算效率的方法都是從這個工作衍生的;而PinSage在GraphSAGE基礎上(這是同一撥人做的),進一步採取大規模分布式計算,拓展了圖計算的實用性,可以計算Pinterest的30億規模節點、180億規模邊的巨型圖,並產生了較好的落地效果。所以這兩個工作可以重點借鑒一下。
總體而言,圖模型召回,是個很有前景的值得探索的方向。
模型優化目標則體現了我們希望推薦系統去做好什麼,往往跟業務目標有關聯,這里我們主要從技術角度來探討,而多目標優化以及ListWise最優是目前最常見的技術進化方向,ListWise優化目標在排序階段和重排階段都可採用,我們把它放到重排部分去講,這里主要介紹多目標優化;
模型表達能力代表了模型是否具備充分利用有效特徵及特徵組合的能力,其中顯示特徵組合、新型特徵抽取器、增強學習技術應用以及AutoML自動探索模型結構是這方面明顯的技術進化方向;
從特徵和信息角度,如何採用更豐富的新類型特徵,以及信息和特徵的擴充及融合是主要技術進化方向,用戶長短期興趣分離、用戶行為序列數據的使用、圖神經網路以及多模態融合等是這方面的主要技術趨勢。
1.1 模型優化目標-多目標優化
推薦系統的多目標優化(點擊,互動,時長等多個目標同時優化)嚴格來說不僅僅是趨勢,而是目前很多公司的研發現狀。對於推薦系統來說,不同的優化目標可能存在互相拉後腿的現象,多目標旨在平衡不同目標的相互影響,而如果多目標優化效果好,對於業務效果的推動作用也非常大。總而言之,多目標優化是值得推薦系統相關研發人員重點關注的技術方向。
從技術角度講,多目標優化最關鍵的有兩個問題。第一個問題是多個優化目標的模型結構問題;第二個問題是不同優化目標的重要性如何界定的問題(超參如何尋優)。
2.1 模型表達能力-顯式特徵組合
如果歸納下工業界CTR模型的演化歷史的話,你會發現,特徵工程及特徵組合的自動化,一直是推動實用化推薦系統技術演進最主要的方向,而且沒有之一。最早的LR模型,基本是人工特徵工程及人工進行特徵組合的,簡單有效但是費時費力;再發展到LR+GBDT的 高階特徵組合自動化 ,以及FM模型的 二階特徵組合自動化 ;再往後就是DNN模型的引入,純粹的簡單DNN模型本質上其實是在FM模型的特徵Embedding化基礎上,添加幾層MLP隱層來進行隱式的特徵非線性自動組合而已。
2.2 模型表達能力-特徵抽取器的進化
從特徵抽取器的角度來看,目前主流的DNN 排序模型,最常用的特徵抽取器仍然是MLP結構,圖像領域的CNN、NLP領域的RNN和Transformer。
MLP結構通常是兩層或者三層的MLP隱層。目前也有理論研究表明:MLP結構用來捕獲特徵組合,是效率比較低下的。
CNN捕獲局部特徵關聯是非常有效的結構,但是並不太適合做純特徵輸入的推薦模型,因為推薦領域的特徵之間,在輸入順序上並無必然的序列關系,CNN的捕獲遠距離特徵關系能力差的弱點,以及RNN的不可並行處理、所以速度慢的劣勢等。
Transformer作為NLP領域最新型也是最有效的特徵抽取器,從其工作機制來說,其實是非常適合用來做推薦的。為什麼這么說呢?核心在於Transformer的Multi-Head Self Attention機制上。MHA結構在NLP裡面,會對輸入句子中任意兩個單詞的相關程度作出判斷,而如果把這種關系套用到推薦領域,就是通過MHA來對任意特徵進行特徵組合,而上文說過,特徵組合對於推薦是個很重要的環節,所以從這個角度來說,Transformer是特別適合來對特徵組合進行建模的,一層Transformer Block代表了特徵的二階組合,更多的Transformer Block代表了更高階的特徵組合。但是,實際上如果應用Transformer來做推薦,其應用效果並沒有體現出明顯優勢,甚至沒有體現出什麼優勢,基本稍微好於或者類似於典型的MLP結構的效果。這意味著,可能我們需要針對推薦領域特點,對Transformer需要進行針對性的改造,而不是完全直接照搬NLP里的結構。
截一張張老師其他關於Transformer的圖,足以說明Transformer的意義,但現在還不是很懂,哈哈~
2.3 AutoML在推薦的應用
AutoML在17年初開始出現,最近三年蓬勃發展,在比如圖像領域、NLP領域等都有非常重要的研究進展,在這些領域,目前都能通過AutoML找到比人設計的效果更好的模型結構。
2.4 增強學習在推薦的應用
增強學習其實是比較吻合推薦場景建模的。一般而言,增強學習有幾個關鍵要素:狀態、行為以及回報。在推薦場景下,我們可以把狀態St定義為用戶的行為歷史物品集合;推薦系統可選的行為空間則是根據用戶當前狀態St推薦給用戶的推薦結果列表,這里可以看出,推薦場景下,用戶行為空間是巨大無比的,這制約了很多無法對巨大行為空間建模的增強學習方法的應用;而回報呢,則是用戶對推薦系統給出的列表內容進行互動的行為價值,比如可以定義點擊了某個物品,則回報是1,購買了某個物品,回報是5….諸如此類。有了這幾個要素的場景定義,就可以用典型的增強學習來對推薦進行建模。
3.1 多模態信息融合
多模態融合,從技術手段來說,本質上是把不同模態類型的信息,通過比如Embedding編碼,映射到統一的語義空間內,使得不同模態的信息,表達相同語義的信息完全可類比。比如說自然語言說的單詞「蘋果」,和一張蘋果的圖片,應該通過一定的技術手段,對兩者進行信息編碼,比如打出的embedding,相似度是很高的,這意味著不同模態的知識映射到了相同的語義空間了。這樣,你可以通過文本的蘋果,比如搜索包含蘋果的照片。
3.2 長期興趣/短期興趣分離
對於推薦系統而言,准確描述用戶興趣是非常重要的。目前常用的描述用戶興趣的方式主要有兩類。一類是以用戶側特徵的角度來表徵用戶興趣,也是最常見的;另外一類是以用戶發生過行為的物品序列作為用戶興趣的表徵。
關於List Wise重排序,可以從兩個角度來說,一個是優化目標或損失函數;一個是推薦模塊的模型結構。
推薦系統里Learning to Rank做排序,我們知道常見的有三種優化目標:Point Wise、Pair Wise和List Wise。所以我們首先應該明確的一點是:List Wise它不是指的具體的某個或者某類模型,而是指的模型的優化目標或者損失函數定義方式,理論上各種不用的模型都可以使用List Wise損失來進行模型訓練。最簡單的損失函數定義是Point Wise,就是輸入用戶特徵和單個物品特徵,對這個物品進行打分,物品之間的排序,就是誰應該在誰前面,不用考慮。明顯這種方式無論是訓練還是在線推理,都非常簡單直接效率高,但是它的缺點是沒有考慮物品直接的關聯,而這在排序中其實是有用的。Pair Wise損失在訓練模型時,直接用兩個物品的順序關系來訓練模型,就是說優化目標是物品A排序要高於物品B,類似這種優化目標。其實Pair Wise的Loss在推薦領域已經被非常廣泛得使用,比如BPR損失,就是典型且非常有效的Pair Wise的Loss Function,經常被使用,尤其在隱式反饋中,是非常有效的優化目標。List Wise的Loss更關注整個列表中物品順序關系,會從列表整體中物品順序的角度考慮,來優化模型。在推薦中,List Wise損失函數因為訓練數據的製作難,訓練速度慢,在線推理速度慢等多種原因,盡管用的還比較少,但是因為更注重排序結果整體的最優性,所以也是目前很多推薦系統正在做的事情。
從模型結構上來看。因為重排序模塊往往是放在精排模塊之後,而精排已經對推薦物品做了比較准確的打分,所以往往重排模塊的輸入是精排模塊的Top得分輸出結果,也就是說,是有序的。而精排模塊的打分或者排序對於重排模塊來說,是非常重要的參考信息。於是,這個排序模塊的輸出順序就比較重要,而能夠考慮到輸入的序列性的模型,自然就是重排模型的首選。我們知道,最常見的考慮時序性的模型是RNN和Transformer,所以經常把這兩類模型用在重排模塊,這是很自然的事情。一般的做法是:排序Top結果的物品有序,作為RNN或者Transformer的輸入,RNN或者Transformer明顯可以考慮在特徵級別,融合當前物品上下文,也就是排序列表中其它物品,的特徵,來從列表整體評估效果。RNN或者Transformer每個輸入對應位置經過特徵融合,再次輸出預測得分,按照新預測的得分重新對物品排序,就完成了融合上下文信息,進行重新排序的目的。
參考資料:
1、推薦系統技術演進趨勢:從召回到排序再到重排
https://zhuanlan.hu.com/p/100019681
2、模型召回典型工作:
FM模型召回: 推薦系統召回四模型之:全能的FM模型
DNN雙塔召回:Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations
3、用戶行為序列召回典型工作:
GRU:Recurrent Neural Networks with Top-k Gains for Session-based Recommendations
CNN:Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding
Transformer: Self-Attentive Sequential Recommendation
4、知識圖譜融合召回典型工作:
KGAT: Knowledge Graph Attention Network for Recommendation
RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems
5、圖神經網路模型召回典型工作:
GraphSAGE: Inctive Representation Learning on Large Graphs
PinSage: Graph Convolutional Neural Networks for Web-Scale Recommender Systems
6、模型多目標優化典型工作:
MMOE:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
帕累托最優:A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation
7、顯式特徵組合典型工作:
Deep& Cross: Deep & Cross Network for Ad Click Predictions
XDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems
8、特徵抽取器典型工作:
AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction
9、對比CNN\RNN\特徵抽取器: https://zhuanlan.hu.com/p/54743941
10、AutoML在推薦的應用典型工作:
ENAS結構搜索: AutoML在推薦排序網路結構搜索的應用
雙線性特徵組合: FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction
11、增強學習在推薦的應用典型工作:
Youtube: Top-K Off-Policy Correction for a REINFORCE Recommender System
Youtube: Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology
12、多模態融合典型工作:
DNN召回:Collaborative Multi-modal deep learning for the personalized proct retrieval in Facebook Marketplace
排序:Image Matters: Visually modeling user behaviors using Advanced Model Server
13、長短期興趣分離典型工作:
1. Neural News Recommendation with Long- and Short-term User Representations
2. Sequence-Aware Recommendation with Long-Term and Short-Term Attention Memory Networks
14、List Wise重排序典型工作:
1.Personalized Re-ranking for Recommendation
2.Learning a Deep Listwise Context Model for Ranking Refinement
㈥ 人工智慧對企業銷售人員提升業績有幫助嗎
隨著數據的爆發式增長、計算能力的大幅提升以及深度學習演算法的發展和成熟,人工智慧迎來了第三次浪潮,在眾多領域的應用已經取得長足的進步,在營銷領域,情況也是如此。
如今,營銷流程中的各個環節均有人工智慧的「身影」,計算機視覺、語音識別、自然語言處理、機器學習等技術的廣泛應用正在掀起一場新的營銷革命。
四、營銷策略更加個性化
人工智慧經歷了從理解、推理、學習到提出見解的過程,而且可以在學習過程中涵蓋更多的信息,所以營銷策略更加個性化。
喜推人工智慧決策平台,將知識圖譜作為輔助信息引入推薦系統,有效地解決了傳統的推薦系統中容易出現的數據稀疏性和冷啟動問題。通過人工智慧對海量數據的深度學習,可以跟蹤並全面分析消費者行為,繼而成為最了解消費者的營銷助手,為營銷人員提供最適合消費者的個性化營銷建議。在對消費者實施營銷策略之後,人工智慧還能實時跟蹤反饋情況,為企業帶來極具個性化的體驗營銷方案。
五、廣告投放精準化
傳統的廣告市場存在覆蓋人群不精準、投放效率低等問題,而人工智慧為廣告投放提供了新的思路。
喜推人工智慧決策平台,通過自動化的人群追蹤,以自動規劃、精準定向、控制頻次、實時監測等方式減少預算浪費,強化投放效果。利用人工智慧深度學慣用戶數據,識別用戶行為軌跡,快速判斷並過濾信息,即時定位受眾群體,對數據進行預判分析,給出價格,經由程序化路徑精準觸達目標受眾人群,實現從人工向自動化媒介管理的轉變,讓程序化廣告向跨終端、跨平台、可跟蹤歷史足跡、用戶分析、相似人群追投和瞬間興趣投放轉變。
(3)後記
在過去的20多年裡,企業營銷一直在變革,從單向營銷、互動營銷、發展到基於大數據的精準營銷以及基於人工智慧的智慧營銷。在這個過程中,喜推科技一直深耕於企業營銷領域,通過各種前沿的技術手段,賦能中小企業營銷。
如今,人工智慧時代已來,整個營銷行業都將面臨新一輪的變革與升級。喜推人工智慧決策平台,基於大數據在營銷過程中積累的品牌或商品標簽、用戶標簽和渠道標簽等,結合機器深度學習、自然語言處理等領域的多種演算法,幫助企業形成渠道分發策略、物料生產策略和創意生成策略等前端營銷應用工具,從而幫助企業找准消費者需求痛點,讓場景觸達更精準,讓媒介管理更智能,實現企業營銷的智慧化。
未來已來,喜推願與你一同前行。
㈦ 淺談知識圖譜技術及其應用補全
前言及背景:在構建知識圖譜的過程中,大量知識信息來源於文檔和網頁信息,在從文檔提取知識的過程中往往會有偏差,這些偏差來自於看兩方面:
(1)文檔中會有很多雜訊信息,即無用信息,它的產生可能來自於知識抽取演算法本身,也可能和語言文字本身的有效性有關;
(2)文檔信息量有限,不會把所有知識都涵蓋進去,尤其是很多常識性知識。
以上都會導致知識圖譜是不完整的,所以 知識圖譜補全 在構建知識圖譜中日益重要。
通過 已獲取的知識 來對實體間進行關系預測,以達到對實體間關系的補全,也可以是實體類型信息的補全。該過程可以利用本知識庫內部的知識,也可以引入第三方知識庫的知識來幫助完成。
整理了一份200G的AI資料包:
①人工智慧課程及項目【含課件源碼】
②超詳解人工智慧學習路線圖
③人工智慧必看優質書籍電子書匯總
④國內外知名精華資源
⑤優質人工智慧資源網站整理(找前輩、找代碼、找論文都有)
⑥人工智慧行業報告
⑦人工智慧論文合集
/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/","uri":"","width":31,"height":27,"darkImgUrl":"https://p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula">
資料在網盤里排列的非常整齊干凈!希望對大家的學習有所幫助, 私信備注【05】添加領取
知識圖譜補全分為兩個層次: 概念層次的知識補全 和 實例層次的知識補全 。
往往提到知識圖譜構建過程中只是提及了實體和關系的抽取,然後就可以生成實體和關系組成的RDF了。
但是,僅僅獲取三元組是不夠的,還要考慮這些,因為三元組中的實體除了具有屬性和關系之外,還可以 映射關聯到知識概念層次的類型(type),而且一個實體的類型可以有很多 。
例如:實體奧巴馬的類型在不同關系中是有變化的。
在出生信息描述中,類型為人;在創作回憶錄的描述中其類型還可以是作家;在任職描述中還可以是政治家。
實體類型的概念層次模型
在這里:人、作家、政治家這些概念之間是有層次的,也就是所說的概念的層次模型。
1、概念層次的知識補全——主要是要解決實體的類型信息缺失問題
正如前面的例子所描述,一旦一個實體被判別為人這個類型,那麼在以構建好的知識模式中,該實體除了人的類型外仍需要向下層概念搜索,以發現更多的類別描述信息。
(1)基於描述邏輯的規則推理機制。
本體論和模式 :實體都可以歸結為一種本體,而這種本體會具有一組模式來保證其獨特性,這組模式可以用規則來描述,因此,對於本體而言,其可以由這組規則來描述。
例如,奧巴馬是個實體,他的本體可以歸為人,而人的模式就是可以使用語言和工具、可以改造其他事務等等,這些模式可以通過規則來描述,於是基於描述邏輯的規則推理方法就出現了。
描述邏輯 是一種常見的知識表示方式,它建立在概念和關系之上。
比如,可以將關於人的實體實例(可以是文本)收集起來,從中提取出其中模式並以規則的形式記錄下來,這樣一來,只要遇到一個新的實體實例 ,只需將其代入到之前記錄下的規則中進行比較即可做出判斷,如果符合規則,就說明該實例可以歸類為人的概念類型,否則就判定為非此概念類型。
(2)基於機器學習類型推理機制
經過基於描述邏輯的規則推理的發展階段後,機器學習相關研究開始占據主流,此時 不是單純地利用實例產生的規則等內部線索來進行判斷,同時也要利用外部的特徵和線索來學習類型的預測 。
對一個未知類型實體e1而言,如果能找到一個與其類似的且已知類型的實體e2的話,那麼就可以據此推知實體e1的類型應該與e2的類型一致或至少相似。
此類方法主要可以分為:基於內容的類型推理、基於鏈接的類型推理和基於統計關系學習的類型推理(如,Markov邏輯網)幾個方向。
(3)基於表示學習類型推理機制
將嵌入式學習和深度學習引入到類型推理,基於機器學習的類型推理方法大多假設數據中沒有雜訊,且其特徵仍然需要認為選擇和設計,引入深度學習可以避免特徵工程。而類型推理要依據文本內容,也需要鏈接結構等其他特徵的支持,此時嵌入式方法可以發揮其自身優勢。
2、實例層次的知識補全
可以理解為:對於一個實例三元組(SPO,主謂賓),其中可能缺失情況為(?,P,O),(S,?,O)或者(S,P,?),這就如同知識庫中不存在這個三元組,此時需要預測缺失的實體或者關系是什麼。
事實上, 很多缺失的知識是可以通過已經獲得的知識來推知的 ,有時這個過程也被稱為 鏈接預測 。
注意 :有時知識不是缺失的,而是 新出現 的,即出現了新的三元組,且這個三元組不是原知識庫所已知的知識,此時需要將其作為新知識補充道知識庫中,但此種情形 不是傳統意義的補全 。
(1)基於隨機遊走的概率補全方法
(2)基於表示學習的補全方法
知識圖譜嵌入流程:
①結構嵌入表示法
②張量神經網路法
③矩陣分解法
④翻譯法
(3)其他補全方法
跨知識庫補全方法、基於信息檢索技術的知識庫補全方法、知識庫中的常識知識補全
面臨的挑戰和主要發展方向:
(1)解決長尾實體及關系的稀疏性。
知名的明星的關系實例會很多,而對於普通民眾的實例就很少,但是他們數量卻眾多,導致其相關的關系實例也是十分稀疏,而且在數量不斷增加的情況下,這種情況會更加明顯。
(2)實體的一對多、多對一和多對多問題。
對於大規模數據,不是一對十幾或者幾十數量級那麼簡單,而是成百上千的數量級,傳統的解決方案無法有效深圳根本無法解決此種數量級別的關系學習問題。
(3)三元組的動態增加和變化導致KG的動態變化加劇。
新知識源源不斷的產生,而之前的知識可能被後面證明是錯誤的,或者需要修正的。這些都會使得知識補全的過程也需修正改變,如何使得知識圖譜補全技術適應KG的動態變化變得越來越重要,而這方面的技術還未引起足夠的重視。
(4)KG中關系預測路徑長度會不斷增長。
關系預測能推理的長度是有限的,但在大規模知識圖譜閃光,實體間的關系路徑序列會變得越來越長,這就需要更高效的模型來描述更復雜的關系預測模型。
㈧ 基於知識圖譜的推薦系統
傳統的推薦系統只使用用戶和物品的歷史交互信息(顯式或隱式反饋)作為輸入,但這會導致兩個問題:
(1)數據的稀疏性問題: 在實際應用場景中,用戶和物品的交互信息往往是非常稀疏的。例如,一個電影類APP可能包含了上萬部電影,然而一個用戶打過分的電影可能平均只有幾十部。使用如此少量的已觀測數據來預測大量的未知信息,會極大地增加演算法的過擬合風險;
(2)冷啟動問題: 對於新加入的用戶或者物品,由於系統沒有其歷史交互信息,因此無法進行准確地建模和推薦。
一般情況下,解決稀疏性和冷啟動問題的方法,就是在推薦演算法中額外引入一些輔助信息作為輸入。這些輔助信息可以豐富對用戶和物品的描述,從而有效地彌補交互信息的稀疏或缺失。在各種輔助信息中,知識圖譜作為一種新興類型的輔助信息,這幾年的相關研究比較多。
知識圖譜是一種語義網路,其節點代表實體,邊代表實體之間的各種語義關系。一個知識圖譜由若干個三元組 組成,其中 和 代表一條關系的頭節點和尾節點, 代表節點之間的關系。
知識圖譜包含了實體之間豐富的語義關聯,為推薦系統提供了潛在的輔助信息來源。知識圖譜在諸多推薦場景中都有應用的潛力,例如電影、新聞、景點、餐館、購物等。和其它種類的輔助信息相比,知識圖譜的引入可以讓推薦結果具有以下特徵:
(1)精確性
知識圖譜為物品引入了更多的語義關系,可以深層次地發現用戶興趣。比如下圖中展示的,用戶喜歡霸王別姬這部電影,這部電影的主演的是張國榮,而張國榮正好也主演了阿飛正傳,所以用戶也可能喜歡阿飛正傳這部電影。
基於利用KG信息的方式不同,可以將知識圖譜與推薦系統的結合方法分為三類:分別是基於嵌入的方法、基於路徑的方法和統一方法。
1.基於嵌入的方法
基於嵌入的方法通常直接使用來自 KG 的信息來豐富項目或用戶的表示。為了利用 KG 信息,需要使用知識圖嵌入 (KGE) 演算法將 KG 編碼為低秩嵌入。根據用戶是否包含在KG中,基於嵌入的方法可以分為兩類,分別是基於項目圖的和基於用戶-項目圖的。
(1)基於項目圖的
該圖是由從數據集或外部知識庫中提取的項目及其相關屬性構成,不包含用戶信息。該方法利用知識圖嵌入 (KGE) 演算法對圖進行編碼,可以獲得項目更全面的表示,然後將項目邊信息集成到推薦框架中。具體來說就是可以通過多方面的信息得到項目的潛在向量,這些信息包括KG、用戶-項目交互矩陣、項目內容和項目屬性等。然後利用偏好得分函數 ,通過得到的用戶和項目的潛在向量來計算用戶 選擇項目 的概率,並根據概率結果得到用戶的偏好排名。
(2)基於用戶-項目圖的
該圖中用戶、項目及其相關屬性充當節點;它們的屬性級關系(品牌、類別等)和用戶相關關系(共同購買、共同查看等)作為邊。該方法從構建出的圖譜可以得出實體嵌入,然後根據偏好得分函數 得到結果。和基於項目圖不同的是,這個偏好得分函數中,可以加入關系嵌入 一起計算。
基於嵌入的方法主要包含兩個模塊:圖嵌入模塊,主要利用圖嵌入的方法學習知識圖譜中實體和關系的表徵;和推薦模塊,以建模用戶對物品的偏好。按照這兩個模塊的結合方式,可將這一方向的工作劃分為三類,分別是依次學習,聯合學習和交替學習。
(1)依次學習
該方法首先使用知識圖譜特徵學習得到實體向量和關系向量,然後將這些低維向量引入推薦系統,學習得到用戶向量和物品向量。
目前對於基於知識圖譜的推薦系統還在初學習階段,對各種方法的具體模型了解還不是很多,前幾天看了一篇何向南的結合知識圖譜的 文章 ,應該是目前基於知識圖譜的推薦系統的文章中效果比較好的,這篇文章利用了多任務學習策略,考慮到KG可能存在缺失的事實,聯合訓練了KG完成模塊和推薦模塊。根據目前的了解來說,基於知識圖譜的推薦系統在動態推薦、多任務學習和跨域推薦等方面都有很好的研究前景。
https://www.cnblogs.com/niuxichuan/p/9317711.html
A Survey on Knowledge Graph-Based Recommender Systems
㈨ 百分點公司的動態知識圖譜主要應用在什麼場景下
動態知識圖譜主要應用在信息檢索,推薦系統,互聯網金融行業等場景,很多應用場景和想法都可以延伸到其他的各行各業。