【论文笔记】知识图谱推理PRA——Relational retrieval using a combination of path-constrained random walks_pra算法-程序员宅基地

技术标签: 算法  机器学习  图论  人工智能  知识图谱  

知识图谱的概念于2012年由谷歌提出,这篇文章虽然发表于2010年,但文章中的对于数据的使用已经接近知识图谱了。文章提出的PRA算法是知识图谱推理的早期探索,在RWR(重启随机游走算法)的基础上进行了相似性的改进。同时在那个机器学习还没有普及的年代,文章也探索了使用监督学习的方法进行参数的学习和训练。由于年代差异,这里只重点描述文章提出的PRA算法。

论文相关信息

发表时间:2010
发表期刊:mach learn (大类:工程技术3区,小类:人工智能3区(4区))
发表单位:卡内基梅隆大学
作者:Ni Lao; William W. Cohen
论文地址:Relational retrieval using a combination of path-constrained random walks

解决什么问题?

文章提出了四个任务以评估提出的PRA算法的有效性,虽然是针对生物医学领域的,但其实也都是和推荐系统相关的任务:

  1. 期刊推荐:输入:论文标题中的专业术语,与文章相关的关键字(基因或蛋白质),现在的年份。输出:推荐的期刊及其排名。该任务有助于预印本论文发表。
  2. 引文推荐:输入与期刊推荐的输入相同。输出:推荐的论文及其排名。该任务有助于预印本论文发表。
  3. 专家发现:输入与期刊推荐的输入相同。输出推荐的专家及其排名。该任务有助于发现合适的审稿人或者新的合作者。
  4. 基因推荐:输入作者以及年份,输出推荐的基因及其排名。这项任务类似于预测该作者未来的研究兴趣。

为了方便,下文仅对期刊推荐进行介绍。

如何解决的?数据和方法。

作者使用了两个数据集,分别是果蝇和酵母素的两个数据集。数据集中的实体类型非常有限,大致情况如论文中给出的两幅图:
果蝇数据知识图谱
其实这里已经可以看到知识图谱本体构建的影子了。
酵母素知识图谱
酵母素数据的本体相对于果蝇数据的本体多了一个蛋白质的本体。

这些数据要怎么用?为什么要抽取出这样的数据?
结合前面的任务描述,文章其实是希望能够运用图上的游走方法来达到推荐的效果。例如,对于期刊推荐任务,任务有许多的本体起始点(Title Word,gene,protein,Year等)。然后通过在知识图谱上的游走最终停留在类型为"journal"的实体上,停留概率最大的即为推荐的期刊。

有了以上大体的方法框架,那么接下来的问题就在于如何设计出合理的游走方法。传统的方法有Page-rank等:随机游走算法

Path-Ranking Algorithm(PRA)

算法出发点

传统的重启随机游走算法为每一个类型的边设置了各自的转移概率,但作者认为这种方法忽略了上下文的影响,作者举了个例子:
在引文推荐任务中,假定以“year” y 为起点寻找推荐的引文,可能会得到以下两种情况的推荐:
1)查找在y年发表的论文
2)查找y年发表的论文经常引用的论文

第一种情况推荐的是,year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper
第二种情况推荐的是,year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper → C i t e → \rightarrow Cite \rightarrow Cite paper

直觉上来说第二种情况得到的推荐比第一种情况得到的推荐更合适。也就是说对于推荐而言,可能某种路径下得到的推荐是更为合适的?因此应该为不同的路径设置不同的转移概率?

算法描述

符号定义

文章首先定义了一些概念,论文中的描述比较严谨,这里为了便于理解,画图示例:
以year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper为例:
定义描述
绿色圈表示year的集合(虽然输入年份一般只有一个?)
蓝色圈表示paper的集合
大圈中的小圈表示实例

对于一个关系R(这里的实例是Published_In的反关系)
关系R关联的头实体集合表示为Dom
关系R关联的尾实体集合表示为Range
橙框中的R(e,e`)表示实例e能够通过R关系到达实例e’

如果这些概念扩展到关系路径概念 P = R 1 R 2 . . . R l P=R_1R_2...R_l P=R1R2...Rl,结果也是一样的,这里只给出两步关系路径的示意图:
两步关系路径示意图
注意:这里的路径指的是关系路径,并不是图论中的路径。

游走计算

对于路径 P = R 1 R 2 . . . R l P=R_1R_2...R_l P=R1R2...Rl和查询实体集合(前文提到的输入) E q ⊂ D o m ( P ) E_q\subset Dom(P) EqDom(P),我们希望能够通过查询实体的游走推荐出目标实体,因此需要给出游走到各个实体停留的分布,分布计算方法如下:

P = R 1 R 2 . . . R l P=R_1R_2...R_l P=R1R2...Rl P ′ = R 1 R 2 . . . R l − 1 P'=R_1R_2...R_{l-1} P=R1R2...Rl1,则在当前节点停留的值为:
概率分布公式
其中函数 I ( ) I() I()是一个激活函数,即若 R l ( e ′ , e ) R_l(e',e) Rl(e,e)为真,函数值为1,否则为0(我怎么感觉这个函数有一点多余?)。

可以看到,这个分布的计算是由迭代得到的,也就是求长度为 l l l的路径的分布需要先得到长度为 l − 1 l-1 l1的路径值分布。那么初始时的路径长度为0的情况下,分布也需要定义:
概率分布初始化公式

实例计算

直接看公式会让人很头疼,这里举个简单的实例来执行公式,还以year → P u b l i s h e d I n − 1 → \rightarrow PublishedIn^{-1} \rightarrow PublishedIn1 paper → C i t e → \rightarrow Cite \rightarrow Cite paper为例:
实例计算图1

我们从输入year开始,由于 E q E_q Eq只有一个实体,因此输入查询年份节点的分配值为1,假设该年份出版查询到了3篇论文,每个论文节点根据公式分配到了1/3的分配值。再按照cite这条路径走下去,我们发现计算变得稍微复杂一些,我们对每个节点分别计算:
a:前驱节点e’有三个,前驱节点的分配值都是1/3,第一个节点引用了两篇文章,第二个节点和第三个节点分别引用了四篇文章,因此a节点得到分配值:
1/31/2+1/31/4+1/3*1/4=4/12

b:两个前驱节点,前驱节点的分配值都是1/3,分别引用了四篇文章,b分配值为:
1/31/4+1/31/4=2/12

c:1/31/4=1/12
d:1/3
1/2+1/31/4=3/12
e:1/3
1/4=1/12
f:1/3*1/4=1/12

计算到这里我惊讶的发现,这和资源分配算法是一样的。

如何利用PRA游走得到的分配值

如果只是计算到这里,我们发现中间一圈的三个节点的分配值是比右边一圈的几个节点的分配值都高的,这并没有得到作者提出的直觉上的更好的结果。事实上,作者一直关注的是使各个路径拥有不同的权重,因此作者希望能够将这些分配值作为特征,然后通过监督学习的方法训练得到路径的权重。作者设定了以下的得分函数:
得分函数
矩阵形式:
得分函数
由于查询节点到达目标节点的路径非常多(尤其可能存在圈?)因此作者将关系路径长度设定最长为4,并且通过写入规则移除了一些无意义的路径:
在这里插入图片描述
在这里插入图片描述

实验结果

这里略过优化的过程

参数影响

作者探索了路径长度和训练数据的batch_size对结果的影响:
在这里插入图片描述
同时作者输出了参数来观察各个路径最后训练的权重:
在这里插入图片描述
这个结果能够验证很多的猜想,并且能够根据结果判断可靠的路径。

结语

这篇文章虽然相对较早,但是其基于路径推理的思想却是值得借鉴的。尤其是给出推理的路径结果的实验方案是非常值得借鉴的。算是知识图谱路径推理的早期作品了,后续还有很多工作基于这篇文章进行。

第一次写论文笔记,中间有什么地方理解的不对的,欢迎大家批评指正!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_37427515/article/details/114588222

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签