随着智能化水平的不断提高, 每时每刻都有大量的新知识产生, 知识图谱逐渐成为我们管理知识的工具之一. 但现有的知识图谱仍然存在属性缺失、关系稀疏等问题, 同时还存在大量噪声信息, 导致图谱质量不佳, 易对自然语言处理领域中的各类任务造成影响. 面向知识图谱的知识推理技术作为目前的研究热点, 是解决该问题的主要方法, 其通过模拟人的推理过程完成对图谱信息的完善, 在众多应用中有较好表现. 以知识图谱为切入点, 将知识推理技术按类别划分并分别阐释, 详细分析该技术的几种应用任务, 例如智能问答、推荐系统等, 最后对未来主要研究方向进行展望, 提出几种研究思路.
As the intelligence level grows, a large amount of new knowledge is generated all the time, and knowledge graph has gradually become one of the tools for knowledge management. However, the existing knowledge graph still has some problems, such as missing attributes, sparse relations, and massive noisy information, which leads to poor graph quality and is easy to affect various tasks in the field of natural language processing. As a research hotspot, the knowledge reasoning technology oriented to the knowledge graph is the main method to solve this problem. It improves the information of the knowledge graph by simulating the human reasoning process, with a good performance in many applications. Taking the knowledge graph as the pointcut, this study classifies and explains the knowledge reasoning technology by categories and elaborates on several application tasks of the technology, such as intelligent question-answering and the recommendation system. Finally, it forecasts the main research directions in the future and puts forward several research ideas.
在信息化时代背景下, 随时都会产生大量的新知识, 如何完成海量知识的高效管理和利用成为亟待解决的问题之一, 知识图谱(Knowledge Graph, KG)为我们提供了一种手段. 随着计算能力的进步, 依赖人工构建的知识图谱无法满足智能性、即时性的需求, 知识推理技术应运而生. 面向知识图谱的知识推理技术则是知识图谱下游任务中重要的一部分, 同时也是实体链接、智能问答等任务的基础, 对于知识图谱的补全以及知识清洗(提升知识库纠错能力)有重要意义.
知识图谱是谷歌公司于2012年提出的概念, 被看作是一种反映客观世界的语义网络, 其中蕴含丰富的关系模式, 最初被用来完善谷歌自身的搜索引擎. 知识图谱往往被表述为<实体-关系-实体>或<实体-属性-属性值>的三元组形式, 以<16舰-搭载-歼15>和<16舰-完工时间-2011年>为例, 在第1个三元组中, 头实体是“16舰”, 尾实体是“歼15”, 他们之间关系是“搭载”; 第2个三元组中, 实体是“16舰”, 属性是“完工时间”, 值为“2011年”. 传统依赖人工的知识图谱构建方法不能很好地包含所有知识, 同时存在噪声信息, 导致图谱稀疏, 并且可能存在错误三元组, 大规模知识图谱YAGO通过抽样宣布其存在大约5%的错误三元组, 这就需要对知识推理技术进行研究. 与传统推理方法不同的是, 面向知识图谱的知识推理需要遵循开放世界假设(open world assumption), 未声明的三元组无法判断真假, 同时所包含的谓词也几乎都是二元的. 随着计算能力的进步, 人们寄希望于用计算机来解决图谱的推理问题. 然而计算机的优势在于计算能力, 对于人类能做到的逻辑推理它却并不擅长, 如何将计算机的计算优势展现在推理能力当中是目前挑战之一.
针对知识图谱特有的三元组存储形式, 面向知识图谱的知识推理被定义为对三元组缺失部分的预测, 更主要的是对实体和关系进行的预测, 一般在<实体-关系-实体>三元组中进行. 实体预测指通过已知的实体和关系预测另一个实体的过程, 关系预测则是给定头尾两实体, 预测两者之间的关系. 文献[
在知识推理技术发展伊始, 众多学者研究方向是将传统的推理方式移植到知识图谱当中, 基于描述逻辑和概率逻辑的推理方法应运而生. 传统推理方式虽然有着较高的准确率, 但移植到图谱中仍存在困难. 针对这些问题, 专家学者开始对描述逻辑与概率逻辑进行改进, 使其作为本体论的一种延伸, 运用到知识推理当中.
描述逻辑是一阶谓词逻辑的可判定子集, 是知识图谱本体论的基础. 与传统的知识表示学习相比, 其最大的优势在于可以完成知识的自动推理. 在描述逻辑之下又可划分为基于表结构的方法、基于产生式规则的方法以及基于本体数据访问的方法.
基于表结构方法中比较具有代表性的是Haarslev等[
基于产生式规则的方法以Jena工具[
基于本体数据访问的方法以Datalog语言为载体, 通过Datalog语言将SPARQL语言重写为SQL, 以完成推理等工作, 例如利用Neo4j进行查询重写完成本体推理等. 张金登等[
总体而言, 基于描述逻辑的推理仍然属于本体推理方法中的一种, 无法定义推理过程, 仍存在解释性上的不足, 同时仅支持本体公理上的推理, 泛化能力较弱.
基于概率逻辑的推理主要解决不确定性推理问题, 这里面比较有代表性的是基于统计关系学习(Statistical Relational Learning, SRL)[
虽然针对传统推理方法的改进在知识图谱中获得了一定的效果, 但仍无法彻底解决其特有的图结构下特征挖掘问题. 据此学者们开始研究基于图结构和统计规则挖掘的知识推理方法, 其中比较有启蒙意义的是Lao等[
从图结构获得特征后, 学者们思考利用传统关联规则挖掘方法来进行知识推理, 以不完备知识库的关联规则挖掘算法(Association rule Mining under Incomplete Evidence, AMIE)[
随着知识图谱规模的不断扩大, 基于图结构和统计规则的推理方法面临复杂度提升、计算量增大等问题. 目前的研究往往不单独考虑基于此的推理方法, 常对基于该方法的混合推理进行研究.
基于知识图谱表示学习的方法往往先对知识图谱中的实体和关系进行特征表示, 再利用表示后的结果进行知识推理. 其随着知识图谱表示学习技术的不断进步而逐渐获得完善, 目前成为常用方式之一. 知识表示中比较有代表性的是TransE方法[
近年来, 一些基于新技术的表示学习方法被提出. 康世泽等[
总体而言, 随着表示学习技术的逐步发展, 基于表示学习的知识推理逐渐成为主流方式之一. 然而其也存在先天劣势, 由于基于表示学习的推理往往是一个“黑盒”模型, 我们可以获得推理后的结果但并不清楚具体的推理过程, 导致可解释性较弱.
基于神经网络的推理方法一般指利用神经网络某些特性所进行的推理[
Socher等[
文献[
基于神经网络的推理凭借其良好的特性在近些年取得了长足的进步, 但仍存在解释性不足等问题, 同时其往往聚焦于知识图谱单个层面的信息, 不能全局考虑语义、路径等多种影响因素, 泛化能力有待提升.
上述知识推理方法各自存在优势与天然缺陷, 为了弥补单一类别推理方法的不足, 众多学者开始考虑利用多种方法建模, 混合推理方法逐渐被提出.
传统基于路径的方法往往需要大量数据获取路径特征, 随着知识图谱规模的不断扩大, 传统方法复杂度高, 计算困难, 但仍有较好的可解释性; 基于神经网络/表示学习的推理方法具有良好的计算性能, 但可解释性不足, 多数混合推理逐渐将二者结合, 形成多种多样的推理方法. Neelakantan等[
与此同时, 还有混合统计规则与神经网络/表示学习的知识推理方法, 同样可以解决神经网络可解释性较差的问题. Wang等[
混合推理将不同类型的推理方法相结合, 有效弥补了单一类型方法存在的缺陷, 但建模过程往往比较复杂. 随着科技领域的发展, 算力瓶颈逐渐被打破, 混合推理方法也逐渐成为目前主流方法之一, 是众多学者的研究方向.
通过知识推理技术可以对知识图谱进行补全, 同时也可以检测已存在的错误三元组, 对知识图谱质量的提升有重要意义. 一方面, 目前的知识图谱构建过程仍存在不规范等问题, 导致一部分知识无法被归纳到知识图谱中; 同时还有研究表示, 目前的知识图谱本身仍存在属性缺失等问题[
目前经知识推理后获得的更高质量的知识图谱可用于实体链接、智能问答、类型检测、推荐系统等多个知识图谱下游任务中, 结合具体场景的推理任务包括但不限于冲突故障诊断、领域图谱构建、军事辅助决策、智能医学诊疗等. 例如刘瑞宏等[
实体链接(entity linking)指将文本中提及的指称与知识库中的实体对应起来, 大部分的方法针对的是开放域实体连接任务. 一般来说, 实体链接与知识图谱是相互促进、相互关联的[
实体类型检测(entity type inference)指对实体属性进行推断, 是知识图谱构建的基础任务之一. 传统依赖于人工的方法成本高, 难以符合信息化时代的需求, 目前比较简单的方法是利用一些规则在知识图谱中进行搜索, 针对符合该规则的实体进行类型的推断. 然而知识图谱的优劣、推理规则的好坏仍然成为制约模型的瓶颈之一. 郑路也[
智能问答(intelligent question-answering)是自然语言处理领域基础任务之一, 随着知识图谱的不断完善, 智能问答可依赖的知识源也更加符合客观实际. 知识图谱构建的初衷即是让知识可以更好地被用户搜索与查询, 而过去的搜索引擎是静态的, 通过对网页中存储好的信息进行搜索从而完成知识的展示, 扩展能力不佳; 利用基于知识图谱的知识推理技术可以动态完成知识的查询, 使整个系统更加灵活[
有关智能问答的应用在工业界还有很多, 随着智能问答技术的发展, 知识推理逐渐成为其内在驱动力之一, 两者之间的融合创新将成为未来的研究热点.
推荐系统(recommendation system)被定义为一种自动化信息检索工具, 它将用户和商品信息融合, 从而为每名用户推荐其感兴趣的内容. 近年来有学者提出可以将面向知识图谱的推理技术应用到推荐系统当中[
目前的推荐系统同样面临关系稀疏等缺陷, 利用知识推理技术可以有效解决这类问题, 为更高效准确的推荐打下基础.
知识图谱作为结构化知识表示的工具之一, 顺应智能化时代的需求, 也是目前的研究热点之一. 众多基于知识图谱的下游任务需要更完备的知识信息, 因此知识图谱的完善成为目前亟待解决的问题, 也促进着知识推理技术的不断发展进步. 近些年, 国内外众多专家学者对知识推理技术进行了多个层面的研究, 也提出了多种技术框架, 取得了良好的效果. 但总体而言, 知识图谱仍然存在关系稀疏、噪声数据繁杂等问题, 难以覆盖客观世界的大部分知识, 仍需要继续对这一技术进行钻研.
未来面向知识图谱的知识推理方法仍将以各类知识图谱下游任务作为依托, 可应用到众多场景中. 与此同时, 知识推理需要向自动化、智能化发展, 需要关注大规模时序知识图谱中知识推理的可扩展性, 大数据流处理中的推理效率、自动或半自动的规则推理实现. 最后从以下几个重点技术展望未来知识推理的发展前景.
一是多模态知识推理技术. 随着文本、视频、音频数据的大量出现, 众多知识以不同的形式被表达, 如何将这些知识进行表示对齐成为目前亟待解决的问题之一, 因此基于多模态的知识推理技术应运而生. 从不同类型的数据中推理获得关联更符合客观世界模型, 也更容易被各类工业任务所应用.
二是动态知识推理技术. 人类每天都在与知识图谱进行交互, 每时每刻也会产生大量的知识信息. 因此传统基于静态图谱的推理技术不能很好地表达时序信息, 在众多工业应用场景中无法进行动态建模, 也无法对工序信息进行处理. 动态知识推理技术逐渐被学者研究, 例如邵心玥[
三是基于小样本的知识推理技术. 人类具备通过已有知识积累和少量案例进行知识推理的能力, 但机器解决这类问题还存在困难, 目前众多的知识推理方法难以在小样本下获得高阶规则以及知识信息, 导致推理效果差. 近年来提出的小样本学习方法(few-shot learning)为我们提供了解决问题的思路, 如何将小样本学习与知识推理结合起来值得被进一步研究.
四是碎片化知识推理技术. 随着科技的进步与智能化水平的提高, 碎片化知识信息大量出现, 现有的知识推理技术难以处理这些非结构复杂碎片信息, 导致信息利用率低, 各类算法总结归纳能力不强. 贾丽丽[
马忠贵, 倪润宇, 余开航. 知识图谱的最新进展、关键技术和挑战. 工程科学学报, 2020, 42(10): 1254–1266.
官赛萍, 靳小龙, 贾岩涛, 等. 面向知识图谱的知识推理研究进展. 软件学报, 2018, 29(10): 2966–2994.
Sirin E, Parsia B, Grau BC,
et al. Jena: Implementing the semantic web recommendations. Proceedings of the 13th International Conference on World Wide Web—Alternate Track Papers & Posters. New York: ACM, 2004. 74–83.]]>
et al. A framework for ontology reuse and persistence integrating UML and sesame. Proceedings of the 10th Conference of the Spanish Association for Artificial Intelligence, CAEPIA 2003, and 5th Conference on Technology Transfer. San Sebastian: Springer, 2003. 37–46.]]>
陈成. 基于Jena的计算机学科知识领域的本体推理系统的研究与应用. 信息与电脑, 2018, (14): 55–56.
马苗苗, 陈春辉. 基于Jena开发包的交通本体推理机制研究. 河南科技, 2020, (13): 102–104.
张永娟, 陈涛, 张珅. 基于Sesame及Rdfizer扩展工具的关联数据应用平台. 图书情报工作, 2013, 57(16): 135–139.
张金登, 施晓东, 李晓杰. 基于本体的通用数据访问方法. 电子技术与软件工程, 2013, (22): 216.
伍杰华, 沈静, 周蓓. 改进朴素贝叶斯模型的复杂网络关系预测. 计算机工程与科学, 2017, 39(10): 1825–1831.
Lao N, Cohen WW. Relational retrieval using a combination of path-constrained random walks. Machine Learning, 2010, 81(1): 53–67.
et al. Knowledge base completion via coupled path ranking. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016. 1308–1318.]]>
刘峤, 韩明皓, 江浏祎, 等. 基于双层随机游走的关系推理算法. 计算机学报, 2017, 40(6): 1275–1290.
张美玉, 林崇, 简琤峰. 基于路径排序算法的STEP知识推理技术研究. 浙江工业大学学报, 2020, 48(2): 126–132, 187.
et al. AMIE: Association rule mining under incomplete evidence in ontological knowledge bases. Proceedings of the 22nd International Conference on World Wide Web. Rio de Janeiro: ACM, 2013. 413–422.]]>
陈泽东, 赵旭剑, 张晖, 等. 面向开放式信息抽取系统的知识推理验证. 西南科技大学学报, 2019, 34(4): 72–80.
et al. Translating embeddings for modeling multi-relational data. Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: ACM, 2013. 2787–2795.]]>
et al. Knowledge graph embedding by translating on hyperplanes. Proceedings of the 28th AAAI Conference on Artificial Intelligence. Quebec City: AAAI, 2014. 1112–1119.]]>
et al. Learning entity and relation embeddings for knowledge graph completion. Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin: ACM, 2015. 2181–2187.]]>
et al. Knowledge graph embedding via dynamic mapping matrix. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing: Association for Computational Linguistics, 2015. 687–696.]]>
et al. TransA: An adaptive approach for knowledge graph embedding. arXiv: 1509.05490, 2015.]]>
et al. TransG: A generative mixture model for knowledge graph embedding. arXiv: 1509.05488, 2015.]]>
et al. Learning to represent knowledge graphs with gaussian embedding. Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne: ACM, 2015. 623–632.]]>
et al. From one point to a manifold: Orbit models for knowledge graph embedding. arXiv: 1512.04792, 2015.]]>
et al. Knowlege graph embedding by flexible translation. arXiv: 1505.05253, 2015.]]>
et al. Knowledge graph completion with adaptive sparse transfer matrix. Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI, 2016. 985–991.]]>
康世泽, 吉立新, 张建朋. 一种基于图注意力网络的异质信息网络表示学习框架. 电子与信息学报, 2021, 43(4): 915–922.
刘藤, 陈恒, 李冠宇. 联合FOL规则的知识图谱表示学习方法. 计算机工程与应用, 2021, 57(4): 100–107.
孟小艳, 蒋同海, 周喜, 等. 一种改进的自适应知识图谱嵌入式表示方法. 计算机应用研究, 2021, 38(1): 39–43.
张仲伟, 曹雷, 陈希亮, 等. 基于神经网络的知识推理研究综述. 计算机工程与应用, 2019, 55(12): 8–19, 36.
et al. Reasoning with neural tensor networks for knowledge base completion. Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: ACM, 2013. 926–934.]]>
et al. Neural network-based question answering over knowledge graphs on word and character level. Proceedings of the 26th International Conference on World Wide Web. Perth: ACM, 2017. 1211–1220.]]>
et al. Rethinking knowledge graph propagation for zero-shot learning. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 11479–11488.]]>
et al. Modeling relational data with graph convolutional networks. Proceedings of the 15th International Conference on the Semantic Web. Cham: Springer, 2018. 593–607.]]>
et al. Explainable reasoning over knowledge graphs for recommendation. Proceedings of the 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, The 31st Innovative Applications of Artificial Intelligence Conference, IAAI 2019, The 9th AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019. Honolulu: AAAI, 2019. 5329–5336.]]>
Zhang LL, Li DW, Xi YG,
Chen XJ, Jia SB, Ding L,
孙建强, 许少华. 基于可微神经计算机和贝叶斯网络的知识推理方法. 计算机应用, 2021, 41(2): 337–342.
et al. Modeling large-scale structured relationships with shared memory for knowledge base completion. Proceedings of the 2nd Workshop on Representation Learning for NLP. Vancouver: Association for Computational Linguistics, 2017. 57–68.]]>
Graves A, Wayne G, Reynolds M,
et al. Chains of reasoning over entities, relations, and text using recurrent neural networks. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia: Association for Computational Linguistics, 2017. 132–141.]]>
et al. Incorporating graph attention mechanism into knowledge graph reasoning based on deep reinforcement learning. Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong: Association for Computational Linguistics, 2019. 2623–2631.]]>
陈海旭, 周强, 刘学军. 一种结合路径信息和嵌入模型的知识推理方法. 小型微型计算机系统, 2020, 41(6): 1147–1151.
et al. Distant supervision for relation extraction with an incomplete knowledge base. Proceedings of 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Atlanta: Association for Computational Linguistics, 2013. 777–782.]]>
刘瑞宏, 谢国强, 苑宗港, 等. 基于知识图谱的智能故障诊断研究. 邮电设计技术, 2020, (10): 30–35.
张春霞, 彭成, 罗妹秋, 等. 数学课程知识图谱构建及其推理. 计算机科学, 2020, 47(S2): 573–578.
张清辉, 杨楠, 梁政. 任务驱动的军事信息服务知识推理研究. 火力与指挥控制, 2021, 46(5): 64–70.
韦昌法, 晏峻峰. 从知识表示与推理方法探讨中医数字辨证发展. 中华中医药杂志, 2019, 34(10): 4471–4473.
翟姗姗, 胡畔, 潘英增, 等. 融合知识图谱与用户病情画像的在线医疗社区场景化信息推荐研究. 情报科学, 2021, 39(5): 97–105.
陆伟, 武川. 实体链接研究综述. 情报学报, 2015, 34: 105–12.
温萍梅, 叶志炜, 丁文健, 等. 命名实体消歧研究进展综述. 数据分析与知识发现, 2020, 4(9): 15–25.
段宗涛, 李菲, 陈柘. 实体消歧综述. 控制与决策, 2021, 36(5): 1025–1039.
et al. Fast and accurate entity linking via graph embedding. Proceedings of the 2nd Joint International Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA). Amsterdam: ACM, 2019. 1–9.]]>
张政, 陈艳艳, 梁天闻. 基于出行特征的用地类型推断方法研究. 交通运输系统工程与信息, 2020, 20(5): 29–35.
李启可, 张克亮. 基于问答系统的知识推理技术. 电脑知识与技术, 2019, 15(9): 155–156.
et al. Variational reasoning for question answering with knowledge graph. Proceedings of the 32nd AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th Innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18). New Orleans: AAAI, 2018. 6069–6076.]]>
et al. KagNet: Knowledge-aware graph networks for commonsense reasoning. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: Association for Computational Linguistics, 2019. 2829–2839.]]>
et al. Unifying knowledge graph learning and recommendation: Towards a better understanding of user preferences. Proceedings of 2019 the World Wide Web Conference. San Francisco: ACM, 2019. 151–161.]]>
许智宏, 赵杏, 董永峰, 等. 基于知识图谱知识推理的视频推荐算法. 计算机工程与设计, 2020, 41(3): 710–715.
贾丽丽. 碎片化知识挖掘与智能推理方法研究. 科技传播, 2020, 12(2): 128–130.