计算机系统应用  2019, Vol. 28 Issue (7): 206-213   PDF    
基于知识图谱的盗窃案件法律文书智能推理研究
乔钢柱1,2, 冯婷婷1, 张国晨1     
1. 太原科技大学 计算机科学与技术学院, 太原 030024;
2. 中北大学 大数据学院, 太原 030024
摘要:在检察官办案过程中对盗窃案件性质把握不准确, 对量刑建议给出缺乏经验, 导致给出的量刑建议准确性不足. 为了使检察官给出更加准确的量刑建议, 提供辅助量刑参考, 通过对盗窃案件法律文书理论和知识体系进行整理和分析, 对其中的隐式关系、深层关系进行挖掘、推理, 通过搭建本体模型, 提出了基于本体的盗窃案件法律文书知识图谱构建方法, 并且设计自定义推理规则, 实现了盗窃案件法律文书知识图谱在相似量刑类案推送测试功能, 得到了理想的测试结果. 研究证明, 构建基于本体的盗窃案件法律文书知识图谱, 利用智能推理技术, 给检察官提供相似案件量刑参考, 辅助了检察官给出更加合理的量刑建议.
关键词: 法律文书    量刑建议    本体    知识图谱    智能推理    
Research on Intelligent Reasoning of Legal Documents in Theft Case Based on Knowledge Graph
QIAO Gang-Zhu1,2, FENG Ting-Ting1, ZHANG Guo-Chen1     
1. School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China;
2. School of Big Data, North University of China, Taiyuan 030024, China
Foundation item: Start-up Fund for Ph.D. Student of Taiyuan University of Science and Technology (20162029); Key Research and Development Program of Shanxi Province (201703D111011)
Abstract: In the process of handling the case by the prosecutor, the nature of the theft case is not accurate, and the lack of experience in the sentencing suggestion leads to insufficient accuracy of the sentencing recommendations. In order to enable the prosecutor to give more accurate sentencing recommendations, provide an auxiliary sentencing reference, through the collation and analysis of the legal documents theory and knowledge system of the theft case, excavate and reason the implicit relationship and deep relationship, and build the ontology model. This study proposes a method for constructing knowledge graphs of legal documents based on ontology, and designs custom inference rules. It realizes the knowledge of the legal documents of theft cases in similar sentencing cases, and obtains the ideal test results. The research proves that the knowledge graph of the legal documents based on ontology-based theft cases is constructed, and the intelligent reasoning technology is used to provide the prosecutor with a similar case sentencing reference, which assists the prosecutor to give more reasonable sentencing suggestions.
Key words: legal documents     sentencing recommendations     ontology     knowledge graph     intelligent reasoning    

随着各地智慧检务办案辅助系统[1]的研发, 部分地区检察机关各业务部门已经实现了网上办公, 各类案件的办理效率得到了大幅提升, 由此产生的案件信息也由纸质档案变成了数字信息存储在计算机当中. 如何借助信息科学与技术对盗窃案件理论和知识体系进行整理和分析, 对盗窃案件法律文书中的隐式关系、深层关系进行挖掘、推理, 实现智能推荐, 帮助检察官更好的办案是值得探索的一个问题. 随着互联网时代的到来, 大规模开放性应用需要全新的知识表示, 谷歌知识图谱诞生此后引入了知识图谱的概念. 知识图谱本质上是一个大规模的语义网络, 充满丰富的实体, 概念及其之间的各种语义关系. 在此背景下, 引入知识图谱解决盗窃案件法律文书在知识表达、共享和应用方面的问题[2], 为检察官办案提供更好的帮助也受到了检察机关的重视.

本文将本体概念引入到盗窃案件法律文书的研究中来, 旨在与知识图谱相结合, 研究实现基于盗窃案件法律文书本体的知识图谱构建技术, 分析已有基于jena的推理方法, 并在此基础上探索盗窃案件法律文书知识图谱在类案推送、深层关系发现中的应用.

1 相关知识及研究基础 1.1 本体和知识图谱

本体首先是在哲学上提出来的, 简单来说就是一种概念, 如动物这个抽象概念集合, 它是一种抽象集合用来表达世界上的具体的、实际的物体, 而在人工智能领域主要将本体运用在知识表达上, 本体是一个格式规范的、域概念的描述[3]. 本体可以分为领域本体和上层本体, 领域本体模拟特定领域, 上层本体是指由普通对象组成的模型, 这些对象普遍适用于各种领域本体.

知识图谱是一种大规模语义网络, 富含实体、概念、属性、关系等信息. 知识图谱的诞生标志是2012年Google收购Metawebg公司, 并正式发布知识图谱. 知识图谱由节点-实体、节点概念, 节点值和边缘组成[4]. 概念是存在的基本规范, 边则表示关系, 侧重实体之间的关系. 知识图谱可以分为领域(行业)知识图谱和企业知识图谱, 领域知识图谱聚焦于特定领域或者行业的知识图谱, 企业知识图谱是贯穿企业各业务部门的知识图谱.

1.2 jena推理方法介绍

构建基于本体的知识图谱的目的决定了它的应用领域和功能, 因此构建的本体需要具备推理功能. 知识推理的其中一个目标就是通过给定的知识获取隐性的知识. 推理有很多方面的应用, 一方面, 针对知识库的建立人员, 推理用来检测冲突和优化表达; 另一方面, 作为知识库的使用人员, 推理的主要作用是获得知识库中的知识并且运用这些知识解决问题. 由惠普实验室研发的jena提供了用于检索过程推理的基于规则的推理子系统, jena提供的推理机通过本体的内置属性, 可以满足一般的查询需求. 例如, 查询张三盗窃案相关法律文书信息, 推理子系统就会将张三盗窃案件法律文书相关的案件基本信息, 犯罪嫌疑人信息, 量刑信息等属性实体进行查询显示, 具体示例如图1所示.

图 1 盗窃案件法律文书一般查询举例图

但是在实际应用中, 只有这些内建规则形成的推理是不够的, 例如, 用户想要通过查询获取与当前案件具有相似量刑情节的案件, 通过内建规则是无法实现的, 除非人工定义这层推理关系. 在推理机中, 本体中类之间的相互关系需要明确定义, 目前本体的自动构建技术尚不成熟, 在人工定义复杂关系时, 往往由于疏忽而导致数据不完整. 针对这种情况, 在盗窃案件法律文书知识图谱[5]的构建中, 通过自定义推理机, 构造自定义推理规则, 从而实现类案推送, 将具有相似量刑的案件进行推送, 挖掘不同案件量刑之间隐藏的关系.

2 盗窃案件法律文书本体

本文盗窃案件法律文书本体是在检察机关专家的参与指导下, 以《刑事法律文书制作指南与范例》、《量刑指导建议书》等为主要知识源[6], 并结合盗窃案件法律文书术语标准等, 使用OWL语言作为本体描述语言, 使用protege为本体构建工具, 由于盗窃案件法律文书内容侧重案件基本信息, 嫌疑人基本情况, 相关证据, 量刑等方面, 因此本体构建主要围绕这几方面内容展开.

该本体以盗窃案件犯罪构成要素为指导, 以法律文书内容为中心, 包括嫌疑人、时间、案件物品、犯罪行为、空间、证据材料、量刑这七个部分. 这七大部分构成一个有机整体, 关系密切. 其中时间包括作案时间和销赃时间, 物品包括侵害物、带离物、犯罪产生物、犯罪使用物、遗留物、销赃物等概念, 犯罪行为包括作案手段和作案方式, 空间包括作案地点、犯罪预备地、藏匿地点、销赃地点, 时间、空间、物品, 犯罪行为与嫌疑人有着密切关系, 证据材料包括扣押发还物品清单、抓获到案经过、指认现场照片、犯罪嫌疑人供述、现场勘验笔录、痕迹鉴定、盗窃价值、被害人陈述、视听资料、证人证言、辨认笔录, 量刑包括数据标准、量刑建议、量刑情节, 证据材料与量刑贯穿于盗窃案件审理的整个过程. 构建完成的盗窃案件法律文书本体库包括三百多个实体, 三十多个盗窃案件法律文书案例.

盗窃案件法律文书理论本体的概念层次关系结构如图2所示, 使用protege中的OWL Viz工具进行展示. 盗窃案件法律文书理论本体的语义关系包括概念之间通用的语义关系和概念之间自定义语义关系. 概念之间的自定义语义关系指的是除了通用语义关系外, 自定义的概念之间的语义关系[7], 本文抽取的自定义语义关系如表1所示.

图 2 盗窃案件法律文书部分本体层次关系图

表 1 自定义语义关系表

3 盗窃案件法律文书知识图谱构建 3.1 盗窃案件本体模型构建

本文根据研究以及实际应用的需求, 在传统的七步法本体模型构建方法上进行改进, 提出了盗窃案件法律文书本体模型的构建方法. 根据盗窃案件法律文件领域的信息获取特点, 首先收集盗窃案件法律文件的相关信息, 然后进行术语提取和本体建模. 最后, 本体不断迭代演化, 直到最终获得相对完美的本体[8]. 具体实施步骤: 1)明确需要构建本体的领域和构建该本体的目的. 2)领域信息采集与分析. 3)定义盗窃案件法律文书本体概念, 定义概念的结构层次. 4)定义盗窃案件法律文书概念对象属性和数据属性以及相关属性值的约束. 5)本体编码. 6)本体评估. 7)本体实例化. 8)迭代、进化. 对应的盗窃案件法律文书本体模型构建过程如图3所示.

3.2 基于本体的盗窃案件法律文书知识图谱构建 3.2.1 本体与知识图谱映射机制

构建基于本体的盗窃案件法律文书知识图谱, 首先要明确本体与知识图谱之间的映射匹配原理. 本体是关于共享概念的一致惯例. 层次结构是最简单的本体形式, 可用于详细描述类和它们之间的包含. 而知识图谱是由真实世界中存在的各种实体、概念及其关系组成的一张巨大的语义网络图, 概念及概念之间的层次结构用树来表示, 概念节点可以作为树的节点, 把概念、实例之间的继承关系用线连接, 实体与实体之间的层次结构用图来表示, 实体节点可以作为图的节点, 实体与实体之间的语义关系用线连接表示. 因此本体与知识图谱的映射原理是树与树的映射、树与图的映射[9,10]. 盗窃案件法律文书本体与知识图谱的匹配映射原理如图4所示.

图 3 盗窃案件法律文书本体构建过程图

图 4 盗窃案件法律文书本体与知识图谱映射原理图

3.2.2 盗窃案件法律文书知识图谱构建

根据映射匹配机制, 构建盗窃案件法律文书知识图谱, 首先应明确数据来源, 本文数据来源主要有两方面, 一是检察机关提供的《刑事法律文书制作指南与范例》、《量刑指导建议书》, 二是结构化数据库中提供的法律文书案例数据. 在上一小节盗窃案件法律文书本体模型的构建基础上, 设立知识节点, 进行知识存储, 盗窃案件本体构建完毕后, 对采集来的盗窃案件法律文书信息进行了本体实例化操作, 实例化完成后的文档的示例和原始本体概念是盗窃案件法律文件知识图谱中的知识节点. 使用OWL本体描述语言对本体相关概念、实例以及相互之间关系进行描述, 并将其存储在OWL本体文件和My SQL数据库中. 然后执行知识链接, 并通过OWL和URL(统一资源定位符)实现盗窃案例法律文书的知识图谱中的知识链接. OWL语言具有很强的描述能力, 可以描述知识, 上下关系和相关关系之间的关系等. 知识的位置通过基于OWL的资源定位器URI实现, 该URI可以描述知识存储的位置. 所有内容都表示为由URI标识的资源, 每个资源都具有属性和相应的属性值. 每个资源还能和其它资源有关系[11]. 因此, 利用URI来充当桥梁作用, 将孤立的知识节点关联起来, 形成一张巨大的知识网络图. 该知识图谱采取自底向上的构建方法, 将底层数据库、非结构化数据进行融合、抽取关键信息, 从而构建盗窃案件法律文书知识图谱. 至此, 盗窃案件法律文书知识图谱基本搭建完成, 该知识图谱构建过程如图5所示.

图 5 知识图谱构建过程图

4 盗窃案件法律文书知识图谱智能推理研究

该盗窃案件法律文书知识图谱是在本体架构上实现的, 因此基于本体的知识图谱智能推理是知识图谱的一个关键应用, 本文基于本体的知识图谱智能推理是在jena的基础上实现的, jena是由惠普实验室开发的知识图谱管理系统, 现已由Apache管理[12]. 构建盗窃案件法律文书自定义推理规则, 研究实现实体查询、相似量刑类案推送以及证据审查等智能推理应用.

4.1 基于知识图谱的实体查询

基于构建的盗窃案件法律文书知识图谱, 在protege平台上借助Onto Graf工具, 利用jena推理机实现在线查询. 在jena中, 本体子系统和推理子系统一起在RDF的基础上构建出语义检索的基本核心架构. 通过本体子系统用户可以读取各种结构存储的数据, 并可以对本体的类, 属性以及实例等元素进行查询等操作和处理以及一致性检查, 是实现语义推理的基础. 在线查询中的实体查询可以查询到该实体与其他实体之间的语义关系, 图6示例展示了嫌疑人张某某的相关犯罪事实、犯罪证据以及他涉及到的与案件相关的一些基本情况的查询结果.

图 6 实体查询举例图

4.2 基于规则的推理

知识图谱除了可以进行一些在线查询如针对实体的查询、针对属性的查询、针对关系的查询等, 还可以实现离线分析, 如基于图结构的分析, 基于规则的推理等. 目前, 推理引擎广泛用于许多与推理相关的研究中. jena提供的推理引擎支持本体分析, 因此它是本体的推理引擎. 因此, 本文使用jena推理机作为推理工具. 并充分利用盗窃案件法律文书领域本体丰富的语义关系进行推理, 基于构建的知识图谱结合检察官思维在知识检索方面进行智能推理研究.

4.2.1 jena推理引擎的工作原理

智能推理的核心思想是利用概念及其关联, 根据构建的知识地图, 从语义层进行相应的推理, 面对信息和知识, 获得更符合用户需求的搜索结果. 本文的推理步骤分为以下几点: 首先, 根据推理机的原理, 构建自定义推理规则; 其次, 将自定义推理规则添加到自定义规则推理引擎; 然后, Model Factory创建本体模型API, 主动查找含有自定义规则的模型对象; 最后, 对含有自定义规则的Model对象进行查询操作, 实现推理目的. Jena推理机的工作原理如图7所示.

图 7 jena推理机工作原理图

4.2.2 语义推理自定义规则构造

Jena提供的内置推理机能够实现基于本体的知识图谱的一些基本推理和一致性的检查, 但是在实际应用中, 只有这些内置规则实现的推理不能满足用户的实际需求. 例如, 基于盗窃案件法律文书本体构建的知识图谱中, 用户想要知道与当前查询案件有相同量刑情节的案件, 经过通用规则推理并不能实现这一功能; 或者用户想要知道当前盗窃案件证据审查方面的一些信息, 经过内置推理规则也不能实现这一点. 因此, 我们可以根据需求构造自定义推理规则从而实现用户的查询目的.

用户可以根据需求定制自己的规则, 创建特定需求的推理机, 以自定义规则作为通用规则的补充和完善, 从而满足特定领域实际应用需求. 同时为了深度挖掘盗窃案件法律文书信息, 编写自定义规则是必要的. 基于jena的规则推理引擎支持前向链, 后向链和两种推理模型的混合. 也就是说, Jena提供了两个内部规则引擎: 前向链推理RETE引擎和后向链引擎, 它们可以是独立的, 或作为后向链引擎的领导者的前向链, 合作完成“查询 - 问题 - 答案”[12].

综上所述, 根据规则的构造原理, 本文自定义规则结构为: 一个规则的前提, 一个规则的结论, 中间加判断条件. 本文采用的是前向推理引擎模型, 使用的推理机是GenericRuleReasoner. 基于盗窃案件法律文书本体的知识图谱的语义自定义查询部分规则如下所示:

Rule1: [同有量刑情节(?a:有量刑情节?c),(?b有量刑节?c),notEqual(?a,?b)->(?a同有量刑情节?b)]

Rule2: [时间一致: (?a 时间是?c),(?b 时间是?c),notEqual(?a,?b)->(?a 时间一致?b)]

Rule3: [地点一致: (?a 地点是?c),(?b 地点是?c),notEqual(?a,?b)->(?a 地点一致?b)]

根据自定义推理规则创建对应的推理机过程如下:

Resource configuration=model.createResource();

configuration.addProperty(ReasonerVocabulary.PROPruleMode, "forward"); configuration.addProperty(ReasonerVocabulary.PROPruleSet, "../../rules/case.rules");

Reasoner reasoner= GenericRuleReasonerFactory.theInstance().create(configuration);

根据自定义推理引擎创建包含推理关系的数据模型如下所示:

infModel=ModelFactory.createInfModel(reasoner, model);

4.2.3 类案推送实现

自修订后的“刑法”和“刑事诉讼法”实施以来, 检察院加大了实施检察机关改革的力度, 寻求一种更有利于使检察工作与审判工作密切相关的工作机制, 从而进一步加强对检察院的审判监督功能. 在这种背景下, 公诉量刑建议制度应运而生. 而检察机关是否能充分有效的发挥量刑建议权, 在庭审方式变革过程中扮演着非常重要的角色. 由于检察官办案经验不足, 办案过程中对量刑建议给出把握不准确, 可能导致办案效率降低. 因此, 在办案过程中, 给办案人员推送具有相似量刑情节的已办案件, 供办案人员进行在线参考, 无疑会使检察官更快的给出更加公平、准确的量刑建议, 提高办案准确率等. 本文基于这一特点需求, 利用智能推理技术, 实现了相似量刑类案推送测试功能.

相似量刑类案推送测试功能是利用上一小节基于知识图谱的自定义推理规则, 向用户自动、及时的推送与当前检索案件具有相似量刑情节的案件, 并以列表的形式进行展现, 点击显示列表项, 会跳转到相应的案件详情页. 根据检察官思维, 在案件检索过程中, 希望查看与当前案件具有相似量刑情节的其他案件的量刑结果, 通过比较总结量刑建议给出实用经验并得出结论. 这一功能的实现, 提高了检察官的检索效率[13], 根据检察官思维、个性需求, 将有用的信息及时挖掘整理推送给检察官, 辅助量刑[14]. 测试案例截图如图8图9所示. 点击类案推送列表中相应案件, 在量刑情节部分显示内容有相似量刑情节“自首”属性, 验证结论准确.

图 8 类案推送测试案例图

图 9 类案推送测试案例验证结果截图

5 结束语

本文提出了盗窃案件法律文书的本体构建方法, 通过本体与知识图谱映射原理提出了基于盗窃案件法律文书本体的知识图谱构建方法, 解决盗窃案件法律文书知识规范化、信息化, 并对盗窃案件法律文书知识图谱的智能推理应用进行了探索, 基于jena推理原理在智能推理方面提出了自定义推理规则, 实现了盗窃案件法律文书知识图谱在类案推送方面应用的探索, 挖掘量刑隐藏数据关系, 将具有相似量刑情节的案件准确推送给用户, 辅助检察官办案. 但是本文使用的本体建模工具不够自动化智能化、并且需要进一步完善和补充盗窃案件法律文书本体库, 构建适合检察机关业务需求的知识图谱, 由于证据拆解的复杂性, 本文对证据方面相关数据深层关系挖掘尚不完备. 因此结合最新的人工智能技术, 探索自动化构建知识图谱的机制, 并且在检察机关相关业务方面, 就合理量刑建议的给出、辅助证据审查等方面提供帮助.

参考文献
[1]
张璐. 案件管理中心检察办案辅助系统完善之初探——以加快推进检察信息化进程为契机. 法制与社会, 2011(12): 207-208. DOI:10.3969/j.issn.1009-0592.2011.12.109
[2]
彭波. 贵州: 大数据点亮" 智慧检务”. 人民日报, 2017-05-31(019).
[3]
张胜. 一种基于领域本体的语义检索模型. 软件导刊, 2014, 13(3): 18-20.
[4]
Nie BL, Sun SQ. Knowledge graph embedding via reasoning over entities, relations, and text. Future Generation Computer Systems, 2019, 91: 426-433. DOI:10.1016/j.future.2018.09.040
[5]
Guan NN, Song DD, Liao LJ. Knowledge graph embedding with concepts. Knowledge-Based Systems, 2019, 164: 38-44. DOI:10.1016/j.knosys.2018.10.008
[6]
徐浩. 刑事案件领域本体的建模研究[硕士学位论文]. 北京: 中国人民公安大学, 2017.
[7]
张德政, 谢永红, 李曼, 等. 基于本体的中医知识图谱构建. 情报工程, 2017, 3(1): 35-42.
[8]
Dou JH, Qin JY, Jin ZX, et al. Knowledge graph based on domain ontology and natural language processing technology for Chinese intangible cultural heritage. Journal of Visual Languages & Computing, 2018, 48: 19-28.
[9]
李涛, 王次臣, 李华康. 知识图谱的发展与构建. 南京理工大学学报, 2017, 41(1): 22-34.
[10]
胡芳槐. 基于多种数据源的中文知识图谱构建方法研究[博士学位论文]. 上海: 华东理工大学, 2015.
[11]
韩智, 周法国. 基于知识图谱的高铁动车设备检测系统的本体框架构建与维护. 现代电子技术, 2018, 41(6): 11-14.
[12]
韩昊, 李禹生. Jena智能推理查询中的自定义规则构造方法研究与应用. 软件导刊, 2014, 13(7): 13-15. DOI:10.3969/j.issn.1672-7800.2014.07.005
[13]
林炀平. 文物知识图谱构建与检索关键技术研究与实现[硕士学位论文]. 杭州: 浙江大学, 2017.
[14]
Karidi DP, Stavrakas Y, Vassiliou Y. Tweet and followee personalized recommendations based on knowledge graphs. Journal of Ambient Intelligence and Humanized Computing, 2018, 9(6): 2035-2049. DOI:10.1007/s12652-017-0491-7