一直以来舆情态势发展的多元性、复杂性使其难以有效管控, 一些负面舆情会激化矛盾, 给社会安定带来不利影响. 提出了一种基于事理知识图谱的舆情事件推演方法, 通过神经网络挖掘事件因果逻辑, 连接因果事件构成事理知识图谱. 向量化事件节点以融合归并相似节点降低图谱冗余, 增强图谱泛化性. 根据事理知识图谱反映的发展逻辑对目标舆情事件的演化趋势进行预测. 以自然灾害舆情事件为例, 实验结果表明提出的方法能够有效预测舆情事件发展方向, 可以为舆情监管提供一定支持.
The diverse and complex trend of public opinion has long made it difficult to manage. Negative public opinion will intensify contradictions, bringing adverse effects to social stability. Then a method of public opinion deduction based on the event knowledge graph is proposed. The causal logic of the event is mined through the neural network, and the event knowledge graph is drawn after causal events are connected. Vectorized event nodes can merge into similar nodes to reduce map redundancy while enhancing map generalization. Besides, the evolution of target public opinion events can be predicted based on the deductive logic indicated in the event knowledge graph. With a public opinion event related to a natural disaster as an example, the experimental results prove that the proposed method can reliably predict the trend of the event, supporting public opinion supervision.
信息技术的发展促进交流方式的转变, 众多网络媒体、社交平台成为大众了解信息、获取信息的重要来源, 催生了网络舆情这一社会舆论独特表现形式的产生与发展. 网络舆论具有强大的社会监督能力[
目前在网络舆情事件推演方面已经出现过诸多研究, 前期学者们多利用模糊推理作为演化规则来探究舆情的演化规律. 比如张春娇[
哈尔滨工业大学刘挺教授团队率先提出“事理图谱(Event Logic Graph, ELG)”[
基于事理知识图谱的舆情推演方法如
舆情推演流程
首先处理原始舆情语料, 识别、抽取出因果事件元组; 其次对事件进行融合减少冗余, 完成事理知识图谱构建与泛化; 最终根据图谱中事件节点的演化规律对目标舆情事件的可能发展动向进行研判.
本文以因果关系逻辑为基础构建事理知识图谱, 将其分为了两个过程. 首先对文本进行分析, 判断识别是否含有因果逻辑, 然后再抽取事件元组.
1) 因果逻辑识别
我们将事件因果关系逻辑识别作为文本分类任务处理, 设计了基于BERT的因果逻辑事件识别模型. BERT[
我们对标准的BERT模型进行了改进, 在BERT 模型输出层取得所有输入字符对应的输出向量后对接文本分类器, 分类器选择包括长短时记忆网络BiLSTM、循环卷积神经网络RNN, 用于对BERT输出的向量再次进行计算, 判断其是否含有因果逻辑语义. 进一步, 我们使用了原始的BiLSTM、RNN以及Transformer模型处理相同的实验数据, 以对比分析BERT模型的加入以及不同BERT模型改进方式对结果造成的影响, 各个模型的准确率在实验部分给出. 实验结果显示BERT-BiLSTM模型能够得到最好的识别分类效果, 后续处理分析将基于BERT-BiLSTM模型处理结果进行.
用于因果逻辑识别的BERT-BiLSTM模型如
对于任意输入文本序列, 在完成数据清洗之后处理为单个字符的形式输入模型, 便可自动判断其是否属于因果逻辑性描述.
因果逻辑识别
从
其中,
其中,
Transformer编码器
2) 因果逻辑抽取
在筛选得到含有因果逻辑事件描述的文本之后, 本文通过BiLSTM-CRF[
(1) 词语的位置: B (开始), I (内部), E (结束);
(2)语义角色信息: C (原因), R (结果);
(3) 事件的序号: 1–
(4) 其他词语: O.
例如, 对于“受特大暴雨影响, 242国道洛南段部分路段被冲毁. ”, 标注结果如
标注示例
词语 | 受 | 特大 | 暴雨 | 影响 | , | 242 | 国道 | 洛南 | 段 | 部分 | 路段 | 被 | 冲毁 | . |
标签 | O | B_C_1 | E_C_1 | O | O | O | O | O | O | B_R_1 | I_R_1 | I_R_1 | E_R_1 | O |
元事件抽取过程
本文将提取到的元事件转化为图谱“因
对于抽取结果中重复的因果事件描述可能造成图谱冗余问题, 本文分两种情形处理:
① 重复描述同一舆情事件存在的因果逻辑.
② 属于不同舆情事件但内容相同的因果逻辑, 例如“暴雨引发山体滑坡”事件, 在“2019年7月上中旬长江中下游洪水”, “四川‘8·20’强降雨特大山洪、泥石流灾害”等舆情事件中都存在.
我们将事件文本向量化处理, 通过相似度计算解决以上两种问题. 具体方法如下: 对所有舆情事件进行分词处理获得原始语料数据, 使用Word2Vec[
其中,
进一步, 计算事件之间向量余弦相似度[
其中,
针对情形①, 删除重复描述, 即同一事件内每种因果逻辑只保留一条记录;
针对情形②, 合并为同一事件节点, 并增加对应边的权重. 如
相似事件归并
舆情事件推演是在已知某一事件发生之后, 推测它可能导致的后续事件, 本文构建的舆情推演方法具体步骤如
事件推演
为保持一致, 对于目标舆情事件我们使用第3.2节中同样的向量化方法进行表示. 遍历已构建的事理知识图谱, 基于式(5)计算目标舆情事件与图谱各个节点的相似度, 找到相似度最高的节点. 如果相似度最大值小于预设阈值, 说明图谱中没有目标事件对应节点, 无法进行推演. 否则根据图谱中后续节点推测现实中可能发生的事件. 若某节点有多个后续事件, 根据边权重系数计算可能发生概率. 如
事件发生概率计算示例
相似度阈值的设置对模型推演效果有着显著的影响. 若相似度阈值设置过小会造成事件过度匹配, 即事理知识图谱中不存在的事件记录匹配到了事件知识, 造成错误的推演结果; 相反, 若相似度阈值设置过大会造成事件欠缺匹配, 即事理知识图谱存在的事件记录未匹配到事件知识, 同样造成推演结果的错误. 本文在进行多次实验之后选定相似度阈值为0.72, 相关实验过程及结果见第4节的舆情推演实验部分.
自然灾害给生产活动带来巨大损失同时, 还会引发社会舆论的关注. 灾害舆情具有突发性强、内容复杂、信息数量庞大等特点, 当自然灾害发生时, 积极有效的舆情应对工作对救灾工作顺利开展、社会维持稳定和增强政府公信力有着重要意义.
本文选取了2019年引发舆论关注的全国十大自然灾害事件[
自然灾害事理知识图谱(部分)
1)因果逻辑舆情事件识别
本文搜集了2020年“南方水灾”这一引发舆情高度关注的自然灾害事件信息, 对数据进行人工标注构建测试数据集, 共包含3000余条舆情事件文本记录, 根据包含因果逻辑与否约各1500条. 数据中包括“content” 的舆情事件内容字段以及 “label” 标注字段(0表示非因果逻辑, 1表示包含因果逻辑). 实验对比基准文本分类模型与本文所使用的方法在数据集的效果, 实验结果如
模型结果对比
Model | Accuracy | F1-Score |
RNN[ |
0.683 | 0.542 |
Bi-LSTM[ |
0.743 | 0.709 |
Transformer | 0.792 | 0.683 |
BERT-RNN | 0.736 | 0.801 |
BERT-BiLSTM |
由
2)舆情推演
鉴于在第3.3节中介绍的舆情推演方法与某些推荐算法的工作过程存在异曲同工之处, 本文移植了推荐算法的常用评价指标
其中,
在本文中基于已构建事理知识图谱为测试事件(因)推测可能后续事件(果), 出现多个推测结果情况时则是根据边的权重系数大小进行排序. 我们对2020年“南方水灾”数据中的因果信息进行了人工筛选与抽取, 共得到166个因果事件对作为测试数据. 使用
同时, 本文分析了使用各不同因果识别模型以及不同事件相似度阈值设置下对模型结果造成的影响,
相似度阈值-准确率影响
通过实验结果表明, 相似度阈值的变化会对模型推演性能造成一定的影响. 若相似度阈值设置过小会造成事件过度匹配; 相反, 若相似度阈值设置过大会造成事件欠缺匹配. 在设置事件相似度计算阈值为0.72时可以在本文数据集上取得最优结果.
本文同时分析了使用不同事件识别模型对最终推演结果的影响, 实验过程事件相似度阈值设置为0.72, 结果如
事件识别模型对应模型推演结果准确率
结果表明, 不同因果逻辑事件识别模型处理结果的差异进一步影响到了因果元事件抽取效果及事理知识图谱的构建, 并最终扩散到模型推演效果. 选择更好的因果逻辑事件识别模型可以增强事理知识图谱对于舆情事件逻辑信息的表达能力, 从而提高舆情推演结果的准确率.
本文提出了一种基于事理知识图谱的舆情事件推演分析方法, 具体介绍了因果逻辑事件识别与提取、事理知识图谱的构建、舆情事件演化分析方法, 并通过实验验证了本文提出方法的有效性与先进性. 舆情事件分析作为舆情治理的核心问题之一, 研究舆情事件演化过程对于维护社会长治久安具有重要意义.
诚然, 本文工作仍有可以改进之处, 主要在于因果逻辑抽取层面, 未来工作将进一步探讨如何更加准确地对事件边界进行界定.
罗霄峰, 罗万伯, 胡月, 等. 网络舆情治理研究. 通信技术, 2010, 43(4): 81–83.
张志霞, 郝纹慧, 张二双. 网络舆情驱动下突发事件情景推演研究. 情报科学, 2020, 38(5): 141–147.
党小超, 张春娇, 郝占军. 基于模糊元胞自动机的网络舆情传播模型研究. 计算机工程, 2014, 40(4): 209–213.
兰月新, 夏一雪, 刘冰月, 等. 面向舆情大数据的网民情绪演化机理及趋势预测研究. 情报杂志, 2017, 36(11): 134–140.
曾子明, 黄城莺. 基于BP神经网络的突发传染病舆情热度趋势预测模型研究. 现代情报, 2018, 38(5): 37–44, 52.
Yang HL, Lin QF. Opinion mining for multiple types of emotion-embedded products/services through evolutionary strategy. Expert Systems with Applications, 2018, 99: 44–55.
项威. 事件知识图谱构建技术与应用综述. 计算机与现代化, 2020, (1): 10–16.
王毅, 沈喆, 姚毅凡, 等. 领域事件图谱构建方法综述. 数据分析与知识发现, 2020, 4(10): 1–13.
单晓红, 庞世红, 刘晓燕, 等. 基于事理图谱的网络舆情事件预测方法研究. 情报理论与实践, 2020, 43(10): 165–170, 156.
夏立新, 陈健瑶, 余华娟. 基于事理图谱的多维特征网络舆情事件可视化摘要生成研究. 情报理论与实践, 2020, 43(10): 157–164.
高冰涛, 张阳, 刘斌. BioTrHMM: 基于迁移学习的生物医学命名实体识别算法. 计算机应用研究, 2019, 36(1): 45–48.
鲜翠琼, 秦学, 朱道恒, 等. 一种图文组合相似度算法的设计与优化. 软件工程, 2020, 23(8): 9–12, 4.
应急管理部救灾和物资保障司. 应急管理部公布2019年全国十大自然灾害. 中国减灾, 2020, (3): 12–15.
Wang J, Zhu L, Dai T, et al. Deep memory network with Bi-LSTM for personalized context-aware citation recommendation. Neurocomputing, 2020, 410: 103–113.
任函. 基于推理现象识别的答案抽取. 湖北科技学院学报, 2017, 37(4): 132–135.