基于Transformer的改进短文本匹配模型
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

智能化公共法律服务关键技术湖南省重点研发项目(2022SK2106)


Improved Short Text Matching Model Based on Transformer
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    短文本匹配是自然语言处理领域中的一个核心问题, 可应用于信息检索、问答系统、复述问题等任务. 过去的工作大多在提取文本特征时只考虑文本内部信息, 忽略了两个文本之间的交互信息, 或者仅进行单层次交互. 针对以上问题, 提出一种基于Transformer改进的短文本匹配模型ISTM. ISTM模型以DSSM为基本架构, 利用BERT模型对文本进行向量化表示, 解决Word2Vec一词多义的问题, 使用Transformer编码器对文本进行特征提取, 获取文本内部信息, 并考虑两个文本之间的多层次交互信息, 最后由拼接向量推理计算出两个文本之间的语义匹配度. 实验表明, 相比经典深度短文本匹配模型, 本文提出的ISTM模型在LCQMC中文数据集上表现出了更好的效果.

    Abstract:

    Short text matching is a core problem in the field of natural language processing, which can be applied to tasks such as information retrieval, question answering systems, and question paraphrase. Most of the past work only considered the internal information of the text when extracting text features, ignoring the interactive information between two texts, or only performed single-level interaction. Given the above problems, an Improved Short Text Matching model (ISTM) based on Transformer is constructed. The ISTM model takes DSSM as the basic architecture and uses the BERT model to vectorize the text to solve the ambiguity of Word2Vec. It relies on the Transformer encoder to extract features of the text and obtain its internal information. It considers the multi-level interactive information between the two texts and finally infers and computes the degree of semantic matching between two texts by the concatenated vector. Experiments show that compared with the classic deep short text matching model, the ISTM model proposed in this study shows better results on the LCQMC Chinese dataset.

    参考文献
    相似文献
    引证文献
引用本文

蔡林杰,刘新,刘龙,唐朝.基于Transformer的改进短文本匹配模型.计算机系统应用,2021,30(12):268-272

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-02-24
  • 最后修改日期:2021-03-19
  • 录用日期:
  • 在线发布日期: 2021-12-10
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号