汉语否定与不确定覆盖域检测

作者:叶静; 邹博伟; 洪宇; 沈龙骧; 朱巧明; 周国栋

摘要:自然语言文本中存在大量否定和不确定表述,识别这些信息并将其与确定性内容分离,对自然语言处理的下游应用,如信息抽取、信息检索、情感分析等,都具有十分重要的意义.与英语相比,面向汉语的否定与不确定覆盖域检测研究目前较为匮乏.提出了一个基于双向长短期记忆(bidirectional long short-term memory, BiLSTM)网络和条件随机场(conditional random fields, CRF)的融合模型,将覆盖域检测任务作为序列标注问题,针对给定的否定或不确定关键词,识别其在句子中的语义作用范围.该模型既具有LSTM(long short-term memory)网络能够利用前向与后向上下文信息的特性,同时又能够借助CRF 层获取输出标签之间的依赖关系,这得益于该框架能够有效地对序列信息及长距离上下文依赖信息进行编码的优势.在CNeSp语料集上的实验结果验证了模型的有效性,其中,在金融新闻子数据集上,否定与不确定覆盖域检测准确率分别达到79.16%和76.79%,比目前基于传统机器学习的汉语覆盖域检测方法分别提升了25.06%和34.46%.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 上海图书馆馆藏
  • Pж(AJ) 文摘杂志(俄)
  • 国家图书馆馆藏
  • 万方收录(中)
  • 文摘与引文数据库
  • 知网收录(中)
  • 维普收录(中)
  • 剑桥科学文摘
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 北大期刊(中国人文社会科学期刊)
  • EI 工程索引(美)
  • JST 日本科学技术振兴机构数据库(日)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 否定
  • 不确定
  • 覆盖域检测
  • 序列标注

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机研究与发展

期刊级别:北大期刊

期刊人气:4734

杂志介绍:
主管单位:中科院出版委员会
主办单位:中国科学院计算技术研究所
出版地方:北京
快捷分类:计算机
国际刊号:1000-1239
国内刊号:11-1777/TP
邮发代号:2-654
创刊时间:1958
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:2.65
综合影响因子:2.48