基于领域本体的文本分割方法研究

作者:刘耀; 帅远华; 龚幸伟; 黄毅

摘要:文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 维普收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • JST 日本科学技术振兴机构数据库(日)
  • 上海图书馆馆藏
  • 剑桥科学文摘
  • 哥白尼索引(波兰)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 国家图书馆馆藏
  • 知网收录(中)
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 文本分割
  • 领域本体
  • 语义标注
  • 语义段落

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机科学

期刊级别:北大期刊

期刊人气:20399

杂志介绍:
主管单位:国家科学技术部
主办单位:国家科技部西南信息中心
出版地方:重庆
快捷分类:计算机
国际刊号:1002-137X
国内刊号:50-1075/TP
邮发代号:78-68
创刊时间:1974
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.94
综合影响因子:1.6