基于词向量与可比语料库的双语词典提取研究

作者:柳路芳; 李波; 陈鹏; 周凌寒; 王兵

摘要:双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与可比语料库的双语词典提取算法。首先给出了该算法的基本假设以及相关的研究方法,然后阐述了基于词向量利用词间关系矩阵从可比语料库中提取双语词典的具体步骤,最后将该抽取方法与经典的向量空间模型做对比,通过实验分析了上下文窗口大小、种子词典大小、词频等因素对两种模型抽取效果的影响。实验表明,与基于向量空间模型的方法相比,本算法的抽取效果有着明显的提升,尤其是对于高频词语其准确率提升最为显著。

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 电子信息科学综合
收录:
  • 知网收录(中)
  • 维普收录(中)
  • 上海图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 北大期刊(中国人文社会科学期刊)
  • 国家图书馆馆藏
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 双语词典
  • 词向量
  • 词间关系
  • 可比语料库

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机工程与科学

期刊级别:北大期刊

期刊人气:9748

杂志介绍:
主管单位:国防科技大学
主办单位:国防科技大学计算机学院
出版地方:湖南
快捷分类:计算机
国际刊号:1007-130X
国内刊号:43-1258/TP
邮发代号:42-153
创刊时间:1973
发行周期:月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:0.79
综合影响因子:1.27