数据挖掘技术在文本特征分析中的应用研究——以夏目漱石中长篇小说为例

作者:毛文伟

摘要:本研究运用数据挖掘技术对夏目漱石的中长篇小说进行聚类分析,发现以1908年为界,夏目漱石的中长篇小说可分为三个时期。t检验结果显示,这些作品在名词比、动词比、修饰词比、MVR等指标方面表现较为一致。早期和过渡期作品在接续词句比、非过去式句比方面,过渡期和后期作品在非过去式结句比方面,前期和后期作品在接续词句比、非过去式句比方面存在显著性差异。对指标进行标准化后发现,它们的共性特征在于文本偏重描写,且倾向于状况描写。前期作品的句子极短,容易理解。之后的作品句子逐渐变长,但仍偏短、易懂。句子间关联性不断增强,前后意思联系更加密切,表达更加富有逻辑性。在叙事方式方面,由生动描写转向客观描写,发生了由第一人称视角向第三人称视角的转换。

分类:
  • 期刊
  • >
  • 人文社会科学
  • >
  • 社会科学II
  • >
  • 高等教育
收录:
  • 万方收录(中)
  • 上海图书馆馆藏
  • CSSCI 南大期刊(含扩展版)
  • 知网收录(中)
  • 维普收录(中)
  • 国家图书馆馆藏
  • 北大期刊(中国人文社会科学期刊)
关键词:
  • 数据挖掘
  • 聚类分析
  • 日本文学
  • 文本特征

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:外语电化教学

期刊级别:CSSCI南大期刊

期刊人气:4866

杂志介绍:
主管单位:中华人民共和国教育部
主办单位:上海外国语大学
出版地方:上海
快捷分类:教育
国际刊号:1001-5795
国内刊号:31-1036/G4
邮发代号:4-378
创刊时间:1979
发行周期:双月刊
期刊开本:A4
下单时间:1-3个月
复合影响因子:2.78
综合影响因子:3.28