摘要:针对互联网搜索技术中常见的搜索方式,引入语义信息,并对网页集的主题提取方式进行了深入的研究。主要进行了对网页集的网页过滤,删除图片、广告等信息,然后取其文本,再进行分词并统计词频,在词频较高的词语中利用WordNet对词语间语义的关系进行进一步计算,最终利用考虑了类内类间分布差异的TF*IDF方法进行主题词提取。通过实验并对实验结果的分析评估,证明了引入WordNet语义联系的主题提取方法是可行且有意义的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
相关期刊
相关论文
期刊名称:中国电子商务
期刊级别:部级期刊
期刊人气:3311