摘要:随着网络科技的日益发展,人们在享受互联网成果的同时,也遭受其负面产物如变化多样的恶意网站所带来的困扰。网址作为一般网站的唯一入口,检测并阻止其威胁行为已成为避免信息安全风险的重要控制措施。同时对未知网站的检测成为一种研究趋势。该系统主要功能是对恶意网站内容的智能检测,识别未知的网页是否异常。主要技术特点如下:1)采用了基于机器学习中的ART-2聚类算法,具有无监督地自学习特点,做到了实时更新检测。2)系统在学习新的网站时,不会破坏已存储的知识节点,实现对知识库的快速扩充。3)在数据预处理过程中加入了MMSEG分词算法,实现对中文文本的快速分词,提高了获取网页特征的准确性。后台通过网页内容获取、对html的标签内容做提取、MMSEG分词、特征降维并赋权重、ART-2聚类计算等五大功能,实现用户的请求。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社