数据挖掘技术探讨论文汇总十篇

时间:2022-09-19 12:49:44

数据挖掘技术探讨论文

数据挖掘技术探讨论文篇(1)

         从金·成无己于《伤寒明理论》中以君臣佐使研究张仲景方剂[1]至今,为了把握中医方剂应用历史嬗变的轨迹,寻找中医方剂的配伍方法及组方思路,人们利用哲学、数学等其他学科的方法或手段对方剂配伍规律的研究从未间断过。尤其是近年来,以大量经方、成方或个人临床经验组方中蕴含的配伍规律为分析对象,数据挖掘、人工智能等现代信息技术在中医方剂配伍理论研究中得到了广泛的应用,为拓宽中医理论现代化研究思路提供了一定的借鉴,但也暴露出一些问题。笔者现结合个人的研究体会对这些问题加以总结和探讨。

1  应用现状

    目前,利用数据挖掘技术探讨方剂配伍规律的研究概括起来主要有以下3种模式:其一是以分类为主的数据挖掘研究,应用模式是运用不同的方法如判定树、贝叶斯网络、人工神经网络等,参考现行已知的方剂分类标准,将研究对象中的方剂按照组方药物的功效、性味或归经等分成若干类[2-6];其二是以聚类为主的数据挖掘研究,即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的制方要素进行分析[7-12];其三是以关联规则为主的挖掘研究,即利用apriori算法、fp-tree及其变体,经过大量的预处理工作和谨慎的设计,把理-法-方-药之间的多维关系降维处理后,从药物与药物、药物与症状、症状与证型等不同属性之间的关联关系探讨方剂配伍模式[13-18]。上述不同方法对方剂配伍规律的研究取得了一定成绩,但挖掘层次多集中在药对、药组或药症、症证关联等局部信息的揭示上,从理-法-方-药整体层次对方剂的综合配伍规律进行探讨不多。同时,鉴于中医理论体系的“复杂性”与方剂配伍规律的“内隐性”,上述研究方法在信息提取的“准确性”、挖掘技术的“针对性”和挖掘方法的“适用性”等方面还存在一些共性问题。

2  问题探讨

2.1  方剂数据预处理

   

信息处理中有一个著名的“garbage in, garbage out”理论[19],即数据挖掘最后成功与否,数据准备起到了至关重要的作用。针对药名、功效、方名、症状、证候等数据有多种不同的表述方式的普遍现象,为了对方剂文本中存在的词义模糊、词义涵盖或多词义交叉的描述信息进行规范和统一,目前大部分研究者采取的方式是依据现有中医药教材或相对权威的工具书对原始数据进行相应的规范,如涉及药名的依据《中华本草》、涉及方名的依据《中医方剂大辞典》、涉及症状的依据《中医症状鉴别诊断学》、证型依据《中医证候鉴别诊断学》、剂量参考《中华人民共和国药典》中采用的国际单位制等,也有些研究者则根据个人研究方法的需要利用本体技术建立了相应的基础词表。事实上,除了《中医药学主题词表》外,上述工具书本身对症状或证型等名称的表达以及其中涉及的过程类、状态类或层次关联类语义信息的描述也是基于自然语言,因此,不同的人对药物名称、症状名称、剂量表示等制方要素进行表达方式的统一及对方剂内的药味配伍与其针对的相应症状之间的因果关系的“解析”和“映射”,或许可以满足一种方法应用时对数据“一致性”、“正确性”和“可靠性”的要求;但放大到其他方法,则存在数据源的融合度低、可扩展性差、共享程度不高等问题,不能为提高文献处理的准确性和一致性提供良好的支撑环境。

2.2  数据挖掘方法平台的构建

   

科学研究过程首先需要对未知领域进行分析和推测,明确研究目标和现实技术方法的内在联系,然后寻找最佳的方法进行检验。数据挖掘的不同算法都是针对应用中的具体问题提出的,一种建模方法只是对被研究问题某一方面的简化了的分析。中医方剂是一个复杂的信息系统,一味药物的多种药效在不同剂量和配伍下,药效的主次地位会发生变化,且不同药物的组合相互作用后会影响整个方剂功效的趋向,对类似的涉及药物之间联系和层次关系的认识和分析,都需要借助相应的技术和方法,才有可能实现对方剂处方规律进行较深层次的挖掘。而从应用情况来看,目前大部分学者还只是从各自专业的角度,通过特定的抽样技术或方法对被研究问题所有数据的一个区间进行了局部的探讨,针对同样数据对象、不同数据挖掘方法之间缺乏比较,针对整体数据,也缺乏不同方法的有机融合。如同样是对方剂信息进行挖掘,基于频集模式发现的关联规则可以从药物与药物、药物与症状、症状与证型之间的关联结果去揭示方剂配伍关系;而分类和模糊聚类分析的方法,则可以从聚类的最优个数以及变量的组成方面去解析方剂配伍关系。从表面上,这些方法所得的结果看似都有一定道理,但由于无法发现不同方法针对同一问题所得结果中的共性和差别,因而面对不同方法所得离散的、多点分布的挖掘结果,似乎依然无法把握同病异治的不同方剂或异病同治的某一类方剂配伍规律的脉络。

2.3  数据挖掘结果评价

   

数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值。但在中医药领域,一方面目前的挖掘结果仍以验证性的居多,即大部分结果还是在用配伍的已知原则与理论和通过相对简单和固定的方法就能获得的结果在相互印证;另一方面,即使挖掘出了先前未知的信息,如何验证这些挖掘结果的有效性和可用性?一般情况下,对数据挖掘结果的评价,最直接的是将挖掘结果结合专业背景及专家意见通过临床或实验室验证。但面对医学数据的社会性和法律约束性等特点,不同的数据挖掘方法获得的结果对问题的实际解析有可能差之毫厘却谬以千里。因此,如何对医学数据挖掘结果进行有效性评价,已经迫切地摆在了我们的面前。

3  思考

   

生命系统研究当前的最佳支撑点是中医药学的整体性和系统性理论,在这样的理论指导下,越来越多的医学研究试图从多点的、局部的分散式研究走向系统的、整体研究阶段。以方剂配伍研究所积累的多方面的基础数据为对象,传统数据处理技术因处理数据之间各种联系和因果关系的局限性所呈现的相互独立的分析结果,已经不能满足人们对某一方面知识的整体性和关联性的需求。目前,中医界越来越多的研究者希望通过加强信息处理以及各种新技术的应用,从批量的信息或数据之间找到具有科学意义的关联,以便对方剂配伍规律做出层次性的解释,来提高临床和实验室研究体系的效率和产出。

   

近年来,国外以生命科学中积累的大量信息和巨量文献为对象,以知识发现为目的的数据挖掘技术,在基因、蛋白质、疾病、药物及其相互关系的研究中已取得显著成绩[20],并有研究结果得到临床和实验室的验证[21],给国内中医药的知识发现研究提供了思路和方法学的借鉴。

   

首先,在数据挖掘对数据的规范要求方面,美国国立医学图书馆自1986年开始研制的统一医学语言系统(unified medical language system,umls,由超级叙词表、语义网络、信息资源及专用词典组成),以其实时更新、面向互联网免费开放的应用方式,有效地克服了计算机生物医学信息研究领域的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中,在医学词汇的规范、统一、标准化、科技信息的交流以及深层次自然语言处理方面发挥了巨大作用。国内科技信息界虽在20世纪90年代后也相继进行了分类-主题词一体化词的研制工作,如中国医学科学院信息所图书馆编制的《中图法与mesh、中医药学主题词对照表》,在中文生物医学文献计算机标引和分类等方面提供了良好的支撑环境。但由于数据更新不及时、共享机制不完善,这些词表在满足医学数据挖掘对概念术语的名称、表达方式、语义类型统一规范的保障与支撑需求方面总显得力度不够。因此,一方面,中医数据规范依据的缺失是造成中医药语料处理困难的一个难以回避的瓶颈;另一方面,即使有了数据规范的标准,倘若不能象umls那样通过信息的无障碍传递而实现这些基础科学数据的共享,则依然会阻碍基于信息技术通过事物的共性研究而进行事物分类和知识发现的进程。

   

其次,国内针对中医药数据挖掘的研究,大部分是基于单一方法的应用,而国外生物医学领域的知识发现研究,在技术平台方面往往是机器学习、文本挖掘和网络信息技术等多种方法与技术的融和。在研究团队方面则是由临床、信息检索、数据挖掘等不同专业背景的研究人员共同构成。典型的案例如以pubmed数据库中积累的关于某一疾病的大量文献为分析对象,swanson[22]利用arrowsmith系统对镁缺失与偏头痛的关联关系的探讨、hristovski d等[23]利用bitola系统对多发性硬化病病因的分析、kristina m hettne等[24]基于medscan和pathwayassist软件对复杂性疼痛综合征的发病机制的推测等等。这种以专家群体、数据和各种信息技术有机结合的形式进行生命科学知识发现的研究模式,恰恰是1990年钱学森院士提出的“把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题”的综合集成方法体系[25]的体现。

   

中医理论体系的复杂性与临床诊疗的个性化决定了方剂配伍规律的“内隐性”,与方剂相关的症状证型、治则治法、药味组合、剂量剂型等各个环节的差异又造成了方剂信息的多样性和复杂性。可以设想,针对方剂配伍规律的知识发现研究,只能是由相宜的方法和技术组成的多模块的系统模型,既要反映中医学认识论整体、综合、联系的特点,符合中医定性模糊思维特征,又要能定量描述药物之间的配伍关系、药物配伍与病证的针对性。借助这种综合集成的技术平台的支撑,或许我们可以从经方或类方入手,对同病异治的不同方剂或异病同治的同类方剂之中蕴含的共性和差异性信息进行多层次的探讨,从而为方剂配伍规律知识地图的呈现提供线索与思路。

   

另外,在关于数据挖掘结果的评价方面,由于数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果,因此对其进行评测本身就是一种全新而富有挑战性的工作。关于中医药领域数据挖掘结果的评价方案,北京中医药大学的任廷革教授曾在针对名老中医的病案处方进行数据挖掘的研究中提出,可以围绕“方证”关系,从“方证一致性、法(治则治法)-效(处方功效)一致性、性(处方综合性味归经)-候(处方主治症候)一致性、处方药效释放率等方面对挖掘结果进行分析和评价”[26]。国外常见的模式是,一个研究团队利用一种技术平台进行的综合知识发现结果可以由其他团队利用另外的方法或平台进行验证。如hristovski d[27]利用bitola系统、weeber m等[28]使用dad (disease adverse drug reaction-drug)系统曾分别对swanson关于“雷诺氏病与鱼油”和“偏头痛与镁”的研究结论进行验证性研究。虽然目前还没有相对成熟的评价模式,但可以预见,随着数据挖掘方法和技术在医学领域应用范围的增多,如何对数据挖掘方法或产生的结果进行科学合理的评价也将成为一个有意义的研究课题。

4  总结与展望

   

数据挖掘是一个领域专家合作的过程,这一过程要反复进行,并在反复过程中不断地趋近事物的本质。根据钱学森院士提出的综合集成理论,可以想象,以开放的中医药统一医学语言系统为数据规范依据,构建面向方剂配伍知识发现的多模块综合集成数据挖掘支持系统是方剂配伍规律知识发现研究的努力方向。综合集成方法的实质是把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题[29]。在这样的集成系统支撑下,我们可以在最大限度地跨越语言表达的差异性和相关信息的分散性前提下,从不同角度对其中蕴含的相关性和规律性信息进行全面探讨,并将研究结果以知识地图的方式加以呈现,从而为方剂的临床运用以及实验研究提供线索与思路。

   

当然,要达到这样的效果,无可避免地要讨论中医方剂理论中现存的一些问题以及不同学派和专家的不同认识等,如方剂配伍君臣佐使之间如何分工?方剂配伍及其所主病证之间存在的君药对主证(症)和臣药、佐使药对兼证(症)之间的针对性如何界定?怎样将问题求解中所需要的专家知识、背景知识、领域知识进行确切的描述与表达?以及由此产生复杂系统知识组织的维护与理解等问题。然而,利用信息技术探讨、解决这些问题的过程,不仅是信息时代自然语言处理、人工智能等领域的创新成果应用于方剂配伍规律理论探讨和实践要面对的重要内容,也是复杂系统思想指导下方剂配伍规律的知识发现必须要面对的问题。这种实践不仅可以使中医方剂理论得以深化,使临证处方选药向标准化、规范化的方向发展,同时也是证候本质研究、方剂作用机制研究、方剂适用范围研究等领域找到突破口的希冀所在。

【参考文献】

  1] 董正华.试论《伤寒明理论》的学术成就[j].陕西中医学院学报, 2002,25(3):1-2.

[2] 刘齐宏,唐常杰,李 川,等.基于属性归纳的中药方剂数据挖掘[j].计算机应用,2007,27(2):450-452.

[3] 彭 京,唐常杰,曾 涛,等.基于神经网络和属性距离矩阵的中药方剂功效归约算法[j].四川大学学报(工程科学版),2006,38(1):92-95.

[4] 雍小嘉,彭 京,韩佩玉,等.采用空间矢量方法判断方剂功效倾向新论[j].辽宁中医杂志,2005,32(7):660-662.

[5] 于润桥,危 荃,王建红,等.基于粗糙集理论的右归丸配伍研究[j].辽宁中医药大学学报,2007,9(2):3-6.

[6] 孙 燕,臧传新,任廷革,等.支持向量机方法在《伤寒论》方分类建模中的应用[j].中国中医药信息杂志,2007,14(1):101-103.

[7] 陈学进.数据挖掘中聚类分析的研究[j].计算机技术与发展,2006, 16(9):44-49.

[8] 王咏梅,马 红,刘苏中.方剂配伍的模糊数学特性研究[j].中国实验方剂学杂志,2000,6(6):59-61.

[9] 蒋永光,李 力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[j].世界科学技术——中医药现代化,2003,5(3):32-35.

[10] 张晓杰.荨麻疹辨证论治规律的聚类分析[j].山东中医杂志,2003, 22(12):709-711.

[11] 张 静,徐忠恒,雷钧涛,等.逍遥丸的模糊聚类分析[j]. 吉林医药学院学报,2006,27(1):6-8.

[12] 周 鲁,唐向阳,付 超,等.解表类中药的模糊聚类分析[j].华西药学杂志,2004,19(5):339-341.

[13] 姚美村,艾 路,袁月梅,等.消渴病复方配伍规律的关联规则分析[j].北京中医药大学学报,2002,25(6):48-50.

[14] 杨雪梅,王 君,林端宜.明清脾胃湿热方用药关联规则挖掘[j].江苏中医药,2007,39(1):45-47.

[15] 周忠眉,林宝德,肖 青.古代方剂与新药方剂高频药组配情况分析[j].漳州师范学院学报(自然科学版),2004,17(1):19-21.

[16] 张万水,陈利国,黄运坤,等.数据挖掘技术及其在中医遣方用药规律中的应用[j].辽宁中医药大学学报,2006,8(4):62-64.

[17] 陈 波,蒋永光,胡 波,等.东垣脾胃方配伍规律之关联分析评述[j].中医药学刊,2004,22(4):611-613.

[18] 纪荣芳,牛建昭,许树强,等.从数据挖掘角度看中医药治疗健忘与痴呆[j].中日友好医院学报,2006,20(6):337-339.

[19] tamraparni dasu, gregg vesonder, jon r, et al. data quality through knowledge engineering, conference on knowledge discovery in data archive, proceedings of the ninth acmsigkdd international conference on knowledge discovery and data mining[c]. washington, d.c.2003.705-710.

[20] 周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望[j].复杂系统与复杂性科学,2004,1(3):45-48.

[21] 董风华,兰小筠.基于文献的知识发现工具——arrowsmith[j].情报杂志,2004,(5):52-54.

[22] swanson d, smalheiser nr. an interactive system for finding complementary literatures:a stimulus to scientific discovery[j]. artificial intelligence,1997,91:183-203.

[23] hristovski d, peterlin b, mitchell ja, et al. using literature- based discovery to identify disease candidate genes[j]. int j med inform,2005,74(2/4):289-298.

[24] kristina m hettne, marissa de mos, anke gj de bruijn, et al. applied information retrieval and multidisciplinary research:new mechanistic hypotheses in complex regional pain syndrome[j]. journal of biomedical discovery and collaboration,2007,2(2):1-16.

[25] 黄志澄.以人为主,人机结合,从定性到定量的综合集成法[j].西安交通大学学报(社会科学版),2005,25(2):55-57.

[26] 任廷革.中医学术和临证经验的继承的技术和方法研究[c].名老中医思想临床经验传承高级研修班资料汇编.2007.119-123.

数据挖掘技术探讨论文篇(2)

中图分类号:F42 文献标识码:A 文章编号:1672-3791(2015)04(c)-0118-01

随着我国经济建设的快速发展,一大批水利工程应运而生,完善了我国水利工程体系防洪、排涝、灌溉、发电、养殖与旅游等重要功能。促进国民经济的快速发展。同时,水利工程建设取得的辉煌成就与其更快的发展需要在水利工程管理手段上作出新的调整,延长水利工程的寿命,发挥水利工程的重要价值。因此,该文从水利工程所运用的数据挖掘技术入手,对数据挖掘技术与水利工程的高效结合作出探讨。

1 浅析数据挖掘技术实施方法

数据挖掘技术是将现已存在的、海量分散的数据作为重要“资源”进行挖掘,从而研发出新的技术[1]。它以数据挖掘引擎为主要工具,通过对数据库中的数据进行分析,提炼出最具价值的数据信息。

1.1 利用关联性分析

通过数据间存在的关联性在数据源中找到所需要的目标数据以及延伸信息,通过数据间的联系找出规律,以便更好的分析利用数据。

1.2 数据的分类与整合

将较多的数据进行有目的的分类整合,对于没有规律与类型标记的数据按照相关规则进行分类,使具备相同规律的信息集中在一起。方便数据的查找与应用,提高数据认识能力,提高工作效率。

1.3 坚持预见性分析

要在数据源中保持预测性分析,通过重要数据类模型,对信息进行综合有效的分析与预测,从而得出数据发展趋势[2]。让数据本身通过数据挖掘技术得出所需结论。

1.4 把握概念

通过了解数据源中所需信息的内涵,概括其主要特征,作出概念性的描述。使数据具有较高的明确性。

1.5 把握数据偏差

数据在导入导出之间难免会存在偏差,通过数据挖掘技术对数据进行必要的检测,找出参照值与结果之间是否存在差异,从而发现一些潜在信息,缩小数据误差。

2 数据挖掘技术在水利工程管理中面临的主要问题

2.1 观点的差异性

在水利工程管理中,需要利用数据挖掘技术处理大量的空间数据。由于水利工程具有系统性,需要多个部门与领域的协调配合来实现高效的管理。然而在数据分析上往往因为角度不同,使专家之间有不同的意见。因此要加强利用新技术,利用交互探查、查询驱动等方法对数据进行探查式的快速联机查询,从而对数据进行有效分析,减少差异。

2.2 与GIS系统相孤立

GIS是水利工程信息系统的主体,它可以生成大部分空间数据。但是查询、计算与分析空间数据,使其可视化显示是一项较为复杂的技术,需要充分利用GIS系统[3]。因此,充分利用其原有数据,让数据挖掘与GIS有效的结合,二者共同处理复杂的空间数据是一项重要问题。

2.3 数据挖掘系统模型尚未建立

数据挖掘系统模型能帮助水利工程进行数据挖掘。在系统工程中,模型对于研究与设计以及实现工程目标具有重要作用,建构模型是系统工程完美实现的重要基础。

3 如何在水利工程中高效利用数据挖掘技术

3.1 充分利用GIS系统

水利工程的建设与管理受到地形、地质、河流、水文以及社会经济等多方因素的影响,需要运用处理和分析空间信息能力较强的GIS系统加以帮助。利用GIS系统中的大量空间和属性数据提供数据指导。将数据挖掘技术与GIS系统向结合能有效提高GIS的查询与分析能力,促进智能化系统的建立。

3.2 加强嵌入式耦合模式的运用

将数据挖掘系统与GIS进行耦合,形成双系统。[4]让GIS系统为数据挖掘提供基础,同时利用其丰富的空间数据与较强的分析能力减少数据挖掘的开发量,是开发效率达到一个新的突破。

3.3 重视松散式耦合

数据挖掘系统与GIS系统既相互联系又彼此独立,数据挖掘仅调用GIS系统中的空间数据与属性数据进行数据分析,让其他数据仍在原系统中进行,二者保持相对的独立性。这样可以促进各自系统的不断发展,得到更好、更快的开发与利用。

3.4 保持紧密式耦合

水利工程管理数据挖掘系统的首选便是紧密式耦合,它将嵌入式与松散式耦合向结合,在相互独立的情况下加强彼此的联系[5]。让数据挖掘系统发挥独立功能,使开发难度有所降低,增强系统的灵活性。

4 结语

在水利工程管理中利用数据挖掘技术,对水利工程数据进行全面综合的分析,找出并充分利用有价值的潜在信息,提供更加有效的管理决策,使建设资金得到更加高效的利用,降低工程管理的总成本,让水利工程发挥重大的经济效益与社会效益。该文主要探讨数据挖掘技术的实施方法以及如何在水利工程管理中高效的数据挖掘技术,初步认为在水利工程管理中需要数据挖掘技术与GIS系统的合作,二者的相互协调合作能够充分利用工程数据,促进数据挖掘技术的高效运作,提高水利工程管理水平。希望数据挖掘技术得到更多的开发与利用,为水利工程管理提供更多的帮助,促进国民经济的快速发展。

参考文献

[1] 王东坡.基于数据挖掘技术的水利工程管理[J].吉林水利,2014,(6):38-40,49.

[2] 韩红旗.数据挖掘技术在水利工程管理中的应用研究[J].中国管理信息化,2010,13(4):76-79.

数据挖掘技术探讨论文篇(3)

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

数据挖掘技术探讨论文篇(4)

中图分类号:N42 文献标志码:A 文章编号:1006-8228(2012)12-52-02

Analysis on research-oriented teaching model in data warehousing and data mining

Huang Meili

(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)

Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.

Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice

0 引言

20世纪90年代兴起的数据仓库和数据挖掘是数据库研究、开发和应用中最活跃的两个领域。随着其理论及应用技术和产品的不断成熟与发展,数据仓库与数据挖掘不仅成为高等院校计算机专业、信息技术与信息管理类专业硕士、博士研究生的专业课程,而且相继在本科相关专业高年级学生中开设了该课程。

该课程是一门综合性和实践性很强的课程,其内容新且广,对于本科教学有一定的难度。本文针对课程自身特点及高年级学生学习及能力培养需要,结合自身教学实践,探讨以激发学生学习兴趣为着眼点、学生分析解决问题能力培养为目的的研讨型教学模式。

文中章节1具体介绍课程内容、教学过程中存在的问题及研讨型教学模式;在章节2中,以自身的教学实践为例,给出研讨型教学实践效果及该方法应用的注意事项;最后,是结论部分。

1 本科数据仓库与数据挖掘课程教学

1.1 课程教学内容

数据仓库与数据挖掘课程涉及两方面的教学内容:①数据仓库技术和基于数据仓库的联机分析处理应用技术。具体包括数据仓库的基本概念、创建技术和方法、数据仓库的体系结构以及OLAP的基本概念、多维数据库、OLAP的实现技术。②数据挖掘的基本概念、基本方法和基本技术(包括分类、预测、关联、聚类等),以及数据挖掘的应用。

1.2 课程在本科教学过程中存在的问题

⑴ 教学内容不统一

由于该课程是一门综合性很强的课程,涉及到的学科知识很广,加上在本科教学中开设的时间并不长,也没有得到大家一致认可的相应教材供使用,使得开设该课程的不同高校的教学内容与教学重点各不相同,即便是同一学校不同教师对于教学内容的把握上也有很大差异。

⑵ 传统教学方法的不适用性

虽然本课程涉及内容宽泛,而且是在已具备自主学习能力的本科高年级学生中开设的,但是课程的教学方法却多采用传统的以教师讲授为主、学生为辅的教学模式。

从本科教学过程中存在的问题可见:课程授课对象及课程自身的特点,决定了传统教学方法的不适用性[1-3]。因此,有必要探讨新的教学模式在具体教学实施过程中的应用。

1.3 研讨型教学模式

虽然课程涉及到的学科内容广且深,但是对于已学习高等数学,并熟悉数据库知识和具备程序设计能力的高年级学生而言,还是能较好地掌握数据仓库的建模以及经典数据挖掘算法的实现与简单应用。因此,在课程的教学实践中,我们把该部分内容作为课堂教学的重点;对于一些较难的和新的挖掘算法与技术,及其应用和最新发展趋势,则作为学生研讨内容。

作为传统的教师讲解教学模式的有益补充和提高,开展研讨型的教学模式,可以按照如下四个环节开展:

⑴ 教师出题&学生选题;

⑵ 相关文献查阅;

⑶ 报告撰写;

⑷ 课堂汇报与讨论。

第一步,由教师出题,学生选题。在学期初,就由教师给出研讨的主题供学生选择。这样既可以避免学生选题过于盲目,也可以避免最后课堂讨论阶段的研讨内容偏离课程教学主题。

第二步,相关文献查阅。在接下来的课程教学期间,学生除了保证基本的学习内容的掌握之外,还需要利用课余时间,利用各种手段查阅与选题相关的文献,为报告的撰写和汇报阶段做充分的准备。

第三步,报告撰写。经过大量的文献阅读后,学生需撰写文献阅读报告,报告的撰写格式可以参考毕业设计的要求。

第四步,课堂汇报与讨论。在课程后期,教师在每次课堂上抽取一定的时间,供学生课堂汇报,然后其他学生与教师一起针对学生的汇报内容展开讨论。该环节的开展,既开拓了学生的视野,又可以有效地避免部分学习不认真的学生的应付行为。

从教师出题到最后的学生课堂汇报与讨论,每个环节都要求学生的亲自参与。这样,在课时有限的情况下,以研讨型的教学模式开展教学,既可以保证教学内容的讲授,又能使学生主动参与到课堂教学中来,激发了学生的学习主动性,拓宽了学生的视野。

2 研讨型教学实践效果及注意事项

2.1 教学及其效果

我校在大四计算机专业学生中开设该课程。其中,理论32学时,实验16学时,共计48学时。教材采用韩家炜先生编著的《数据挖掘:概念与技术》一书[4]。该教材是得到业内广泛认可的经典教科书,但教材内容偏重理论。为了在有限的课时内,让学生尽可能掌握基本教学内容,使得研讨型教学模式得以开展,我们以李志刚编著的《数据仓库与数据挖掘的原理与应用》作为相关内容的辅助教材[5]。具体地,按如下方式进行。

2.1.1 教学内容及学时分配

教学内容围绕数据仓库与数据挖掘两条主线展开。涉及的相关内容及学时分配如表1所示。

2.1.3 考核方式

期末总成绩=平时成绩25%+文献报告25%+期末卷面成绩50%

在最近两年的研讨型教学模式实践中,我们选出有代表性的学生作品,如表3所示。

2.2 教学注意事项

研讨型教学模式适用于“数据仓库与数据挖掘”课程的教学,但是在相应课程中开展研讨型的课程教学模式需注意以下几点。

⑴ 注意授课对象的选择。文献资料的查阅、文献阅读报告的撰写以及课堂汇报是研讨型教学模式开展过程中的主要环节,而这些环节要求学生所需具备的能力,不适于在低年级学生中开展。

⑵ 注意教学模式的选用。研讨型教学模式不能代替传统的教师讲解的教学模式,而应是两者的有机结合。

⑶ 注意考核方式的改革。研讨型教学模式的开展,除占用一定的课堂教学时间之外,还需要学生花费大量的课外时间用以查阅文献资料、撰写报告等。如果采用传统的以考试为主的考核方式,那么在实践过程中可能会遇到部分学生的抵制。因此,为了提高研讨型教学模式的效果,需要对传统的以期末笔试成绩为主的评价方式进行适当改革,向研讨内容及成果倾斜,以提高学生的积极性。

3 结束语

研讨型教学模式的开展,可以有效地避免传统教学方法下以教师讲解为主,以学生为辅的填鸭式教学模式,较好地解决数据仓库与数据挖掘课程在本科教学过程中遇到的问题。

经过近几年在本科计算机专业毕业班对该课程采用研讨型教学模式的实践表明,该模式的开展不仅有效地激发了学生的学习兴趣,开拓了学生的视野,而且能够很好地为学生的毕业设计环节中有关文献查询、论文撰写及答辩等奠定基础。从列举的近两年的代表性学生研讨内容及成果中可以看到,该教学模式在高年级学生中开展是现实可行的,而且也是有效的。

研讨型教学模式的开展,需要占用一定的教学时间,如何在有限的课时内保证教学内容,并挤出足够的时间开展研讨是教师必须考虑的问题;与此同时,学生为准备研讨内容需要花费大量的课余时间,因此,如何调动学生的积极性也是该模式能否成功应用的关键因素之一。上述两方面的问题,都有待在今后的教过实践中,进一步深入细化该模式,以更好地达到教学培养目标。

参考文献:

[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,

2007.7:27-29

[2] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,

2007.23(3):209-210,214

[3] 韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高

教论坛,2011.1:94-96,99

[4] 李志刚,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版

数据挖掘技术探讨论文篇(5)

中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2017)03-0147-02

随着移动互联网和物联网的快速发展,我们进入大数据时代,现在每天的数据记录比人类历史数据记录还要多,数据使用量从GB(10的9次方)发展到TB(10的12次方),面对复杂的半结构化或非结构化数据资源,传统的数据存储、分析和处理技术难以完成,产生大数据概念,与大数据相关的数据挖掘和数据应用已成为研究信息科学领域的热点。一直是该领域专家关注的焦点。

近年来,一些世界顶级科学期刊,开始建立大数据技术应用专栏,讨论大数据技术在各个科学领域的应用。在心理学领域,许多心理学家已经开始使用各种大数据平台来收集和处理所有类型的数据用于相P研究。目前,学生管理系统只针对学生心理健康指标的客观记录,数据处理工作仅是简单统计、存储、备份、查询等,没有充分利用这些数据,这为数据库应用和数据挖掘技术在大学生心理危机预防和发展提供空间和资源。

1 数据挖掘技术的概述

数据挖掘是从大量、不完整的、嘈杂的、模糊的和随机数据中提取潜在有用的信息和知识的过程。随着信息科学技术的发展,各个领域积累的数据量迅速增加。如何从海量数据中提取有用的知识和规则已成为研究热点之一。数据挖掘是一种数据管理、分析和处理技术,是知识发现的关键一步。该方法的主要应用是相关分析、分类、聚类、预测时序模式和偏差分析。

图1所示是一个数据挖掘模型。它表示数据挖掘的基本过程,大量的数据挖掘,根据管理的定义,预处理后的数据获得可靠的格式,便于挖掘向导处理数据,然后进入挖掘内核 得到模式集合,模式集合可以表达和解释通过挖掘管理器模式过滤之后可以得到用户理解和使用的综合知识库。

2 数据挖掘的算法概述

2.1 基于决策树的分类算法

决策树算法是基于实例类的归纳分类算法。 该算法可以为给定数据集构建决策树模型,并提取直观,易于理解的分类规则知识。基于决策树算法的自顶向下递归分类,首先,对于分类度量值数据集每个属性值进行分类,选择根节点。其次,从节点到分支机构根据不同的计量属性范围将数据集合划分为不同的数据子集; 然后递归方法地将数据分区,分区到所有子集属于同一范畴,停止扫描。最后建立末端的叶子节点。

2.2 基于人工智能的分类算法

人工神经网络的灵感来自于生物学,用人工神经网络来模拟脑神经元的处理。最好的方法是它可以通过训练方法自动匹配输入数据和输出数据,学习过程不需要控制,只要对训练参数进行调整即可。这为我们的建模提供了非常有用的手段。

2.3 基于模式识别网络算法

贝叶斯模型分类基于贝叶斯公式,根据某对象的先验概率计算后验概率来。选择后验概率最大的类作为该对象所属的类,Michie等人在1994年 将朴素贝叶斯分类与决策树算法和神经网络算法进行比较,发现贝叶斯算法和其它算法的性能在大多数情况下是相当的,在某些条件下会优于其它算法。如图1所示。

3 基于数据挖掘的心理危机预防系统的建立

基于上述挖掘算法,基于三种数据挖掘方法的心理危机预警系统结构如图2所示。系统分为三层:数据层、数据挖掘层和用户界面。数据层主要存储学生心理测试数据。处理原始数据以获得目标数据挖掘集合。数据挖掘层用于挖掘目标数据集。用户界面层可以查看数据挖掘结果和挖掘评估、条件分析和规则知识挖掘。如图2所示。

4 结语

研究大规模数据技术在大学生心理危机预警和预防自杀策略中的应用具有很高的实用价值。使用大数据技术的快速、可预测、准确和实用性等应用价值,可以快速准确地确定危机的状态和程度,从而有效地制定危机干预计划,减少或消除危机。为大数据应用技术的未来发展提供参考和借鉴。

参考文献

[1]喻丰,彭凯平,郑先隽.大数据背景下的心理学:中国心理学的学科体系重构及特征[J].科学通报,2015(01).

[2]何非,何克清.大数据及其科学问题与方法的探讨[J].武汉大学学报(理学版),2014(01).

数据挖掘技术探讨论文篇(6)

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)07-0065-01

随着信息呈爆炸式趋势增长,人们急需从不同角度对海量信息进行解读,使数据挖掘需求日盛。然而,传统数据挖掘方式各有弊端,云计算方式成为必然选择,基于云模型的数据挖掘技术研究也成为重要课题。

1 云计算与云模型

云模型模型数字特征示意图如图1。其中Ex能够代表定性的概念,反映云滴群的云重心。En可以反映概念的模糊度,以及一定程度上表明模糊度与随机性的关联度。He是直接反映云的集中程度,用以表示空间中所有点的凝聚程度,在云模型中称之为熵。

2 云模型数据挖掘分析

(1)云模型数据挖掘的特点优势。

(2)云模型下的可视化技术。

云模型始终属于较为抽象的概念,主要将模型具体化,利用图形、图像等形式,并通过一定技术手段表现出来。如图2所示,都可以表示数据的不确定性。

可视化是通过云发生器来实现的。发生器有正向与逆向之分,正向发生器基于三个特征数字来实现可视化,根据三个特征数字产生云滴,近而累积成云;逆向发生器基于数据开发挖掘云模型的三个特征数字,是定量到定性的映射,在此基础上进一步反映整个云滴的整体。

3 基于云模型的数据挖掘技术

通过以上对云模型特征数字的分析,可以通过参数的使用分析,构建特征空间和概念空间。概念空间是从同一属性角度来集合不同的概念,而特征空间则是通过集合不同的属性来描述实体。云模型中云滴的分布会形成一个空间,在概念空间里云滴会构成一个等势线,称其为概念层次。同样,在特征空间中也会有概念层次,代表着实体的等势层次。

在概念空间中,每个数据都会在云模型中形成一个云滴,众多云滴构成一个空间。但是每个数据的权重、影响力可能不一样,模型中从云滴的位置以及云滴的亮度来表征这个问题。云滴的位置越靠近云重心、云滴越亮则云滴的影响力越大。在概念空间中,可以选择不同的角度来分析空间数据,而选择角度不同就是选择不同的函数来计算点势。图3为概念空间的等势线与等势面举例。

概念空间基于对概念的分析归类。不同的概念之间应该有着众多关系类型,诸如包含、从属、等价、相似等等。通过数据场的交互作用而构成泛概念树。云模型中的泛概念树区别于一般意义上的概念树,可以拥有多个父节点。泛概念树的组成情况可以因为不同的属性集合、实体群组合状态等的不同而不同。

在特征空间中,其等势的思想方法与概念空间中相似,两者的区别就在于特征空间以实体为基本的空间点,概念空间则是从属性角度出发表达概念。当问题集中在讨论空间实体的特征时,常常用特征空间加以表示。从特征空间角度对实体进行研究,其空间粒度与空间范畴将变得更大。特征空间所描述的实体的特征将构成一个多维的空间。通过把实体的多种属性以某种方式投射到空间中,形成一个特征点,累积下来就完成了特征空间的构造过程。随后进行数据分析,通过数据空间点所呈现出来的特性进行数据挖掘,这些特征包括点的整体抱团聚类、势的特征等等。普通的分析方式对于数据聚类的分析往往采用练习数据集归类和测试方法的有效性两部分,但是两部分数据的选取原则与选取标准仍然不够完善,并且对数据的不同权重也没有足够的关注。因此在特征空间中得到数据分析聚类结果更可靠。

总之,基于云模型的数据挖掘,结合不确定性推理和云变换共同实现挖掘技术。通过云滴模型的构建,能够具备三个特征参数值,能够反映云模型的中心值、模糊度、离散度等模型特征。从模型特征又可以进一步对实体的定性问题、概念模糊度、随机度等进行分析。云模型技术能够很好地进行定性概念与定量数据间的映射。数据挖掘则可以通过不同势层的表征,结合不同观察角度来实现信息的过滤和提取。基于云模型的数据挖掘技术以其高存储性能和超强计算能力日益得到广泛的应用,技术上的深入研究也显得紧要而迫切。

参考文献

数据挖掘技术探讨论文篇(7)

XMLHelper.outputXMLToFile ( doc,"XML" + File.separator + "man.xml");

}

然后在Microsoft的Internet Explorer XML 查看器使用man页面中的XML。

3.3 查找数据的引用点

无论是在Web页面还是源XHTML视图中的绝大多数的信息都与我们完全无关。接下来的是在XML树中找出一个特定区域,从中抽取我们的数据而无须关心外来信息。对于更复杂的抽取,我们可能需要在单个页面上找出这些区域的若干实例。完成这一任务的最简单的办法是先检查Web页面,然后使用XML。只需要看一下页面,就可以知道我们正在查找的信息位于页面的中上部区域中。即使对HTML的熟悉程度非常有限,也易推断出正在查找的数据可能都包含在同一个<table>元素下,并且这个表可能总是包含像“心理健康”和“压抑症”这样的词,同时需要考虑页面所生成的XHTML,把该表作为引用点或锚。我们需要找到这个锚的方法,使用XSL来转换所得XML,通过使用XPath表达式来完成这个任务。用以下这个普通的表达式:/html/body/center/table[6]/tr[2]/td[2]/table[2]/tr/td/table[6]。更好的办法是利用XSL将XML树转换成字符串的方法:

//table[ starts-with(normalize-space(.),'Appar Temp')]

3.4 将数据映射成XML

拥有这个锚,我们可以创建实际抽取数据的代码,这个代码将以XSL文件的形式出现。XSL 文件的目的是标识锚,指定如何从锚获取我们正在查找的数据(以简短跳跃的方式),并且用我们所需的格式构造一个XML输出文件。

XSL关键代码如下:

<xsl:template match ="/html">

<RESULT>

<HEALTH>

<xsl:apply-templates/>

</HEALTH>

</RESULT>

</xsl:template>

<xsl:template match="table[starts-with(normalize-space(.),'心理健康')]">

<HEALTH>

<xsl:value-of select="tr/td[2]/font"/>

</HEALTH>

只编写XSL,并不能完成这个功能,还需要一个执行转换的工具。现在利用XMLHelper类方法对XSL 进行语法分析并执行这个转换。执行这些任务的方法分别名为parseXMLFromURL()和trans-formXML()。我们可以通过下列代码来测试:

public static void main(String args[]){

Document xhtml = XMLHelper.parseXMLFromURLString("file://health.xml");

Document xsl = XMLHelper.parseXMLFromURLString("file://XSL/health.xsl");

Document xml = XMLHelper.transformXML(xhtml,xsl);

XMLHelper.outputXMLToFile("XML"+File.separator + "result.xml");

……

}

3.5 合并与处理结果

如果我们只执行一次数据抽取,现在已经完成了。但是,我们并不只是想知道某一时刻的健康资料,而是要知道若干不同时刻的健康资料。因此,我们需要做的是反复执行抽取过程,把结果合并到单个XML数据文件中。

4 结束语

面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。相信今后,随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松。今后几年Web 挖掘研究的主要方向有:

(1)在数据预处理方面,多种Web数据的收集、结构转换等处理技术的研究;

(2)Web挖掘方法和模式识别技术在构造自适应站点以及智能站点服务的个性化和性能优化方面的研究;

(3)Web知识库的动态维护、更新,各种知识和模式的评价综合方法的研究;

(4)基于Web挖掘和信息检索的,高效的、具有自动导航功能的智能搜索引擎相关技术的研究。

总之,网络挖掘作为一种新兴的信息分析技术并没有一个完善的预设结构,还需要进行不断的科学探索根据目前的研究状况预测。

参考文献:

[1] Han J,Kamber M. 范明,孟小峰 译. 数据挖掘:概念与技术[M]. 北京:机械工业出版社,2001.

[2] 王实,高文, 李锦涛. Web 数据挖掘[J]. 计算机科学,2000,27(4).

[3] 邓英, 李明. Web 数据挖掘技术及工具研究[J]. 计算机与应用,2001,(20).

[4] Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of ACM,1999,46(5):604-632.

[5] Lawrence S,Giles C L. Accessibility and distribution of information on the Web[J]. Nature,1999,(400):107-109.

数据挖掘技术探讨论文篇(8)

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2014)06-1253-03

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

数据挖掘是一门包括了数据库系统、专家系统、机器学习、统计学、模式识别、信息检索、人工智能等学科的综合性的学科,其目标是发现隐藏在大型数据集中的知识模式。此课程一般是在研究生教育阶段开设[1],但随着社会对应用型人才的需求越来越大,这就要求我们的学生毕业后不仅要有扎实的理论基础,更要有较强的创新能力和实践能力。

我校针对信息与计算科学及统计学两个专业开设了数据挖掘课程。该专业学生拥有较强的数学理论基础,并掌握了数学建模、统计学、数据库等相关学科。数据挖掘作为一门综合性课程,是融合学生各科知识,提高该专业学生应用实践能力,培养学生团队协作能力的很好的载体课程。

1 数据挖掘课程教学特点

数据挖掘技术是一个多学科交叉的综合研究领域。不过也正因为它涉及的范围很广泛,发展的时间也不是很长,因此要真正理解数据挖掘的本质并不是一件容易的事情。我校针对信息与计算科学和统计学两个理学专业开设此课程,并将此课程归类为实践类课程。经过笔者多年对传统教学方法的研究和改革,发现了在数据挖掘教学中存在的问题:

1) 理论教学困难:数据挖掘课程内容涉及领域广泛,如统计学、数据库、机器学习、模式识别等内容,并且所涉及的算法繁多。由于本科生的知识体系不健全,理论基础相对薄弱,造成了学习难度过大。此外,由于学时限制,无法在课堂中详细地讲述算法理论,导致了学生积极性不高,很难达到教学目标。

2) 实践环节无法让学生体会数据挖掘本质:数据挖掘是从数据获取、数据整理、预处理、数据挖掘分析、结果分析等一系列流程的综合。但由于课时关系,我们课程中的实践环节往往是针对某个特定的算法,让学生利用已经预处理好的数据进行算法的应用。数据挖掘成本很高,但是这个成本往往并不是金钱,而是时间,而数据整理和预处理的时间往往占到全部工作量的80%。不经过完整的数据挖掘流程训练,学生就无法体会数据挖掘的本质。

3) 软件应用缺乏:针对海量数据分析是必须要应用到计算机技术处理。当今针对数据挖掘应用的软件很多,如SAS公司的EM模块、SPSS的Modeler、WEKA、Matlab以及各数据库系统配套的OLAP功能等。在课堂中,不可能对任何一款软件都详细的进行讲解。这就使得学生很难进行算法的应用实践。

2 任务驱动探究式教学模式

针对目前教学存在的这些问题,广西大学梁斌梅提出了目标驱动的专业课教学法,利用导入课吸引学生、利用教学目标引导学生[2]。韩秋明等人编著的《数据挖掘技术应用实例》中采用了大量的行业数据,为数据挖掘教学模式的改革提供大量的应用实例[3]。结合本校的学生特点,参考国内的一些研究成果,该文提出了基于任务驱动探究式教学模式。课程整体主线由任务驱动,学生进行探究式自主学习。

任务驱动是基于构建主义教学理论基础上的教学方法,以学生为主体,以老师为主导的一整套教学新模式。而探究式教学是与直接接受式教学相对的,在任务驱动的同时,激发学生的好奇心,并驱使学生投入到知识获取的自主学习活动中。任务驱动探究式教学模式是将两者有机的结合起来,使学生能够明确学习目标、提高学习兴趣、提升学习动力,发挥学生的自主学习能力、创造能力,培养学生分析问题、解决问题的能力。通过自主学习,自行的完成阶段性的教学任务,以达到相应的教学目标。任务驱动探究式教学模式,适合操作性和应用性强的课程。任务驱动探究式教学模式的核心思想是在教学方面强调任务驱动,在学习方面则强调探究式学习。因此必须合理地设计课程教学方案,在“教”和“学”两个方面进行设计。老师必须在任务设计、实施进程管理、信息反馈等各方面做好衔接,保证学生能够时刻跟上任务进度,并保持足够的兴趣度。

3 基于案例驱动探究式教学模式的数据挖掘课程改革

任务驱动探究式教学模式是以学生为主体,教师主导的新型教学模式。教师的作用在于教学组织和任务布置的安排调度。利用任务引导学生学习相关知识,提高学生的学习主动性。因此,如何根据课程需要合理地进行课程任务设计,安排任务进度都是课程改革成功的关键。

3.1 课程内容重新整合

数据挖掘是一个由数据收集、数据预处理、数据分析挖掘、结论分析等各个步骤组成的整体过程。在现有的数据挖掘书中,针对数据收集、数据预处理部分往往比较简化,大部分篇幅都在讲述数据挖掘算法,如分类算法、关联算法、聚类算法。如果在课程内容设计时,仅仅对算法做重点讲述而忽略前期步骤,将会造成学生内容知识的脱节,无法体会数据挖掘整个流程,从而不能真正地理解数据挖掘思想本质。因此,本课程教学目标应该是重点培养学生分析问题、解决问题和团队协作能力,树立数据挖掘思维体系,了解数据挖掘基本算法,能够应用数据挖掘软件解决实际问题并得到结果。

根据这个教学目标对课程内容进行适当调整。首先,增加绪论内容并设置导入课。在导入课中增加生活中学生感兴趣的数据挖掘故事,经典案例以及各行业中的应用,从而提高学生学习的兴趣。其次,适当增加数据获取、数据预处理以及数据挖掘软件的介绍,使得学生能够明确数据怎么来、如何处理以及用什么工具处理等问题。最后,有选择地介绍基本的数据挖掘算法,所介绍的算法应该是常见、易懂并且能够很容易使用软件实现的,如决策树算法、K均值聚类算法、Apriori算法、朴素贝叶斯算法等。而针对比较难的算法,可以仅做介绍,让学生在今后遇到此类问题能够自主的进行学习。通过内容的调整,一方面使得学生不会因为数据挖掘算法繁多且复杂而惧怕,保证学生的学习兴趣,从而很好的引导其自主学习,提高教学效果。另一方面,数据挖掘算法在不断的改进,不可能在课程中覆盖所有。通过基本算法和工具的结合,能够很好地帮助学生从算法理论转变成算法实现,从而真正的进行数据挖掘工作。即使出现了新的算法,也能够举一反三,进行软件实现。

3.2 组织方式的改变

任务驱动探究式教学模式必须以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。

学生是项目的负责人,在接受一个短期任务后,就要自主的开始进行任务的执行。老师仅仅在课堂中进行了基本知识的讲解,学生要完成任务就必须学习更多的课外知识。项目的研究内容是自己选择的,而且完成阶段性的任务并不是那么的遥不可及,所以学生有足够的兴趣和信心去完成。通过查阅资料、学习知识、任务分配、安排和组织实施等,完成教学任务的同时也锻炼了他们团队合作意识、沟通能力、自主学习能力。这些能力的培养才能使他们在知识不断更新的当今,紧密地跟紧前沿技术并更好的去解决实际问题。

3.3 任务进度控制和评价

课程的课堂教学时间是有限的,老师不可能在课堂中既完成理论教学,又给足时间让学生进行课程任务,所以项目的实施必须是在课后进行。学生要在课外进行大量的参考资料阅读、相互讨论及数据分析的工作。那么老师作为主导者,必须及时地了解学生阶段性任务的完成情况,对当前学生遇到的困难及时给出建议和意见,甚至在学生遇到真正的难题给予技术上的支持。所以本课程在理论课教学的同时,也开展了定期的讨论课,让学生定期汇报阶段性任务的完成情况,及时进行任务进度的控制。整个项目的实施流程和任务分解如图1。根据流程安排,理论引导学生任务的进行。通过学生任务的完成情况,老师在完成基本理论教学的同时,有针对性的对学生所遇到的问题进行讲解,最终目标是引导学生完成整个教学项目。一方面,学生自主学习能力提高,有足够的兴趣和能力去完成每个阶段的任务,并且会更加认真的在理论课中寻找自己想得到的知识。另一方面,由于学生自主寻找的项目多样性,选择的算法不可控性,同样促使老师不断的提高自身,教学内容不再一成不变,而是随时的更新。

图1 任务进度安排流程图

良好的进度控制需要一个完善的评价体系做辅助。只有做好每个阶段性的评价,引入一定的竞争机制,才能提高学生积极性和自信心。首先,必须做到极端性任务的目标和时间明确化。要完成什么,在什么时候完成,都必须事先和学生约定。对没有按时完成任务的组,必须做出相应的惩罚,如扣除本阶段的得分。除此之外必须分析原因,搞清为什么无法完成任务,有针对性地提出建议和意见,以便学生能够及时调整。其次,评价标准既要唯一又要区别对待。唯一标准指的是一样的进度,一样的任务,一样的要求。但是数据挖掘项目会根据研究领域不同、使用算法不同、数据质量不同而造成难度差异,一味的同等标准要求会造成选择难度较高项目的学生积极性下降。所以老师必须客观的分析每个项目难度,并区别对待。对于由客观难度造成任务进程落后的组,应当在解决问题后给予奖励。并且,在最终论文评定时,适当的加入一定的难度分,以鼓励学生培养自我挑战的精神。通过教师评价、组长评价、组间评价等评价方式,客观的合理的对整个项目实施作出最终的评价结果。

4 结束语

通过案例驱动探究式教学模式的改革,数据挖掘课程在教学效果上得到了实质性的提高。人才培养上卓有成效,老师也在教学过程中受益良多。通过教学模式的改革,使得原本枯燥、难懂的理论教学变得生动。学生的求知欲望得到了激发,课程的学习目标更加的明确,教学质量也有很大的提高。同时我们发现,学生的自主学习能力、汇报能力、论文撰写能力都有了明显的提高,并且有很多教学项目被用于毕业论文的研究。数据挖掘课程也因此被选为宁波市级的智慧产业核心引导课程。

参考文献:

数据挖掘技术探讨论文篇(9)

数据库论文国外参考文献:

[1]艾孜海尔江·艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217——219.

[2]刘霞,赵鑫,吕翠丽.数据库挖掘技术在网络安全防范中的应用[J].动画世界,2012,20(06).

[3]尚世菊,董祥军.多数据库中的副关联规则挖掘技术及发展趋势[J].计算机工程,2009(05).

[4]吕安民,林宗坚,李成明.数据库挖掘和知识发现的技术方法[J].测绘科学,2010(04):123——130.

[5]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(02):174——176.

数据库论文国外参考文献:

[1]宋安,习勇,魏急波.基于μCLinux的NAT设备的设计与开发[J].电子工程师,2005-05-15.

[2]徐叶,袁敏,李国军.嵌入式Web服务器远程监控系统的设计与实现[J].计算机与现代化,2013-02-27.

[3]王俊,郭书军.嵌入式Web服务器的实现及其CGI应用[J].电子设计工程,2011-11-05.

[4]高建国,崔业勤.ARTs-EDB的内存数据存储管理[J].微计算机信息,2010-01-25.

[5]陈嘉.嵌入式主存数据库索引机制的研究与改进[D].湖南师范大学,2006:278-282.

[6]刘志东.基于嵌入式Web技术的远程射频识别系统的设计与实现[D].西北民族大学硕士论文,2012-04-01.

[7]贺永恒.基于IAIDL的信息家电体系结构研究[J].中国科技信息,2009(04):154-156.

[8]陈一明.嵌入式数据库的智能家居网关设计[J].微计算机信息,2009-04-15.

数据库论文国外参考文献:

[1]余明辉,胡耀民.基于SQLServer2008决策支持系统模型的研究和应用[J].微计算机信息,2010,26(2-3):178-180+192.

[2]张克友.基于SQLServer财务数据库安全技术的探讨[J].信阳师范学院学报(自然科学版),2008,21(4):587-590.

[3]胡家汉,李景峰.对SQLServer数据库的安全和管理策略探讨[J].计算机光盘软件与应用,2012,(2):101-102.

[4]胡登卫.高校实验室信息化管理系统SQLServer数据库安全策略研究与实施[J].商丘师范学院学报,2009,25(3):96-99+106.

数据挖掘技术探讨论文篇(10)

云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。

1.2数据挖掘

数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。

2基于云计算的数据挖掘平台构架

网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。

2.1数据挖掘平台构架

建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。

2.2基于云计算的数据挖掘平台构架各层意义

云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。

3基于云计算的数据挖掘平台构架的关键技术探讨

基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:

3.1云计算技术

3.1.1分布式储存技术

通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。

3.1.2虚拟化技术

在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。

3.1.3并行云计算技术

并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。

3.2数据汇集调度中心

数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。

3.3服务调度与管理技术

对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。

上一篇: 亮剑精神心得体会 下一篇: 关于食品安全的
相关精选
相关期刊