人工神经网络汇总十篇

时间:2023-03-01 16:20:06

序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇人工神经网络范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。

篇(1)

神经网络是一个具有高度非线性的超大规模连续时间动力系统。是由大量的处理单元(神经元)广泛互连而形成的网络。它是在现代神经科学研究成果的基础上提出的,反映了脑功能的基本特征。但它并不是人脑的真实描写,而只是它的某种抽象、简化与模拟。网络的信息处理由神经元之间的相互作用来实现;知识与信息的存储表现为网络元件互连间分布式的物理联系;网络的学习和计算决定于各神经元连接权系的动态演化过程。因此神经元构成了网络的基本运算单元。每个神经元具有自己的阈值。每个神经元的输入信号是所有与其相连的神经元的输出信号和加权后的和。而输出信号是其净输入信号的非线性函数。如果输入信号的加权集合高于其阈值,该神经元便被激活而输出相应的值。在人工神经网络中所存储的是单元之间连接的加权值阵列。

神经网络的工作过程主要由两个阶段组成,一个阶段是工作期,此时各连接权值固定,计算单元的状态变化,以求达到稳定状态。另一阶段是学习期(自适应期,或设计期),此时各计算单元状态不变,各连接权值可修改(通过学习样本或其他方法),前一阶段较快,各单元的状态亦称短期记忆(STM),后一阶段慢的多,权及连接方式亦称长期记忆(LTM)〔1〕。

根据网络的拓扑结构和学习规则可将人工神经网络分为多种类型,如不含反馈的前向神经网络、层内有相互结合的前向网络、反馈网络、相互结合型网络等〔2〕。本文的人工神经网络模型是采用BP算法的多层前馈网络。

该模型的特点是信号由输入层单向传递到输出层,同一层神经元之间互不传递信息,每个神经元与邻近层所有神经元相连,连接权用Wij表示。各神经元的作用函数为Sigmoid函数,设神经网络输入层的p个节点,输出层有q个节点,k-1层的任意节点用l表示,k层的任意节点用j表示,k+1层的任意节点用l表示。Wij为k-1层的第i个神经元与k层的第j个神经元相连接的权值。k-1层的节点i输出为O(k-1)i,k层节点j的输出为:

k层节点j的输出为:

Okj=f(netkj)

设训练样本为(X,Ye),X为p维向量,加到输入层;Ye为q维向量,对应于期望输出;网络的实际输出Y也是q维向量。网络在接受样本对的训练过程中,采用BP算法,其权值调整量为:

ΔWij=-ηδkjO(k-1)i

其中,对于输出层为:

δkj=yj(1-yj)(yej-yj)

对于非输出层为:

η为训练步长,取0<η<1。

用样本集合反复训练网络,并不断修改权值,直到使实际输出向量达到要求,训练过程结束〔3〕。

上述人工神经网络可以完成多种信息处理任务,如从二进制数据中提取相关知识,完成最近邻模式分类,实现数据聚集等。而本文要用的是其极强的数学逼近映射能力,即开发合适的函数f:ARnBRn,以自组织的方式响应以下的样本集合:(x1,y1),(x2,y2)…,(xm,ym),其中yi=f(xi)。这里描述的是一般的数学抽象,像识别与分类这些计算都可以抽象为这样的一种近似数学映射。

所谓诊断,实质上是一个分类问题。即根据候诊者的症状,医学检查结果(如体温、心跳等)等一些情况,它们可以用一向量(e1,e2,…,em)来表示,将其归类为病人或非病人。这也可以转化为寻找一差别函数f使得:

(1)f(e1,e2,…,em)>ε,(e1,e2,…,em)∈T

(2)f(e1,e2,…,em)>ε,(e1,e2,…,em)T

其中集合T表示患病。

因此,病情诊断最终也可作为一类函数的逼近问题。

而许多研究已表明,前向神经网络可作为非线性逼近的标准型。对于实数空间的任一函数,只要它满足一定的条件,一定存在唯一的具有单一隐层的前向网络作为它的最优最佳逼近。而含有两个隐含层的前向网络可在任意的平方误差内逼近某一实函数〔3〕。

诊断步骤

肺癌病例数据选自1981~1994年在某医院住院的病人,共计551例。其中486例(88%)经病理学、细胞学诊断证实为肺癌。每一病例都包括多项数据,其中用于诊断的数据项有:病人的一般情况(如年龄、性别等),家族史、既往史、吸烟史、术后病理、X射线检查、CT检查、纤维支气管镜检查、PAT痰检等多达58项。因此,原则上58项数据应作为神经网络的输入项,而神经网络的输出值就是病人是否患肺癌的结果。

1.网络训练集的确定:在最原始的551例病人数据中存在着各种各样的差别,如性别差异(419例男性,132例女性),诊断结果的差异(486例经证实为肺癌),所患肺癌种类的差异(鳞癌、小细胞癌、大细胞癌等),患病程度上的差异(早、中晚期的不同)等等。显然,训练数据集应最大限度地保证兼顾各种病例情况。经过仔细筛选,选择了含有460个病例的集合作为肺癌诊断用的网络的训练集。

2.神经网络输入和输出数据的预处理

按照人工神经网络的理论,神经网络的输入输出数据都应该属于(0,1)区间的实数,为此我们需对原始数据进行如下的规一化处理:

其中xi为原始数据项,而Max=max{xi∶xi∈X},Min=min{xi∶xi∈X}。这里X为原始数据集。经过(7)式变换后,yi将在(0,1)区间。因此,可作为神经网络的输入输出。

3.应用神经网络进行肺癌诊断

将描述病人各种情况的数据作为前向网络的输入数据加到其输入端,并按(1)~(6)式计算各神经元的输入和输出,同时调整神经元之间的连接权值以使网络的输出和实际的病例情况相符。即当病人确实患肺癌时网络的输出结果也恰好指示为肺癌,反之亦然。如果对所有的训练样本集网络的输出基本上(95%或更高)能保证与实际结果一致,则训练过程结束。我们认为神经网络已建立起病人的各种因素与他是否是肺癌患者之间的函数映射关系。对于一个新的候诊病人来说,只要将他的情况输入到训练好的神经网络中去,根据网络的输出结果就可以知道他是否已患肺癌。

表1基于不同发病因素的诊断网络模型

类型训练集精度测试集精度

基于遗传因素的诊断网53.8%46.3%

基于个人生活习惯的诊断网57.1%44.9%

基于病症的诊断网89.4%83.3%

基于医学检查结果的诊断网98.5%92.6%

上述结果表明不同类型的因素应分开来考虑。于是我们将58项输入数据分成四类,这四类有各自的BP诊断网,依次称为诊断一、诊断二、诊断三、诊断四。它们先单独测定,然后再将它们各自的结果综合起来得出最后的判断。

上述四种诊断网络所得结果的可靠性各不相同。其中,根据医学检查结果所作的诊断准确性最高,因此在最后的综合分析中要重点考虑它的诊断结果,我们给它设一个相对最高的权值。其次,根据病人的症状所作的诊断往往也具有较高的准确性,因此给它的权值也较高,但比医学检查结果的稍低。其他两类因素在有关肺癌的诊断中仅具参考作用,因而所设的权值相对较小。转

最后的结果O为:

O=a1.O1+a2.O2+a3.O3+a4.O4

a1+a2+a3+a4=1

其中Oi,ai,i=1,2,3,4分别为各诊断网的输出及其对应的权值。

当O>0.5时最后的诊断结果为患肺癌,反之则正常。对所有的病例数据经上述方法的诊断结果见表2。

表2神经网络对肺癌诊断结果分析

神经网络

诊断结果训练数据测试数据

肺癌患者非肺癌患者肺癌患者非肺癌患者

+4602253

-038122

其中对于训练集,肺癌病人的正确检出率为100%,非肺癌病人误诊率为5%。对于测试集,肺癌病人的正确检出率为96.2%;非肺癌患者正确检出率为88%,误诊率为12%。

讨论

1.本研究所采用的人工神经网络的肺癌诊断方法的结果较好地符合了已知数据,具有较高的准确性,特别是对于肺癌患者一般都能准确地做出诊断,有利于肺癌的早期发现和治疗。

2.要想进一步提高该方法的准确性,应该注意收集更多更全面的病例数据。人工神经网络主要是利用它能自动从数据集中抽取函数的关系的功能。如果我们所使用的数据越多越全面,则其中所蕴含的事物本身的规律性就越强,利用人工神经网络从中所抽取的函数关系就越具有普遍性,因而就更准确。

3.实现对肺癌的诊断的关键在于准确找到罹患肺癌的判定函数,可利用前向网络的函数逼近功能来实现。但是这里涉及到两个问题。首先,由于差别函数和预测率函数都是利用人工神经网络从已知的病例数据集中抽取出来的,它实际反映的是这些数据集中输入输出对的映射关系。因此要想保证诊断具有较高的准确性,就应该使用来建立函数关系的这些数据集(称训练集)具有充分的代表性,即这些数据应基本蕴含肺癌诊断的医学原理。这就涉及到如何选择网络合理的训练集及关键的输入项。另一个问题涉及到神经网络本身的要求,即网络的输入输出数据值都应在区间(0,1)中。这可以通过数据的编码和归一化来实现。

4.由于某些原因有些病人的病例数据不完整,约占总病例数据的10%左右。显然,如果按照传统的方法来建立肺癌病人的诊断模型〔4〕,这些有缺项的数据是不太好处理的,但是由于人工神经网络有较强的容错性,输入数据在某些项上的错误对网络最终结果的正确性影响不大。

参考文献

1.焦李成.神经网络系统理论.第1版.西安:西安电子科技大学出版社,1995,3

篇(2)

关于人工神经网络技术飞速发展时期,九十年代初期,对于人工神经网络技术的弊端予以充分解决,尤其是Hopefield的人工神经网络技术模型的提出,致使对于互联网的稳定性以及收敛性的探究有了充分的理论依据。而且将人工神经网络模型全面应用到具体的实践中,并且得到全面推广,同时,将科学技术和人工神经网络进行有机结合,使人工神经网络技术更加具有可研究性。

2关于人工神经技术的构造以及典型模型

互联网人工神经技术的构造的组成包括以神经元件为主,同时,这项包含多种神经元结构的互联网信息处理技术是可以并行存在的。每一个具体的人工神经元件可以单一输出,还可以和其他的神经元件相结合,并且具有非常多的连接输出方法,每一种连接措施都会有相应的权系数。具体的人工神经网络技术的特点有:(1)针对每一个节点i,都会有相应的状态变量Xi存在;(2)节点j到节点i之间,是相应的权系数Wij存在;(3)在每一个节点i的后面,具体存在相应的阈值θi;(4)在每一个节点i的后面,存在变换函数fi(Xi,Wijθi),但是,通常情况来说,这个函数取fi(∑,WijXi-θi)的情况。

3将人工神经网络技术进行全面使用

互联网的人工神经网络技术具有独特的结构和处理措施,具体包括在:自动控制处理和网络技术模式识别、模型图像处理和相应的传感器信号处理技术。信号处理技术和机器人控制处理技术、地理领域和焊接、在电力系统应用和相关数据挖掘、军事和交通行业、农业和气象行业等多个领域纷纷体现出其卓越的贡献。

ART人工神经网络技术的运用。人工神经网络技术ART在网络语音和网络图像、文字处理和具体识别等方面,得到广泛的应用;同时,在工业处理系统中也有相应的应用,例如,在工业系统中的故障诊断和故障检测以及事故警报等情况的控制;人工神经网络ART技术还应用在数据挖掘方面,在相关数据中挖掘最稳定和最有意义的模式。具体的神经网络技术ART的优势为:网络技术处理能力高、稳定性强以及聚类效果非常好。

篇(3)

一、前言

人工神经网络是一个多科学、综合性的研究领域,它是根据仿生学模拟人体大脑结构和运行机制构造的非线性动力学系统[1]。神经网络可以看作是一种具有自组织、自学习能力的智能机器,它能模仿人的学习过程,通过给网络各种范例,把网络的实际输出与希望输出比较,根据偏差修改节点间的连接权,直到获得满意的输出。现已广泛应用于经济学、军事学、材料学、医学、生物学等领域。

化工过程一般比较复杂, 对象特性多变、间歇或半连续生产过程多,具有严重非线性特性。因此,其模型化问题一直是研究的热点。化工生产过程的数据或实验室实验数据的拟台、分析,是优化过程或优化反应条件的基础一般被处理的数据可以分为二类:静态数据(static data)和动态数据(Dynamic data),对于静态数据的关联,神经网络是一种很有希望的“经验模型”拟合工具。动态过程数据具有系统随时间而变化的特征,操作参数和产物的产量和质量之间的关系更为复杂。处理和分析动态过程数据的方法除了常用的在物料衡算、能量衡算、反应动力学方程、相平衡等基础上建立数学模型(Mathematical Models)、数理统计(Statistical Analysis)等方法外,用神经网络拟合动态过程数据, 建立动态过程模型, 往往能从动态数据提供的模式中提取较为有用的信息,对过程进行预测、故障诊断,从而使过程得到优化。因此,神经网络以其强大的函数映射能力, 已经广泛用于化工过程非线性系统建模领域。 它能够通过输入输出数据对过程进行有效地学习,为化工过程的综合发展提供了一种先进的技术手段。

二、人工神经网络简介

人工神经网络(英文缩写为ANN)简称神经网络,是在生物学和现代神经科学研究的基础上,对人类大脑的结构和功能进行简化模仿而形成的新型信息处理系统[2,3]。由“神经元”(neurons)或节点组成。至少含有输入层、一个隐含层以及一个输出层。输入层—从外部接受信息并将此信息传入人工神经网络,以便进行处理;隐含层—接收输入层的信息,对所有信息进行处理;输出层—接收人工神经网络处理后的信息,将结果送到外部接受器。当输入层从外部收到信息时,它将被激活,并将信号传递到它的近邻这些近邻从输入层接收到激活信号后,依次将其输出到它们的近邻,所得到的结果在输出层以激活模式表现。

神经网络可以看作是一种具有自组织、自学习能力的智能机器,它能模仿人的学习过程。比如,一个复杂化工装置的操作工人,开始学习操作时,由于没有经验,难以保证控制质量。但经过一段时间学习后,他就能逐步提高技能。神经网络正是模拟人类学习过程,通过给网络各种范例,把网络的实际输出与希望输出比较,根据偏差修改节点间的连接权,直到获得满意的输出。人工神经网络研究工作可分成 3个大方向:(1)探求人脑神经网络的生物结构和机制,这实际上是研究神经网络理论的初衷;(2)用微电子或光学器件形成有一定功能的网络,这主要是新一代计算机制造领域所关注的问题;(3)将人工神经网络作为一种解决问题的手段和方法,而这类问题用传统方法无法解决或在具体处理技术上尚存在困难。

三、神经网络在化工中的应用

1.故障诊断

当系统的某个环节发生故障时,若不及时处理,就可能引起故障扩大并导致重大事故的发生。因此建立高效的、准确的实时故障检测和诊断系统,消除故障隐患,及时排除故障,确保安全、平稳、优质的生产,已成为整个生产过程的关键所在。神经网络是模仿和延伸人脑智能、思维、意识等功能的非显形自适应动力学系统,其所具有的学习算法能使其对事物和环境具有很强的自学习、自适应和自组织能力。神经网络用于故障诊断和校正不必建立严格的系统公式或其它数学模型,经数据样本训练后可准确、有效地侦破和识别过失误差,同时校正测量数据中的随机误差。与直接应用非线性规划的校正方法相比,神经网络的计算速度快,在化工过程的实时数据校正方面具有明显的优势。目前应用于故障诊断的网络类型主要有:BP网络、RBF网络、自适应网络等。

Rengaswamy[4]等人把神经网络用在化工过程的初始故障预测和诊断( FDD)中,提出一种神经网络构架,利用速度训练在分类设计中明确引入时间和过程模型映像的在线更新三个要素,来解决化工过程中的初始故障诊断问题。国内也有关于神经网络用于故障诊断的报道,黄道[5]等人以TE (Tenneaaee Eastman,Eastman化学公司开发的过程模拟器,提供了一个实际工业过程的仿真平台,是一种国际上通用的标准仿真模型)模型为背景,根据模型的特点进行了故障诊断。当输入变量接近训练过的样本时,诊断的成功率可达100%。另外,模糊神经元网络作为一种更接近人脑思维的网格,也是解决此类问题的一个发展方向。李宏光[6]等人就针对化工非线性过程建模问题, 提出了由函数逼近和规则推理网络构成的模糊神经网络,其规则网络基于过程先验知识用于对操作区间的划分,而函数网络采用改进型模糊神经网络结构完成非线性函数逼近,并将该技术应用于工业尿素 CO2汽提塔液位建模。

2.化工过程控制

随着神经网络研究的不断深入,其越来越多地应用于控制领域的各个方面,从过程控制、机器人控制、生产制造、模式识别直到决策支持神经网络都有应用。神经网络可以成功地建立流程和控制参数问的非线性关系及构造相关的数学模型,并可跟踪瞬息过程及具有稳健功能等,因此可有效地用于化工过程最优化和控制。

1986年,Rumelhart第一次将ANN用于控制界。神经元网络用于控制有两种方法,一种用来构造模型,主要利用对象的先验信息,经过误差校正反馈,修正网络权值,最终得到具有因果关系的函数,实现状态估计,进而推断控制;另一种直接充当控制器,就像PID控制器那样进行实时控制。神经元网络用于控制,不仅能处理精确知识,也能处理模糊信息。Tsen[7]等利用混合神经网络实现对乙酸乙烯酯(VA)的乳液聚合过程的预测控制。原有的该间歇过程的复杂的机理模型可对单体转化率做出较准确的预测,然而对产品性质(如数均相对分子质量及其分布)的预测不太可靠。所建的混合型神经网络模型用于实现过程的反馈预测控制。国内对神经网络的实质性研究相对较晚,谭民[8]在1990年提出了一种基于神经网络双向联想机制的控制系统故障诊断方法,并且作了仿真验证。清华大学自动化系则开发了一种基于时序神经网络的故障预报方法,利用工艺现场数据对大型氯碱厂的氯气中含氢气的问题进行了模拟预报实验。

3.药物释放预测

建立精确的缓释微胶囊模型是找出最优的工艺条件及掌握芯材释放规律的重要一步。缓释微胶囊的性能与影响因素之间足一种多输入、多输出、复杂的非线性关系。机理分析法和传统的系统辨识法对输入、多输出问题适应性差,过分依赖研究领域的知识与经验,难以得到实用的缓释微胶囊模型。人工神经网络能够很好地解决传统方法不能解决的具有高度非线性、耦合性、多变量性系统的建模问题并具有独特的优势。

赵武奇[9]等人建立了红景天苷缓释微囊的人工神经网络模型及其遗传算法优化技术,用神经网络模型描述了微囊制作参数与性能之间的关系,并用遗传算法优化微囊制作工艺参数,设计出性能最佳的微囊制作工艺参数。范彩霞[10]等人以难溶性药物氟比洛芬为模型药物,制备了17个处方并进行释放度检查。氟比洛芬和转速作为自变量,取其中l4个处方为训练处方,其余3个处方为验证处方,将自变量作为人工神经网络的输入,药物在各个取样时间点的释放为输出,采用剔除一点交叉验证法建立了人工神经网络模型。并通过线性回归和相似因子法比较人工神经网络和基于二元二项式的响应面法的预测能力,显示了人工神经网络的预测值与实测值的接近程度。

4.物性估算

用神经网络来解决估算物质的性质必须解决三个基本问题,第一个是对物质的表征问题;第二个是采用何种神经网络及其算法问题;第三个是神经网络输入与输出数据的归一化问题。无论采用哪种方法对数据进行处理,当用经过训练的神经网络进行物性估计时,不能将网络直接的输出值作为物性预估值,而是要将输出值再乘上一个系数,这个系数就是前面进行归一化处理时对数据的除数,相乘后得到的值作为物性估算值。神经网络用于物性估算,目前采用的就是BP网络或在此基础上的各种改进形式。常压沸点进行估算和研究。Prasad[11]等人利用神经网络对有机化合物的物理性质进行了预测,并与传统的基团贡献法比较,可以得到更为准确的物性参数。而后,董新法、方利国[12]等人将神经网络在物性估算中的应用作了一个全面而又简要的讲解,并提出神经网络在物性估算中潜在的应用前景,为其发展及其以后的应用研究提供了很好的工作平台。

目前,人工神经网络在各个领域中的应用都在向人工智能方向发展。不断丰富基础理论和开展应用研究、完善其技术的可靠性、开发智能性化工优化专家系统软件,对于我国的化工发展具有重要意义。此外,模糊理论、小波变换、统计学方法和分形技术等信息处理方法和理论与神经网络的结合解决化工类问题,被认为是一种发展趋势。

参考文献

[1]高大文,王鹏,蔡臻超.人工神经网络中隐含层节点与训练次数的优化[J].哈尔滨工业大学学报, 2003, 35(2): 207-209.

[2]苏碧瑶.人工神经网络的优化方法[J]. 科技资讯, 2011(30): 239-240.

[3]黄忠明, 吴志红, 刘全喜. 几种用于非线性函数逼近的神经网络方法研究[J]. 兵工自动化,2009, 28(10): 88-92.

[4]Rengaswamy R, Venkatasubramanian V. A fast training neural network and its updation for incipient fault detection and diagnosis[J].Computers and Chemical Engineering, 2000,(24): 431-437.

[5]黄道, 宋欣.神经网络在化工过程故障诊断中的应用[J].控制工程,2006,(13): 6-9.

[6]李宏光,何谦.化工过程建模中的一类复合型模糊神经网络[J]. 计算机与应用化学,2000,17(5): 399-402.

[7]Tsen A D, Shi S J, Wong D SH, etal. Predictive Control of Quality in Batch Polymerization Using a Hybrid Artificial Neural Network Model[J]. AIChE Journal,1996, 42(2): 455-465.

[8]谭民, 疏松桂. 基于神经元网络的控制系统故障诊断[J]. 控制与决策, 1990(1): 60-62.

[9]赵武奇, 殷涌光, 仇农学. 基于神经网络和遗传算法的红景天苷缓释微囊制备过程建模与优化[J]. 西北农林科技大学学报(自然科学版), 2006,34(11): 106-110.

[10] 范彩霞, 梁文权, 陈志喜. 人工神经网络预测氟比洛芬HPMC缓释片的药物释放[J]. 中国医药工业杂志, 2006, 37(10): 685-688.

篇(4)

通过对静态邻域的各种结构以及它们对技术性能影响进行分析后得出,在拓扑适应性方面星形拓扑、VonNeumann拓扑以及环形拓扑最好。此外,人工神经网络技术性能与邻域密切相关,处理复杂问题时小邻域的人工神经网络技术性能较好,但是处理简单问题上大邻域的人工神经网络技术性能会更好。Chend从改进人工神经网络结构的角度出发,提出了一种具有双结构的人工神经网络技术。技术将神经网络单元分为M+1层,其中“1”指顶层,技术通过获得顶层神经网络单元的全局最优值影响其余各层的粒子对最优值的探索,以此提高神经网络单元搜索结果的多样性。该技术考虑到神经网络单元体表现以及粒子个体的表现,并将其作为触发条件控制领域变化从而提高寻优效率。提出了KRTG-人工神经网络技术,通过产生随机动态的网络拓扑结构并将平均值引入到粒子更新公式中,增加了种群的多样性,改善了粒子间信息的传播速度。

1.2结合其他技术改进

相关研究将遗传技术中遗传算子的选择、交叉、变异等过程与人工神经网络技术相结合,提出一种混合技术。改进后的技术提高人工神经网络技术的性能,增加种群的多样性并提高逃离局部最小的能力,可以将差分进化技术和人工神经网络技术相结合,通过两种技术的交叉执行来提高改进技术的效率。白俊强等将二阶振荡和自然选择两种方法融入到人工神经网络技术中,通过二阶振荡对技术速度公式进行更新,通过自然选择提高了神经网络单元中靠近最优值粒子的比重。通过收集粒子的取值信息构建记忆库,让库中信息和粒子自身极值共同决定粒子的寻优方向,从而提高寻优准确性。

2人工神经网络技术在计算机系统中的应用

2.1系统管理模块

系统管理模块主要是系统管理员对系统进行维护操作,包括用户的认证、数据的维护以及系统安全管理。系统用户认证模块,由于系统的用户包括专家用户,负责对评估因子进行筛选确定以及对评估因子进行打分操作;管理员,负责系统维护以及相关数据的录入、修改和删除操作;普通用户,所以系统需要对用户进行认证以便完成与其身份相对应的操作,确保系统安全。系统的后台维护模块主要用来完成数据库导出以及软件维护操作,系统安全管理模块主要对系统的用户权限进行管理。

2.2资源管理模块

资源管理模块主要是用来管理系统所有的安全驾驶理论知识体系的,包括文字、图片、视频和动画。主要操作有插入、修改、删除。文字信息管理模块,面向系统管理员,主要用来管理系统的文字信息,文字信息包括地点名称等信息,文字对应相应的知识点,大多以理论知识和测试题的模式存在于模块中。图片信息管理模块面向系统管理员,主要用来管理图片相关信息,包括图片名称、所属知识点信息。图片和文字一样,用来进行知识的展示。视频信息管理模块面向系统管理员,主要用来管理视频信息,采用人工神经网络技术。人工神经网络技术指以神经元方式在网络中传送音频、视频和多媒体文件的媒体传输技术。

2.3系统关键技术

2.3.1使用人工神经网络作为接口处理规范。

由于本系统是在浏览器中访问,需要访问核心数据库,在这里我们采用人工神经网络技术,可以对系统数据访问接口进行扩展,对数据进行格式化以提高可读性。在系统中我们采用的是标准的人工神经网络格式,其中报文分为报文的头和体两部分。

2.3.2系统网络拓扑结构。

为了保障系统的安全性,我们在这里采用两个服务器:一个是用于数据存储的服务器;另一个是用于用户请求处理的服务器。系统对于用户的使用分为内网用户和外网用户,内网用户是在内部局域网进行访问系统,针对的是学习系统的管理员,外部用户是互联网上的用户,针对的是进行在线学习的学习者。在服务器与内网、内网与外网之间都设置了防火墙,以保障数据的传输安全和数据库的安全。这样的拓扑结构有效地保障了系统的安全性和稳定性,其好处主要包括:人工神经网络三层结构将业务处理和数据处理的服务器分开,有利于系统的维护和升级,保障了系统数据的安全;分布式的网络布局,对于不同的用户有不同的访问方式,多渠道的访问方式有效地避免了不兼容的情况的发生,系统的可用性得到了提高。

2.4数据库设计

所选择的数据库需要有良好数据组织结构,可以使整个系统迅速、方便、准确地调用管理所需的数据,提高整个系统的性能。为了达到上述要求,系统采用神经元数据库。神经元数据库是一个对象——关系型数据库,它提供了开放、全面、集成的信息管理方法,数据存储具有透明性。有了一个高性能数据库作为基础,还需要好的数据库结构,数据库结构设计的好坏将直接影响系统的效率和实现的效果,好的数据结构设计会使得系统具有较快的响应速度,提高数据的完整性和一致性,大大提高整个系统的性能。

篇(5)

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)06-1285-02

Research on the Application of Artificial Neural Network

LI Hong-chao

(China University of Petroleum (East China), Qingdao 266580,China)

Abstract: Artificial neural networks are part of an integrated artificial intelligence, it is proposed is based on research of modern neuroscience. With the continuous development of artificial neural networks, and their use more widely. This article first analyzes the basic concepts and features of artificial neural networks, from six aspects of information, medicine, psychology and other details of the application of artificial neural networks.

Key words: artificial neural network; information processing; risk assessment

1 人工神经网络

人工神经网络,英文名为“Artificial Neural Network”,简称ANN,它充分分析大脑神经突触联接的结构特点,对其进行模拟,然后进行信息处理。简单来说,人工神经网络就是对人脑结构、人脑功能的模仿。它的特点有很多,比如非线性、非局限性、非常定性、非凸性等。这些特点铸就了人工神经网络的各种功能,促进了它的应用。

2 人工神经网络的应用

随着人们对人工神经网络的不断研究,人工神经网络的作用越来越大,给人们提供了更好的服务,下面就以人工神经网络在信息领域、医学、经济领域、控制领域、交通运输、心理学六个方面分别介绍其应用。

2.1 信息领域

人工神经网络在信息领域的应用分为两个方面,一个是信息处理,一个是信息识别。

1)信息处理

由于现代信息的多样化和多变性的特点,信息处理就变得复杂起来,人工神经网络可以对人的一部分思维能力进行模仿甚至代替,解决传统信息处理的困难。在通常情况下,人工神经网络可以自动诊断问题,开启问题求解模式。另外,人工神经网络系统的容错性能高,当其连接线遭到破坏,自身的组织功能还是可以保持它的优化工作状态。因此,军事系统充分利用这一优势,在其电子设备广泛应用人工网络信息系统。

2)模式识别

这项功能的理论基础有两个,一个是贝叶斯的概率论,另一个是申农提出的信息论。模式识别主要是分析和处理存在于目标体上的各种形式的信息,然后在处理和分析的基础上对目标体进行描述、辨认等过程。随着人工神经网络在模式识别中的应用,传统的模式识别逐渐被取代。随着模式识别的发展,已经逐渐应用到语音识别、人脸识别、文字识别等各个方面。

2.2 医学领域

人体是非常复杂的,在医学中,想要弄清楚疾病的类型、疾病的严重情况等,仅仅依靠传统的望闻问切诊断方法是远远不够的,医学的发展需要运用新技术。人工神经网络应用于医学中,可以分析生物信号,观察信息的表现形式以及研究信息的变化规律,将这三者的结果进行分析和比较,从而掌握病人的病情。

1)生物信号的检测与分析

在医学诊断中,医生基本上都是通过对医学设备中呈现出来的连续波形进行分析。人工神经网络中有一套自适应的动力学系统,该系统由一些数量庞大的简单处理单元互相连接。因此,它具有多种功能,比如Massively Parallelism,即所谓的巨量并行,分布式存贮功能以及强大的自组织自学习功能等。用常规处理法处理生物医学信号分析非常困难,而人工神经网络的功能可以有效解决难题,其在生物医学人脑检测与处理中的应用非常广泛,比如分析电脑信号,对心电信号进行压缩处理,医学图像的识别等,在很大程度上促进了医学的发展。

2)医学专家系统

对于传统的专家系统而言,其工作原理基本上就是先由专家根据自己多年的医学经历,总结自己的经验和所掌握的知识,以某种规则的形式将这些经验和知识存储在电脑中,建立一个专家的知识库,然后借助逻辑推理等方式开展医疗诊断工作。但是,随着专家知识的不断增长和经验的日益丰富化,数据库的规模会越来越大,极有可能产生知识“爆炸”的现象。同时,专家在获取知识的过程中也会遇到困难,导致工作效率低下。人工神经网络中的非线性并行处理方式解决了传统专家系统中的困难,在知识推理、自组织等方面都有了很大的提高,医学专家系统也开始逐渐采用人工神经网络系统。

在医学领域中,麻醉和危重医学的研究过程中,存在很多的生理方面的分析与检测工作,人工神经网络系统有良好的信号处理能力,排除干扰信号,准确检测临床状况的相关情况,有力促进了医学的发展。

2.3 经济领域

经济的快速有效增长是基于人们对市场规律良好的掌握和运用以及对经济活动中的风险评估,及时应对和解决,这样才能保障经济活动的快速发展。人工神经网络应用于经济领域,主要有预测市场价格和评估经济风险两个方面。

1)预测市场价格的波动情况

商品的价格主要是由市场的供求关系和国家宏观调控来变化的。国家的宏观调控是客观存在的,我们可以在遵循国家宏观调控的前提之下分析市场的供求关系,从而预测商品的市场价格。在传统的统计学方法中,在预测价格波动时因其自身的局限性,难以做出科学的判断。人工神经网络可以有效处理不完整数据和规律性不强的数据,它是传统统计方法所不能达到的。人工神经网络系统基于市场价格的确定机制,综合分析影响商品价格的因素,比如城市化水平、人均工资水平、贷款情况等,将这些复杂的因素综合起来,建立一个模型,通过模型中的数据显示,科学预测商品的市场价格波动情况,有效利用商品的价格优势。

2)评估经济风险

经济风险,即Economic Exposure,它指的是由于经济前景的一些不确定因素,导致经济实体出现重大的经济损失。在处理经济风险的时候,做好的措施就是防患于未然,做好评估和预测,将经济风险扼杀在萌芽时期。人为的主观判断经济风险具有一定的可靠性,但是也存在很多的不足。将人工神经网络系统应用于评估经济风险,可以有效弥补人为判断风险的不足。人工神经网络先提取具体风险来源,然后在此基础上构建出一个模型,这个模型一般要符合实际情况,通过对模型的研究,得出风险评价系数,最终确定有效的解决方案。

2.4 控制领域

随着人工神经网络的不断发展,人们开始研究其在控制领域的应用。比如现在的机器人的摄像机控制、飞机控制等。它主要是通过控制图像传感器,再结合图像表面的非线性关系,进行计算和分析,另外,它还可以将图像传感器瞄准到处于运动状态中的目标物上。

2.5 交通运输

交通问题具有高度的非线性特点,它的数据处理是非常庞大和复杂的,这与人工神经网络有很大的吻合性。就目前来讲,人工神经网络应用到交通领域有模拟驾驶员的行为、分析交通的模式等等。

2.6 心理学

人工神经网络是对人脑神经元的信息处理能力的模拟,本身就带有一定的抽象性,它可以训练很多的认知过程,比如感觉、记忆、情绪等。人们通过对人工神经系统的不断研究,多个角度分析了其认知功能。就目前来看,人工神经网络可以分析人的认知,同时对认知方面有缺陷的病人进行模拟,取得了很大的进步。当然,人工神经网络应用于心理学领域也存在很多的问题,比如结果精确度不高、模拟算法的速度不够等,这些都需要人们持之以恒的研究。突破这些难题,促使人工神经网络有效应用于心理学领域。

3 结束语

综上所述,随着人工神经网络的不断发展,它特有的非线性适应能力和自身的模拟结构都有效推动了其应用范围。我们应该不断运用新技术,不断完善人工神经网络的功能,拓宽其应用范围,促进其智能化、功能化方向发展。

参考文献:

[1] 毛健,赵红东,姚婧婧.人工神经网络的发展及应用[J].电子设计工程,2011(12).

[2] 林和平,张秉正,乔幸娟.回归分析人工神经网络[J].吉林大学学报:信息科学版,2010(3).

篇(6)

引言

林分材种出材率是林分调查工作的重要指标,它可以进一步评价森林木材资源的经济价值,而研究森林木材,又可以合理正确的经营森林资源,达到人与自然和谐相处的目的。林分林种出材率就是原木材积于立木材积之比,我国现行的森林采伐限额制度、查处乱砍滥伐林木案件、制订林业发展规划、计划和编制森林经营方案、预测和计算、开展森林资源资产评估等等,都需掌握积蓄量和材种的出材率的指标。我国已经不断学习借鉴前苏联的先进技术编制自己的材种出材率表了,随着我国天然林保护工程的全面实施和林业分类经营的逐步推行,人工商品林比例的不断提高,我国森林结构和性质也有所变化,所以传统的统计学以难以解决很多问题,运用人工神经网络在林业生成与运用则是一个不二之选的方法,对林业的发展也有很大的理论价值和推广意义。

人工神经网络(Artificial Neural Network-ANN),简称“神经网络”,是由大量处理单元过极其丰富和完善的互联组成的非线性、自适应信息处理系统。它的提出是基于现代神经科学研究成果上,以模拟大脑神经网络处理、记忆信息的方式进行信息处理。涉及学科较多,较为广泛。

1 研究内容和方法

平均树高,平均胸径,林种年龄,立地质量,积蓄量,保留密度等等因素都会影响林分材种出材率,而林分林种出材率具有非线性和非确定性的因素,一般采用统计分析方法进行预测采样,需要大量的林木样本元素,模型涉及的许多参数无法或很难有较高的精确度。

人工神经网络(Artificial Neural Network)具有非线性,非局限性,自适应,自组织,自学习的特征,相较于传统的统计学方法,不同之处在于它的容错性和储存量,通过单元之间的相互作用,相互连接能模拟大脑的局限性。ANN的独到之处,也使得人们注意了ANN,并且广泛的应用于各种学科之中,如心理学,逻辑学,数学模型,遗传算法,语音识别,智能控制等等。当然,运用人工神经网络对林分林种出材率进行预测也同样具有很好的效果与实现。

研究主要完成,通过对数据的采样和分析处理,对神经网路预测模型的结构,参数进行优化,再应用到林分材种出材率的预测中。以c++程序设计为设计平台,运用人工神经网络中的BP算法,分析各隐含层神经元的数量,训练的次数,隐含层函数,样本数量,进行优化建立林分材种出材率的预测模型。

1.1BP人工神经网络

BP(Back-Propagation Network)神经网络是一种以误差逆传播算法(BP)训练的多层前馈网络,目前应用较为广泛的神经网络模型之一。BP神经网络能学习和存贮多个输入-输出模式映射关系,而且无需事前对这种映射关系的数学方程进行描述。它通过不断反向传播来调整神经网络的权值和阈值,使神经网络的误差平方和最小。BP神经网络模型拓扑结构由三层组成分别是输入层(input)、隐层(hidelaver)和输出层(output layer)。

BP人工神经网络主要以标准BP算法为主,而标准BP算法有存在许多问题,由于是非线性梯度优化算法,就会存在局部极小值问题,使得精确度受限;算法迭代系数过多,使得学习率降低,收敛速度降低;网络对初始化的值存在发散和麻痹;隐节点不确定性的选取。所以引进了几种BP算法:动量BP算法、学习速率可变的BP算法和LM算法(Levenberg-Marquardt)。动量BP算法以上一次修正结果来影响本次的修正,动量因子越大,梯度的动量就越大。学习效率可变的BP算法怎是力求算法的稳定,减小误差。为了在近似二阶训练速率进行修正时避免计算HeSSian矩阵,选择LM算法。所以为了神经网络计算的速度与精确度,所以运用不同的优化算法来改善BP网络中的局部极小值问题,提高收敛速度和避免了抖动性。

2 基于BP人工神经网络和林分材种出材率预测模型的建立

分析了大量的材种出材率的相关资料后,均有非线性的特征,对于模型的建立和预测,传统的识别系统在研究和实践中有很大的问题,而采用人工神经网络,不仅其特征是非线性,而且人工神经网络具有较为稳定的优越性,所以,对于林分材种出材率的预测和建立采用BP人工神经网络。

2.1建模工具

研究采用c++程序设计对数值的计算和预测,对模型进行编译和实现。c++语言是受到非常广泛应用的计算机编程语言,它支持过程化程序设计,面向对象程序设计等等程序设计风格。c++是一门独立的语言,在学习时,可以结合c语言的知识来学习,而c++又不依赖于c语言,所以我们可以不学c语言而直接学习C++。

用c++来模拟BP网络是相对较好的程序设计语言,以面向对象程序设计来设计和实现林分材种出材率的BP算法,直观而简洁。

2.2BP神经网络结构的确定

对于使用BP算法,关键在于隐含层层数和各层节点数。而神经元的输入输出又影响着隐含层层数,而对于BP万罗中的输入输出层是确定的,重点就在于隐含层层数,增加隐含层数可以提高网络的处理能力,是的训练复杂化,样本数目增加,收敛速度变慢等,而隐含层的节点数越多,可以提到其精确度。

研究过程中,多层隐含层会将训练复杂化,所以我们往往选择三层就够了,即一个输入层,一个隐含层,一个输出层的基本单层BP网络结构。最后确定以下四个神经元:平均树高、平均胸径、林种年龄、每公顷积蓄量作为输入单元。输出单元为林分材种出材率。

结论

篇(7)

中图分类号:TP183 文献标识码:A文章编号:1006-4311(2012)08-0112-02

0引言

工业品出厂价格指数(PPI)是衡量工业企业产品出厂价格变动趋势和变动程度的指数,是反映某一时期生产领域价格变动情况的重要经济指标,也是制定有关经济政策和国民经济核算的重要依据。

工业品出厂价格指数的调查范围是工业企业出售给本企业以外所有单位的各种生产资料和直接出售给居民用于生活消费的各种生活资料。其中,生产资料包括原材料工业、采掘工业和加工工业3类;生活资料包括一般日用品、食品、衣着和耐用消费品4类。在PPI的结构中,生产资料所占的权重较大,超过了70%;生活资料所占的权重只有不到30%。因此PPI在很大程度上反映的是工业企业生产成本的高低。目前我国PPI覆盖了全部39个工业行业大类,涉及186个种类,4000多种产品。

我国现行的工业品价格指数是采用算术平均法编制的。其中除包括工业企业售给商业、外贸、物资部门的产品外,还包括售给工业和其他部门的生产资料以及直接售给居民的生活消费品。通过工业生产价格指数能观察出厂价格变动对工业总产值的影响。工业品出厂价格指数的计算公式为:工业品出厂价格指数=工业总产值总指数/工业总产量总指数×100%。我国目前编制的工业品出厂价格指数的4种分组:①轻、重工业分组;②生产资料和生活资料分组;③工业部门分组;④工业行业分组。权数计算资料来源于工业经济普查数据。工业品出厂价格指数的权数确定,采用分摊权数。

在市场经济活动中,资源配置是通过价格涨跌引导市场主体的经济活动来完成的。因此,价格的波动对经济运行会有很大的影响,价格总水平的波动也是一个重要的宏观经济现象。通常认为PPI反映的是工业品进入流通领域的最初价格,是制定工业品批发价格和零售价格的基础,而CPI反映的是居民购买消费品的价格。

为抑制通货膨胀,中央银行需要准确把握通货膨胀的先行指标,从而正确把握经济和物价的未来走势并进行前瞻性调控。根据价格传导规律,PPI对CPI有一定的影响。研究表明PPI引导了CPI变动,其原因是生产资料价格指数、生活资料价格指数和原材料、燃料和动力价格指数都引导了CPI变动,PPI可以作为我国通货膨胀的先行指标,政府和学者可以利用PPI预测通货膨胀[1-2]。PPI是一个非常复杂的、受诸多因素影响的非线性系统。如果采用传统的计量经济模型无法很好地提高预测精度。

目前对PPI预测的研究较少,鉴于PPI的时间序列是是非线性的,为了准确和客观地预测PPI,采用人工神经网络预测方法。人工神经网络是目前一种有效的预测方法,大量的仿真实验和理论研究已经证明BP算法是一种有效的神经网络学习算法,它具有很强的处理非线性问题的能力,近年来已经广泛应用到经济领域中。但在实际应用中,BP算法也暴露出一些自身的缺点,如算法容易陷入局部极值点,收敛速度慢等,这使得BP算法只能解决小规模的问题,求得全局最优的可能性较小,这样限制了BP算法在实际中的应用。因此应用改进BP算法的人工神经网络模型预测PPI。

1PPI预测模型的建立

人工神经网络是理论化的人脑神经网络的数学模型,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。其信息的处理是通过学习动态修改各神经元之间的连接权值阈值来实现的。根据某一学习规则,通过修改神经元之间的连接权值和阈值,存储到神经网络模型中,建立输入层神经元与输出层神经元之间的高度非线性映射关系,并通过学习后的神经网络来识别新的模式或回忆过去的记忆。在各种神经网络模型中,80%-90%的模型采用误差反向传播神经网络(简称BP神经网络)或它的变化形式。BP神经网络是前馈网络的核心部分,体现了人工神经网络最精华的部分。1989年Robert Hecht-Nielson证明了对于任何的连续函数映射关系都可以用含有一个隐含层的BP神经网络来逼近。

BP神经网络具有非局域性、非线性、非定常性和非凸性,在信息处理方面具有如下显著特点:BP神经网络具有自适应和自组织能力,通过与外界环境的相互作用,从外界环境中获取知识,把环境的统计规律反映到自身结构上来,并能有机地融合多种信息。当外界环境发生变化时,只需输入新的资料让模型再学习即可很快跟踪环境的变化,可操作性强。BP神经网络模型的建立不需要有关体系的先验知识,主要依赖于资料,只需给网络若干训练实例,BP神经网络就可以通过自学习来完成,完全能够发现其隐含的信息,并有所创新。BP神经网络作为一个高度的非线性动态处理系统,具有很强的容错功能。由于神经元之间的高维、高密度的并行计算结构,神经网络具有很强的集体计算能力,完全可以进行高维数据的实时处理,同时也可以进行分布式联想存储。

工业品出厂价格指数(PPI)数据来源于《中国统计年鉴(2009年)》,PPI数据时间范围为1990年-2008年。在实际应用中,由于所采集的数据跨度较大,为提高训练速度和灵敏性以及有效避开Sigmoid函数的饱和区,一般要求输入数据的值在0-l之间。再有,为保证建立的模型具有一定的外推能力,最好使数据预处理后的值在0.2-0.8之间,把0-0.2和0.8-1.0的空间预留。下面是数据预处理和反预处理算法:①数据预处理法:y=(0.8-0.2)*(x-min(x))/ (max(x)-min(x))+0.2。②反预处理算法:x=(y-0.2)*(max(x)-min(x))/(0.8-0.2)+min(x)。其中:x是工业品出厂价格指数原始数据;y是预处理后的工业品出厂价格指数数据;max(x)和min(x)分别是工业品出厂价格指数原始数据取值范围的最大值与最小值。

我国历年PPI数据按顺序构成一组时间序列,利用时间序列分析方法对我国历年PPI数据时序进行检验识别,可知PPI数据服从4阶自回归模型AR(4),由此模型输入层单元数为4个,输出层单元数为1个。

适当的隐层数目及节点数决定于多种因素。如训练样本的多少、样本噪音的大小以及所面对问题的复杂程度。隐层在BP神经网络中起着很重要的作用,它具有高度的抽象功能,并可从输入单元中提取特征。隐层层数的选择与问题的复杂性有关,为了确保训练后人工神经网络模型的泛化能力和预测能力,应在满足精度要求的前提下取尽可能紧凑的网络结构。一个三层人工神经网络模型就可解决一般函数的拟合、逼近问题。因此三层人工神经网络能满足预报要求。由于BP网络在确定隐层单元数的问题上还没有成熟的理论可依,大都根据经验来定。目前比较有效的方法就是试错法。本文分别组建了隐层节点数从1-35的BP网络,为了防止出现过拟合现象,经过大量试算,最后根据试报效果,确定了较为理想的隐层单元数是6。

传统BP网络的学习算法实质上是一种简单的最速下降静态寻优算法,通常具有收敛速度慢、易陷入局部极小值和网络推广能力不强等方面的缺陷。本文采用MATI AB神经网络工具箱提供的改进快速学习算法,有效克服了传统BP网络学习算法的缺陷。Trainlm训练函数采用Levenberg-Marquardt优化方法,该训练函数的效率优于最速下降静态寻优算法。

2结果

利用1990年-2003年的我国PPI数据作为训练样本,采用改进BP算法的Trainlm训练函数进行训练构建的神经网络,然后采用2004年-2008年的PPI数据作为检验样本,利用训练好的BP网络对2004年-2008年的PPI进行预测,结果见表1。仿真实验表明我国PPI训练样本模拟值和实际值的平均相对误差为0.82%,模拟值和实际值的相关系数为0.994778;我国PPI检验样本预测值和实际值的平均相对误差为0.80%,预测值和实际值的相关系数为0.915313;2007年PPI预测值为102.6,PPI实际值为103.1,预测值和实际值的相对误差为-0.48%;2008年PPI的预测值为107.4,PPI实际值为106.9,预测值和实际值的相对误差仅为0.47%,这都与实际情况相近,结果较为满意。并对2011年和2012年的我国PPI做了预测,PPI预测值分别为107.3和107.6。

3结论

人工神经网络模型能够很好地捕捉我国PPI内在的规律性,无需设计任何数学模型,通过神经元之间的相互作用来完成整个人工神经网络的信息处理,并能得到很好的预测精度。

将人工神经网络模型应用于我国PPI预测,PPI预测值和实际值的平均相对误差为0.80%,预测误差小,PPI检验样本预测值与实际值的线性相关系数为0.915313,预测精度高,模型预测值和实际值能较好的吻合。

参考文献:

篇(8)

分类号 B842

1 引言

人工神经网络模型(Artificial Neural Network Model,简称ANN),顾名思义,就是用人造的程序、机械或设备来模拟人脑神经网络的模型。人工神经网络模型的用途有二:(1)发明基于神经网络的人工智能系统,来模拟人的学习、记忆、推理等智能活动,以服务于人类的现实生活;(2)构建各种心理活动和心理过程的模型,以为各种心理学理论提供支持。前者是自动化、通信、制造、经济领域关注的,我们平时所见的语音识别、经济领域使用的股票走势预测等智能系统大多是基于人工神经网络模型研制出来的。而后者则是心理学家所关注的领域。至今,人工神经网络模型已被用来模拟诸如知觉、记忆、学习、判断等各种心理活动,以解释矛盾的实验数据,为有关的心理学理论提供丰富的证据。

和其他领域的研究者们一样,内隐学习领域的研究者们也注意到了这一行之有效的工具。Cleeremans(1993)指出根据已有的内隐学习理论构造人工神经网络模型,将模型的输出数据与人类被试的实验数据进行比较,能为原有的理论观点提供证据[1]。Dienes和Perner(1996)也有类似的看法[2]。然而,在发挥人工神经网络模型在内隐学习研究上的功效之前,必须解决如下问题:人工神经网络模型是否正如Cleeremans等所言适用于内隐学习研究?如果是,用哪类人工神经网络模型来模拟内隐学习?

2 人工神经网络模型的工作原理及其研究内隐学习的适用性

人工神经网络模型之所以适用于内隐学习,是因为它的基本工作原理和内隐学习的两个本质特征有着惊人的相似。

2.1 人工神经网络模型的工作原理

早在20世纪40年代,便有研究者对人工神经网络模型的工作原理做了最初的尝试。1943年,McCulloch和Pitts用类似“开关”的阈限逻辑单元(Threshold Logic Unit)**来模拟神经元,并将多个这样的单元以相等的强度(权重)连接起来,形成网络,这就是著名的MP模型[3]。1949年,Hebb在论述条件反射的形成时,无意间提到了神经元间连接强度更新的重要法则,即两个彼此相连的神经元同时激活或同时抑制,都能增加神经元间的连接强度,后人称此为Hebb法则[4]。然而,MP模型和Hebb法则都不能构成真正意义**上的神经网络模型,虽然,MP模型已经具备将多个神经元连接起来,形成网络的雏形,但是由于不同单元间的连接强度相等,且恒定不可变化,MP模型不具备人工神经网络的基本特征――学习性;而Hebb虽然提出了权重变化的一条有效法则,但却未将其应用到人工神经网络中来。真正将神经元连接成网络的思想与借助于权重更新使网络具有学习性的思想综合在一起的要属Rosenblatt。

Rosenblatt(1958)提出了第一个真正意义上的人工神经网络模型――感知器(Perceptron)[5]。其基本工作原理为:整个感知器由多个不同层次的加工单元组成,每个加工单元的功能类似于单个神经元或一组神经元,它能接收来自前一层的几个加工单元的激活,并综合这些激活,对此进行简单运算(例如:判断总激活量是否达到某一阈限),然后将运算的结果传递给下一层的加工单元。第一层单元的激活模式反映了外部刺激状态,即模型的输入,而最后一层单元的激活模式则为模型的输出反应。某个单元对下一层的另一个单元的影响取决于两个单元之间连接的强度(权重)。为了在给定输入的情况下,使模型获得类似于人类被试的输出反应,必须不停地调节单元与单元间的连接权重。所以,在构建合适的人工神经网络模型时,研究者往往会先设置一系列初始权重,然后不断地给予模型不同的输入模式,在每个特定输入后,比较模型输出与正确输出间的差异,并据此调整单元间的连接权重,这一过程不断进行,直到模型输出和正确输出间的差异达到最小值,此时,模型便完成了整个学习过程。图1为一个典型感知器的例子,它旨在判断呈现于视网膜的光条是垂直的还是水平的。整个感知器由3个加工单元层组成,第一层为网膜层,即将整个视网膜分割为10×10的网格,用每个网膜单元对应于一个网格,共100个单元,当光条落

图1 感知器例子(资料来源:文献[3])

在视网膜的某几个网格上时,这些网格所对应的网膜单元被激活。第二层为联系层,其中的每个单元总是和某些网膜单元间存在兴奋或抑制连接,不论兴奋还是抑制连接,强度都是恒定的1或-1,当与联系单元连接的网膜单元的总激活量达到联系单元的激活阈限时,联系单元被激活,例如图1,Aj的接收到的总激活量为1+1+1-1=2,如果Aj的阈限为2,那么2=2,Aj被激活。第三层为反应层,其中只包括一个反应单元,它与所有的联系单元连接,连接权重为Wj,其中,j表示第j个联系单元。反应单元将综合来自联系单元的激活信息,即将每个联系单元的激活量乘以它们之间的连接权重,然后简单求和,得出总激活量,并判断激活是否达到阈限,公式表示如下:

aR为反应单元的激活水平,aj为联系单元的激活水平,θ为阈限值。如果,总激活量达到反应单元的阈限,反应单元被激活(激活量为1),感知器决定光条为垂直,否则,反应单元不被激活(激活量为0),感知器反应光条为水平。当然,感知器必须经过一个漫长的学习阶段,才能完成这一简单的判断任务。在学习阶段,感知器接受各种不同的水平和垂直光条刺激,并一一做出反应,当反应正确时,连接权重不做任何调整,一旦反应错误,感知器会自动调整联系单元与反应单元间的权重,比如:当反应单元的激活量为0时,而实际光条为垂直,说明反应单元所接收到的总激活量小于阈限,此时,则应增大那些被激活的联系单元与反应单元间的连接权重,以提高总激活量,使其更有可能达到阈限,致使在下次刺激呈现时,感知器更易做出正确反应。当然,Rosenblatt的感知器除了能调整权重外,还会调整反应单元阈限。这种通过逐步调整连接权重和阈限,以减少感知器反应和正确反应间的差距的方法就是著名的感知器收敛法则(perceptron convergence rule)。不过,调整阈限的方法对于拥有多个反应单元的模型来说过于复杂,所以未被以后的人工神经网络模型采纳。

可见,Rosenblatt的贡献是卓越的,他给出了人工神经网络的基本工作原理,基于感知器收敛法则发展而来的delta法则与斜率递减(gradient descent)法已成为如今人工神经网络最主要的算法,本文第3点中将对此做详细介绍。然而,值得注意的一点是感知器仅在联系层和反应层间使用了权重概念,学习过程也仅发生在这两层之间,所以从本质上讲,感知器只属于包含一个输入层和一个输出层的单层网络(single layer network),这种单层网络在解决某些实际问题时,遇到了障碍。Minsky等(1969)指出感知器甚至无法模拟诸如XOR(异或)等简单运算[3]。因此,在接下来的将近20年中,人工神经网络的发展一度进入低迷期。直到80年代中期,逆向传导法(back propagation)[6]、自动联系者(atuoassociator)[7]、循环模型(recurrent model)[8,9]一一提出,多层网络广泛应用智能模拟任务中,人工神经网络才得以迅速发展。然而,这些算法和模型的基本工作原理与最初的感知器却并无两样。

2.2 人工神经网络模型研究内隐学习的适用性

如上述,人工神经网络的工作原理为通过调整权重逐步学会正确反应。那么,这些基于调整权重来学习正确反应的人工神经网络模型是否适于研究内隐学习呢?内隐学习这一概念强调的是两个特征:第一,它是学习的一种形式;第二,这种学习是内隐的、无需意识努力的。人工神经网络的工作原理极好地匹配了这两个特征。首先,要建立针对某一心理活动的合适的网络模型,必须要经过长期的训练和学习过程,即向模型呈现许多刺激,要求其做出反应,并将模型反应与要求的正确反应进行比较,据此逐步调整内部结构,使模型在以后的刺激情景中,更易做出正确反应。这种学习过程和人类的学习有着惊人的相似,人类在幼年时,虽然脑神经已发展完全,但是他们仍然不能执行各种认知任务,这时候的人脑就好比初始状态的神经网络模型,虽然,已对模型基本结构做了设定(比如,模型由几个加工单元层组成,每层有几个单元,哪些单元和哪些单元间存在联系),但是由于所有的连接权重都是随机设置的,模型不知道刺激与反应间的联系,常常会给出错误反应,而当经过几年的学习之后,人类婴孩不断地从外界接收刺激,做出反应,并接收来自外界的反馈,将之与自己的反应做比较,逐步通过内部结构的改变,来调整自己的行为,从而能够知觉事物、理解言语、控制自身的机体运动,这就好比初始状态的网络模型,能够通过调整权重,达到稳定状态,对刺激模式做出正确反应。可见,人工神经网络模型很好地匹配了内隐学习地第一个特征――两者都是学习过程。其次,内隐学习强调学习是内隐地进行的。由于无法直接探索学习过程是否是内隐的,研究者往往通过验证学习中所获得的知识是内隐的来间接推断学习过程是内隐的,当被试在分类或选择任务中的表现高于随机,却不知道自己是依据何种知识做出正确判断时,习得的知识被认为是内隐的,从而进一步推断学习过程也是内隐的[10~12]。人工神经网络模型也一样,从根据输出结构来调整权重的过程来看,根本无法判断学习过程是否是内隐的,而类似的,人工神经网络的知识表征形式显示神经网络模型所获得的知识很有可能是内隐的。当人工神经网络能做到正确反应时,指导模型该如何反应的知识似乎是存在于单元的组织结构和他们之间的连接权重上,根本无法直接从这种无序而杂乱的结构和权重上看出什么规则,例如:上述判断光条垂直和水平的感知器,我们并无法从直观上判断哪些单元表征垂直光条,哪些单元表征水平光条,这种知识表征形式很有可能是内隐的。这种知识的表征形式被称为分布式表征(distributed representation),它和传统的局部表征(local representation)很不一样,局部表征中,每个用不同的单元表征不同的事物,例如:单元1表征事物1,单元2表征事物2……,在知识提取时,就好比查字典一样,根据不同的事物,找到表征的位置,便可以获悉有关事物的各种知识。而分布表征可以将不同的事物表征在同一组单元中,比如垂直光条和水平光条,在知识提取时,往往只需输入新刺激的内容,比如光条激活了视网膜的哪些区域,便能根据内容找到合适的反应。

3 广泛应用于内隐学习领域的两种人工神经网络模型

人工神经网络模型很好地匹配内隐学习的两大基本特征。因此,许多研究者针对不同的内隐学习任务,选择不同的人工神经网络模型来拟合内隐学习过程,以探讨内隐学习的本质和机制[13~17]。

纵观近40年来的内隐学习研究,虽然不同的研究者开发了许多不同的任务形式,获得了许多可喜的研究成果,但是这些任务都离不开两种根本的任务形式――人工语法学习和序列学习。相应地,根据两个任务的不同特点,研究者选择了两种不同的模型――自动联系者和简单循环网络(simple recurrent network,简称SRN)――分别对之加以模拟。

3.1 人工语法学习与自动联系者

人工语法学习任务通常是:在学习阶段,要求被试在不知道内在规则的情况下记忆一大堆合法字符串,然后,在测试阶段,向被试呈现一批新的合法和非法字符串,并告知前面学习的字符串是一类符合语法规则的合法字符串,要求被试根据前面的学习,判断新的字符串是否合法[10]。从测试阶段的要求、学习阶段的要求和所学习的知识这三个不同的角度来看,人工语法学习具有三个主要特征:

第一,测试阶段要求被试进行的是一项典型的分类任务。相应地,检索1943年以来,人工神经网络模型发展的这段历史,便可以发现只有模式联系者(pattern associator)是专门针对模式识别和分类而开发出来的模型。模式联系者的诞生源自于条件反射的思想,即建立刺激和反应间的联系。用模式联系者的话说,就是对于特定的输入刺激模式,给出相应的反应模式。有趣的是,当用一组单元表示输入模式,另一组单元表示输出模式,它们两两连接在一起(如图2),并使用Hebb法则Wij=εαiαi更新权重时(其中,ΔWij为输入单元j和输出单元i之间权重的变化量,ε为学习速率,是常数,aWi为输出单元的激活量,aWj为输入单元的激活量),模式联系者便能在同一个模型中存储不同的输入模式,将反应模式相同的输入模式归于同一类,并且当模式中的某些量缺失时,比如某个输入单元损坏,模型仍能正常运行[3]。可见,模式联系者能够有效地模拟分类任务,甚至是某些脑神经受损病人(相当于某些输入或输出单元受损)的分类活动。然而,人工语法学习并不仅是单纯的分类任务,它还具有其他特征,因此,只模拟测试阶段的分类任务是远远不够的。

第二,人工语法学习的另一个特征是,学习阶段要求被试在没有任何指导(反馈)的情况下学习字符串,即并没有在被试学习某一字符串的同时,告诉他们这一字符串属于哪一类,合法还是非法。投射到模式联系者中,就是在学习对特定刺激模式的分类时,不伴随相应的反应模式,即没有输出单元。事实上,人类的许多学习过程都是在没有外部指导的情况下进行的。比方说,当孩子看到麻雀和燕子(刺激模式)时,家长告诉他这是鸟(反应模式),但很多时候,家长并不在身边,比如,当孩子看到鸽子时,没有外在反应模式指导,孩子仍能反应为鸟,人类似乎能够在没有外在的反应模式引导教育的情况下,学会分类。人工语法学习也是一样,虽然在学习时,没有被告知哪些合法,哪些不合法,但是被试仍能学会分类规则。这些事实提示研究者:必须开发一种没有外在引导者的自适应模型。于是,McClelland 和Rumelhart(1985)在对模式联系者稍做调整的基础上,提出了模式联系者的一个自适应特例――自动联系者[7]。由于没有外部引导,任何自适应模型必须具备自我反馈的功能,自动联系者也一样,如图3所示,每个单元除了接收外部输入(e)以外,还必须接收来自其他单元的内部输入(i),这种存在内部反馈的模型被称为循环模型。为了达到分类的目的,自动联系者旨在再现单元的外部输入模式,就好像人工语法学

图3 含有8个单元的自动联系者(资料来源:文献[7])

习中,记忆字符串一样。而为了达到这一点,必须调节连接权重,使单元的内部输入能匹配外部输入,用公式表示为:

aWj为单元j的激活量。虽然,自动联系者模型没有可比对的反应模式,但是,上述算法的核心仍是用内部状态去匹配外部状态,尽量减少两者间的差异,因此,上述公式仍可看成delta法则*的变式。当然,除了使用delta法则来训练自动联系者外,也有研究者(例如,文献[14])使用类似模式联系者的Hebb法则训练该模型。和模式联系者一样,自动联系者也能习得不同的外部输入模式,并对此做出分类。可见,自动联系者能够很好地模拟人工语法学习任务学习和测试阶段的表面属性――无外部引导的分类学习任务。然而,它是否能模拟语法学习这一内部属性呢?

第三,人工语法学习的本质特征在于所获得的是有关语法的知识。虽然,如前所述,自动联系者获得的是一种无法外显的分布性表征的知识,但是,有意思的是这种表征似乎代表了某一类别的原型。而原型或许就好比语法的抽象表示方法。McClelland 和Rumelhart(1985)曾构建了一个由24个单元组成的自动联系者,将一些有关狗的信息输入这24个单元[7],其中前8个单元输入的是狗的名字信息,后16个单元输入的是狗的外貌信息,结果发现经过训练后,模型的权重矩阵呈现出特殊的构造,即前8个单元之间及前3个单元与后16个单元间的权重处于随机水平,而后16个单元间的权重却出现某种固定的模式,McClelland和Rumelhart认为这种固定的模式就是狗视觉表象的原型。虽然,无法从这种固定的权重模式中,看出典型的狗应该具有哪些特征,但是至少可以认为,如果两个单元间的连接权重比较大,那么当这两个单元同时被激活时,模型有可能将目标判断为狗。也就是说,原型所表征的是每个视觉特征间的联系。这就好比,人工语法学习中的语法知识,语法或许是由字母间的联系所表征的。所以,从这点意义上来,自动联系者习得的原型或许就是语法知识。

3.2 序列学习和简单循环网络

序列学习任务要求被试对一系列规则序列进行选择反应,其假设为:如果被试习得了序列间存在的固定规则,则他们可以依据前面呈现的序列来预测下一个项目是什么,成功的预测将会缩短被试的反应时[11]。序列学习和人工语法学习之间的本质区别在于:它是一项预测任务,而非分类任务,被试对某一项目的反应依赖于前面的项目。

1990年,Elman开发了简单循环网络,专门用来模拟这类预测任务[9]。简单循环网络的目的是根据当前输入的项目来预测下一个项目,它的基本结构如图4所示,由4个加工单元层组成,它们分别是输入单元层、隐含单元层、上下文单元层和输出单元层。输入单元层用于表征当前输入的项目,输出单元层用于表征模型所预测的项目,上下文单元层用于表征在当前项目之前出现的项目序列,而隐含单元层负责在输入、输出和上下文单元层间的信息传递。简单循环网络的工作原理为:在接收第一

图4 简单循环网络的基本结构(资料来源:文献[16])

个项目时,输入层中的某些单元被激活,并将激活传递给隐含层中的单元,隐含层除了将激活进一步传递给输出层,由输出层预测第二个项目外,还将自己的激活水平复制于上下文层,当接收第二个项目时,隐含层除了收到来自输入层的激活外,还将收到来自上下文层的激活,因此,它向输出层传递的激活则包含了第一和第二两个项目的信息,依此类推,输出层所做出的预测是基于包含当前项目之内的所有项目的信息。当然,和其他许多人工神经网络模型一样,简单循环模型依据delta法则来调整权重的,即将模型给出的预测与真实出现的后续项目进行比较,来调整权重。不过,简单循环网络所使用的delta法则和自动联系者有两点差异:(1)权重调整是通过斜率递减法进行的,即寻求预测反应和真实项目之间误差方差的最小值,用公式表示为:

其中,tout为真实的正确输出,aout为模型的预测输出;(2)不同于自动联系者,简单循环网络是多层模型,当调整输出层单元和隐含层单元间的权重时,计算预测和真实项目间的误差方差是可以直接计算获得的,然而当要调整隐含层单元与输入层单元或上下文层单元间的权重时,由于不存在真实的正确反应,误差方差则无从计算,所以Rumelhart和McClelland(1986)提出可以用输出层单元的误差来估计隐含层单元的误差,即某一隐含单元的误差为所有与之连接的输出层单元的误差与它们之间权重乘积求和的函数[6]

然后,同样用斜率递减法求出权重的变化量,这种误差计算的法则和简单循环网络中原有的信息流方向正好相反,所以又被称为逆向推导。

简单循环网络能有效地模拟序列学习中的预测机制,因此,它刚提出不久,就被用于模拟内隐序列学习,用来研究序列学习的抽象性等问题[13,15,16]。

总之,针对不同的内隐学习任务,为了得到更佳的模拟效果,研究者往往倾向于选择不同人工神经网络模型加以模拟。然而,就像是任务之间的划分并不绝对一样(比如:Cleeremans等就曾将人工语法和序列学习结合在同一个任务中),神经网络模型和内隐学习任务间的匹配也并不绝对,比如:Boucher等(2003)就层用简单循环网络来模拟序列学习[17]。

4 小结

基于权重调整来学习正确反应的人工神经网络模型和内隐学习的两大本质特征间有着极优的匹配,人工神经网络模型在内隐学习领域的适用性毋庸置疑。在这样的背景下,出于深入探讨内隐学习的目的,研究者纷纷根据不同的内隐学习任务,选用不同的人工神经网络模型对之加以模拟[18]。到目前为止,针对两种较为普遍的内隐学习任务,也相应地出现了两种使用较为广泛的神经网络模型――自动联系者和简单循环网络。在实际研究中,合理地使用这两个模型,必将为内隐学习的理论和人工模拟提供更有力的证据。

参考文献

[1] Cleeremans A. Mechanisms of Implicit Learning: Connectionist Models of Sequence Processing. In: Jeffrey L E ed. Neural Network Modeling and Connectionism. London: MIT Press, 1993

[2] Dienes Z, Perner J. Implicit knowledge in people and connectionist networks. In: Underwood G.. Implicit cognition. Oxford: Oxford University Press, 1996

[3] McLeod P, Plunkett K, Rolls E T. Introduction to Connectionist Modelling of Cognitive Processes. Oxford: Oxford University Press, 1998

[4] Milner P. A Brief History of the Hebbian Learning Rule. Canadian Psychology, 2003, 44(1): 5~9

[5] Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Reviews, 1958, 65: 386~408

[6] Rumelhart D, McClelland J. Parallel distributed processing (vol. 1). Cambridge: MIT press, 1986a

[7] McClelland J, Rumelhart D. Distributed Memory and the Represantation of General and Specific Information. Journal of Experimental Psychology: General, 1985, 114(2): 159~188

[8] Jordan M. An introduction to linear algebra in parallel distributed processing. In: Rumelhart D, McClelland J ed. Parallel distributed processing (vol. 1). Cambridge: MIT press, 1986a. 365~422

[9] Elman J. Finding structure in time. Cognitive Science, 1990, 14(2): 179~212

[10] Reber A S. Implicit learning of artificial grammars. Journal of Verbal Learning and Verbal Behavior, 1967, 6(2): 317~327

[11] Nissen M J, Bullemer P. Attentional requirement of learning: Evidence from performance measures. Cognitive Psychology, 1987, 19(1): 1~32

[13] 郭秀艳, 邹玉梅, 李强等. 中学生颜色内隐学习特征的实验研究. 心理与行为研究, 2003, 1(2): 122~127

[14] Cleeremans A, McClelland J L. Learning the Structure of Event Sequence. Journal of Experimental Psychology: General, 1991, 120(3): 235~253

[15] Dienes Z. Connectionist and Memory-Array Models of Artificial Grammar Learning. Cognitive Science, 1992, 16(1): 41~79

[16] Jiménez L, Méndez C, Cleeremans A. Comparing Direct and Indirect Measures of Sequence Learning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 1996, 22(4): 948~969

篇(9)

神经网络是一个具有高度非线性的超大规模连续时间动力系统。是由大量的处理单元(神经元)广泛互连而形成的网络。它是在现代神经科学研究成果的基础上提出的,反映了脑功能的基本特征。但它并不是人脑的真实描写,而只是它的某种抽象、简化与模拟。网络的信息处理由神经元之间的相互作用来实现;知识与信息的存储表现为网络元件互连间分布式的物理联系;网络的学习和计算决定于各神经元连接权系的动态演化过程。因此神经元构成了网络的基本运算单元。每个神经元具有自己的阈值。每个神经元的输入信号是所有与其相连的神经元的输出信号和加权后的和。而输出信号是其净输入信号的非线性函数。如果输入信号的加权集合高于其阈值,该神经元便被激活而输出相应的值。在人工神经网络中所存储的是单元之间连接的加权值阵列。

神经网络的工作过程主要由两个阶段组成,一个阶段是工作期,此时各连接权值固定,计算单元的状态变化,以求达到稳定状态。另一阶段是学习期(自适应期,或设计期),此时各计算单元状态不变,各连接权值可修改(通过学习样本或其他方法),前一阶段较快,各单元的状态亦称短期记忆(STM),后一阶段慢的多,权及连接方式亦称长期记忆(LTM)〔1〕。

根据网络的拓扑结构和学习规则可将人工神经网络分为多种类型,如不含反馈的前向神经网络、层内有相互结合的前向网络、反馈网络、相互结合型网络等〔2〕。本文的人工神经网络模型是采用BP算法的多层前馈网络。

该模型的特点是信号由输入层单向传递到输出层,同一层神经元之间互不传递信息,每个神经元与邻近层所有神经元相连,连接权用Wij表示。各神经元的作用函数为Sigmoid函数,设神经网络输入层的p个节点,输出层有q个节点,k-1层的任意节点用l表示,k层的任意节点用j表示,k+1层的任意节点用l表示。Wij为k-1层的第i个神经元与k层的第j个神经元相连接的权值。k-1层的节点i输出为O(k-1)i,k层节点j的输出为:

k层节点j的输出为:

Okj=f(netkj)

设训练样本为(X,Ye),X为p维向量,加到输入层;Ye为q维向量,对应于期望输出;网络的实际输出Y也是q维向量。网络在接受样本对的训练过程中,采用BP算法,其权值调整量为:

ΔWij=-ηδkjO(k-1)i

其中,对于输出层为:

δkj=yj(1-yj)(yej-yj)

对于非输出层为:

η为训练步长,取0<η<1。

用样本集合反复训练网络,并不断修改权值,直到使实际输出向量达到要求,训练过程结束〔3〕。

上述人工神经网络可以完成多种信息处理任务,如从二进制数据中提取相关知识,完成最近邻模式分类,实现数据聚集等。而本文要用的是其极强的数学逼近映射能力,即开发合适的函数f:ARnBRn,以自组织的方式响应以下的样本集合:(x1,y1),(x2,y2)…,(xm,ym),其中yi=f(xi)。这里描述的是一般的数学抽象,像识别与分类这些计算都可以抽象为这样的一种近似数学映射。

所谓诊断,实质上是一个分类问题。即根据候诊者的症状,医学检查结果(如体温、心跳等)等一些情况,它们可以用一向量(e1,e2,…,em)来表示,将其归类为病人或非病人。这也可以转化为寻找一差别函数f使得:

(1)f(e1,e2,…,em)>ε, (e1,e2,…,em)∈T

(2)f(e1,e2,…,em)>ε, (e1,e2,…,em)T

其中集合T表示患病。

因此,病情诊断最终也可作为一类函数的逼近问题。

而许多研究已表明,前向神经网络可作为非线性逼近的标准型。对于实数空间的任一函数,只要它满足一定的条件,一定存在唯一的具有单一隐层的前向网络作为它的最优最佳逼近。而含有两个隐含层的前向网络可在任意的平方误差内逼近某一实函数〔3〕。

诊断步骤

肺癌病例数据选自1981~1994年在某医院住院的病人,共计551例。其中486例(88%)经病理学、细胞学诊断证实为肺癌。每一病例都包括多项数据,其中用于诊断的数据项有:病人的一般情况(如年龄、性别等),家族史、既往史、吸烟史、术后病理、X射线检查、CT检查、纤维支气管镜检查、PAT痰检等多达58项。因此,原则上 58项数据应作为神经网络的输入项,而神经网络的输出值就是病人是否患肺癌的结果。

1.网络训练集的确定:在最原始的551例病人数据中存在着各种各样的差别,如性别差异(419例男性,132例女性),诊断结果的差异(486例经证实为肺癌),所患肺癌种类的差异(鳞癌、小细胞癌、大细胞癌等),患病程度上的差异(早、中晚期的不同)等等。显然,训练数据集应最大限度地保证兼顾各种病例情况。经过仔细筛选,选择了含有460个病例的集合作为肺癌诊断用的网络的训练集。

2.神经网络输入和输出数据的预处理

按照人工神经网络的理论,神经网络的输入输出数据都应该属于(0,1)区间的实数,为此我们需对原始数据进行如下的规一化处理:

其中xi为原始数据项,而Max=max{xi∶xi∈X},Min=min{xi∶xi∈X}。这里X为原始数据集。经过(7)式变换后,yi将在(0,1)区间。因此,可作为神经网络的输入输出。

3.应用神经网络进行肺癌诊断

将描述病人各种情况的数据作为前向网络的输入数据加到其输入端,并按(1)~(6)式计算各神经元的输入和输出,同时调整神经元之间的连接权值以使网络的输出和实际的病例情况相符。即当病人确实患肺癌时网络的输出结果也恰好指示为肺癌,反之亦然。如果对所有的训练样本集网络的输出基本上(95%或更高)能保证与实际结果一致,则训练过程结束。我们认为神经网络已建立起病人的各种因素与他是否是肺癌患者之间的函数映射关系。对于一个新的候诊病人来说,只要将他的情况输入到训练好的神经网络中去,根据网络的输出结果就可以知道他是否已患肺癌。

表1 基于不同发病因素的诊断网络模型

型 训练集精度 测试集精度

基于遗传因素的诊断网 53.8% 46.3%

基于个人生活习惯的诊断网 57.1% 44.9%

基于病症的诊断网 89.4% 83.3%

基于医学检查结果的诊断网 98.5% 92.6%

上述结果表明不同类型的因素应分开来考虑。于是我们将58项输入数据分成四类,这四类有各自的BP诊断网,依次称为诊断一、诊断二、诊断三、诊断四。它们先单独测定,然后再将它们各自的结果综合起来得出最后的判断。

上述四种诊断网络所得结果的可靠性各不相同。其中,根据医学检查结果所作的诊断准确性最高,因此在最后的综合分析中要重点考虑它的诊断结果,我们给它设一个相对最高的权值。其次,根据病人的症状所作的诊断往往也具有较高的准确性,因此给它的权值也较高,但比医学检查结果的稍低。其他两类因素在有关肺癌的诊断中仅具参考作用,因而所设的权值相对较小。

最后的结果O为:

O=a1.O1+a2.O2+a3.O3+a4.O4

a1+a2+a3+a4=1

其中Oi,ai,i=1,2,3,4分别为各诊断网的输出及其对应的权值。

当O>0.5时最后的诊断结果为患肺癌,反之则正常。对所有的病例数据经上述方法的诊断结果见表2。

表2 神经网络对肺癌诊断结果分析

神经网络

诊断结果 训练数据 测试数据

肺癌患者 非肺癌患者 肺癌患者 非肺癌患者

+ 460 2 25 3

- 0 38 1 22

其中对于训练集,肺癌病人的正确检出率为100%,非肺癌病人误诊率为5%。对于测试集,肺癌病人的正确检出率为96.2%;非肺癌患者正确检出率为88%,误诊率为12%。

讨 论

1.本研究所采用的人工神经网络的肺癌诊断方法的结果较好地符合了已知数据,具有较高的准确性,特别是对于肺癌患者一般都能准确地做出诊断,有利于肺癌的早期发现和治疗。

2.要想进一步提高该方法的准确性,应该注意收集更多更全面的病例数据。人工神经网络主要是利用它能自动从数据集中抽取函数的关系的功能。如果我们所使用的数据越多越全面,则其中所蕴含的事物本身的规律性就越强,利用人工神经网络从中所抽取的函数关系就越具有普遍性,因而就更准确。

3.实现对肺癌的诊断的关键在于准确找到罹患肺癌的判定函数,可利用前向网络的函数逼近功能来实现。但是这里涉及到两个问题。首先,由于差别函数和预测率函数都是利用人工神经网络从已知的病例数据集中抽取出来的,它实际反映的是这些数据集中输入输出对的映射关系。因此要想保证诊断具有较高的准确性,就应该使用来建立函数关系的这些数据集(称训练集)具有充分的代表性,即这些数据应基本蕴含肺癌诊断的医学原理。这就涉及到如何选择网络合理的训练集及关键的输入项。另一个问题涉及到神经网络本身的要求,即网络的输入输出数据值都应在区间(0,1)中。这可以通过数据的编码和归一化来实现。

4.由于某些原因有些病人的病例数据不完整,约占总病例数据的10%左右。显然,如果按照传统的方法来建立肺癌病人的诊断模型〔4〕,这些有缺项的数据是不太好处理的,但是由于人工神经网络有较强的容错性,输入数据在某些项上的错误对网络最终结果的正确性影响不大。

参考文献

1.焦李成.神经网络系统理论.第1版.西安:西安电子科技大学出版社,1995,3

篇(10)

中图分类号:TU375.3 文献标识码:A

文章编号:1674-2974(2015)11-0017-08

随着社会经济的发展,以及对近些年大地震的不断反思,基于性能的结构抗震设计已成为地震工程领域研究的热点问题和前沿发展方向,为众多国家的规程所提及或者采用(如FEMA273[1],FEMA356[2],ASCE41[3]和Eurocode8[4]).柱子作为实际结构中承受竖向荷载和抵抗水平荷载的关键构件,其屈服位移的合理评估对于性能化结构抗震设计中结构的动力响应、结构性能水准的评估和抗震延性设计有很大影响.综合以往对柱子屈服位移的研究,其定义不明确,经验理论模型预测结果离散度较大的特点,使柱屈服位移的合理取值成为一个亟待解决的问题.

对于柱屈服位移的定义,国内外研究者提出了不同的看法,如Park在文献\[5\]中总结了4种不同的定义方法,并推荐使用割线刚度的方法定义屈服位移.Panagiakos[6]认为判定柱屈服的条件是柱中纵向钢筋屈服或者混凝土发生严重的非线,并在此基础上给出了对应的经验公式.Montes[7]基于柱中钢筋屈服,提出了对应不同强度等级钢筋的柱有效屈服曲率计算公式.Berry[8]等模拟了PEER[9]柱性能数据库中255根矩形截面混凝土柱的屈服位移.钱稼茹[10]亦对该数据库中144根剪跨比大于2的矩形柱考虑轴压比的影响进行回归分析,提出了修正的柱屈服转角表达式.蒋欢军[11]综合Berry[8]关于屈服位移以及Priestley[12]对于屈服曲率的定义,在计算屈服位移的公式中加入了考虑柱端钢筋滑移和柱子剪切变形影响的修正项.Peru[13]基于Eurocode8[14]中柱屈服位移的定义,利用CAE方法对PEER柱性能数据库的柱屈服位移进行了预测.

柱屈服过程中钢筋和混凝土都发生了复杂的非线,加之影响屈服性能的因素也非常多,上述基于经验理论的非线性拟合公式预测柱屈服性能时存在预测结果离散度非常大的问题.人工神经网络作为一种在数据稀少的情况下能够有效预测数据输入和输出关系的手段而进入研究者的视野.人工神经网络是以人类神经活动为基础而发展起来的一项新颖的计算手段,适合处理复杂线性及非线性映射问题.由于其强大的非线性映射能力,神经网络在工程领域被用于预测圆柱形混凝土柱约束状态的极限压应力和对应的压应变[15],模拟金属疲劳裂纹开展速率[16].神经网络的其它工程应用还有如混凝土柱在弯曲失效模式下的极限变形预测[17],边坡稳定性分析[18],修正结构有限元模型[19]等.

本文基于经验理论模型对弯曲型混凝土柱屈服性能影响因素的研究,利用神经网络预测PEER柱性能库210组矩形混凝土柱的屈服性能,并以此来探讨神经网络对柱性能预测的可行性和有效性.通过对比神经网络的预测结果与实验结果以及经验理论模型估算结果,评价神经网络预测模型的效果.最后基于Carson敏感性分析方法验证所选神经网络输入参数的合理性并得到输入各参数对混凝土柱屈服位移的贡献程度.

1 经验模型预测实验数据库柱屈服转角

1.1 实验数据库

本文对弯曲型失效为主的柱屈服转角进行预测,在PEER[9]柱性能数据库中通过以下标准:1)柱子截面形状为矩形;2)柱子受往复荷载作用直至失效;3)柱子的实验失效模式为弯曲失效.选择210组实验数据,作为神经网络预测数据库.该预测数据库的主要属性参数范围如图1所示.

从图1中可看出本文所选数据库主要参数分布覆盖了常规设计的参数取值范围,具有广泛的代表性.

从图2和表1中可以看出,利用4种经验模型估算构件的屈服转角时,预测值与实验值的比值分布相当离散,ASCE41模型计算结果变异系数相对较小为0.443,而利用ACI318-08(b)变异系数则达到0.65.针对上述预测结果离散的问题,本文采用BP神经网络预测PEER数据库柱的屈服转角.

2 神经网络预测柱屈服转角方法

2.1 BP神经网络

BP神经网络作为前向型多层神经网络的一种,其实质是利用误差反向传播算法(Back-Propagation)对神经网络进行训练.BP神经网络结构由输入层、隐含层和输出层三个部分组成,Hornik[22]已经证明单隐层的神经网络可以实现任意精度的非线性映射关系.BP神经网络训练分为信息的正向输入和误差的反向传播两个阶段.在信息正向输入阶段,输入参数通过阀值和权值的调节,再经激活函数传递对计算结果进行输出;而在误差反向传播阶段则是通过计算输出层的结果和目标值之间的误差来反向调节各神经元的权值和阀值;在实际训练中这两个阶段交替进行,直至达到训练的性能目标为止.

但由于BP学习算法其本质是梯度下降学习算法,权值的修正是沿性能函数梯度的反向进行,使普通的BP神经网络在训练时有以下不足:1)作为一种局部搜索的方法,容易陷入局部极小值而不能得到全局最优的结果;2)由于BP算法本身反向传播的特点,使其在求解矩阵时耗费大量的计算时间,致使神经网络收敛速度很慢.针对上述不足,众多学者对其进行修正,其中L-M(Levenberg-Marquardt)[23] 算法因其能够进行快速迭代,又具有全局优化的特点而在小型神经网络中得以广泛应用.L-M算法中迭代项如式(3)所示:

综合以上讨论,可以确定影响柱屈服转角的主要参数有:混凝土的抗压强度、轴压比、剪跨比、纵向钢筋的屈服强度、配筋率以及纵向钢筋直径,并将作为神经网络预测模型的输入参数.

2.3 构建BP网络预测模型

根据前述从PEER数据库中遴选出的210组数据,180组作为BP神经网络的训练集,30组作为测试集.将2.2节讨论的6个主要参数作为神经网络输入参数,柱的屈服转角为输出结果,在MATLAB中建立如图3所示的3层BP神经网络N 6-H-1(其中输入层节点数为6,H为隐含层的节点数,输出层节点数为1).

利用MATLAB神经网络工具箱建立神经网络模型需要确定以下参数:学习函数、学习速率、激活函数、训练函数、学习周期、性能目标和隐含层节点数.神经网络参数选择如下:

利用BP网络进行预测分析,为避免因输入因子数量级差别而引起较大的网络误差,一般先将输入因子进行归一化处理.为避免激活函数其极值0和1附近饱和而伴随出现“麻痹现象”,这里采用如式(12)所示方法将神经网络的输入和输出规格化:

2.4 BP网络预测结果

根据以上讨论对图3中BP神经网络进行训练、测试,得到如表2所示的预测结果.

从表2中可以看出当隐含层节点数为13和15时,其测试集和训练集的性能函数值分别达到最小;而当隐含层节点数为17和21时,神经网络训练集和测试集的性能函数均有相对较好的取值.限于篇幅,本文只以13和15节点神经网络为例,讨论其对混凝土柱屈服性能预测的适用性.

图4和表3列出了对应节点数目为13和15的BP神经网络模型预测结果.为了进一步检验神经网络的预测能力,将这两组预测结果与实验结果进行线性回归分析,结果如图5所示.

根据表2和图5给出的预测结果以及对应的线性回归结果,其对应较小的性能函数MSE的值和较高的相关系数R的值,可以看出神经网络能够准确预测混凝土柱的屈服转角.

在表3和图4中可以看出,2种不同节点数的神经网络均能取得较好的预测结果,表3中训练集和测试集的最大变异系数仅为0.164和0.179.从图4~图5以及表2~表3分析可以看到,利用BP网络预测柱的屈服位移可以得到相当满意的结果.

2.5 BP网络预测结果与经验模型比较

为了对比说明神经网络预测结果的准确性,本文也将Elwood在文献\[20\]基于理论推导的有效刚度模型带入式(2),计算结果列于图6(a)中.同时对应式(1)中屈服位移的定义,计算对比文献\[11\]所提出的经验模型屈服转角:

从图6和表4中可以看出:在利用Elwood计算模型估算构件的屈服转角时,估算精度高于前述4种规范模型,但是也看出Elwood模型和Jiang经验模型估算结果依旧相当离散,其中Elwood模型计算结果变异系数较小为0.365,而Jiang模型的计算结果则为0.477.相对于上述6种经验理论模型,本文所提的13和15节点神经网络模型,其预测结果与实验值的比值均值为1;变异系数仅为0.16和0.13.

相对于前述6种经验理论模型中仅考虑其中一部分因素的影响或者用一个数学表达式描述输入参数和柱子屈服位移之间的关系,神经网络综合考虑输入参数之间的相互影响,通过权值和阀值矩阵的调节得到更为准确的预测结果.

2.6 BP网络敏感性分析

为得到输入参数对混凝土柱屈服位移的影响程度以及验证2.2节通过经验模型选用神经网络输入参数方法的合理性,本文采用基于Garson算法[28]的神经网络敏感性分析.作为基于连接权神经网络敏感性分析方法的代表,该方法通过连接权的乘积计算输入变量对输出变量的贡献程度.对于一个N X-H-1的神经网络,其计算表述如式(14)所示:

3 结 论

为了能够准确地预测混凝土柱构件的屈服性能,建立一种基于BP神经网络预测混凝土柱的屈服性能的方法.本文首先利用以往的经验理论模型详细解构了影响混凝土柱屈服性能的因素,并将混凝土强度、轴压比、剪跨比、纵向钢筋配筋率、纵向钢筋直径及纵向钢筋屈服强度作为BP神经网络的输入参数预测混凝土柱的屈服性能.通过与已有估算模型结果的对比,显示出利用BP神经网络预测模型的高效性.最后通过利用Garson敏感性分析方法证明了本文选择预测模型输入参数合理性,并评估了各个输入因素对混凝土柱屈服位移影响的程度.本文通过利用神经网络预测矩形混凝土柱的屈服性能,说明在数据不充分的情况下神经网络对于预测工程结果是一种很有潜力的手段.

参考文献

[1] FEMA 273 Guidelines for the seismic rehabilitation of buildings[S]. Washington: Federal Emergency Management Agency, 1997:13-14.

[2] FEMA 356 Prestandard and commentary for the seismic rehabilitation of buildings \[S\]. Washington: Federal Emergency Management Agency, 2000:218-218.

[3] ASCE/SEI41 Seismic rehabilitation of existing buildings \[S\]. American Society of Civil Engineers, Reston, VA. 2007:354-354.

[4] Eurocode 8:Design of Structures for earthquake resistance Part 1: General rules, seismic actions and rules for buildings\[S\]. Brussels European Committee for Standardization,1998:219-219.

[5] PARK R. Ductility evaluation from laboratory and analytical testing \[C\]// Proceedings 9th World Conference on Earthquake Engineering.Tokyo-Kyoto, Japan. 1988:VIII,605-616.

[6] PANAGIOKOS T B, FARDIS M N. Deformations of reinforced concrete members at yielding and ultimate \[J\]. ACI Structural Journal, 2001, 98(2): 135-148.

[7] MONTES H E, ASCHLEIM M. Estimates of the yield curvature for design of reinforced concrete columns \[J\]. Magazine of Concrete Research, 2003, 55(4): 373-383.

[8] BERRY M, EBERHARD M O. Performance models for flexural damage in reinforced concrete columns \[R\]. Pacific Earthquake Engineering Research Center, College of Engineering, University of California, 2004:158-158.

[9] PEER. Peer structural performance database \[DB/OL\]. \[2003-12-29\]. http: // nisee. berkeley. edu / spd.

[10]钱稼茹,徐福江.钢筋混凝土柱基于位移的变形能力设计方法\[J\]. 建筑结构, 2007(12): 30-32.

QIAN Jia-ru, XU Fu-jiang. Displacement-based deformation capacity design of RC columns \[J\]. Building Structure, 2007(12): 30-32.(In Chinese)

[11]JIANG Huan-jun, LU Xi-lin, KUBO T. Damage displacement estimation of flexure-dominant RC columns[J]. Advances in Structural Engineering, 2010, 13(2): 357-368.

[12]PRIESTLEY M. Brief comments on elastic flexibility of reinforced concrete frames and significance to seismic design \[J\]. Bulletin of the New Zealand National Society for Earthquake Engineering, 1998,31(4): 246-259.

[13]PERU I, FAJFAR P. Prediction of the forceCdrift envelope for RC columns in flexure by the CAE method \[J\]. Earthquake Engineering & Structural Dynamics, 2007,36(15): 2345-2363.

[14]Eurocode 8: design of structures for earthquake resistance CPart 2: Bridge\[S\]. Brussels European Committee for Standardization, 2005:133-133.

[15]ORETA A W, KAWASHIMA K. Neural network modeling of confined compressive strength and strain of circular concrete columns \[J\]. Journal of Structural Engineering, 2003, 129(4): 554-561.

[16]罗广恩,崔维成. 金属疲劳裂纹扩展速率的贝叶斯正则化BP神经网络预测\[J\]. 船舶力学, 2012, 16(4): 433-441.

LUO Guang-en, CUI Wei-cheng. Prediction of fatigue crack growth rate of metal based on Bayesian regularized BP neural network \[J\]. Journal of Ship Mechanics, 2012, 16(4): 433-441. (In Chinese)

[17]INEL M. Modeling ultimate deformation capacity of RC columns using artificial neural networks \[J\]. Engineering Structures, 2007, 29(3): 329-335.

[18]刘思思,赵明华,杨明辉,等. 基于自组织神经网络与遗传算法的边坡稳定性分析方法\[J\]. 湖南大学学报:自然科学版,2008,35(12): 7-12.

LIU Si-si, ZHAO Ming-hua, YANG Ming-hui, et al. Slope stability analysis method based on self-organizing neural network and genetic algorithm\[J\]. Journal of Hunan University: Natural Sciences, 2008, 35(12): 7-12. (In Chinese)

[19]王蕾,郁胜,李宾宾,等. 基于径向基神经网络的桥梁有限元模型修正\[J\]. 土木工程学报, 2012,45(S2): 11-15.

WANG Lei, YU Shen, LI Bin-bin, et al. Bridge model updating based on radial basis function neural network \[J\]. China Civil Engineering Journal, 2012,45(S2): 11-15. (In Chinese)

[20]ELWOOD K J, EBERHARD M O. Effective stiffness of reinforced concrete columns \[J\]. ACI Structural Journal, 2009, 106(4):483-483.

[21]ACI 318-2008 Building Code requirements for structural concrete and commentary \[S\]. Farmington Hills: 2008, American Concrete Institute, 2008:143-143.

[22]HORNIK K, STINCHCOMBE M, WHITE H. Multilayer feedforward networks are universal approximators \[J\]. Neural Networks, IEEE Transactions on, 1989, 2(5): 359-366.

[23]HAGAN M T, MENHAJ M B. Training feedforward networks with the Marquardt algorithm \[J\]. Neural Networks, IEEE Transactions on, 1994, 5(6): 989-993.

[24]郑罡,李贵乾. 钢筋混凝土桥墩有效刚度\[J\]. 土木工程学报, 2013,46(6):44-52.

ZHENG Gang, LI Gui-qian. Effective stiffness of reinforced concrete bridges piers \[J\]. China Civil Engineering Journal, 2013,46(6):44-52. (In Chinese)

[25]SEZEN H, MOEHLE J P. Bond-slip behavior of reinforced concrete members \[C\]//Proceedings of fib symposium on concrete structures in seismic regions. Athens, Greece. CEB-FIP. 2003.

免责声明以上文章内容均来源于本站老师原创或网友上传,不代表本站观点,与本站立场无关,仅供学习和参考。本站不是任何杂志的官方网站,直投稿件和出版请联系出版社。

上一篇: 顶岗实习实习报告 下一篇: 英语教师培训心得
相关精选
相关期刊
期刊推荐 润色服务 范文咨询 杂志订阅