信息资源概念汇总十篇

时间:2023-10-30 10:23:41

信息资源概念

信息资源概念篇(1)

长期以来,作为公共利益的维护和执行机构,政府成为全社会公共信息资源最大的拥有者、者和使用者,掌握着大量的信息资源,并在实践中逐步形成了一套完整、稳定的信息资源管理模式,这使得人们在很大程度上将政府信息资源等同于公共信息资源。然而,随着社会信息量的迅速增加、信息技术的持续发展以及人们信息意识的不断提高,公共信息资源在管理对象、管理目标、管理手段等方面不断分化,政府作为公共信息资源管理体系中唯一主体的地位受到动摇,因而需要重新理清政府信息资源与公共信息资源的关系。

1公共信息资源与政府信息资源的概念界定

1.1公共信息资源的概念及其构成

对于公共信息资源这一概念,目前国内外并没有形成共识,只是出现了一些有影响的定义。如美国《田纳西州公共信息法案》指出,公共信息是在法律或法令以及与官方事务相联系下所收集、组织和保管的信息,包括政府部门产生的信息或为政府部门所生产以及政府部门所拥有的信息或有权获取的信息。保罗·乌勒在给联合国教科文组织起草的《发展和促进公共领域信息的政策指导草案》中把公共领域的信息定义为:不受知识产权和其他法定制度限制使用以及公众能够有效利用而无需授权也不受制约的各种数据来源、类型及信息。

我国也有不少学者逐渐关注公共信息资源的研究,并且也取得了一些初步的成果。夏义望认为:“所谓公共信息是一种特定的实用型信息类型,它是指所有发生并应用于社会的公共领域,由公共事务管理机构依法进行管理,具有公共物品特性,并能为全体社会公众共同拥有和利用的信息。”

查先进认为,“政府信息资源是一切产生于政府内部或虽然产生于政府外部但对政府活动有影响的信息资源的统称。”

霍国庆认为,公共信息资源除了政府信息资源外,还包括政府各部门在共享政府信息资源的基础上,在履行其政府职能时需要政府系统之外的其他个人、组织、社团、社区等来生产、收集、处理、传播或者处置的信息。

比较以上概念,笔者认为,公共信息资源是指社会组织在公共活动中所产生的各种信息资源的集合。其中,政府公务活动(即政府利用公共权力实现公共利益时所进行的活动)所产生的信息,构成了公共信息资源的主要部分;而第三部门等社会组织及个人以公开的方式所的组织内部信息(如企业宣传册)、个人信息(如个人博客)等,也构成了公共信息资源重要内容。之所以如此诠释公共信息资源的概念,是因为随着社会信息化程度的提高,提供公共信息资源的主体不断丰富,作为客体的公共信息资源的数量与类型也在不断多样化,二者均出现多元化的局面。

1.2政府信息资源的概念及其构成

政府信息资源就是指一切产生于政府内部或虽然产生于政府外部但对政府活动有影响的信息。从这个定义可以看出,政府信息资源包含两方面的内容,一是指政府行政机构在行使公共权力,管理国家事务及社会公共事务的过程中产生的信息资源;二是指虽然产生于政府外部但却处于政府部门最关心的目标范围内,具有某种广泛性意义和参考价值、对全局有一定影响的倾向性信息资源,例如经济活动信息、科技成果信息等信息资源。

政府信息资源构成了公共信息资源的主体,二者既有联系又有区别。那些产生于政府业务流程中的记录、数据、文件,以及政府为了业务流程的顺利开展从外部收集的信息,构成了公共信息资源的主要内容,但并非全部。尽管政府信息资源也具有公共性和广泛性的特性,但并不代表所有的政府信息资源都是公共信息资源,政府机构内部的事物管理信息,不一定属于公共信息资源,如内部财务收支、内部审计结果等;但在一定的历史条件下,这类信息也可能会转化为公共信息资源,如陕甘宁边区政府的工资发放情况。

2公共信息资源的特征

公共信息资源是公共组织在公共管理活动中产生的一种公共产品,凡是能满足公众信息需求、与公共利益密切相关的信息资源均可纳入公共信息资源的范畴。公共信息资源与每一个社会公众都有着直接或间接的联系,提供公共信息资源的主体,对公共信息资源进行维护和管理,使公众能够免费或低价获取。因而,公共信息资源具有公共性、广泛性、基础性、公益性的特征,笔者认为,其中公共性和广泛性是公共信息资源最显著的特征。政府在依法履行国家政务和社会管理职能的过程中,承担着基础性的职能并发挥特殊的功能,如在国防安全、经济宏观调控、基础设施建设、社会福利保障等方面的不可替代性,使得由政府的政府信息资源具有一些独有的特征。

2.1公共性

“公共性”是相对与“私人性”而言的一个概念,它是指公共管理主体以谋求公共利益为其目的与动机,一切措施都是在顾及全局、公正、公开的原则下为全体民众服务,并以最好的服务来争取民众的拥护和支持。公共信息资源主要是针对私人信息资源而言的一种资源类型。私人信息资源一般是指由私人生产和提供的信息资源,其生产成本由私人承担,并采取等价交换的市场供给方式,即采取“谁付费谁利用”的供给方式。公共信息资源一般是指公共部门为了维护公共利益和社会公平而向公众提供的信息资源。从这个角度来说,公共信息资源的效用在于公共消费,目的在于促进公共利益,应当属于公共产品。

既然归属于“公共产品”范畴,那么公共信息资源一定具有非排他性和非竞争性。公共信息资源一旦被提供,增加一个人的消费并不会使原有的信息内容减少或影响他人的受益,增加消费所产生的社会成本为零,这就是公共信息资源的非竞争性。如果没有一个人能够被排除在该物品不付代价的消费过程中,那么这种物品就具有非排他性。

由此可以看出,公共性是公共信息资源的本质属性。政府部门产生的以及与政府有关的大量信息资源,来自于第三部门乃至私营组织的信息资源诸如公共健康信息、文化信息、农业信息、气象信息、环境信息、时事新闻等,网络等传播媒介上公开的诸如个人blog、msn空间等的信息资源都具有公共性。

2.2广泛性

公共信息资源是普遍存在的。它可以是事物的特征和运动状态的反映,也可以是人类大脑思维的结果;可以是政府的国家和地方的政策法规信息,也可以是古墓中的随葬品。总之,公共信息资源存在于社会的各个角落。公共信息资源的来源十分广泛,可以来自政府系统内部,比如政府的人事制度改革的通知、关于政府实施项目的信息等,可以是来自社会不同阶层、不同职业领域的信息,比如经济统计信息、教育信息、公共福利信息、高等院校在招生过程中的教师个人情况介绍等,还可以是历史上保存下来的文献资料等。

公共信息资源的内容也十分广泛。社会各级部门的工作从来都是门类繁多的,在其工作过程中产生了各类信息,比如政府机关的办事程序规则、学生就业信息、教育状况和特色、药品质量信息、图书馆等机构提供的文献信息、天气预报、旅游资源信息、网络上公开的个人求职信息等。公共信息资源系统就是一个纵横交错的网络。

2.3政府信息资源的独有特性

如上文所述,政府信息资源是与政府公务活动紧密联系的信息资源,政府部门为了实现管理国家的目标,其采集、加工、存储、传播和利用的信息必然会体现政府对社会生活独有的权威和控制力,因而政府信息资源既有公共信息资源的一般特性,同时也具有不同与公共信息资源的独有特性。

2.3.1政治性

政府信息资源大多是政府机关行使国家职能时使用或产生的信息,其以社会公共事务和政府自身事务为反映对象,带有强烈的政治倾向性.足为一定的政治要求服务的,有着明确的政治目的,关系列国家的稳定和安全。

2.3.2综合性

政府信息资源大多是产生或使用于政府机关的信息,作为政府部门,特别是高中层领导机关,通常管理的都是一个动态的、宏观的社会大系统,所以要解决的问题都是宏观的和综合的,且政府信息资源管理的关键环节也是综合处理信息,从而使政府信息资源不可避免地带有宏观性和综合性。

2.3.3政策性

国家政府的领导,主要是政策的领导、各项上作的好坏、成功与失败、顺利与曲折,无一不与执行的政策有关。所以,政府部门在处理工作时发出的一切政府信息,哪怕是非工作情况下所发出的,·些信息,无一不带有明显的政策性。

2.3.4权威性

政府信息资源是用于管理社会的,青必行,行必果,加之政府管理工作本身具有一定的强制性,存传递过程中对载体和传递方式郜有特定的要求,而构成了政府信息资源的权威性。

3构建多元化的公共信息资源体系

随着社会信息需求种类和范围的不断扩展,原有的以政府作为唯一主体的公共信息资源集中式分布已经不能适应社会的发展需要,政府信息资源供给能力的有限性限制并降低了公众的信息满足度,第三部门、私营组织及个人的介入成为必然趋势。一般来说,用户对信息源的选择或对信息服务选择几乎邵足建立存可获得性的基础上的,即最便于获得的信息源或最便于利用的信息服务首尤被选用,对质鼙可靠性的要求则是第二位的。这种便利化要求使得从事公共信息资源管理的不同主体同绕公众满意度在管理的手段形式等方面展竞争:鉴于上述原因,需要借助来自社会不同主体的积极参与和相互合作来促进公共信息资源的全社会共享,适公共信息资源自身的多样性和用户信息需求的个性化,允分实现信息资源的效用价值。因此新形式下公共信息资源的生产、管理、利用应当形成以政府为主导,社会多元主体参与,以公众满意度为宗旨的多元化格局。

首先,政府在公管理、公共服务领域的决定性作用使得政府不仅要承拟制定规划、维持信息领域秩序、监督信息供给效果以及丌发和公开政府信息资源的重任,且还要直接参公信息领域的活动,往公共信息资源提供中继续占据主导地位。

其次,在美国新公管理运动的影响,第部门蓬勃发展,公共管理的主体从政府领域逐步拓展到从事公共事务、提供公共产品与服务的组织与部门,因而当代社会,除了以政府为主的公共部门和公共组织能够提供公共信息资源外,以非营利组织为主的准公共部门和准公共组织也成为了公共信息资源的主要提供者,如高等学校、自愿健康和福利组织、图书馆、博物馆、科研组织等。这类准公共组织提供的公共信息资源具有公益性质,以获取公共利益和社会效益作为目标。他们的民间性、自治性、公益性和非营利性不仅能够保证公共信息开放的社会公平而且有助于提高公共信息开放的效率。它们在公共信息资源领域的介入,并不是排斥和否定政府公共信息资源提供中的主导地位,而是要实现公共信息资源管理主体的社会化公共信息资源来源的礼会化以及信息服务对象的社会化。

第三,当提供公共产品的部门从公共物品中获得的效用大大超过提供公共物品所耗费的成本时,即使其他人不愿意提供任何公共物品,他自己也愿意承担提供公共物品的全部成本。以美国现行的电子政府建设为例,美国电子政府建设主渠道足外包,美国政府将电子政府项目的建设运行维护以服务合同的方式外包出去,委托专业外包公司组织专业技术队伍,建设政府的信息系统和提供相关的服务。政府工作人员只需对公众服务的电子政务项目提出要求和对信息进行加行分析,使政府能从建造和运行信息系统的不同环节中解放出来,集中精力完成他们的核心业务美国亚里桑那州政府在建设驾照管理系统时,ibm公司主动承担该项目网络的规划设计、软硬件的购置、系统集成和系统的运行和维护。系统投入使用后,马上产生出效益,每个驾照的成本从原来的6.6美元降低到1.6美元,民众办理驾照的等待时间由45分钟缩短到3分钟。ibm公司只对发放的每个驾照中收取1美元作为回报。由于采取了这种做法,小仅政府没有投入一分钱,而且ibm公司也从中得利实现了“双赢”的目的。为鼓励电子政务项目建设采用外包的模式,美国各方积极为电子政务的外包服务提供相应的法律环境2002年12月17日,布什总统签署了《电子政府法案》,鼓励政府机构电子政务项目向“使用节余”式的外包方向发展,提倡建立对外包服务商更为有利的环境政企合作的信息技术外包服务,已逐渐成为美国发展电子政务的趋势。由此可见,政府越来越多地以“外包”的方式将公共信息资源开发建设的某项具体任务移交给企业运作。在公共信息资源领域,企业极强的运营能力、开拓性和创新力、生产服务效率高等特点使得企业不断发展成为公共信息资源提供中的主体力量之一。

信息资源概念篇(2)

中图分类号:TP271文献标识码:A文章编号:1009-3044(2012)20-4808-03

Grid Rresource Discovery Based on Ontology-driven Simulation Experiment

ZENG Xiang-hong

( China Computer Correspondence College, Hefei 230041,China)

Abstract: At present, with the development of computer technology and the popularity of Internet technology, large-scale resource shar? ing has become the inevitable choice of all walks of life. Grid resources, as an important kind of resource sharing system, provide a new way for resource sharing and information exchange through dynamic resource exchange. At the same time, the ontology is applied to re? source matching, which collects effective information at maximum degree to provide the needed customers in order to meet their needs. This paper demonstrates the specific operant behavior of computer resources system during analog network communication, and analyzes system numerical changes when the number of the concepts changes.

Key words: ontology driven; grid; resource discovery; query; simulation experiment

该文采用了P2P网络查找网格资源,P2P是一种新的资源共享方式,并且处于信息交流中的每个个体都是对等的,既可以作为信息接收者,也可以作为信息者。这种网络在处理客户的信息、资源需求时,具有分散化、易扩展、耐攻击及保密性的优点外,还充分利用人工智能技术,使得搁置各种信息之间可以互相辨别和理解,从而自动的为用户提供高效的信息服务。而这一功能主要是因为该网络在传输信息时引进了本体的概念,从而能够根据用户需求聚合信息资源,满足用户的实际需要。

192.168.0.45节点ID8是这些概念的一个事例。也就是说假设需要节点一来检索所需信息需要32位的处理器,由于节点一事先不知道自己的处理器正好满足条件,所以并不会自动的去查找信息,而是主动地向网络中发出信息申请,在使用虚拟类DAG后发现可以处理此申请的节点为IP地址为192.168.0.45中的资源8,也就是它自身能满足需要。

1.3消息传播

消息传播主要是在节点之间进行的,在网络中,节点之间通过相互交流资源,运用DHT算法,实现概念的传播。在传播概念时,每一个计算机节点都会自动的存储T-Box(子概念目录)和A-Box (事例列表)。子概念目录在网络中传播就会形成虚拟的DAG,检索信息是与被检索的概念相关的子概念信息就会自动显示出来;而A-Box则是对网络中每个节点所包含的信息和数据资源列表,显示的是与被检索概念相关的事例。

1.4概念查询

利用网格资源进行概念查询时,一般网格资源系统会自动的将请求划分为简单和复杂概念两种。简单概念的检索流程为:首先,由接收申请的计算机节点判断这一概念的主要特点和包含的基本信息,如果明显的属于直接信息,不需要经过复杂的信息和数据处理技术,接下来直接利用基本函数功能进行信息检索就能获得所需信息。复杂概念查询的流程为:首先对申请的要求进行判断,看是否可以直接检索。若是申请的概念包含多项子项,并且可以分解为若干子概念,就可以定义为复杂概念的查询。查询时在网格中对复杂概念所包含的所有信息进行分别查询,并且将这些单个概念的信息进行整合处理,得出有聚合信息效果的综合结果。这里要注意对复杂概念的逻辑非处理方式,并且要注意非操作无效,这样就可以得到对复杂概念的信息检索和资源获取了。

在查找资源时,我们经常会面临着下面的两个问题:

我需要的信息资源大概多久才能得到有效的解决?

获取信息时其他网络成员是不是也可以加以利用?

笔者自然也考虑到了这些问题,并且提出了实验模拟的方式,通过模拟几种网络情况,获得了以下发现:

在实验模拟中,根据检索概念时产生的随机概念集DAG,DAG能够在网络中的各个计算机节点中传播,使每一立的计算机都拥有DAG子图和相关的一些事例。实验时主要通过控制这些节点的个数、DAG大小和事例的个数,实时观察网络中资源的传播情况,并且计算出不同大小的DAG中消息的迭代次数和传送量(得出的结果如图7所示)。图7迭代次数

由图7可得,在信息检索时,如果保证计算机节点相关概念所涉及的事例个数不变(如图7和8所示)。X轴表示节点的个数,它由相应事例的个数决定,Y轴分别表示的是迭代次数和消息传送量,需要注意的是节点个数不是线性变化的。每种情况运行10次,为了避免随机产生DAG所带来的特殊影响,图中的值是10次运行的平均值,因此迭代次数和消息传送量可能不是整数。

资源发现是网格资源共享系统的主要功能之一,利用P2P网络提供的资源优势,在查询资源时可以快速准确的查找相关概念。将P2P技术引入到网格环境下的资源发现模型中,可以极大的提高获取有效信息的速度,在查询时可以最大限度的避开无关信息,实现资源请求的快速定位。同时,通过本体查询,可以实现节点之间信息传播,结合DAG图内所有节点的知识快速查找目标资源。

但该方法的使用范围还受到以下因素的限制:完备性、查找的表示、容错情况、垃圾的收集和传递的优化。因此这种资源共享系统的未来的发展将致力于解决这些问题,更好的为网络信息资源的共享服务。

信息资源概念篇(3)

2002年10月美国财务会计准则委员会(FASB)和国际会计准则理事会(IASB)决定联合制定趋同的概念框架。2006年7月,FASB向公众了《财务会计概念框架:财务报告目标与决策有用的会计信息质量特征》(初步意见稿),同样的文件也被IASB,旨在征求各方意见以更好的完善相关理论。随后FASB和IASB共收到了179份回信。FASB考虑了所有的评论和外界的其他看法,在2008年5月,同IASB一起了“征求意见稿”,此次FASB收到了142份回信。之后,在2010年9月FASB同IASB一起促成了《财务会计概念框架:第八号公告》的诞生。第八号概念公告包括两大部分,分别取代了FASB原来的第一号概念公告――《企业财务报告目标》和第二号概念公告――《会计信息质量特征》。本文拟就第八号财务会计概念公告的财务报告目标部分试做探析。

一、第八号概念公告与第一号概念公告的比较

1.报告目标表述上的不同。在第二号概念公告中,财务报告的目标是提供对现在和潜在的投资者、债权人及其他使用者进行投资、信贷及类似决策有用的信息。而第八号概念公告中,财务报告的目标是为方便现在与潜在的投资者、出借人及其他债权人进行企业资源配置决策而提供有用的财务报告信息。

2.报告主要使用者方面的不同。定义财务报告的主要使用者,才能使财务报告的目标与要求更加明确。第八号概念公告中明确指出财务报告的主要使用者是投资者、出借人和其他债权人。第二号概念公告虽指出与权益和债务投资有关的使用者是财务报告的主要使用者,但其所指的投资者和债权人是广义的,包括提供建议的人和人,而第八号概念公告虽不排除为决策者提供建议的人,但更直接地关注为企业提供资源的使用者。

3.报告信息的关注点不同。第八号公告指出财务报告不应当把有关财务状况或是经营成果的信息作为财务报告最重要的信息。第一号概念公告认为财务报告最重要的信息是企业的收益及其构成即经营成果方面的信息,但第八号公告认为财务报告要想对决策有用就必须提供有关企业资源、权利及其变动即财务状况方面的信息。因为企业的收入、损失、利润等都依赖于企业的资源与权利。此外第八号公告指出财务报告应当关注资源配置决策,因为资源配置决策还能同时反映出管理者履行受托责任的情况。其他方面的不同:(1)报告局限性方面的不同。第八号概念公告客观地指出了第一号概念公告中没有指出的财务报告的局限性。第八号概念公告中指出:财务报告只能提供通用的信息,不能保证为主要使用者提供所有信息。(2)第八号概念公告对通用财务报告目标的实用性有了客观认识。FASB清醒地认识到随着信息技术的发展,可扩展商业报告语言(XBRL)的使用,通用财务报告的目标可能会过时。但就目前来看,第八号公告中提出的财务报告目标仍是最有效的。

二、评议

(1)世界各国都越来越重视资产负债表的准确性。因为利润表是动态报表,发生舞弊的可能性较大且较难审核,而资产负债表是静态报表,审核更为方便。(2)第八号概念公告认为财务报告的目标同决策有用观一致,认为决策有用观涵盖受托责任观,但并没有忽视管理者受托责任履行情况的反映。例如公告中指出通过关注企业资源与权利的变化,有助于了解企业管理层是如何履行受托责任、保证企业资源的安全性和收益性。我国向来重视决策有用观,但同美国相比,我国股权分散程度小,中小股东维权意识薄弱,应该更加重视反映包括中小投资者在内的报告使用者所需要的信息。(3)虽然FASB把报表扩展到了报告,但却未明确指出报告应当包含哪些信息。目前国际上越来越要求财务报告进行前瞻性信息披露、分部披露、现金流量信息披露、社会责任披露、针对非本国使用者的特殊披露、公司治理披露和网络经营报告披露。我国也应当在这些报告信息的披露方面有所完善。

参考文献

[1]美国财务会计准则委员会.《财务会计概念框架:第八号公告》.2010(9)

信息资源概念篇(4)

[分类号]G250.76

1 引言

语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。语义通过两种途径产生:①人类赋予;②通过计算模型产生。通过第二种方式产生的语义可以被计算机理解和处理,可以被获取、传递、共享。根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型,该模型既适用于显式语义,又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。基于本体的语义模型是通过以本体为核心的模型作为媒介,实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型,并基于该语义模型探讨数字图书馆知识组织过程中信息抽取策略。

2 信息抽取与本体

信息抽取是从分布的、异构的文本中提取出特定的事实信息,将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示,为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的;信息抽取需要在语义标注的基础上进行,语义标注的内容是经过信息抽取提取出来的。因此,目前对于信息抽取研究离不开对抽取对象的语义分析和描述。语义分析与描述技术的研究热点是本体技术。

本体是对面向计算机语言的、已被组织的知识的描述,而信息抽取是面向自然语言,分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的:作为抽取相关信息的理解程序,本体被用于信息抽取,是信息抽取的语义知识依据;信息抽取可以丰富本体,因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。

这两方面的任务被结合在循环中(见图1)。本体可以有效地、准确地、解释信息抽取出来的数据,而信息抽取从文档提取出来的新知识可以整合进入本体从而丰富本体。

2.1本体对信息抽取的支持

在抽取过程中,本体知识对文档的语义解释具有重要作用。

本体对领域概念以及概念的多种形式进行了规范性说明,因此在信息抽取中可以用来进行字符串的语义分析,进而进行概念识别;在信息抽取过程中,需要领域本体对文档中实体名称进行识别与分类。本体中的类可以对信息抽取文档进行概念识别、语义标注和概念规范。

本体的概念层次结构。传统信息抽取的重点是使用同义词集而不是层次关系。例如,在wordNet中,同义词集可以用于语义标注和消歧,但上下类关系还需要本体参与。本体中包含的语义类型或语义的层次关系,有助于通过抽取内容进行推理和忠实释义。

更先进的信息抽取系统也需要利用领域本体的概念节点、概念节点的属性和相互关系予以描述。本体中的概念与属性值能够清楚地描述信息抽取对象的本质。对于文档中抽取对象的分析既能提高自然语言处理,又能指导概念框架的实体构成,而相应的规则即是基于短语模型,更多是基于语义分析的。

领域概念模型。领域概念模型本身用于推理,它能合并不同表现形式的同一概念,并且能够揭示出隐含的语义。

2.2信息抽取对本体的丰富

本体构建一直是公认的语义进程中的瓶颈,而信息抽取有助于本体构建。已经提出各种方法用于语料库的建设以利于本体构建,如基于规则的信息抽取即是对本体构建方法的补充。基于推理规则抽取出基本数据,通过已有本体对该数据进行概念及概念关系分析,在此基础上将数据中新的概念或概念间的新关系整合到本体。

实体命名抽取:实体命名通过在本体中以实例的形式表示。从这个角度看,需要自动地不断地为本体增添一些热门领域的实体名称。而信息抽取被广泛应用于识别和分类文档、网页、数据库等中的实体。

关系抽取:在结构化本体中,概念与概念之间存在着语义关联。目前从文档中获取本体关系的方法主要有三种:基于共词分析方法、基于知识库方法和基于信息抽取模式方法。信息提取模式方法提升了前两种方式:第一种方法需要对基本关系类型进行解释,而信息抽取中的规则就是特色化关系;第二种方法原有的知识可以帮助设计一个提取规则。

信息抽取通过本体进行基于领域的语义分析,提升信息的语义性,为智能检索打下基础;本体通过信息抽取不断学习,不断演化,解决本体构建的瓶颈问题。鉴于此,本文基于本体构建数字图书馆知识组织语义互联的语义模型,利用语义模型探讨语义互联实现过程中各个重要环节的策略,进而最终完成数字图书馆知识组织的语义互联。

3 数字图书馆互联的语义模型

语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制,它试图在用户的信息需求和信息资源之间搭建一座桥梁,将两者灵活而有机地结合起来,从语义的角度来解析信息资源,进而从互理解的角度来提升用户检索的准确度和召回率,更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。本文构建了以元数据、领域本体、桥本体和本体解析体系为组成要素的语义模型,利用语义模型实现数字图书馆知识组织过程中的数字资源、用户需求表达的语义解析,完成数字图书馆用户交互层、内容管理与功能层、内容层之间的语义映射。其中,元数据进行资源的标准化描述,领域本体进行概念以及概念之间关系的语义标注,桥本体用于资源之间语义聚合,本体解析主要解决本体的具体效用发挥的方式,如图2所示:

3.1元数据

元数据是数字图书馆用来解决语义互联的重要基础工具。数字图书馆由资源构成,而资源是可以被标识的。元数据提供了对资源各种属性的描述。元数据通过定义数字图书馆中资源的信息结构以及定义由数字对象构成的资源库的组织结构,决定着数字图书馆知识组织和知识服务方式。元数据发展比较成熟,已经形成完整规范的元数据体系,包括元数据格式、元数据标准、元数据方案、元数据应用纲要、元数据注册系统等等,这些为数字图书馆知识组织语义互联打下了基础。

3.2领域本体

领域本体是知识组织体系中重要组成部分,其目标是捕获相关领域的知识。领域本体是对领域内共享概念模型的明确的形式化的规范说明;概念以及概念之间的关系是经过精确定义的,提供了对领域知识的共同理解与描述,能够为计算机所使用并可用数学方

式表达。在领域本体技术驱动下,信息资源以全新方式进行组织,组织原理发生如下改变:①从用户可理解到机器可理解;②从信息描述到知识表现;③从语义隐含到语义揭示;④从“以概念为中心”到“以概念一关系为中心”;⑤从信息表示到智能推理。这些变化要求知识组织理论、形式、方法、技术、体系以及知识组织过程都要随之改变,实现对资源从语法层面向语义层面深入,最后直至语用层面的组织,在获取、表示、加工、存储、重组、提供、共享、利用、控制等知识组织过程中,充分体现语义性,在数字图书馆系统的各层之间,在用户、资源、服务之间,形成语义互理解和互操作。

3.3桥本体

桥本体是一种特殊的本体,完成不同领域本体概念之间关系的映射,进而实现本体整合,形成领域内的共享本体。桥本体记作Obridg。,可以用一个六元组表示:

Obridge={cb,Acb,Rb,Arb,hb,xb}(1)

其中,cb表示桥本体概念的集合,Acb表示桥本体概念所对应的属性集的集合,Rb表示桥本体之间关系的集合;Arb是桥本体之间关系所对应的属性集的集合,Hb代表了概念的层次结构,xb是一系列公理集合。

在概念上,桥本体具有四层树形结构(见图3):第一层是最普遍的概念,标记为T;第二层具有概念桥和关系桥两个概念,它们分别表示了两种不同的桥关系;第三层由10种不同类型的子类桥组成;第四层是一系列动态创建概念的集合,它们的属性描述了不同本体之间关系的信息。其中上面三层是固定的,称之为静态层,第四层的概念是根据已知的多本体动态产生的,为动态层。

3.4本体解析体系

数据存储模式的选择直接影响使用的效率。本体是系统多层之间语义联系的纽带,因此本体、桥本体的存储方式影响数字图书馆知识组织和知识服务的质量。本文选用的本体描述语言为W3C推荐的OWL,将其存储到关系数据库。关系数据库存储本体既有缺点,对本体含有的丰富语义缺乏精准的表现,又有无可比拟的优点。已有文献对本体到关系数据库模式映射进行了详尽的阐述,在此仅谈及桥本体的解析。

根据桥本体的概念结构和关系数据库的形式化定义,下面给出它到关系数据库模式的映射规则。

以桥本体建立数据库,取名为database-brid―geO。

桥本体中的十个桥关系分别为桥本体的子类,分别以这十个桥关系建立十张表,表名为table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。

将桥本体的属性映射为各个表的属性,属性类型为字符型;各表属性个数并不相同,主要包括三类:一类表示具有该种桥关系的两个领域本体的名称;一类表示具有该种桥关系的领域本体的类名称;一类属性代表该类所对应表的地址。

属性值分别取值为领域本体名、领域本体中类名和类对应的表名。

不同领域本体概念之间的关系构成表中的记录。

表中的主键为复合主键,由不同领域本体名称和不同概念名称组合而成。

4 基于语义模型的信息抽取策略

抽取对象是异质的、异构的、多语种的、半结构化甚至是非结构化的,并且可能存在着语义模糊、语义缺失,因此对抽取对象实体命名识别、实体间关系的识别变得更加困难,需要多种技术协作完成。语义模型能有效协助信息抽取:利用元数据对数字信息资源和用户信息资源进行规范化描述,利用领域本体集和桥本体实现数字资源和用户信息资源语义关系形式化描述,而语义模型中本体解析体系为信息抽取为利用本体提供了途径。因此,利用语义模型可以有效地进行实体命名识别和信息抽取规则制定。基于规则进行信息抽取能有效过滤掉噪声,增加新的结构信息。大体过程如图4所示:

4.1数据采集和数据清洗

通过各种数据采集工具对数据库、文档和网页进行数据采集。数据库中的数据是结构化的,采集相对简易;而文档和网页结构各异,先将它们抓取入系统;数据清洗目的是对有信息价值的各种数据通过处理产生纯文档。首先对抓取的原始数据进行结构分析,去除噪声,分析数据是表结构、文档结构还是网页结构,网页结构是内容型网页还是表单型网页,并对各种结构进行识别剥离;然后进行内容分析,例如网页中的广告、图像、版权信息等等;最后对用户关心的信息内容进行提取,产生待处理的纯文档,如图5所示:

4.2文档预处理

文档预处理的任务是自然语言处理,将文档处理切分为待处理的词汇和信息单元。首先将待处理的纯文档进行词语切分和词性标注,取出分词结果中的名词和动词;然后按标点符号进行短句分割,作为信息单元,并以此作为信息抽取的粒度;最后对短句进行语法词法分析,并实施初次筛选,保留其中至少包含两个名词和一个动词的信息单元。该过程需要相关领域知识的术语表、词汇表、主题词表等,对分词系统中的词表进行二次加工。语义模型中的领域本体可以提供规范化的概念及概念中所涉及术语的多种形式,可以对词表进行丰富和规范,如图6所示:

4.3规则生成

信息抽取规则的生成利用了本文构建的语义模型。语义模型中的领域本体描述了概念、属性、实例以及本体内部概念与概念之间的关系,桥本体描述跨本体的概念之间的多种关系。领域本体和桥本体用OWL描述,将OWL本体映射到关系数据库,形成语义模型数据库;数据库中含有若干个表,通过表、表的属性、表的主键与外键以及属性之间的约束对本体进行解析。信息规则在此基础上生成:首先从语义模型数据库抽取类、抽取属性、抽取实例、抽取关系,对于桥本体还需要抽取表名;然后通过其解析出的本体中描述的概念、关系、层次结构等来生成三元组,再将此三元组作为信息抽取的规则存入规则库。如图7所示:

4.4实体抽取

信息抽取主要是对信息单元进行解析后,对信息单元中的名词基于语义模型中的概念和实例进行实体命名识别,充分利用本体对概念规范描述的优势,提高实体命名识别的准确性;再对信息单元重新规范,形成具有主、谓、宾三元关系的分析树。将该分析树与抽取规则三元组进行匹配,如果匹配成功则将该三元关系存入数据库中,完成信息抽取;如果匹配不成功,对该三元关系的概念与语义模型进行语义相似度计算,根据计算结果,形成本体中的新概念或新关系,添加到语义模型中,完成本体学习,丰富领域本体,如图8所示:

信息资源概念篇(5)

用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,分析其原因,主要包括以下几个方面[1,2]:

(1)网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。

(2)网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。

(3)目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,他所选择的导航路径可能是错误的或者低效的。因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。

(4)网络导航系统的设计缺乏规范。门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些著名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,给用户的使用带来不便。另外,在网站内部的导航系统设计上,也存在着导航结构不合理,导航要素不完整,导航界面不统一等问题。这些都可能造成用户的导航障碍。

由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代web网络技术难以克服的困难。为此,人们正在研制第二代web网络——Semantic Web,它以结构化信息表示为主,为网络导航研究开辟了新天地。

2 Semantic Web技术

Tim Berners Lee在1998年提出了Semantic Web的概念。2001年2月,W3C组织正式推出Semantic Web Activity,使网络环境下的语义处理技术研究渐入佳境。Semantic Web研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,实现高质量的网络信息服务。目前关于Semantic Web的研究主要集中在网络信息资源及其内容的语义和语义关系表征,基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用[3]。Semantic Web虽然是现有web网络的延续,但在信息导航方面具有许多普通web没有的优势。Semantic Web中的节点既可以代表物理页面,也可以代表知识实体;Semantic Web中网页的内容不但可以被人理解,而且可以被机器理解;Semafitic Web中的链接不再是任意的,而是遵循一定的语义关系。通过Semantic Web技术,可以改变现有网络松散的数据结构,将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易[4]。

2.1 本体

所谓本体(Ontology),实质上是描述特定应用领域知识的公认的术语集。关于奉体的定义,比较著名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体以计算机可读的形式存在;“共享(Share)”表示本体中反映的是共同认可的知识”[5]。

本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(is-a)关系、类属(kind-of)关系和整部关系(part-of)。上层的对象类为父类,下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,对网络而言,一个简单的本体的典型例子就是网络的分类索引(如Yahoo!的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[1,4)。

2.2 RDF和RDFS

RDF是由W3C开发的元数据描述机制,其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。它允许在XML的基础上以一种标准化的、互操作的方式对数据语义进行定义[4],提供了一个描述web资源的数据模型。RDF包含描述资源的属性和关系的声明。资源是任何用URl(Uniform Resource Identifier)唯一标识的实体对象。资源具有属性,属性则具有一定的值,该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。这样,资源、资源属性和属性值构成了RDF声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[1,7]。

为了描述元数据元素间的复杂语义关系,W3C进一步定义了RDFS(RDF Schema)。它可以看成是一个本体定义语言,用来建立概念类体系结构、属性层次和类关系。

3 基于Semantic Web的智能导航机制

Semantic Web的出现为网络信息导航提供了新的研究思路,Semantic Web技术是解决无序网络空间中“迷航”问题的关键技术。基于Semantic Web的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于Semantic Web的信息组织,即利用参考本体对各信息源进行语义描述和整合;二是基于Semantic Web的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于Semantic Web的智能导航机制的概念结构[8]。

3.1 基于Semantic Web的信息组织

基于Semantic Web的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。

信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是HTML页面,有的包含表格和列表。另外还有XML文档、RDF文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,需要将数据转换为公用的数据模型格式,例如RDF。对于非RDF格式的信息数据,可以利用外覆包(wrapper)技术将其自动地转换为基于RDF的数据模型。外覆包对特定格式的数据文档进行解析,并采用RDF声明对其内容进行标注。下面是三种常用的外覆包:

(1)HTML外覆包。由于HTML页面属于半结构化的信息数据,因此HTML外覆包采用的是半指导性的标注方法。即预先手工标注一组HTML页面,然后对新的HTML页面进行结构分析,将新页面与标注页面进行比较,从中提取相关信息。HTML外覆包还可以处理异构的XML文件[1]。

(2)XML外覆包。根据DTD和Schema所定义的XML文档的内容结构和内容元素,建立概念集与DTD Schema之间的映射关系,从而自动地将XML文献中的DTD内容元素标记转换为对应的概念集元数据标记。

(3)关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,形成语义基础,以便从关系数据库中自动创建RDF声明。

由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,以消除语义差别。根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,可以自动地添加新的信息资源[8]。

3.2 基于Semantic Web的个性化导航

通过建立参考本体以及进行信息整合,无序异构的网络信息数据通过语义概念及语义关系被组织到一起,形成一个有序的公共语义知识模型。但是对于具体网络用户的信息导航,并不直接在全部公共语义模型上进行,而是依据用户语义模型有针对性地进行。

3.2.1 用户语义模型

用户语义模型是反映用户观点的概念集合和概念关系。概念集合的确定可以由用户直接提交或者根据用户的注册信息(用户的兴趣、爱好和知识背景等)按照一定的规则计算选择。而构建用户语义模型的关键步骤在于建立用户概念集合与参考本体间的语义映射,寻找参考本体中与用户相匹配的概念和关系。

为了将参考本体映射到用户语义模型,需要预先对参考奉体和用户概念集合进行数据训练,方法是为每个本体概念和用户概念各标注一定的相关资源作为训练数据,然后利用向量空间模型为每个概念生成向量,并计算其标准权重。

建立语义映射的过程通过计算用户概念集合中的概念向量uc与参考奉体中的每个概念向量间的匹配度来完成。假设在n维向量空间中,用户概念向量uc中第i项的权重为的匹配度为[9]:

首先将计算结果中匹配度高于阀值的若干概念向量与uc建立映射,形成从用户概念集合到参考本体的一对多的对应关系。如果参考本体的一些概念被重复映射,则需要选择其中匹配度最高的映射,以保证从参考本体到用户概念集合的一对一关系,即一个本体概念只能和一个用户概念相关,但一个用户概念可以和多个参考概念相关。在建立用户概念集合与参考奉体对应关系的同时,用户概念也继承了本体中的概念层次结构和其他语义关系,成为一个独立的语义模型。

原则上应该将参考本体中的所有概念都映射到用户语义模型中,但是由于用户语义模型是范围相对较小的概念集合,因此参考奉体中的概念实际上不可能被完全映射。为了保持映射的完整性,可以在用户语义模型中设立一个“其他”概念类,参考本体中的所有没有被映射的概念将成为它的子概念[9]。

举例来说,假设用户提供的信息表明其在体育领域感兴趣的概念为“足球”、“足球世界杯”、“足球亚洲杯”、“NBA”、“围棋”、“奥运会”,图2显示了这些用户相关概念经过映射后形成用户语义模型的过程。

用户概念集合中的每一个概念都在参考本体中找到了与之相对应的一个或多个概念,将这些概念从参考本体中提取出来,并根据其语义关系重新组合,就形成了用户语义模型的结构。例如:用户概念“NBA”的对应概念为“篮球”、“篮球赛事”和“美国篮球职业联赛(NBA)”,因此这三个概念都被包含在用户语义模型中,且它们之间的父子关系(即等级关系)保持不变。又如,虽然参考本体中的“其他赛事”概念和用户概念集合没有直接对应关系,但由于该概念和“足球赛事”与“篮球赛事”两个概念间有语义关系,且这两个概念均与用户相关,因此该概念也被包含在用户语义模型中。另外,“世界杯足球赛”概念实际上与“足球”和“足球世界杯”两个概念间都具有对应关系。但由于它与后者的匹配度比前者高,因此将它映射到后者。

3.2.2 个性化导航结构模型

导航结构模型显示了导航系统组织、关联和显示信息内容的方式。站点地图就是一种最简单直接的导航结构模型。个性化导航结构模型是基于用户语义模型创建的针对特定用户的导航结构,是个性化导航服务的实现。

导航结构的设计需要考虑三个基本要素:卡片、页面和链接。一张卡片只包含一种类型的信息内容,是导航结构模型中的最小组成单元。页面与物理的web页面相对应,一个页面上可以包含若干个卡片。链接则用于连接各个页面中的卡片以形成整体结构[8]。通常,导航结构模型总是从一个缺省的根页面开始,每一级页面都包含了到下一级页面的链接,信息内容通过卡片和页面进行分类和聚合,导航通过链接来进行。在个性化的导航结构建模中,导航结构是根据用户语义模型来确定内容和链接关系的。图3显示了一个导航结构的部分示例,它是在图2中的用户语义模型的基础上建立的。

导航结构的建模过程就是对各级贞面中的卡片的内容、类型和表示样式的确定过程。卡片的内容根据触发点和用户语义模型来选择,不同的用户将获得不同的信息内容。

导航结构中的卡片被分为两种类型:静态卡片和动态卡片。静态卡片的内容独立于数据源,主要包含静态文本、图片等。导航结构中的根页面通常都包含静态卡片,具有预先定义的锚点,指向下一级的页面。动态卡片的内容视数据源而定,如果数据源改变,则卡片的内容必须重新计算生成。动态卡片还可以细分为四种类型,每一种都代表了对信息进行结构化的一种典型方法:

(1)列表型(List)卡片:显示实体的实例列表,每一条实例都可具有指向该实例具体内容的链接入口。列表中的实例可以按照某种属性排序或索引。图3中的页面P2、P3、P4、P5都包含了列表型卡片。

(2)事实型(Fact)卡片:详细地显示一个实例的具体内容,如图3中的页面P4包含的“新闻内容”卡片和页面P5包含的“赛事内容”卡片。

(3)幻灯片型(Slide)卡片:顺序显示一组实例的具体内容,每次一个实例,且具有浏览附近实例的超链接,待显示的实例可以按照某种属性排序或索引。图3中的页面P6包含该类型的卡片,其中每个足球俱乐部的相关信息将被依次显示。

(4)查询型(Query)卡片:要求用户先填写一组实体属性的值,然后查询符合该值的实例并显示,通常该类型的卡片用于导航系统中的信息检索,如图3中的页面P7包含的卡片[8]。

另外,不同的卡片具有不同的表示样式,表示样式描述各种表示元素的属性,例如字体、颜色、布局等。表示样式可以根据用户喜好确定。

个性化导航机制的导航方法采用用户语义模型的查找与语义链的触发相结合的方式。当导航结构中的一个链接被触发时,该链接将被赋予一个查询式Q(C,T,S),式中三个变量的含义分别代表卡片的内容、类型和表示样式,在用适当的值填充变量后,即可利用查询式计算生成链接末端的卡片。例如在图3中,当链接L1被触发后,L1的查询式为:Q(“体育”,List,Stylel),其计算结果为页面P2中的卡片。Q中的变量C的值为L1的触发端点的概念“体育”,Q在计算时将检索用户语义模型,获取此概念的相关概念或相关资源作为卡片的内容。Q中变量T的值为List,因此Q生成的卡片将具有列表型的信息结构。同时,由于Q中变量S的值为Stylel,因此Q还要读取样式表中名称为Stylel的表示样式,并据此决定卡片的外观。同理,链接L2的查询式为Q(“足球俱乐部”,Slide,Stylel),其结果是生成一个信息结构为幻灯片类型,表示样式为Stylel,内容与足球俱乐部相关的卡片”[11,12]。

导航机制采用Semantic Web技术,揭示和整合网络信息资源的深层语义知识模型,能有效解决无序、异构网络信息空间中的“迷航”问题。它利用映射方法建立用户语义模型,可以充分表达用户需求的语义知识,以提高个性化导航的效率。

4 结束语

网络信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的导航理论、方法和技术。第二代web技术——Semantic Web在信息服务中的应用,促进了网络导航新技术的发展。它作为导航系统的信息组织框架,能够使复杂的信息空间变得有序、清晰和直观,它采用机器可读的形式化的知识表示方式,有利于知识内容的自动获取。目前,Semantic Web技术正获得越来越多的应用,相信经过不断地研究和优化,以Semantic Web为基础的高级网络信息服务将逐步成熟,智能、高效、个性化的导航系统将成为开发网络信息资源的主流工具。

参考文献

1 丛敬军,阎辉.数字图书馆的知识信息导航技术研究.中国图书馆学报,2003,29(145):51~53

2 马瑞民,衣治安.Web上超文本数据导航方法的研究.情报学报,2001,20(5):538~544

3 张晓林.Semantic Web与基于语义的网络信息检索.情报学报,2002,21(4):413~420

4 刘柏嵩.基于知识的语义网:概念、技术及挑战.中国图书馆学报,2003,29(144):18~21

5 Mike Uschold,Michael Gruninger.Ontologies:Principles, Methods and Applications.Knowledge Engineering Review,1996,11(2):93~155

6 Jeff Heflinetal.Requirements for a web ontology language. w3.org/TR/webont-req/

7 张平,郭金庚.语义网描述语言分析.电脑开发与应用,2003,16(4):31~33

8 OntoWebber Model-Driven Ontology-Based Web Site Management.www-db.stanford.edu/pub/gio/2001/ Ontowebber01.pdf

9 Ontology-Based Personalized Search and Browsing. ittc.ku.edu/~sgauch/selectedpapera/WLAS2003.pdf

信息资源概念篇(6)

[分类号]G250

随着信息化时代的到来,人们对信息的实效性要求越来越高,高校图书馆如何不断地改进服务质量,更好地服务广大师生已成为一个紧迫课题。而如何及时主动地为广大师生提供个性化书目推送服务正是其中的要求之一。主动推送的书目信息必须符合用户需求,需要根据用户对馆藏书目检索和图书馆网络的使用情况,收集用户行为数据进行分析,从而挖掘出用户的潜在需求,再相对应地制定推送策略,为广大师生提供个性化的书目信息推送服务。这种个性化的书目推送服务,体现了阮冈纳赞提出的“图书馆五法则”中“每本书有其读者”,“节省读者的时间”这两条原则。

目前,针对本体论的研究是图书情报领域的研究热点,无论是领域本体论的构建还是个性化信息服务中基于本体论的用户兴趣模型的构建,都有很多研究成果报道,而关于书目信息推送服务,虽然也有较多的研究成果,如利用RSS信息聚合技术来实现图书信息推送服务,利用邮件及手机短信进行书目信息推送服务等,但利用本体论技术进行个性化书目信息推送服务的研究,还鲜有相关报道。本体论作为一种新的知识表示方式,由于具有良好的概念层次结构和对逻辑推理的支持,因而在实现个性化的书目信息推送服务中具有很好的应用前景。本文拟对此进行相关研究,为高校图书馆实现个性化书目信息推送服务提供参考。

1、高校图书馆个性化书目信息推送服务

高校图书馆个性化信息服务,是指针对不同的用户(学生或教师),根据其个人信息,采取不同的服务策略,提供不同的服务内容来满足其对信息的不同需求。开展个性化的书目信息推送服务,就是在个性化书目信息推送系统的环境下,根据用户的特征提供用户需要的具有针对性的信息,同时通过对用户专业特征、研究兴趣的智能分析而主动地向用户推荐其可能需要的书目信息,以满足用户信息需求多元化的需要,提高图书馆的服务质量和服务层次。

高校图书馆提供的个性化书目信息推送服务有其自身的特点:①服务对象明确、层次分明。高校图书馆主要服务对象是高校的教学科研人员、行政管理人员和学生,就每类服务对象而言,又可再进行细分。比如:教师可分为教授、副教授、讲师、助教等,学生可分为博士研究生、硕士研究生、本科生等,这就要求高校图书馆根据各类对象对信息资源需求的侧重点不同而提供个性化书目信息推送服务。②服务对象知识化突出、专业化明显。高校师生是高校图书馆的主要服务对象,他们具有较高的文化水平,对专业知识的掌握比较深入,因而对信息服务的质量要求比较高,对书目信息的需求主要集中在相关专业及邻近专业上。因此,必须针对不同服务对象的不同特点提供书目信息推送,才能充分发挥个性化书目信息推送服务的重要作用。

2、书目信息及用户信息本体论库

为了实现基于本体论的个性化书目信息推送服务,建立一个能全面准确表达书目资源信息以及用户信息的本体论库是关键所在。该本体论库不但能全面准确地描绘出书目资源以及用户特征的标志信息,而且可以清晰地建立起书目资源之间、用户之间以及书目资源与用户之间的各种联系,这也正是基于本体论的个性化书目信息推送系统的优势所在。本体库设计如图1所示:

从图1可知,本体论库中至少要包括书目信息资源类、读者特征类和知识库类等3个类目。书目信息资源类的属性包括资源的标题、作者、相关知识以及相关读者等,其中相关知识的属性值域指向知识库类,可以建立起书目资源实例与知识库定知识领域实例的隶属关系;相关读者属性值域为读者特征类,可以建立起特定资源与该资源的目标读者之间的关联。读者特征类的属性包括读者类型、专业方向、学位学历、兴趣爱好以及关联读者,其中专业属性与兴趣属性,其值域指向知识库类的实例,以建立起用户与知识库领域实体的一对一或一对多关系。知识库类则以某个知识领域通用的概念为描述对象,建立并描述这些概念之间的关系。

3、基于本体论的用户兴趣模型

基于本体论的用户兴趣模型可以借助于书目信息本体论以及用户的个人信息资料来构建,其中的每一个概念都被赋予一个初始值为0的概念兴趣相关度。随着用户检索图书馆书目系统以及办理借阅次数的不断增加,通过对用户兴趣相关领域概念的提取以及对概念兴趣相关度的计算,不断在用户兴趣模型中累加此概念的兴趣相关度权重,这样经过一段时间,用户兴趣模型中概念兴趣相关度非零的概念节点逐渐趋于稳定,即用户兴趣模型逐渐收敛。其中概念兴趣相关度权重越高的概念表明其与用户的兴趣越相关。

3.1 用户兴趣的获取

目前各个图书馆的流通管理系统数据库中都积累了大量的读者借阅历史数据以及读者在办理借书证时留下的大量个人信息资料,利用这些信息我们可以挖掘出用户对图书资源的借阅偏好模式以及用户潜在的需求,获取用户的兴趣所在。

・根据用户个人信息进行聚类。虽然每个用户都有其个性化需求,但是在一定条件下,他们的需求会有相似性,因此可以收集用户公开的所有个人信息,将相同属性的用户聚类。例如:相同专业年级的学生对某些课程科目的信息需求是类似的,在馆藏书目系统中,他们也许就使用过同一个主题词进行检索。同一属性类的用户中,某一用户感兴趣的书目,另一用户也有可能感兴趣。

・根据用户检索数据进行分析。用户在使用书目查询系统时输入的检索记录,反映了用户感兴趣的书目信息,我们可以通过分析用户输入的检索词,包括题名、责任者、主题词以及分类号等,来获取用户的兴趣概念;在这个过程中,对于用户输入的责任者、主题词等检索项,可以直接提取作为用户的兴趣概念;对于用户输入的题名,则要先通过分词等技术抽取出能代表该书目内容的特征词语,然后把这些特征词语与领域本体论中的概念进行匹配,实现从特征词语到概念词语的转换,从而获取用户的兴趣概念;对于用户输入的分类号,要先把分类号转换成相应的类目概念作为用户兴趣概念。

・根据用户访问日志进行挖掘。图书馆网站的Web服务器积累了大量的用户访问数据,这些数据是用户真实意图和动机在行为上的表现。通过Web日志文件,我们可以获取用户的访问页面以及用户在每页停留的时间等数据。对这些数据进行分析,用户浏览页面上可能含有用户所寻找的信息,进一步挖掘用户的隐性需求。

3.2 概念兴趣相关度的获取

影响用户的概念兴趣相关度的主要因素有:①用户借阅某本书的时间Length。对于某本书,用户借阅时间越长,则表明用户对该书兴趣越大;②用户借阅或检索某本书距离现在的时间PassedTime。很明显,用户很久以前借阅的某本书和刚刚借阅的相比,后者用户更感兴趣;③用户的直接反馈Evaluation。用户对推送书目的评价最能反映用户对该书的兴趣程度。

考虑以上几个因素,用户借阅或检索某本书后,对该书所对应概念的兴趣度变化AI,可以参考如下的计算公式:

I=W1*f1(Time,Length)+W2*f2(PasssedT-ime)+W3*f3(Evaluation)

(1)

其中,f1、f2、f3为三个函数,分别用于计算上述三个因素对该书目对应概念的兴趣相关度的影响。w1、w2、w3分别为这三个因素在影响概念的兴趣相关度变化量中所占的权重。

4、一种基于本体论的书目信息推送系统模型

该模型主要由以下几个部分组成:用户界面、书目信息推送模块、本体论服务器(包括用户兴趣模型、书目信息本体论库)、书目信息分析模块、书目信息数据库、个性化书目信息索引库等。

4.1 用户界面

用户界面在系统中的主要作用表现为:

・建立用户个人档案。当用户首次登录时,用户界面要求用户通过注册建立起自己的个人档案,内容涉及用户身份、知识背景、兴趣领域等方面的内容。用户档案的建立可以使系统构建初始的用户兴趣模型。

・选择推送模式。主页推送、邮件推送或手机短信方式。

・对用户行为进行动态监测。对用户行为的动态监测可以包括:用户借阅某本书的时间、用户借阅或检索某本书距离现在的时间、用户对推荐书目的评价等。用户界面通过以上对用户行为的监测分析,将结果反馈到用户偏好本体论库中,使用户的下一次查询能够得到更优化的结果。

・获取用户反馈信息。用户界面建立了用户对推送书目信息的评价机制,鼓励用户对推送书目信息给出量化的评价值,该值通过某种计算后,用于更新用户兴趣模型的内容,并据此对个性化书目信息索引库中的内容进行调整。

4.2 书目信息本体论库

书目信息本体论库在系统中的作用主要包括:

・利用书目信息本体论对书目信息进行语义标引。对于书目信息库中的每一条信息,书目信息分析模块首先提取其中的特征词,然后可以在书目信息本体论的协助下,将其转换为本体论中的概念词,并与具体的每一条书目信息建立映射关系,从而实现对书目信息的语义标引。

・利用书目信息本体论构建用户兴趣模型。利用本体论库构建的用户兴趣模型,不仅包含了用户的兴趣概念,还包含了用户兴趣概念之间的各种关联,这样系统可以在用户兴趣概念之间进行推理,挖掘出用户潜在的兴趣概念。另外,当用户对某一兴趣概念的概念兴趣相关度发生变化时,系统可以对与其相关联的兴趣概念的概念兴趣相关度做出相应的调整,从而使用户的兴趣模型更准确地反映用户的实际情况。

4.3 用户兴趣模型

在使用推荐系统时,比较突出的一个问题是客户信息的获取,然而在本系统中,由于高校图书馆书目推荐系统用户和使用环境的特殊性,系统可以方便地得到较为真实的用户偏好、个人信息等,使这一问题得到较好地解决。读者信息主要包括:①读者的基本个人信息,如所在院系、身份信息(教师还是学生)、职称信息、学生类别等。这些信息不需要读者自己输入,可以从学校管理信息系统获得;②读者的显/隐性输入信息,如读者输入关键字、书名、文献特征、读者的浏览记录等;③读者的历史借阅记录数据;④读者借阅过某些文献所给出的评价。

由于用户的兴趣知识属于一种隐性知识和动态知识,很难对其进行直接或明确的说明,因此用户偏好本体论库的构建也不可能是一劳永逸的,而是要通过系统对用户兴趣的动态追踪,不断深入挖掘,并在此基础上对用户兴趣模型的内容进行不断修正,才能比较准确地反映用户的兴趣偏好。

4.4 书目信息推送模块

书目信息推送可以基于以下三种方法:

・基于相关性书目信息的推送:推送系统根据用户感兴趣的书目信息来推送其它相关的书目信息,这种方式需要了解客户当前选择的书目信息。例如某位读者选择借阅了有关“电子商务”的书籍,推送系统就可以向其推荐其它关于“电子商务”图书的书目信息。

・基于相关性用户的推送:推送系统根据目前用户与其他已经借阅了某图书的其他用户之间的相关性进行推送。例如推送系统可以对某计算机学院的读者推送与其相类似(相同爱好、研究方向等)的其他读者借阅查看的资料。

・基于用户专业及兴趣的推送:推送系统可以根据某读者的历史借阅数据以及用户的专业、研究方向等,获得读者潜在知识需求,对读者进行书目信息推送。

推送的形式可以根据用户的不同情况,由用户选择以下三种方式中的一种:

・用户登陆图书馆网站查询时自动弹出推送书目信息。

・通过E-mail发送到用户邮箱。

・通过短信发送到用户的手机。

由于本体论具有良好的逻辑推理功能,因此,书目信息推送模块能够借助本体论从语义层面根据读者特征信息、资源特征信息和知识库信息,自动推理出与读者所从事专业、阅读兴趣等相匹配的书目信息资源。针对高校的特点,每个读者的特征类包含了关联读者属性,通过该属性,可在老师与学生之间、具有相同爱好读者之间建立联系,将资源信息推送给目标读者的同时推送给关联读者,实现点对面的资源推送。

4.5 书目信息分析模块

书目信息分析模块的功能主要是对书目信息进行语义概念层次上的分析与过滤,只保留下与用户相关的书目信息、过滤掉无关的。具体来说:①书目信息分析模块需要对所收集到的每一条书目信息进行特征词的抽取;②对于抽取的这些特征词,书目信息分析模块还需要在书目信息本体论的协助下,将其转换为本体论中的概念词语;③还要把含有这些转换为本体论中的概念词语与用户兴趣模型中的概念词进行匹配,只有匹配成功的概念词语所对应的书目信息资源才是需要保留的。将这些保留下来的书目信息按照某种规则排序后存入个性化书目信息索引库中,由书目信息推送模块按照某种方式推送给用户。

4.6 个性化书目信息索引库

系统自动为每个图书馆的用户建立个性化书目信息索引库,即从书目信息库中抽取出与用户相关的书目信息实体,滤出无关信息,满足了用户个性化书目信息需求。

信息资源概念篇(7)

1 引言

系统仿真是建立系统模型,并在模型上进行试验的技术、方法和过程。

随着仿真技术的不断发展,诞生了许多仿真实验室,许多机构也参与到了仿真技术的研发和应用中,积累了大量的仿真资源。另一方面,用户对仿真系统的要求越来越高,仿真系统越来越复杂,开发既费时又费力,如何为用户“快、好、省”的开发出权威的仿真系统成为困扰仿真系统开发人员的一个难题。如果能够利用大量现有的各种权威仿真资源,那么开发新仿真系统的工作量就会大大减轻,开发周期会大大缩短,开发成本也将会进一步降低。因此,用于实现各种仿真资源的共享与管理,特别是跨组织机构实现仿真资源的共享与管理的仿真概念模型管理系统成为重要的研究课题。

2 概念模型管理系统简介

2.1 概念模型管理系统定义

由于概念模型的种类较为繁杂,可以对其从多个角度进行不同的形式划分。在本文中,将概念模型管理系统定义为:对现有的概念模型进行抽象分类存储,并建立基于web技术的网络交流、修改、更新的软件系统。

2.2 概念模型管理系统功能描述

通常情况下一个成熟的概念模型管理系统应该具备以下几个功能模块:

用户管理模块:对用户进行有效的管理是确保系统实现概念模型资源安全共享的必要条件,用户管理的根本任务就是将用户的操作控制在特定的权限范围内,防止越权操作、非法攻击可能导致的资源失窃以及泄密等事件。在本文设计的系统中定义了两类角色,即普通用户和系统管理员。

数据管理模块:仿真概念模型通常都要以某种数据形式存在,系统需要提供相应的数据管理功能,以实现概念模型数据的有效管理。在系统运行过程中,概念模型的数据是核心内容,数据的上传、下载、更新以及删除等必须进行严格的管理控制。

元数据描述与管理模块:数据是概念模型的核心,而仅仅有数据是不够的,还需要有用以对概念模型数据进行描述的元数据信息。概念模型的元数据包括:模型者的相关信息、模型的功能信息、模型的版本信息、模型的日期、模型的vv&a以及相关状态信息。

搜索机制模块:资源管理的最终目的是共享和重用,系统必须提供良好性能的资源搜索机制,使得概念模型的潜在用户能够切实的发现自己最需要的概念模型资源。

vv&a支持模块:为概念模型的vv&a提供支持,概念模型提供者将概念模型提交给系统后,系统可以对模型的vv&a状态进行跟踪,以指示概念模型所处的验证阶段。

用户反馈模块:概念模型的使用者可以通过系统将概念模型中存在的不足、问题和修改意见等反馈给概念模型的提供者,之后概念模型的提供者也可以借助系统做出回复。

日志管理模块:概念模型是宝贵的智力资源,通常也可能涉及到秘密,因此需要对概念模型的使用情况进行跟踪管理。

3 概念模型管理系统设计

3.1 管理系统中概念模型分类

概念模型是一个较为繁杂的体系,各种具体模型的应用背景不同,功能各异,其表现形式和描述方法也多种多样,这样就导致了对其进行分类的方法也没有一个统一的规范,本文对管理系统的分类是依据概念模型的uml描述方法进行的,即将概念模型具体分为:实体模型、过程模型和交互模型。

3.2 管理系统的数据库设计

系统在数据库设计上大体分为四大块:

用户表:主要用来存储系统注册用户的相关信息,数据库中用户的信息既有普通用户信息也有管理员信息,两者信息结构相同,但分开存储。数据的结构较为简单,只包含相关的用户名和密码。

概念模型表:用来存储概念模型的相关信息,大体包括模型的id、名称、和属性等相关信息。

概念模型元数据表:用来存储概念模型的元数据信息,主要包括模型者的相关信息、模型的功能信息、模型的版本信息、模型的日期、模型的vv&a以及相关状态信息。

用户反馈表:用来存储使用过本系统的用户对系统的反馈意见信息。

3.3 管理系统的静态网页设计

静态网页作为整个系统的最上层设计,是系统与用户进行交流的窗口,在设计过程中着重要注意设计的交互性,涉及的界面用交互性强,便于用户使用操作,另外要注意界面的简洁美观增强系统的可视性。总体来讲系统主要设计以下几个界面:

登录界面:包括普通用户登录界面和管理员用户登录界面,用于用户登录系统。

注册界面:即普通用户注册界面,用于新用户注册用户名和密码。

系统主界面:即用户成功登录系统后所直接展示给用户的页面,主要介绍管理系统的基本内容,页面内嵌套相应功能模块链接按钮。

模型实例管理界面:根据对概念模型的划分,应对实体模型、过程模型、交互模型各设立一个模型实例管理界面,界面中应能显示系统中现有的各个概念模型实例,并提供相应的下载上传链接,使得系统中的模型库得以共享和扩充。

用户反馈界面:用于上传和显示用户对本系统的使用评价和建议。

3.4 管理系统的业务逻辑设计

管理系统在设计过程中主要分为五大模块进行设计:

用户登录模块:管理系统首先应该解决的问题,其主要功能是提供用户登录的口令密码验证,并可以进行新用户的系统注册。

模型管理模块:用于实现系统的主要功能,其中包括了下载、上传、删除、修改四个子模块。

元数据管理模块:主要内容是在系统中嵌入元数据的查询和注册功能。

搜索功能模块:用于实现对模型数据的快速检索功能,本模块中的实现主要是通过sql语句中的查询语句来实现对数据库的检索,并将检索的结果以html页面的形式反馈给使用者。

用户反馈模块:将用户提交的表单写入反馈信息数据库,并将数据库的内容显示在html页面上,可以通过jsp和mysql的基本操作来实现。

4 结语

随着仿真技术的不断发展,概念模型的构建作为仿真活动的第一步,其作用的重要性将进一步突出,而且随着更多概念模型的开发,为了方便仿真人员对已有成果的共享和交流,缩短仿真周期,对概念模型管理系统的研究将有越来越大的发展空间。

参考文献

[1]谢卫平..概念模型工程研究[j].计算机仿真.2003,20(2):120-122.

信息资源概念篇(8)

国际会计准则理事会(IASB)在《财务报告的概念框架》(2010)中将“确认”定义为:“确认是把满足确认标准的会计要素列入资产负债表或利润表的过程。每个要素都由文字和货币金额表示,其金额计入资产负债表或利润表的合计数中。未能确认这些项目,无法通过披露所采用的会计政策或通过附注或解释材料来加以补正。”概念框架规定了会计要素的确认标准有两条:一是与该项目有关的未来经济利益很可能流入或流出企业;二是该项目的价值或成本能够可靠计量。在评估一个项目是否满足确认标准时,还要考虑重要性和可靠性原则(完整、中立和没有差错)。

美国财务会计准则委员会(FASB)在《财务会计概念公告第5号:企业财务报表中的确认与计量》(简称SAFC No.5)中,将“确认”定义为“将某一项目,作为一项资产、负债、营业收入、费用等正式地记入或列入某一主体的财务报表的过程。它包括同时用文字及数字表述某一项目,其金额包括在财务报表的合计数中。对一项资产或负债而言,确认不仅要记录该项目的取得与发生,还要记录其后续的变动,包括导致该项目从财务报表中予以消除的变动。”从上述定义中可以看出,FASB认为确认包括对某一个项目的初始确认,该项目以后发生变动的后续确认以及如果该项目消失时的终止确认。SFAC No.5提出四项确认标准:可定义性、可计量性、相关性、可靠性。另外,某个项目是否确认,还应满足成本效益原则和重要性要求。

我国《企业会计准则—基本准则》规定资产、负债、收入、费用的确认标准是:符合会计要素的定义;与该要素相关的经济利益很可能流入或者流出企业;经济利益的流入额或者流出额能够可靠计量。不难看出,我国会计要素的确认标准基本上与国际财务报告准则趋同。

通过分析IASB概念框架、FASB概念公告和我国基本准则中对确认的表述,我们可以发现:

(1)IASB概念框架与FASB概念公告都对“确认”的概念进行了详细定义,而我国基本准则仅仅列出了会计要素确认的标准,并没有定义“确认”的概念。

(2)FASB在“确认”的概念中提及了终止确认,即应该确认导致某项目从财务报表中移除的事项。而IASB概念框架与我国基本准则没有涉及“终止确认”。

(3)IASB概念框架与我国基本准则都在确认标准中加入了可能性门槛,而FASB没有将可能性作为确认标准。但是,FASB在确认标准中加入相关性,这是其他两者没有的。

(4)IASB与FASB对可靠性的定义不完全相同,IASB认为可靠性应该包括完整性、中立性和无差错。而FASB认为可靠性包括公允性、可验证性和中立性。

二、现行会计要素确认原则存在的问题

IASB概念框架、FASB概念公告与我国基本准都直接用于指导财务报告的编制,它们将确认活动限定在财务报表影响范围之内。因此,报告主体并不需要确认所有的资产和负债,而是仅仅确认符合资产负债条件的项目。

但是,随着经济环境的日趋复杂,企业的经营活动也更加复杂多变,信息使用者要依据会计信息做出是否投资的决策,对他们有用的信息就是企业掌握的全部资源和应该履行的义务,以及企业的管理层如何高效的管理和使用这些资源。要实现上述目的,最准确和最容易理解的做法就是把企业掌握的资源和承担的义务全部纳入确认的范围。

然而,现有的会计要素确认标准显然无法满足上述要求。它将财务报表之外的信息排除在确认活动之外,因此导致大量经济业务无法在现有的财务报表中得以反映(尤其是商业银行的各种表外业务);另外,由于缺乏可靠的确认标准与计量技术,像人力资产、智力资产、虚拟资产、自创商誉等这些对决策者至关重要的信息都无法在财务报告中反映,这使得会计信息的相关性降低。

三、IASB确认原则的修改思路

现行的概念框架确认原则无法在报表中反映所有的经济业务,因此它会影响信息使用者依据财务报表做出的决策。2013年7月,国际会计准则理事会了概念框架的讨论稿,在讨论稿的第4部分中,修改了会计要素的确认标准:

(一)删除可能性门槛

现行的会计要素确认标准规定:与要素相关的经济利益应当很可能流入或者流出企业。一般情况下,“很可能”的概率区间是大于50%并且小于等于95%。

但是,在特定时点,有些项目经济利益流入或者流出企业的可能性较低,但它们的确是资产或者负债。在这种情况下,设立可能性门槛,会导致这些项目不能计入财务报表。

另外,有些事项是否发生的概率会围绕着可能性门槛上下波动,这就导致未来经济利益流入或流出实体的可能性是不确定的。但是,项目不确定性仅仅能影响该项目的计量,而不能决定报告主体是否确认该资产或负债。

综上所述,IASB认为“可能性”不应该作为会计要素的确认标准。报告主体应该确认其掌握的全部资源和应履行的义务,不确认这些项目,无法通过揭示所采用的会计政策或通过附注或解释材料来加以补正。

(二)将相关性加入会计确认的标准

虽然概念框架删除了可能性门槛,但是若经济利益流入或者流出的不确定性太大,使得确认某个项目以后得到的信息仍不具有相关性。这时是否应该确认该项目呢?为了解决这个问题,IASB在讨论稿中将相关性加入会计确认的标准。

相关性与未来事项相关,它要求会计信息要具备预测价值.能使信息使用者预测到未来的结果。因此.相关性针对未来事项的确认、计量和报告,符合相关性的信息就是能够对信息使用者的决策产生影响的信息(making a difference)。

在大多数情况下,确认报告主体掌握的全部资源和应履行的义务就能够给信息使用者提供相关的信息。但是,在某些情况下,确认这些资源和义务提供的信息与使用者并不相关,或者提供信息需要的成本超过了使用该信息带来的收益。 因此,在确认会计要素时,将相关性加入会计确认的标准。

1.如果经济事项是否发生具有很大的不确定性,使得确认该项目需要做出重大的估计,那么确认该项目对信息使用者就不太相关。例如:研发项目能够带来的经济利益是非常不确定的,估计这个项目的经济利益将耗费大量的人力物力,那么确认这样一项资产就是不相关的。

2.有些资产负债项目之间是相互关联的,确认某些特定的资产负债项目而不确认它的关联项目,产生的信息将因为不完整而难以理解。例如:如果会计主体利用衍生工具作为套期工具,对冲被套期项目的公允价值变动带来的风险。这时套期工具与被套期项目是相关项目,仅仅确认衍生工具而不确认被套期项目所产生的信息就是不相关的。

3.自创商誉不确认,就是因为确认自创商誉产生的信息是不相关的。因为通用财务报表并不是用来对企业进行估值,而是为潜在的投资者和债权人提供信息,帮助他们评估报告主体的价值。而自创商誉的确定恰恰是建立在对报告主体的价值进行评估的基础上,所以自创商誉为信息使用者提供的信息将带有决策倾向,其中立性会受到影响,因此不再具有相关性。

综上所述:IASB在确认会计要素时将相关性作为确认标准之一。如果确认资产或负债产生的信息对信息使用者不相关,或者提供这些信息的成本太高,使得信息的相关性降低,报告主体可以不确认该资产或负债。如果这些信息是相关的,并且提供这些信息的成本不会超过其带来的收益,无论是否确认,报告主体都应该披露这些资产或负债。

(三)将如实反映加入会计确认的标准

2010年IASB和FASB联合了修订完成的概念框架中的两章,分别是《第一章—通用目的财务报告的目标》和《第三章—有用财务信息的质量特征》。其中对“如实反映”的表述是:完整的、中立的且没有差错的。

完整性即主体应该确认其掌握的全部资源和应履行的义务;中立性即主体在使用确认标准时,不会预先选定立场,对资源和义务以及收入和费用均等对待,不厚此薄彼;无差错的要求是当确认资产和负债的决策流程或者资产和负债的计量容易出现差错时,报告主体不应该确认该资产或负债,因为确认产生的信息不符合相关性要求。

另外,修订后的联合概念框架将可靠性删除。可靠性是一个广义的概念,难以量化,其定义的范围涵盖了如实反映和可验证性。但是,可验证性并不是信息有用性的必要条件,许多对未来的估计并不能被直接验证,但是它们却是相关性较高的财务信息。因此,IASB仅仅将可验证性作为增进质量特征,而不是会计确认标准之一。而如实反映与会计计量密切相关,是可靠性的本质特征和灵魂所在,因此联合概念框架把其本质的概念抽取出来替代可靠性更符合会计信息的特点。

综上所述:IASB将如实反映作为会计确认的标准之一,但是,如果报告主体已经披露与某项资产或者负债相关的所有必要的描述和解释,该资产或负债的计量还不能如实反映报告主体的资源或义务及其变动情况,报告主体就可以不确认该资产或负债。

(四)考虑增进质量特征

增进质量特征包括可比性、可验证性、及时性和可理解性。

如果主体未能确认某些资产和负债,将会导致其财务报表的及时性、可比性和可理解性受到影响。可验证性能够帮助信息使用者确定财务报表的信息是如实反映。但是,某些并不能直接被验证的信息,对于使用者是非常相关的。例如:某些超前的估计。因此,可验证性并不是项目确认的必需条件。

由此可见,讨论稿并没有强制要求会计要素在确认时符合增进质量特征。

最后,对于无需确认资产或负债的情形,IASB还需要进一步研究和修改某些准则,以确定哪些资产和负债不需确认。

四、IASB确认原则修改后的潜在影响

理清IASB的修改思路后,笔者认为如果IASB的概念框架最终采纳了讨论稿中对确认原则做出的修改,将会对企业的财务报告产生以下影响:

(一)众多表外负债将被记入财务报告

公司表外负债和表内负债相比最大的特点就是它的不确定性。表外负债通常只能由未来发生的事项所确定,表外负债发生时并不能明确地知道其结果,而且也难于证实。因此现在是否需要偿还以及偿还对象和时间等方面都不确定。如资产证券化、售后资产的回租、附有追索权的应收账款出售、环境负债、未决诉讼和质量担保负债等,它们成为表外负债,既有企业自身经济业务的不确定性,同时又有会计准则规范的不确定性。

将可能性门槛从会计确认标准中剔除以后,上述表外负债就不会因为不确定性而被排除在报表之外,财务报告就能更好的反映报告主体掌握的全部资源和应履行的义务,信息使用者也能获得更多相关的信息以供其决策。

(二)降低决策者面临的不确定性

由于企业财务报告披露的会计信息的重要功能是降低投资者决策过程中面临的不确定性,相关性上升为基本质量特征后,能从根源上提高会计信息的相关性,从而提升会计信息的质量。

(三)如实反映取代可靠性

可靠性本身是以历史成本为计量属性,反映基于过去事项的信息。同时这些信息考虑到部分利益相关者,企业的利益就会向该部分利益相关者倾斜,这样可靠性就会减弱会计信息的相关性。

如实反映满足用客观标准定义的信息真实性要求,有助于信息使用者在现实的条件下预测企业未来现金流的时间、数额,如此就能增加会计信息的相关性。

五、IASB确认原则修改对我国企业会计准则的启示

(一)降低确认门槛,扩大确认范围

国际会计准则理事会在概念框架讨论稿中,对要素定义以及确认标准都做出了修改。笔者认为我国会计准则可以借鉴IASB对可能性的处理方法,将可能性门槛从要素的确认标准中删除。

我国现行的确认标准包含了要素定义,然而很多无法满足要素定义的事项,已经成为现代企业的重要组成部分,而且对使用者来说往往是极为重要的会计信息,例如:人力资源、智力资产等。这些资源是否应该计入企业财务报表中?是表内确认还是表外披露?

随着我国资本市场的完善和企业业务模式的创新,企业会更多利用衍生金融工具对冲风险,而衍生金融工具的价值随特定利率、金融工具价格、商品价格、汇率等等其他变量的变动而变动,未来经济利益 流入或者流出企业的可能性无法可靠估计。但是《企业会计准则第22号—金融工具确认与计量》要求将衍生工具纳入表内,若严格按照基本准则中,资产负债的确认对可能性的要求,有些衍生工具将无法纳入表内,这就造成了基本准则与具体准则的冲突。

另外,如果将可能性的门槛界定为发生的概率大于50%,如何判断事项发生的概率也将是一项复杂的工作。

因此,在中国会计准则与国际财务报告准则趋同的背景下,我们应降低确认门槛,扩大确认范围。

(二)增加会计信息质量特征的分层

我国会计信息质量特征并没有阐述相互之间的逻辑结构,也没有区分相互之间的层次,而且部分会计信息质量特征之间还存在相互矛盾的地方,如相关性和可靠性、谨慎性和中立性等。IASB/FASB联合概念框架将会计信息特征分为基本信息质量特征和增进信息质量特征。基本质量特征即相关性和如实反映,是会计信息必须具备的条件。增进质量特征即可比、可验证、及时以及可理解,对基本性质量特征起巩固和加强的作用,使得会计信息有用性得以放大和提高。因此,我们可以借鉴联合概念框架对这些会计信息质量特征的分层,建立概念清晰、逻辑层次分明的信息质量特征体系。

(三)在基本准则中引入确认的定义

信息资源概念篇(9)

.

【关  键  词】本体论/数字图书馆/层次结构/信息资源

随着信息技术的发展和数字化时代的到来,数字图书馆应运而生。数字图书馆的核心是数字化信息资源的组织与管理,而目前已有的信息处理方法在对信息客体进行深层描述时存在一定的缺陷。本体论(ontology)从信息客体或信息对象出发,通过建立信息客体之间的概念联系和等级关系,将对信息客体的揭示深入到知识内涵的层次并实现对信息客体内在联系的推理。由于本体论为信息资源组织引入了新的方法和思想,它无疑会对数字图书馆建设产生积极的作用。

1 本体论的概念

本体论原本是哲学中的一个概念,是指从人类行为中抽象出来的现实本质。但信息处理领域中的本体论与哲学领域中的内涵不同,国外一些学者已从多种角度对其进行了描述,如:“本体论是一种概念化的关系明确的模式”;“本体论是解释概念潜在的含义的逻辑关系”;“本体论是可以在人和机器间进行交流的某一领域共同的概念表达”;“本体论是可以共享和再利用的概念化模式”。而Borst则将本体论定义为“共用概念的正规明确的具体的概念化模式”,其“概念化”指的是通过标识某一现象的相关概念而建立的这一现象的抽象模型,“明确”指的是所用的概念的类型和用法的限制有明确的定义,“正规”指的是本体论的实例可以实现机读,“共用”指的是本体论所捕捉的知识带有一般性,而不是某些个体所独有的。

从本体论这些定义可以看出,本体论这一信息处理模式在保持原有核心特征的基础上,本身在逐步发展和完善。简而言之,本体论是一个概念的集合,这些概念包括等级结构、概念间的关系、每个概念所具有的属性及进一步限制的定理。当使用本体论表示数字文献资源时,是在描述一个事物的两个方面:一是资源外在形式——题名、作者、出版者、文件格式、知识产权等,另一方面是资源内容——文献的主题。两个方面都可以使用本体论来建立等级关系的知识模型,在等级结构的知识模型中可以定义信息客体、信息客体的内容和相关的属性与关系。

2 文本文献本体论的构建

为数字图书馆信息资源构建本体论不是单一的一个层次,而是在传统图书馆的基础上,针对数字图书馆信息资源管理的不同发展阶段,形成一个多层次的体系,其中的第一层就是为文本文献构建本体论。

2.1 可行性分析

文本文献资源是传统图书馆馆藏的主体,随着图书馆数字化进程的深入,对揭示大量文本文献内在关系的需求更为紧迫,因而为文本文献构建本体论成为数字图书馆信息资源本体论构建的第一步。

构建本体论的核心是建立概念的等级结构及定义概念属性,从而利用逻辑推理来推导概念之间的关系。对于文本文献来说,构建本体论的实质就是建立文献之间的等级结构,并定义文献之间的关系。与其它类型的信息资源相比,文本文献本身就有较为规范和概念明确的特点,所以为文本文献信息建立等级结构和定义属性较为便利。因为文本文献的等级关系在MARC上有较好的体现,所以在MARC数据的基础上构建本体论具有较强的可行性和实用性,由此文本文献本体论的构建包括一个MARC记录的转化过程。构建本体论的最终目的是实现推理,利用文献的等级结构和定义的属性可以在转化后的MARC上实现推导文献间关系的目标。构建文本文献本体论的最后一步是将推理的结果生成知识库。

2.2 文献等级结构的建立

构建文本文献信息本体论的基础是文献等级结构的建立。文献的创造过程始于一种思想,即“构思”。这种“构思”一经抽象,则被称之为“表述”。当“表述”出版后,它就成为“版本”。“版本”的物理形式为“载体”;如果是数字化的,这种“载体”则称为“数字化形式”。“载体”的某一版本称为“实例”。

文献等级各层次之间的关系比其看上去要复杂,低层次对高层次而言是一种继承关系。“实例”是“载体”、“版本”等中的一种,因此,“实例”有一个统一题名,这一统一题名可以直接检索到而无需利用文献等级结构导航。在著录逻辑中,文献等级中的每一个概念被定义为“属于”关系,或是一种对上层概念的“延伸”关系。继承的值与“延伸”关系相关上位类的值“相同”。

2.3 MARC记录转入本体论

将MARC字段和值转化为标识的文本要借助4个控制文档,这组文档著录了MARC格式和它与本体论的关系。主控文档将选定MARC字段和编码扫描为一个或多个本体论概念。一些扫描过程视MARC值而定,依据不同情况将单一字段扫描为多个本体论概念。第二个控制文档对多个MARC字段扫描为同一个本体论概念的情况建立优先权。第三个控制文档依据MARC记录的类型和书目层次标识MARC字段内编码的位置。第四个控制文档包括每一个编码的信息,包括编码—值表的长度和位置。

2.4 知识库的生成

将MARC数据转为用本体论概念标识的文本后,依据本体论所规定的文献等级结构及定义的相关属性可以进行如下推理:

·用统一的标准对中间概念的多项进行合并。统一标准算法使用基数限定,这一基数限定是本体论定义的一部分。如果某项的类型属于另一项,且允许多重值,那么该项被合并。

·标识合并相同的构思。有相同统一题名、作者、序列号的构思被视为相同的构思。当缺少统一题名时,使用版本项的题名代替。

·如果文风和相关作者值相匹配,或者版本层的某种衍生关系可以识别的情况下,标识和合并有相同构思的表述。

·在出版者和出版日期相匹配,并且一项的出版形式值是另一项出版形式值的子集时,标识和合并有相同表述的版本项。同时还可在载体层某种衍生关系可以确定的情况下合并版本项。

·依据MARC记录描述的衍生关系建立与先前文献的关系。如果在文献族中未发现原作,则生成原作相关知识的本体论(包括在文献等级结构中衍生文献所在等级以上的全部层次和来自MARC记录的信息)。

最后将推理的结构进行归纳,将具有相同关系的文献合并,从而生成知识库。

3 XML中本体论的构建

数字图书馆管理的不仅是文本文献,还有多媒体信息,因此,为此类信息资源构建本体论就成为数字图书馆信息资源本体论构建的第二个层次。

3.1 可行性分析

由于MARC等处理手段著录多媒体信息的缺陷,数字图书馆必须采用能标识各类型信息资源的标准和技术。XML具有灵活性和可扩展性优势,突破了MARC的局限,可以描述各种类型的文献资源。使用者可利用XML中的DTD自行定义所需的标记语言及XML文件的结构。如果使用者就DTD达成一致,则文献可以用一致的方式创造、传递和翻译,同时保留传递者指明的语义。在XML的DTD中构建本体论可以实现在概念层整合各种类型信息资源,它将来自句法和表述层的信息提高到更为抽象的概念和关系层进行描述,满足了揭示多媒体信息内在关系的需求。

3.2 等级关系的建立

实现基于本体论的XML描述首先要定义描述客体之间的等级关系,这就需要建立等级关系模型。以一个由人和出版物概念等级结构组成的本体论关系模型为例,本体论在框架逻辑中描述概念,规定“人”是“客体”的一个子概念;“职员”和“学生”是“人”的子概念等等。概念“博士生”同时继承了“学生”和“研究者”的属性,相继承的属性被定义在本体论的第二部分,指的是概念之间的关系,在此通过相应类型的属性建立起概念之间的关系。本体论的第三部分是定理,使用这一定理可以在已有事实的基础上推断新知识。例如,假设研究者A和B合作,则可推断出B也是研究者,同时B也与A合作。因此,本体论可以推断不完整的知识。

3.3 本体论DTD的生成

因为继承关系是本体论的核心,而XML本身并不支持这种关系,所以这一关系模式需要借助其它方法才能在DTD中生成。使用XML的参数实体可以实现这一目标,参数实体定义了可以用于DTD的替换字符串,每当参数实体被参照时,这一参照则使用替换字符串来代替。DTDMAKER是一个在XML文献的DTD中构建本体论的有效工具,它将本体论的概念扫入DTD的元素类型中,即对每一个概念元素类型都做定义,这些元素类型的内容模型由表达概念属性的元素构成。本体论中的属性和XML的属性一样可以表述出来,也就是说本体论的属性可以被扫入相应的XML属性中。最后一步是将本体论属性元素内容模型的规范扫入DTD中。

4 知识管理中本体论的构建

数字图书馆的目标是在对各种文献信息进行组织和管理的基础上,最终实现对知识的管理。在知识管理的全过程中构建本体论,可以实现对知识本身的揭示,实现数字图书馆对信息资源最高层次的管理。

4.1 可行性分析

在知识管理的过程中构建本体论主要由4项工作构成:①建立等级结构;②知识描述;③本体论信息浏览;④在推理基础上提供知识的智能检索。这些内容容易与关系型数据库技术相混淆:本体论模型对应于数据模型,对知识的描述对应于知识库中的数据项,查找则对应于SQL。然而,这种本体论方法与集中的数据库技术有显著的不同,它捕捉的是分布的而不是集中的知识,知识可以直接在它的初始位置被查找(如HTML网页),而不是被分割到相应的数据库中才能查找。这种方法允许对知识进行推断,知识虽然没有明确表达出来,但却可以根据一般性的知识(包含在本体论内)进行推导。

知识管理过程中本体论的构建具有上述优势。在网络环境下借助相应的基于的本体论服务工具,使这一构建过程具有很强的可行性。

4.2 等级结构的建立

构建本体论的关键步骤是等级结构的建立,这一过程与2.2、3.2部分所述内容相似,因此这里省略。

4.3 知识描述

在分布式的网络环境下,需要管理的知识资源分布在网页中,可以在网页中添加本体论的标识语句,如在HTML中对被描述的信息客体添加本体论的onto语句。在标准的Web浏览器如Netscape或Explorer中,onto语句的添加并不影响HTML文件的视觉效果,这样做只是使得主题事物知识的智能Web查找可视化。同时,这可以直接使用(再利用)语句体中的文本知识,避免了知识标注者重复表示相同的信息。

4.4 本体论信息浏览

由于使用者在标注和查询的过程中使用了本体论标识语句,因此,在此阶段可提供便捷的信息浏览。本体论元数据表示的是概念的等级关系,这种等级关系至少容易满足用户的两种需求:①浏览某一类的周围类目,以便寻找最合适的形成某一提问的类,②浏览全部等级,以便快捷地完成由一个等级向另一个等级的导航。

4.5 智能知识检索

在网络环境下可以使用基于本体论的服务Ontobroker,它由3个部分组成:网络爬虫(Ontobroker)、推理引擎及查询界面。

首先,Ontocrawler通过标识的网页进行查找并收集标注的知识片断。其次,将知识片断转化为以Ontocrawler所使用的表述语言规范成的事实。不论是推理引擎还是查询用户都不需要了解因特网上事实表述的句法,只有标注者必须使用标注语言。

推理引擎收到用户的提问后,利用两个信息源来推导答案,即主题事物的本体论和Ontocrawler中的事实。推理引擎的基本推理机制类似于知识库中的智能推导系统。

5 结语

由于信息资源组织在数字图书馆中的重要作用,开发科学有效的信息处理工具已成为数字图书馆研究的一个重点。本体论的构建弥补了现有手段描述信息客体功能上的不足,它既从宏观上为信息资源的有效组织提供了指导思想,也从微观上构成了描述信息客体的标准和技术。本文对国外本体论的理论研究和实践应用进行了深入分析和系统整理,建立了构建数字图书馆信息资源本体论的3个层次体系,并在每个层次的具体操作中形成了从可行性分析到等级结构建立再到本体论生成的方法体系。

【参考文献】

1 Gruber,T.R.A  translation  approach  to  portable  ontology  specifications.  Knowledge  Acquisitions,  1993(5):  199-210

2 Uscbold,  M.  Ontology:  principles,  methods,  and  applications.  Knowledge  Engineering  Review,  1996(11)  :93-155

3 Farquhar  A.,  Fikes,  R.  et  al.  The  ontolingua  server:  a  tool  for  collaborative  ontology  construction.  International  Journal  of  Hunmn-Computer  Studies,  1997(46)  :707-728

4 Michael,  Erdmann.  How  to  structure  and  access  XML  with  ontologies.  Data  &  Knowledge  Engineering,  2001  (36):317-335

5 http://www.  aifb.  uni-karlsruhe,  de/WBE/broker/

6 Birmingham,W.  Building  ontologies  for  the  Internet:  a  midterm  report.  International  Journal  of  Human-Computer  Studies,  1999(5)  :687-712

7 Guarino,N.  Semantic  matching:  formal  ontological  distinctions  for  information  organization,  extraction,  and  integration.  Computer  Science,  1997(5):  139-170

信息资源概念篇(10)

【中图分类号】TP315 【文献标识码】A 【文章编号】1006-9682(2009)04-0040-02

【Abstract】Aming at the actuality of military academy informationization construction, this paper brings ontology into the military academy education resources management. Using ontology language to describe the education resources, in order to facilitate sharing and reusing; Devising a new arithmetic of ontology integration, in order to communication and sharing between different ontologies. At last, the framework of military academy education resource management is presented.

【Key words】Education resource Resource management Ontology OWL Ontology integration

随着新军事变革的加深,军事院校的信息化建设越来越受到人们的重视。在军院信息化建设过程中,硬件是基础,软件是核心,资源是关键,制度是保障,应用是最终的目的。教育资源管理的好坏决定着信息化教育发展的优劣。教育资源不同于一般的资源,它表现形式多样,有文本、图片、视频、音频、试卷、课件、网络等,[1]并随着信息技术的发展,呈指数方式增长。目前,军校教育资源已出现如下特点:数据量大、形式多样、针对性强、教育性强,分布式等,并出现了如下不足:[2][3]信息资源分散,缺乏公共基础数据平台,信息标准不统一,适用性教学资源匮乏,信息成果共享不畅;应用缺乏有效基础,网络应用缺乏统一的身份认证系统支持。这直接导致了一种奇怪现象的出现:一方面院校拥有丰富的教育资源,另一方面用户却抱怨资源匮乏。究其原因就是目前的教育资源管理无法满足需求。如何将分散、无序的资源整合起来,消除资源孤岛,使用户能方便、高效的将其利用于自己的学习和工作之中,并在大范围内共享是当前要解决的重大课题。

本体作为一种有效表现概念层次结构和相互关系的模型,已经被广泛地应用到计算机科学及其相关领域,如知识表示、共享和重用、系统分析等方面。本文将本体引入军校教育资源管理领域,以期解决以上问题。

一、MAERO描述

1.本体描述语言OWL

本体语言用于形式化描述Web文档中词汇的含义,在语义Web的7层模型中占有重要的位置。目前不同的组织提出了多种本体建模语言:RDF,RDFS,OIL,DAML+OIL和OWL。

而作为W3C推荐的OWL已经成为定义Web本体的标准语言。受到了广泛的应用,可以认为OWL是用XML语法,RDF模型定义的一种描述逻辑语言。

2.本体建模工具Protege 4

目前本体的编辑工具有很多:斯坦福大学开发的Protege,卡尔斯鲁厄ATFB开发的OntoEdit和KAON,曼彻斯特开发的OilEd等工具。在这些工具中,Protege作为开源的软件应用最为广泛,最新版本到了Protege 4,它具有如下特点:

(1)图像化用户接口框架。

(2)良好的API接口,有较好的扩展性。

(3)模块化。包括:智能的利益局部/全局知识库去处理导入依赖;导入多个本体在同一个工作空间;本体间动态切换;本体间公里互相移动。

(4)导航。

(5)强大的推理支持。推力器可以作为插件加入;Pellet推理机和FaCT++推理机的直接接口。

(6)OWL编辑。包括:本体实体的一致性描述;OWL描述解析;自动完成;语法高亮;自动为新实体创建ID。

(7)丰富的插件。

为了得到良好的推力能力,开发一个标准的、可扩展的、智能的和稳定的MAERO,我们利用Protege4建模本体,采用OWL作为本体描述语言。

3.描述MAER的元数据标准

构建分布共享的学习资源数字环境,实现学习资源的共建共享是目前世界各国都在积极进行的项目,具有良好互操作、基于资源发现和检索的元数据,则是有效地实现这些资源的描述、检索、利用的基础和关键。目前,国际上较有影响的描述教育信息资源的元数据主要有IEEE LOM(学习对象元数据),DC-Education(都柏林核心教育元数据),IMS(教学管理系统元数据)等。[4]

我国从2001年开始启动了教育信息化技术标准研究项目,成立了中国教育信息化技术标准委员会(CELTSC)。该项目以实现资源共享、支持系统互操作、保障网络教育服务质量为目标,通过跟踪国际标准研究工作和引进相关国际标准,并根据我国教育的实际情况修订与创建了各项标准,最终形成“中国教育信息化技术标准体系”(CELTS)。该体系包括:

(1)《学习对象元数据》(CELTS-3):属于上层的抽象规范,规定了描述学习对象的基本方法与准则,它属于CELTS体系中的基础标准。

(2)《教育资源建设技术规范》(CELTS-41):是对《学习对象元数据》与具体应用领域结合的产物,它面向资源建设领域(包括基础教育、高等教育、职业教育和培训等领域)。

(3)《基础教育教学资源元数据规范》(CELTS-42):其应用领域则更为具体,主要面向基础教育的资源建设。这三个规范从理论上来说,是一脉相承的,都是以LOM为核心建立的。

综上所述,在本文中参考以上标准,根据军校本身的特点来构建MAERO。

4.MAERO的实现

为了建立MAERO本体,下面我们首先给出MAER的概念空间的定义:

概念空间ECS=(C,R),其中C={c1,c2,…,cm}为本体种概念集合。R={r1,r2,…,rm}为概念的关系集合。ri:C×…×C{True,False}。概念的定义通常为一种分类层次,体现出概念间的继承关系。这里所说的概念是对教育领域中词汇表中术语的抽象定义;概念与概念之间的联系用关系表示;推理规则用基于事实的推导,得出新的概念,同时为完成语义的相关性搜索提供支撑条件。

为了更好的建立MAERO,我们先给出它的本体语义网络(OSN)结构。限于篇幅,下面给出部分资源的OSN。

二、本体集成

由于不同的人对同一事物可能有不同的理解,如同样领航课,驾驶和领航学员所学的内容就不同,所用的教材也不同。因此本文提出用本体的集成来解决该问题。本文提出的本体集成的概念是指:将对同一概念的不同本体描述集成成为一个新的本体。首先,将库中的本体模型根据资源所属的种类分类,由判定规则判断出本体是否描述同一概念,利用本体集成的思想,将本体集成。

分类方法有很多。本文主要是用聚类的思想,限于篇幅不再介绍。下面主要介绍本体集成算法。

1.集成判定规则

规则1,如果两个概念的URL是相同的,那么这两个概念是相同的。

规则2,如果两个概念的子概念完全相同则两个概念是同一个概念。

规则3,如果两个概念的祖先概念都相同,并且兄弟概念也都相同则这两个概念是同一个概念。

规则4,如果两个概念名字是相同的,那么这两个概念是相同的。

规则5,如果两个概念的实例是相同的,那么这两个概念是相同的。

2.本体集成算法

算法如下:

输入:新加入本体Oi和已有规范本体库;

输出:经过集成后的本体库。

① 根据聚类算法判定新加入的本体Oi是否可以分到相应的类别中,是转②,否则转⑤。

② 判断与Oi属于同一类别的且没有和Oi进行规则匹配的本体是否存在,存在转③,否则转④。

③ 任取尚未和Oi进行规则匹配的本体Oj,将Oj和Oi利用规则进行判断,如果Oj和Oi是描述的概念是相同概念,调用合并算法,并退出。否则转②。

④ 将Oi列为本类别的新的子类,并退出。

⑤ 将Oi列为新的类,退出。

三、资源检索框架

由于用户的观念、知识水平、立场等的不同,对于同一个检索要求各个用户输入的检索条件的表述可能会不同,或者对于检索条件输入不准确。同时,因为在许多情况下会出现一词多义的现象,如小绵羊既可指一种家畜,也可指软弱的人;同义词的现象如计算机也被称为电脑等。所有这些现象将导致检索结果不准确或有大量无用信息返回。而领域本体是面向特定领域,用于描述领域知识的概念模型,并要求模型中的概念在某个特定领域或范围内是公认的,所以可以对用户输入的检索语句用领域本体本体来提示以规范查询。其检索步骤设计如下:

1.当用户输入检索条件后,将该检索条件和本体论库中已有本体进行分解匹配,再按照一定的算法在本体库中进行推导演绎。返回当前词条所有的相关概念结果集。

2.由用户对返回的结果集进行选择,进一步确定检索范围,再将处理后的检索请求提交给搜索引擎。

最后,根据本文思想,设计出如下基于本体的军校教育资源管理框架:

四、结束语

随着我国军事院校的发展,信息化的发展要求愈来愈迫切,教育资源越来越丰富,但是目前的大多数资源管理技术无法利用丰富的资源为用户提供满意的服务,不能满足发展的需要。基于此,本文将本体引入军校教育教育资源管理中,介绍了本体在高校教育资源描述、资源共享和资源查找上的应用,设计了军校教育资源本体MAERO,本体集成规则和算法以及设计了基于本体的军校教育资源管理框架。该方法试图使得资源管理更合理,提供更高效的服务。当然,由于工程浩大,本文建立本体的比较薄弱,下一步的工作主要进一步完善MAERO,扩大本文的适用范围。

参考文献

1 薛 玲、李红良、佘 嫱.军队院校信息化建设的对策研究.情报,2005.12:142~144

2 李远星、谭 忠、王敏等.军校信息化教学模式的缺陷与重构.军事交通学院学报,2008.10(3)78~81

上一篇: 大学生家庭情况自述 下一篇: 城市管理工作的认识和看法
相关精选
相关期刊