计算机研究与发展杂志-2013年第08期-学术点评

计算机研究与发展 2013年第08期杂志文档列表

计算机研究与发展杂志信息存储

一种支持EB级存储的可扩展存储空间管理方法

摘要：随着海量数据应用的增多，机群文件系统需要具备对PB甚至EB级存储空间进行管理的能力．受数据位置信息维护方法的限制，在面对需要管理的百亿甚至万亿个对象时，对象存储服务器在数据定位、负载均衡和复本维护方面均存在可扩展处理的问题．为了满足日益增长的存储需求，提出了一种可扩展的存储空间管理方法．首先，该方法将存储空间中的对象位置信息通过Extendible Hashing以两级索引结构的方式进行组织，以此来支持对海量对象位置信息的扩展性管理；其次，该方法依靠对象位置信息在多服务器的分布结果来放置对象，文件系统能通过对索引结构的调整以较低开销实现负载均衡；最后，该方法以数据位置信息组织的索引结构为粒度进行复本维护以降低复本位置信息的维护开销．实验评测表明，存储空间管理方法能够支持海量数据的高效管理．在负载均衡方法的作用下，多存储服务器的I／O聚合带宽因负载均衡而能够取得10％的提升．相比Lustre和DCFS3，该系统在多客户端并发访问环境下具有更好的扩展性能．

1573-1582

面向虚拟共享域划分的自适应迁移与复制机制

摘要：传统数据管理机制无法感知分布式cache布局的非一致访问延迟特性，导致多核处理器大容量cache失效率和命中延迟之间的矛盾日益加剧．此外，单独依靠数据迁移和盲目复制难以解决共享数据块的竞争访问与长延迟命中问题．基于瓦片式多核处理器分布式cache的虚拟共享域划分机制，提出并实现一种域间数据自适应迁移与复制机制，能够协同感知本地目标bank候选牺牲块状态和远程命中块的局部活跃程度，在多个虚拟共享域间对多核竞争访问的共享数据进行动态迁移和复制决策，综合权衡片上长延迟命中和cache容量有效利用率问题，降低平均存储访问延迟．最后，在全系统模拟器中实现虚拟共享域划分和域间共享数据自适应迁移一复制机制，并采用典型测试程序包SPLASH-2评估性能

1583-1591

云计算环境下支持复杂查询的多维数据索引机制

摘要：针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题，提出了一种多维数据索引机制M—Index，采用金字塔技术（pyramid—technique）将数据的多维元数据描述成一维索引，在此基础上首次提出前缀二叉树（prefixbinarytree，PBT）的概念，通过提取一维索引和PBT有效节点的前缀作为数据在存储系统中的主键．数据根据主键和一致性Hash机制到存储节点组成的覆盖网络．设计了基于M—Index的数据查询算法，将复杂查询请求转换成一维查询键值，有效支持多维查询和区间查询等复杂查询模式．理论分析和实验表明，M-Index在复杂查询模式下具有良好的查询效率和负载均衡．

1592-1603

连续数据存储中面向RAID5的写操作优化设计

摘要：针对连续数据存储应用，如视频监控、连续数据保护（CDP）、虚拟磁带库（VTL）等，提出一种面向RAID5的写操作优化方法：首先进行基于区间映射（areamapping）的地址转换（AT），把非连续的I／O请求虚拟地址转换为连续的物理地址，以实现对磁盘阵列的连续写；然后，在缓冲区内保存应用程序发出的写数据块，并构造一个与RAID5的完整条带长度相等的对齐数据块，对齐数据块在RAID5上恰好占满整个条带，再发送给RAID5，以实现对RAID5的完全写．这样写入的数据块恰好占满RAID5的整个条带，不仅避免了因生成校验数据而产生重构写、读改写等额外I／O开销，而且数据块的连续写入有效降低了磁头的寻道时间，提高了RAID5的吞吐能力．实验表明，该写优化方法在有限降低RAID5读性能的同时，可大幅提高RAID5的写性能，在80％连续的负载下，使RAID5的数据传输率接近其最大值．在连续数据存储中该方法同样适用于RAID4和RAID6．

1604-1612

可信云存储环境下支持访问控制的密钥管理

摘要：可信云存储采用本地数据加解密来保证用户外包数据在网络传输和云端存储的安全性．该环境下数据拥有者通过对数据密钥的安全共享和管理来实现对不同用户的选择性数据访问授权控制．针对多数据拥有者可信云存储环境，以最小化用户的密钥安全传输／存储等密钥管理代价及其安全风险为目标，提出了一种新的基于全局逻辑层次图（global logical hierarchical graph, GLHG）的密钥推导机制的密钥管理方法．该方法通过GLHG密钥推导图来安全、等价地实施全局用户的数据访问授权策略，同时利用云服务提供商（半可信第三方）来执行GLHG密钥推导图结构的管理并引入重加密技术，从而进一步提高密钥管理执行效率．阐述了基于GLHG密钥推导图更新的动态访问控制支持策略，并对该方法进行安全性分析和实验对比分析．

1613-1627

云存储中基于可信平台模块的密钥使用次数管理方法

摘要：为保护云存储中数据的机密性并控制密钥的使用次数，提出了一种基于可信平台模块的密钥使用次数管理方法．首先，通过基于密文策略的属性加密算法对密钥加密，使得只有满足一定属性的指定用户能够解密密钥．然后在本地将密钥与可信平台模块绑定，保证密钥的安全存储，并利用可信平台模块的物理单调计数器为每一个密钥生成一个虚拟的单调计数器．其次，通过比较单调递增的计数器值和预定的密钥使用次数值，判断密钥是应被删除还是能继续使用，从而控制密钥的使用次数．最后，利用可信平台模块的防物理篡改功能、计数器的单调性和数字防止攻击者对硬盘数据进行重放攻击．实验结果表明，所提出的方案性能开销小，能够安全有效地存储和保护密钥，达到密钥使用次数受限制的目的．

1628-1636

共享存储可重构计算机软硬件通信的优化实现

摘要：可重构硬件操作系统BORPH提供的硬件进程概念和以硬件为中心的执行模型可极大地提高可重构计算平台的易用性．BORPH—N为BORPH的扩展系统，主要的扩展是支持在共享存储可重构计算平台上的运行．BORPH—N为硬件进程提供基于共享存储、符合Unix语义的高性能进程间通信支持：共享存储和信号量．利用这两项服务，硬件进程可与系统中其他所有软件进程和硬件进程进行交互．可重构计算的重要目标是利用可重构逻辑对应用的耗时部分进行加速，所以软硬件交互机制的效率至关重要．通过类似远程调用这种简单方式来提供这两项服务，软硬件交互频繁，开销较大，性能难以满足需求．BORPH—N使用的优化策略基于独立执行的基本思路进行设计．实验结果表明，BORPH—N所需硬件开销较小，为硬件进程提供的共享存储和信号量的效率逼近硬件平台的峰值，可以满足实际应用的需求．

1637-1646

列存储数据查询中的连接策略优化方法

摘要：列存储数据查询优化的重点是列的连接策略．现有的列存储系统通过存储的改变来简化列的连接，致使列的连接缺少查询优化处理，策略单一且无法满足复杂查询．在剖析现有连接选择策略的基础上，提出一种新的连接策略优化方法，即首先利用基于规则的优化方法为列存储数据查询制定优化规则，过滤不可能产生最优计划的候选计划；然后设计了基于代价的优化算法，根据动态Huffman树和左深连接树原理对查询执行顺序进行改进，进一步减少候选计划的规模；根据列存储数据的特点将候选计划中每个连接节点的执行策略归纳为串行连接和并行连接两类，并在此基础上提出代价估计模型，进而可针对这两种连接策略进行代价估计和策略选择．最后在SSB数据集上通过实验证明了方法在列存储数据查询中的有效性．

1647-1656

面向云存储的I/O资源效用优化调度算法研究

摘要：随着云计算的普及，越来越多的客户选择使用基于云的服务，以避免冗余的设施购买费用和繁杂的系统设计与维护，从而将精力集中在自己的专业领域．通常，云服务的客户从云服务供应商购买虚拟机，并根据双方商定达成的服务水平目标（service level objective，SLO）约束购买到的计算资源．分布式存储中大量的文件分布在不同的存储节点上，现有的CPU、内存以及带宽等资源的分配调度算法并不适用磁盘I／0资源．从云服务提供商的角度来说，高效用的I/O资源调度算法有利于提高其系统的利用率，节约资源开销并增加企业收益率．从云存储提供商为获取高效率高收益率的角度考虑，通过对用户的虚拟机在不同存储节点上的访问特性建模，提出了一个新的自适应分布式I／O资源调度算法，简称为PC算法．PC算法能够：1）根据用户与服务商之间制定的SLO，动态地在各个存储节点中为每个虚拟机制定适当的局部SLO，满足虚拟机对个体节点的访问需求；2）为各虚拟机提供高效健壮的资源分配策略，既能尽可能利用I/O资源，又避免由无序的I/O资源竞争导致的虚拟机I/O资源饥饿．PC算法能够根据不同的I/O资源供应状况在两种调度策略间自动切换，当系统I/O资源充足时，算法采用最早截止时间优先算法（earliestdeadlinefirst，EDF）方式提高I/O资源使用率；反之则根据每个I/O请求的预计效益来提高总收益率．实验结果表明，在不采用预先设定虚拟机对各个节点访问量的前提下，PC算法能根据访问模式制定合理的资源分配，提高系统的I/O资源利用率和收益．

1657-1666

HPC海量存储系统Pass—Through访问策略研究

摘要：为了解决海量信息处理中实时访问中的“T／O墙”的问题，提高海量信息分布式存储系统的性能，提出了一种基于高性能计算（high performance computing, HPC）的存储部件新型访问策略．首先，分析传统访问模型存在的问题；其次，研究存储部件直通路模式的工作机理，建立存储系统分解为多层次、分布式的模型，根据不同的层次和映射策略实现存储空间物理地址、缓存地址、存储系统逻辑空间地址的连续映射；第三，分析直通路访问模式下的存储路径时间开销；第四，在模拟环境下存储部件访问的性能测试，在实际采用该策略的应用系统中进行验证．通过验证测试结果表明，该方法能有效提高存储系统的性能，能够不断满足海量信息处理实时需要．

1667-1673

列存储数据仓库中基于概率的保序字符串压缩方法

摘要：数据仓库中采用按列存储的方式更有利于数据的压缩，保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性，然而现有做法很难兼顾字符串出现的概率对压缩效率的影响，影响了压缩性能．因此，提出一种基于概率的保序字符串压缩方法．首先，提出一种扩展的共用叶子结构，使得编码索引和解码索引共享同一个码表，大大减少了编码和解码索引的维护时间．同时在该结构中，记录字符串出现的概率，并根据概率的高低建立解码索引，有效降低了高频字符串的解压时间．进一步，根据列存储的特点，将用于列连接的行号信息保存在扩展的叶子结构中，从而有效减少了列值索引的存储空间和创建时间．实验结果验证了该方法的有效性．

1674-1682

计算机研究与发展杂志智能信息处理

面向跨领域情感分类的统一框架

摘要：文本的情感分类问题，即判断文本中的论断是持支持态度还是反对态度．已有的研究表明，监督分类方法对情感分类很有效．但是多数情况下，已有的标注数据与待判断情感类别的数据不属于同一个领域，此时监督分类算法的性能明显下降，由此产生的即为跨领域情感分类问题．为解决此问题，提出一个统一框架，分多阶段进行跨领域情感分类：首先利用训练域文本的准确标签来得到测试域文本的初始标签；然后将测试域建成一个加权网络，将一些较准确的测试文本作为“源点”和“汇点”，进一步利用热传导思想迭代进行跨领域情感分类．实验结果表明，此方法能大幅度提高跨领域情感分类的精度．

1683-1689

基于等维度独立多流形的DC—ISOMAP算法

摘要：流形学习已经成为机器学习与数据挖掘领域中一个重要的研究课题．目前的流形学习算法都假设所研究的高维数据存在于同一个流形上，并不能支持或者应用于大量存在的采样于多流形上的高维数据．针对等维度的独立多流形DC—ISOMAP算法，首先通过从采样密集点开始扩展切空间的方法将多流形准确分解为单个流形，并逐个计算其低维嵌入，然后基于各子流形间的内部位置关系将其低维嵌入组合起来，得到最终的嵌入结果．实验结果表明，该算法在人造数据和实际的人脸图像数据上都能有效地计算出高维数据的低维嵌入结果．

1690-1699

最小化完成时间和加惩罚值和的批调度问题

摘要：考虑如下单机并行批调度问题：给定一些工件，每个工件有给定的处理时间以及惩罚值（可以拒绝处理某些工件，惩罚值为拒绝处理工件所付出的代价）．给定一个可同时处理多个工件的批处理器．同时处理的工件形成一个批．同一批处理的工件具有相同的开始时间和结束时间，即开始时间加上这一批中所有工件的最大给定处理时间．判断如何选择要处理的工件，给这些工件分批以及给批排序使得目标函数值最小．对目标函数是被处理工件的完成时间之和加上被拒绝工件的惩罚值之和的情况，通过给出一个动态规划算法，证明当批容量为常量时问题是多项式时间可解的．

1700-1709

基于逆序信号驱动的紧密衔接综合调度算法

摘要：针对以往综合调度中紧密衔接调度算法只能处理单一紧前工序的情况，使算法具有局限性问题，提出基于逆序信号驱动的紧密衔接综合调度算法．该算法先建立设备和调度2个子系统，并通过相互间传递的信号驱动逆序调度；对于紧密衔接工序组包含非单一紧前工序的情况，将紧密衔接工序组定义为一棵特殊的紧密衔接子树，采用逆序调度的方式自顶向下对紧密衔接问题求解；当信号驱动时刻存在多个可调度工序（组）时，按最大可并行性选择策略选择子节点关键路径长的工序（组）调度；对于可调度工序直接锁定该工序的加工时间段；对于可调度工序组，则按锁定紧密衔接工序组的前沿贪心策略锁定工序组的加工时间段．由于采用逆序调度和锁定紧密衔接工序组的前沿贪心策略，可使各紧密衔接工序组独立调度，实现紧密衔接紧前工序数无限制的综合调度．

1710-1721

ARES：用于预测的情感感知自回归模型

摘要：随着Web2．0的蓬勃发展，互联网上产生了大量由用户发表的评论，其中表达的观点看法对大众消费的影响越来越大，因此分析评论中蕴含的情感信息对产品销量的预测以及市场战略的调整有实际意义．针对这一问题，在分析图书销售领域网络评论特点的基础上，提出了相应的情感分析方法，首先利用词性列表及前缀词典完成极性词词典的自动抽取与构建，然后采用基于词典的方法对图书的评论内容进行情感分析及量化，最后通过将抽取的情感因素融合到自回归模型中，建立了新的预测模型——情感感知自回归模型（autoregressive emotion-sensitive model, ARES）．实验结果表明，基于词典的分析方法能够有效地反映出评论自身的情感信息，并且融入了情感分析结果的模型在销量预测方面具有更好的准确性．

1722-1727

基于框架语义分析的汉语句子相似度计算

摘要：句子相似度计算在自然语言处理的许多领域中发挥着重要作用．已有的汉语句子相似度计算方法由于考虑句子的语义不全面，使得相似度计算结果不够准确，为此提出一种新的汉语句子相似度计算方法．该方法基于汉语框架网语义资源，通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量．其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注，从而达到全面刻画句子语义的目的；在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分，能够使得相似度结果更准确．在包含多目标词的句子集上的实验结果显示，基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果．

1728-1736

基于整数线性规划的查询扩展

摘要：查询扩展是信息检索过程中重要的一步．在现有的研究中，大部分查询扩展方法都是孤立地考察每个词对查询扩展的重要性，挑选最好的几个词作为查询扩展．但已有研究表明，多个最好的扩展词组合到一起效果并不一定是最好的．尝试以集合的方式挑选扩展词：首先通过监督的方法学习单个扩展词的权重以及扩展词之间的约束关系，然后根据一些约束条件，将查询扩展的任务转化成一个整数线性规划问题．通过解决整数线性规划这样一个全局优化的问题来得到最好的扩展词组合．最后，通过在3个TREC标准数据集上的对比实验说明，该方法能显著地提升查询扩展的效果．

1737-1743

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2013年第08期杂志文档列表

计算机研究与发展杂志

期刊咨询

期刊推荐

文秘服务

计算机研究与发展 2013年第08期杂志 文档列表

计算机研究与发展 2013年第08期杂志文档列表