现代图书情报技术杂志-2014年第07期-学术点评

现代图书情报技术 2014年第07期杂志文档列表

现代图书情报技术杂志数字图书馆

中国科研人员对arXiv认知和使用的现状调查与分析

摘要：【目的】了解中国用户对arXiv预印本平台的认知、使用情况以及对arXiv发展的意见建议。【方法】基于国内9家高校及科研机构的教师、研究人员和研究生群体的问卷调查，获得510份调查数据，并运用SPSS等分析工具对调查数据进行分析。【结果】结果表明，中国科研人员对arXiv的认知程度还不是很高，但熟悉arXiv的中国科研人员已认识到在arXiv上论文是占据成果首发权和征求同行意见的重要手段。【局限】在调查取样上仅限于中国arXiv服务工作组的成员单位，非成员单位的arXiv用户没有纳入。【结论】为了让arXiv能够更多地惠及中国科研，中国arXiv服务工作组需要采取更为积极的行动，加快推动arXiv在中国更广泛深入的应用。

1-8

科技知识组织体系共享服务平台服务接口建设研究

摘要：【目的】通过科技知识组织体系共享服务平台的服务接口建设，有效帮助我国科技信息服务行业实现标引的语义化规范化流程、语义检索与浏览、知识关联与推理发现等服务。【应用背景】采用标准的接口规范构建开放接口是实现科技知识组织体系STKOS对外服务的重要途径之一。【方法】基于科技知识组织体系STKOS引擎API，提出开放查询和推理接口模块化设计方案和接口规范设计。【结果】在接口实现的基础上，通过各类接口方法集的模块化组合调用实现分类聚类、资源标引、智能检索三种典型的应用场景。【结论】通过对STKOS开放查询和推理接口的应用，达到利用科技知识组织体系提升第三方信息系统知识服务能力的目标。

9-16

中图法与DDC类目自动映射研究

摘要：【目的】研究中图法与DDC类目自动映射的问题，通过实现两者的互操作以达到集成检索、浏览和下载跨语言、跨地区的信息资源的目的。【方法】基于人工匹配映射的数据，研究基于特征集、类目匹配规则、类目关系、书目记录的语义匹配算法。【结果】实验证明，将近80％的类目与人工映射结果的数据相同，一定程度上提高了自动映射的准确性。【局限】仅基于人工映射经验提出基于特征词集的类目相似度计算，尚未实现语义层面的精确计算。实验数据局限在理学类目领域，未对其他领域的类目特征详细研究。【结论】综合考虑类目的含义受类名、类目注释、主题词、上下位关系等多种因素影响而提出的自动映射算法，相比当前主要考虑单一方面的要素而言，具有客观性和全面性。

17-23

针对训练集分布偏斜问题的数字资源文本分类方法

摘要：【目的】调整训练集分布的不均衡性，以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法B-LDA，首先根据划分准则对训练集进行分割，实现粒度空间的转换，然后采用概率主题模型（LDA）对文本建模，利用类全局语义信息生成新文本，从而使训练集达到分布均衡。【结果】仿真实验结果表明：随着特征项数的变化，在不同偏斜程度训练集上F1值有2．7％至9．9％不等的提升。【局限】由于语料库规模的限制，构造训练集进行实验时，只涉及部分偏斜情况；此外，实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。

24-33

现代图书情报技术杂志知识组织与知识管理

利用小样本量机器学习实现学术文摘结构的自动识别

摘要：【目的】通过在小样本量下基于机器学习算法实现文摘语句的自动分类，以此实现学术文摘结构的自动识别。【方法】设计多种学术文摘的文本表示特征，利用自然语言处理技术实现特征的自动提取，以此指导朴素贝叶斯、支持向量机模型进行训练，并利用训练模型自动识别文摘结构。【结果】实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。【局限】由于文摘中“方法”类别语句缺乏固定的类别特征词与核心动词，导致算法对该类别语句识别准确率较低。【结论】所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。

34-40

融合LDA与TextRank的关键词抽取研究

摘要：【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算，进而对TextRank算法进行改进，将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递，并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。【结果】实现LDA与TextRank的有效融合，当数据集呈现较强的主题分布时，可以显著改善关键词抽取效果。【局限】融合方法需要进行代价较高的多文档主题分析。【结论】关键词既与文档本身相关，也与文档所在的文档集合相关，二者结合是改进关键词抽取结果的有效途径。

41-47

EBSCO为其开放元数据共享和技术协作政策增加50个数据库

摘要：EBSCO信息服务（EBSCO）为其元数据共享和与发现服务提供商技术合作政策增加了数据库的数量。目前，EBSCO的所有元数据（如果协议允许，还包括全文）可用于179个EBSCO全文数据库，也可用于所有74个EBSCO数字历史档案（含全文）和全部55万多本电子书。

47-47

利用主题标引进行查询重排序

摘要：【目的】在伪相关反馈过程中，利用主题标引对查询结果进行重排序。【方法】借助语言模型方法，挖掘主题词与用户查询关系，将用户查询表达为主题词的概率分布，并建立主题词语言模型，进而判断主题词在文档中的权重。在此基础上，重新计算初次查询结果文档分值，进行查询重排序。【结果】本文方法能够较好地为主题词建立语言模型表示，挖掘得到主题词在文档中的权重，重排序结果相较于初次检索具有普遍性能提升。【局限】未比较挖掘主题词与文档关系的不同方法；未在不同规模、不同语言数据集中实验。【结论】挖掘主题词与用户查询关系、主题词与文档关系，进行查询重排序，能够提升查询精确度。

48-55

PlumX增加EBSCO数据库中用户使用情况数据

摘要：PlumAnalytics的计量指标将包含EBSCO信息服务（EBSCO）数据库以及EBSCO发现服务（EDS）中文章和图书的使用统计数据。这些数据库中的篇章级数据将允许PlumAnalytics的产品PlumX提供来自成千上万供应商的文章和图书的使用统计数据。此次合作标志着出版商将首次对每篇文章的实际使用情况（如摘要浏览次数，下载量等）进行度量。

55-55

一种基于自组织映射与径向基函数预测补值的协同过滤推荐方法

摘要：【目的】基于自组织映射与径向基函数神经网络对协同过滤推荐方法进行改进，提高推荐质量。【应用背景】针对协同过滤推荐方法存在的稀疏性问题，利用神经网络对缺失评价数据进行预测补值，在此基础上提出一种新的提高推荐精度的解决思路。【方法】基于稀疏用户评分矩阵，应用自组织映射神经网络对相似用户进行预聚类，利用同一聚类簇内用户的相似性进一步应用径向基函数对稀疏的用户评分矩阵进行补值处理，得到消除稀疏性后的完全评价矩阵，最后基于完全评价矩阵应用协同过滤技术实施推荐。【结果】通过平均绝对误差与F—Measure两个指标进行实验评价，结果表明该方法与其他主流推荐方法相比，无论在推荐精度还是推荐相关性上都更为有效。【局限】本文提出的方法仅在MovieLens公开数据集上进行实验测试，还需在其他数据集上进一步检验。【结论】在一定程度上解决了协同过滤推荐存在的稀疏性问题，同时对冷启动与可扩展性问题的解决具有较好的指导意义。

56-63

Folksonomy中Tag语义距离测度与可视化研究

摘要：【目的】探索Folksonomy中标签语义距离的可视化及测度，为进一步研究优化关联标签导航算法奠定基础。【应用背景】针对语义距离可视化方法弱化关联标签导航行为中主题漂移，提高BibSonomy等Folksonomy网站知识服务表现。【方法】以BibSonomy网站真实数据为研究对象，设计测试标签集筛选及语义距离测量算法，借助有值图谱将最终结果可视化。【结果】测试标签集中存在近语义标签和远语义标签之分，并且影响着关联标签导航行为中主题漂移程度。【结论】语义可视化能帮助用户直观地区分关联标签集的语义属性，提高标签导航表现。

64-70

基于大众标注的层次信息可视化算法研究

摘要：【目的】为了更好地分析大众标注的语义关系，以层次可视化的方式增强用户感知。【应用背景】大众标注可以从普通用户的角度很好地反映网络资源的意义。层次信息可视化技术作为一种有效的表现抽象信息的工具，被广泛应用于辅助用户认知和分析层次数据集。【方法】提出五元组描述大众标注的语义的方法，借用归类方法使大众标注具有层次关系，基于层次结构提出信息可视化方法，用于显示大众标注集。【结果】实验表明，该方法可以清晰直观地揭示大众标注的层次关系，改善平面布局，而其他语义关系存储在大众标注节点中，不直接干扰用户感知。【结论】该方法简单有效，能够从优化整体布局的角度可视化层次信息，增强用户感知能力。

71-76

ProQuest扩大对Spectrum奖学金项目的资助范围

摘要：一直以来，图书馆作为终身学习的一个基础设施服务于社会。但是，随着图书馆的转型，对具有多元背景的新一代图书馆员的需求更加迫切。美国图书馆协会（ALA）于近日宣布ProQuest将扩大对图书馆界Spectrum奖学金计划的资助范围。

76-76

现代图书情报技术杂志情报分析与研究

用户在线评论数据挖掘的网商信用度分析

摘要：【目的】对搭载第三方电子商务平台的网商信用度进行分析。【方法】通过德尔菲法确立网商信用度评价指标体系权值；运用中文分词技术及情感词极性识别方法对用户评价进行量化；运用灰色关联分析方法对获取的数据进行信用度得分计算。【结果】通过用户对网商信用度的评价，得出网商信用度在非常好、较好、一般及较差4个等级的用户评价隶属度，进而反映出网商的信用度。【结论】通过对用户的在线评价进行分析，针对用户评论信息存在的小样本性、信息内容的不完整性，选择灰色关联分析方法，提出能够针对网商的信用度制定一个较为合理可行的评价方法。该评价方法能够在相对统一的标准下自动对用户评价内容进行量化，并在计算结果中体现不同评价区间的用户群体分布。

77-83

科研领域关键词网络的结构特征与启示——基于图情学科的实证研究

摘要：【目的】系统揭示科研领域关键词网络在整体层面、节点层面的共性结构特征，为后续研究提供依据。【方法】以多个领域为对象，对比分析其关键词网络与随机网络、小世界网络、无标度网络参数，拟合其指标分布、指标间相关性特征。【结果】关键词网络度序列呈负幂律分布、具有极高平均聚类系数和较短平均路径长度；其词频、节点的度数、中介中心性、特征向量中心性、三元闭包数之间呈线性正相关，节点的聚类系数与度数呈反比。【局限】三个实验领域均从图情学科中选择，未与其他学科进行对比。【结论】科研领域关键词网络是一种特殊的、具有小世界效应、模块性、层次性和高度向心性的无标度网络；以网络指标提取领域知识点有其局限I生，网络的层次结构值得发掘，网络的结构和演化模型需考虑以模块为增长单元。

84-91

网络“水军”探测方法研究

摘要：【目的】针对网络“水军”所引发的网络信息失真问题，提出“水军”探测方法，从宏观上探测出“水军”。【应用背景】对网络上电影、音乐、书籍等的在线评分进行统计分析，识别出存在“水军”刷分现象的对象。【方法】从宏观上提出基于正态分布拟合的静态探测方法及基于时间序列法的动态探测方法进行“水军”探测，并设计反映某一天评论数量相对于总体情况波动的“水军”强度指标。【结果】对“豆瓣电影网”2012年的近干部电影进行探测，将结果与部分媒体曝光的存在“水军“隋况的电影进行相互印证，证明上述方法的探测效果。【结论】“水军”静态及动态探测相结合的方法可以对网络上存在的“水军”现象进行探测，但也存在评分数据量不足影响探测效果的局限等。

92-100

NISO需求驱动的专著采购推荐实践

摘要：美国国家信息标准协会（NISO）于近日宣布出版一个新的推荐实践：专著的需求驱动采购（NISORP202014）。需求驱动采购（Demand Driven Acquisition，DDA），也称用户驱动采购，是一种根据用户在候选池中的选择进行专著采购的图书馆馆藏建设方法。NISO的推荐实践就以下问题进行了讨论并向出版商、书商、内容聚合商和图书馆给出推荐实践，

100-100

中文短信文本信息流中多话题的分类抽取

摘要：【目的】为更有效地在中文短信文本信息流（SMS Text Message Flow,SM_F）中进行多话题的分类提取，提出一种基于SM_F特点的话题分类抽取方法SM_F_HT。【方法】将SMF分割成多个短信文本子集SM_Fi，通过层次的狄利克雷过程信息抽取与TF-IDF相结合，建立短信文本向量集上多个概率分布，采用吉布斯抽样并结合特征词属于临时话题的概率进行SM_F话题分类抽取。【结果】实验结果表明，SM_F_HT在困惑度和对数似然比方面优越于模型CCLDA和CCMix。【局限】在短信文本预处理和特征词的抽取方面，还需进一步优化算法和提高数据质量。【结论】提出的SM_F_HT方法对SM_F的多话题分类抽取是有效的。

101-106

现代图书情报技术杂志

期刊咨询

期刊推荐

文秘服务

现代图书情报技术 2014年第07期杂志文档列表

现代图书情报技术杂志

期刊咨询

期刊推荐

文秘服务

现代图书情报技术 2014年第07期杂志 文档列表

现代图书情报技术 2014年第07期杂志文档列表