企业级海量代码的检索与管理技术

作者:刘志伟; 邢永旭; 于澔; 李涛; 张晓东

摘要:在大型IT企业中,尤其像Google或者百度,代码搜索已是软件开发过程中不可或缺且频繁的活动,其通过借鉴或复用已有代码,加速开发过程的速度.多年以来,已有大量的研究人员关注代码搜索,且设计出很多优秀的工具.但是已有的研究和工具主要是在小规模或者编程语言单一的代码数据集上,没有从企业实际搜索需求出发,且对用户的查询输入也有所限制,尚缺少一套针对企业级海量代码的检索与管理技术方案.提出了一套企业级海量数据代码搜索引擎的方案和系统实现,面向开发过程中用户最直接的需求,通过离线分析与在线分析,完成对海量代码库的索引构建与检索.其中,离线分析负责代码相关数据的获取与分析、构建索引集群.在线过程负责变换用户的query、对搜索的结果进行高级排序、生成摘要.本系统部署在百度代码库上,为数十TB级的Git代码库构建了索引,平均一次检索时间在1s之内.在百度推出应用以来,访问量逐步增加,现每周平均用户有数千人,每周查询平均有数万次,广受百度工程师好评.

分类:
  • 期刊
  • >
  • 自然科学与工程技术
  • >
  • 信息科技
  • >
  • 计算机软件及计算机应用
收录:
  • 上海图书馆馆藏
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 知网收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • 维普收录(中)
  • 国家图书馆馆藏
  • 万方收录(中)
  • SA 科学文摘(英)
  • Pж(AJ) 文摘杂志(俄)
  • EI 工程索引(美)
  • JST 日本科学技术振兴机构数据库(日)
  • 统计源期刊(中国科技论文优秀期刊)
关键词:
  • 代码搜索
  • 索引
  • 排序
  • 海量代码

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:软件学报

期刊级别:北大期刊

期刊人气:4911

杂志介绍:
主管单位:中国科学院
主办单位:中国科学院软件研究所;中国计算机学会
出版地方:北京
快捷分类:计算机
国际刊号:1000-9825
国内刊号:11-2560/TP
邮发代号:82-367
创刊时间:1990
发行周期:月刊
期刊开本:B5
下单时间:1-3个月
复合影响因子:2.86
综合影响因子:2.83