您的当前位置:首页正文

基于CiteSpace_的植物科学知识图谱可视化分析

2020-10-31 来源:意榕旅游网
2013年11月NOV.2013

情报探索

InformationResearch

第11期(总193期)No.11(SerialNo.193)

基于CiteSpaceII的植物科学

知识图谱可视化分析

刘玉博

(山东农业大学图书馆

山东泰安271018)

要:以WebofScience数据库中《植物细胞》杂志自1989年创刊号到2012年底的所有文献作为研究对象,运用CiteS-

paceII软件进行文献共引分析和共词分析,以知识可视化图谱方式展现20多年来植物科学领域的研究机构、知识基础、研究热

点及研究前沿。

关键词:《植物细胞》;科学知识图谱;可视化分析;CiteSpaceII中图分类号:G250.252

文献标识码:A

doi:10.3969/j.issn.1005-8095.2013.11.005

CiteSpaceII-basedVisualizedAnalysisonKnowledgeMappingofPlantScience

LiuYubo

(LibraryofShandongAgriculturalUniversity,Tai’anShandong271018)

Abstract:ThepapertakesalldocumentsinthemagazineofthePlantCellinWebofSciencedatabasefromtheinitialissuein1989totheendof2012astheresearchobject,andusesCiteSpaceIItodoco-citationanalysisandco-wordanalysis,toshowthere-searchinstitutions,knowledgefoundation,researchhotspotsandfrontiersinthefieldsofbiologyandplantscienceinrecentover20yearswithknowledgevisualizationmapping.

Keywords:thePlantCell;scientificknowledgemapping;visualizedanalysis;CiteSpaceII

0

引言

随着社会信息化的推进和网络应用的日益广泛,信息源越来越庞大,人们对于大型数据甚至海量数据的存储、传输、检索及分类等需求日益迫切。在激增的数据背后,隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。对科学学科本身进行可视化研究属于科学计量学的一个重要研究范畴,科学计量学的研究方法是对科学学科进行定量研究的最基本、最成熟的方法[1]。科学知识图谱是在信息技术的推动下,新近发展起来的一个新领域,当前已经成为科学计量学的一个新热点。借助科学知识图谱,人们可以透视庞大的知识体系中各个领域的结构,理顺当代知识大爆炸形成的复杂知识网络,预测科学技术知识前沿发展的最新态势[2]。

植物科学是一门基础理论学科,它的任务是研究植物客观存在的自然规律,早在17世纪初期对植物的研究就已经形成了比较系统的理论与学说。20世纪特别是50年代以来,植物科学又有了飞速发展,主要是植物生理学、生物化学和遗传学等的成就,使植物科学在经济上更为重要,成为农业、园艺

收稿日期:2013-04-08

作者简介:刘玉博(1983-),男,博士,馆员。

学和环境科学的重要理论基础。

美国的《植物细胞》(ThePlantCell)杂志是由美国植物生物学家学会出版的生命科学领域著名学术刊物,在SCI植物类非评论性杂志中排名第一。《植物细胞》创刊于1989年,其文章主要集中在植物激素、植物抗逆、植物发育及信号转导等方面,引领着植物分子生物学的研究方向。

本文利用科学可视化图谱分析软件CiteSpaceII对《植物细胞》杂志历年来发表的文献进行处理和分析,绘制出知识图谱,并对知识图谱所显示的演化路径和研究前沿进行解读,旨在全面把握植物科学领域发展的动态过程、特点和规律。1研究方法及数据来源1.1研究方法

知识图谱(MappingKnowledgeDomain)是一种新近兴起的,将科学计量学、统计学、机器学习、计算机图形学等综合起来的科学研究方法。它把科学文献之间的关系建立在统计学基础之上,然后以可视化的图形直观地反映出来,对于发现和解释科学文献中潜在的和隐藏的规律或学科演化路径发挥了重要作用[3]。

17

2013年11月情报探索第11期(总193期)

知识图谱由两个基本且相互关联的方面组成:结构化的建模和图形化的表示。根据不同的原理,有多种方法可以绘制出科学知识图谱,美籍华裔学者陈超美博士设计免费的CiteSpaceII软件是众多知识图谱绘制软件中的一种。它把科学文献作为数据来源,将其转换为几何问题和统计学问题,从而使用几何图形直观的方法和立足数学的角度,研究其内在的联系,用来评测某种学科或领域的研究前沿和研究模式[4-6]。1.2数据来源

数据来源为WebofScience(http://webofknowl-edge.com/WOS),在高级检索中选择ScienceCitationIndexExpanded(SCI-EXPANDED)数据库,时间跨度选择所有年份,输入检索式“SO=(PLANTCELL)”进行检索。检索出该杂志从1989年创刊到2012年12月15日共发表文献5477篇。将所有记录每次选择

500条进行输出,全纪录格式并包含引用的参考文献,另存为纯文本文档,文件命名为download_01.txt~download_11.txt备用,下载的数据包括如下字段:author、title、source、citedreferences、keywords、docu-menttype、abstract等。2结果与分析

2.1年载文量和影响因子分析

期刊载文量是描述期刊生产能力的基本指标之一。其定义为在给定时间内,期刊发表的全部论文数量。从图1可以看出,《植物细胞》杂志自创刊以来,刊登的文章量总体趋势是持续增长的,从创刊时1989年的131篇,到20世纪90年代的200篇左右,再到2010年的300篇左右,近2年的载文量增长更快,2012年已经接近370篇。这说明植物科学领域高水平的研究结果越来越多。

/篇年份

图1

载文量和影响因子情况

影响因子是美国ISI(科学信息研究所)的JCR(期刊引证报告)中的一项指标,是一个国际上通行的期刊评价指标。即某期刊前2年发表的论文在统计当年的被引用总次数除以该期刊在前2年内发表的论文总数。《植物细胞》杂志在1990年获得了其第一个影响因子6.734,这对一个创刊仅2年的杂志来说是非常令人欣慰的。因为《植物细胞》杂志自创刊伊始,就要求文章必须具有创新性和系统性,审稿人也异常严谨。之后《植物细胞》的影响因子曲折攀升,1998年达到了最高的11.757,载文量和影响因子同步上升,这是杂志飞速发展的时期;1999-2005年杂志的影响因子相对稳定,2006年开始出现下降趋势,这可能与2004年后载文量明显增加有关。

2.2

国家和研究机构发文量分析

安装好Java运行环境,启动并运行CiteSpaceII软件(版本号v.2.2.R7),设置好相应的数据来源目录和项目目录。CiteSpaceII可将各国发表的论文数量及时间以圆圈的大小和颜色直观展示出来。在CiteSpaceII软件界面,网络节点选择国家(Country)和机构(Institution),主题词来源选择文献标题(Ti-tle)、摘要(Abstract)、关键词(Descriptor)和标识符(I-dentifiers),数据抽取对象为Top30,设置时间切片(Yearsperslice)的值为2,即将1989-2012年分成12个时段进行处理。运行CiteSpaceII,得到《植物细胞》杂志的国家分布图谱,点击“findcluster”按钮对国家与研究机构进行聚类分析(图2所示)。其中,一

18

2013年11月刘玉博:基于CiteSpaceII的植物科学知识图谱可视化分析第11期(总193期)

个圆圈代表一个节点,也就是一个国家或机构,圆圈面积代表发文量,细线表示国家或机构间的合作关系。上方图示不同颜色的色块代表相应的年份,2年为一个时间切片。

图2国家与科研机构的聚类图谱

从图2各个节点的发文总量来看,美国的文献贡献率最大,远高于其他国家,占到了总发文量的4成,其次是德国、英国、日本、法国等,中国排在第6位。美国发文量如此之高,这与美国雄厚的经济实力、巨大的科研投入以及高水平的科研人员是分不开的。其次,欧洲经济发达国家在这一领域的投入和产出上也是毫不逊色的。尽管中国的产出相对比较靠前,但是还要继续加强前沿领域的投入。

图2中共产生节点100个,连线仅有64条。虽然生物学的研究近年来合作交流已经非常频繁,但从整个网络和整个时间跨度来看,美国和德国之间的连线密切,也就是说两国的合作比较频繁;而其他国家或研究机构间连线较少,说明绝大部分的Top30文章都是由同一个国家的作者之间合作完成的。

从发文突发性来看,美国和中国是非常突出的,突发性分别达到44.44和41.42。进一步挖掘数据发现,美国的发文量突增出现在1989-1993年,这是因为《植物细胞》杂志是由美国植物生物学家学会出版发行的,杂志创刊初期主要刊载的是美国作者的文章。而我国的发文突增出现在2007-2012年,说明我国近5年来在顶尖杂志的发文量出现了迅猛增长,我国的植物科学领域经过一段时间的模仿、学习和积累后,日前已经进入迅速发展的时期。

以同样的方法统计发文机构,由于CiteSpaceII无法识别机构的大小写,对相同机构大小写的数据进行了手动合并后进行排序。美国的科研机构占了前10名中的7席,而且全是大学,这说明美国大学是植物科学研究领域的嚆矢,例如加利福尼亚大学、普渡大学、康奈尔大学等。其他国家英国、中国和法国各占1席,且都为研究机构(约翰·英纳斯植物科

学研究中心,中国科学院和法国农业科学研究院)。中国发文量排在前列的科研机构还有北京大学和中国农业大学。

2.3关键文献分析

共引分析是引文分析的一个重要内容,受到国内外学者的广泛关注。计算机可视化信息处理软件,是通过直观的动态图像信息处理的方式,显示出专业领域中出现的交叉学科的复杂现象,从而获得详尽的前沿科学信息分析结果。这些信息分析的结果将有助科学家在最短的时间里了解和预测前沿科技研究动态,有助于在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据[7]。

绘制共引网络图谱是CiteSpaceII展示学科知识基础与研究前沿的一个重要方法。网络节点选择文献引用(CitedReference),其他选择策略不变,运行CiteSpaceII,得到文献共引聚类的合并网络(如图3所示);点击时间序列(Timeline)按钮并确认,得到文献的文献时间序列图谱(如图4所示),其中共有节点178个,连线406条。同时将数据导出,统计《植物细胞》杂志24年来的共引频次。从中可以分析植物科学领域整个过程中起到关键作用的文献。

图3文献共引聚类图谱

图4文献时间序列图谱

《植物细胞》杂志历年来引用次数最多的文献是CloughSJ和BentAF发表在1998年《植物杂志》(PlantJournal)上题为《Floraldip:asimplifiedmethod

forAgrobacterium-mediatedtransformationofAra-bidopsisthaliana》的文章,共引用达到696次之多。

19

2013年11月情报探索第11期(总193期)

这篇文献开创了用农杆菌介导的拟南芥花序浸染法进行转基因的方法。拟南芥是典型的模式植物,广泛用于植物遗传学、发育生物学和分子生物学的研究。花序浸染法通过拟南芥的花器官进行转化,通过抗性筛选可以直接获得转基因种子,不需要经过组织培养的过程,其优点是育种周期短、操作简单和转化率高。花序浸染法的发明大大加快了植物分子生物学的发展,这篇文献可以说是现代植物生物学的奠基之作。

引用频次居次位的是MurashigeT和SkoogF于1962年发表在《植物生理学》(PhysiolPlantarum)杂志上的题为《Arevisedmediumforrapidgrowthandbioassayswithtobaccocultures》的文章,共引用了567次。MS培养基是为烟草细胞培养设计的,是较稳定的离子平衡溶液,而且养分的数量和比例合适,能满足植物细胞的营养和生理需要,因而适用范围比较广,后来多数植物组织培养快速繁殖用它作为基本培养基。基于此,这种培养基就用他们俩名字的首字母组合来命名了。

引用434次的是一本题为《MolecularCloning:ALaboratoryManual》的实验手册,由SambrookJ和RussellDW于1989年合作出版。书中系统介绍了分子克隆的是实验方法和步骤,以其无可匹敌的声誉,在近20年的时间里一直被作为分子生物学实验的经典参考书。该书具有先进性、实用性、权威性的特点,是生命科学实验室内当之无愧的“圣经”。

JeffersonRA、KavanaghTA和BevanMW合作发表在1987年《欧洲分子生物学学会杂志》(EMBOJournal)上的题为《GUSfusions:beta-glucuronidaseas

phageT4》,被引用了297次。文章用凝胶电泳的方法分离了T4噬菌体头部的蛋白质组成,后来这种方

法被广泛用于分子生物学、遗传学和生物化学等领域,并为蛋白质组学的发展奠定了基础。

2.4前沿文献分析

CiteSpaceII可以生成强调研究前沿和其知识

基础间的顺时模式时区视图。时区视图是由一系列表示时区的条形区域组成,时区按时间顺序从左到右排列,因而研究前沿指向知识基础。

图5右上角显示的是由一组最新热点研究文献构成的研究前沿,它代表着一个研究领域的思想现状,从该图可以看到图书馆学最近几年的发展脉络,以及研究前沿与知识基础之间千丝万缕的联系。这些构成植物科学领域研究前沿的文献节中,最突出的就是前面介绍过的2003年AlonsoJM等人发表在《自然》上关于拟南芥插入突变体的文章,正是由于该文的发表,突变体被大量用于拟南芥基因功能的研究,并获得了很多突破性的研究进展。另一篇突出的前沿节点文献是由BirnbaumK等人发表在《科学》上,题为《AgeneexpressionmapoftheArabidop-

sisroot》的文章,被引用了51次。文章用基因芯片的方法分析了拟南芥根部超过22000个基因的表达

情况,并发现基因的表达模式突破了传统的生理区域而呈现对多种激素的响应。另一篇文献是Zim-

mermannP等人发表在2004年《植物生理学》(PlantPhysiology)上的《GENEVESTIGATOR.ArabidopsisMicroarrayDatabaseandAnalysisToolbox》,被引用了115次。文章介绍了一种集合了大量基因芯片数据

的数据库,并且允许用户在数据库中检索基因在特定条件下的表达情况。不难发现,这3篇前沿节点文献都是与基因组学相关的,基因的表达情况被大量的分析,并为后来的研究者提供了基础和便利,成为近10年来被引用最频繁的节点文献。

asensitiveandversatilegenefusionmarkerinhigherplants》的文章,被引用了343次。文中介绍了GUS

基因标记技术,其具有简便、实用、快速、准确、原位、直观的特点,后来被广泛地应用于分析高等植物的基因表达情况,是现代植物生物学的又一篇奠基文献。

2003年发表在国际顶级杂志《科学》(Science)上的文章《Genome-WideInsertionalMutagenesisofArabidopsisthaliana》,在短短不到10年的时间里就被引用了326次。此文由包括AlonsoJM在内的近40名作者共同完成,运用T-DNA插入突变技术获得了模式植物拟南芥的超过225000种突变体,也就是大名鼎鼎的SALK突变体库,并无偿提供给全球的研究者使用,无数拟南芥的基因功能因此被发现。

LaemmliUK于1970年发表在国际顶级杂志《自然》(Nature)上的文章《CleavageofStructuralPro

图5研究前沿的时区视图

teinsduringtheAssemblyoftheHeadofBacterio-20

2.5研究热点及前沿分析

2013年11月刘玉博:基于CiteSpaceII的植物科学知识图谱可视化分析第11期(总193期)

利用文献题录中的关键词,并借助CiteSpaceII软件,来确定文献计量学研究的热点领域。关键词是作者对于文章核心的概括和精炼,是一篇文章的精髓。因此对文章的关键词进行分析,频次高的关键词常被用来确定一个研究领域的热点问题。网络节点仅选择关键词(Keyword),其他策略不变。CiteSpaceII可以通过时区视图来呈现关键词随时间的变化,以此来分析研究热点的变迁(如图6所示)。

行,用名词短语的方式探测突发词,共找到201个,其时区视图如图7所示。

图7突发词的时区视图

图6热点关键词的时区视图

结合统计数据可以看出,《植物细胞》杂志中使用最多的关键词是“拟南芥”,在整个网络中出现频次是850次,突发性也是最高的,足见拟南芥作为“模式植物”对整个植物生物学的巨大贡献。其次是分别被使用605次和457次的“基因表达”和“蛋白质”。基因和蛋白质水平的研究是现代植物学(也就是植物分子生物学)的核心,基因和蛋白质的功能揭示了植物发育的本质。“转录因子”作为关键词的使用也是十分频繁的,突发性也比较高,转录因子与蛋白质调控基因的表达相关,是前面两个关键词的延续。“信号转导”涉及植物生长发育的各个阶段,近年来也逐渐成为研究的热点。转基因植物和野生型作为一对密切相关的关键词,通过转基因植物和野生型的对照发现基因的功能是植物生物学中最常用的研究手段。

从图6中可以看出,2005年以后《植物细胞》杂志中许多关键词变得很突出,例如植物发育、转录因子、基因家族、功能分析、体外、分化等,说明与这些关键词相关的研究领域变得越来越热门,也是植物生物学的研究前沿。

CiteSpaceII软件中提供的突发词探测(burstdetection)技术和算法,通过考察词频的时间分布,将其中频次变化率高的词(burstterm)从大量的主题词中探测出来,依靠词频的变动趋势,而不仅仅是频次的高低,来确定文献计量学的前沿领域和发展趋势。在CiteSpaceII中选择名词短语“nounphrases”并运

结果显示,使用次数最多的突发词为水稻,达到了44次,而且集中在2005年后的区域。这说明继模式植物拟南芥后,水稻成为植物学领域的热门研究对象。被集中使用的突发词还包括转录因子、植物生长、细胞分裂、蛋白质-RNA相互作用、转基因植物、根的生长、绿色荧光蛋白(GFP)等,说明与这些突发词相关的领域也是近年的研究热点。3结语

本文以植物科学领域影响因子最高的期刊《植物细胞》杂志近24年来所载全部文献为研究对象,通过CiteSpaceII软件的数据处理和分析,用知识图谱的方式展示了植物科学领域的研究力量分布以及相关的重要学术文献、热门关键词等,分析了植物科学领域当前发展所依赖的知识结构和前沿发展趋势,希望能对我国植物生物学的研究及学科发展提供一定的借鉴作用。

参考文献

[1][2][3]

侯剑华,陈悦.战略管理学前沿演进可视化研究赵蓉英,王菊.图书馆学知识图谱分析[J].中国图赵玉鹏,王华生.基于知识图谱的美国《医学与哲

[J].科学学研究,2007,25(增刊):15-21.书馆学报,2011(2):40-50.

学杂志》研究前沿探析[J].医学与哲学:人文社会医学版,

2011(9):15-17.

[4]陈超美.CiteSpaceII:科学文献中新趋势与新动态的识别与可视化[J].陈悦,等,译.情报学报,2009,28(3):401-402.

[5]刘则渊,王贤文,陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛,2009(10):14-34.

[6]姜春林,李江波,杜维滨,等.干细胞人体组织工程技术研究文献计量分析及其政策启示[J].中国软科学,2010(3):74-81.

[7]赵蓉英,许丽敏.文献计量学发展演进与研究前沿的知识图谱探析[J].中国图书馆学报,2010(5):60-68.

21

因篇幅问题不能全部显示,请点此查看更多更全内容