欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

数据样本选取

  数据样本选取的首先步骤是数据库的遴选。本文实证研究采用的是公共医学中心(PubMed Central,简称PMC)数据库。PMC是由隶属美国国立图书馆(NLM)的国家生物技术信息中心(National Center for Biotechnology Information NCBI)所创建与管理的,其属于43个数据库中的一个提供生命科学期刊文献的全文数据库。PMC数据库现已收录有1700种期刊,其中完全开放获取期刊942种,部分完全免费开放获取前273种。与 UBMED只有引文与文摘的检索系统不同,PMC是一个电子期刊全文数据库,获取全文是没有限制的,且获取全文格式的方式有许多,包括PDF, PUbReader, ePub三种下载版本,同时可以免费获取采用可扩展标记语言(Extensible Markup Language,简称XML)格式标记的全文。在确定了数据库之后,实验数据样本的选取过程具体如下:

    首先,登录PMC数据库平台(http://www.ncbi.nlm.nih.gov/pmc/),下载期刊列表电子数据(1700种期刊),通过与2011年《JCR-IF期刊引证报告》中ISSN号进行对比,利用VLOOKUP函数,匹配146PMC期刊的影响因子,按照降序排列,期刊影响因子最高的为9.402,最低的为0.6760

    其次,由于PMC数据库绝大部分期刊为生物医学类期刊,根据DOAJ数据库中入选《JCR-IF期刊引证报告》的生物医学类期刊的影响因子来计算平均值,得出平均影响因子为1.7494

    最后,根据平均影响因子的情况,在对PMC170种入选期刊的影响因子进行排序,找到平均因子最接近1.7494的期刊为:}BMC Medical Research Methodology)) (IF=1.799 ) 

    因此本文实证分析的数据源为开放获取期刊《BMC Medical Research Methodology))。由于实验涉及对知识扩散(即论文被引)情况的分析,为使各论文的被引量有一定的保证,我们选取了自200111日到20101231日期间(剔除了近2)发表的全部论文及其被引文献作为数据源。以下阐述该期刊这10年间发表论文的全文及其被引文献的下载过程。