共引聚类分析方法研究

引文分析根据分析角度的不同可以分为两种类型:一是从引文数量上进行分析,另一类是从引文网状关系上进行探讨,这种分析角度不仅仅停留在引文数量等文献外部特征,已经融入了相关主题内容等因素,是更为深入的引文分析方法。共引分析就是后者的一种形式。

共引(Co-Citation),又称同被引,若两篇文献同时被n篇文献(n=1,2,…)所引用,则称这两篇文献具有共引关系,其共引强度为n。一般认为同被引用的文献在主题上具有或多或少的相似性, 因此同被引次数即共引强度可以测度文献在内容方面的相关度。由此, 通过一组文献之间的共引关系可以形成共引网络, 该网络内节点之间的远近便可以反映它们主题内容的亲疏关系。共引分析就是以此为原理,以具有一定学科代表性的一批文章(或著者或期刊)为分析对象, 利用聚类分析、多维标度等多元统计分析方法, 借助计算机, 把众多分析对象之间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来,研究分析对象所代表的学科及文献的结构和特点。

前苏联情报学家依林娜.马沙科娃和美国情报学家亨利.斯莫尔于1973年分别提出文献共引的概念。将此概念推广到与文献相关的各种特征对象上,形成各种类型的共引概念,如词共引、文献共引、著者共引、期刊共引、主题共引和类共引等。纵观国外共引分析的研究历程,主要有两个系列:以斯莫尔为代表的以文献为分析单位所做的文献共引分析研究,和以怀特为代表的以作者为分析单位所做的作者共引分析研究。期刊共引分析研究则相对较少。

基于共引的聚类分析是聚类分析技术在共引领域的具体应用,主要是指以共引强度作为基本计量单位,对给定的引用文献集合或被引文献集合进行分类聚合的定量处理技术。这种技术可以将内容联系密切的论文聚合为一个个文献簇,并定量给出簇与簇之间的联系程度,进而生成某一学科专业论文的聚类分析网络图或树状图。分析过程一般包括如下几个步骤:

1、确定分析领域。确定拟研究的学科领域,选择学科范围,既可以选全学科或比较大的学科,又可以选择小学科或某学科中的某一专业、某研究专题等以确定是在宏观层次揭示整体的学科结构和科学发展规律,还是在微观层次描述单个学科或者研究团体以及他们的相互依赖关系。

2、确定分析单位。共引分析的分析单位可以是期刊、论文或作者,其中以论文和作者为分析单位的居多。期刊有相对稳定的内容范围,以其为分析单位可以反映学科或主题之间的关系;论文中包含了一个学科或者课题的关键概念、方法、数据,以其为分析单位可以揭示思想学术流派、学科专业或主题领域之间的关系;作者一般在某个兴趣范围做长期连续的研究工作,形成了自己的特点,以其为分析单位可以体现各个学术流派之间的联系,并能勾勒出不同学科领域卓越作者的经验图谱。分析单位各有特点,应根据分析领域选择适当的分析单位。

3、选择分析对象。在拟研究的学科领域,从大量的数据中选择有代表性的目标文献(作者或期刊)作为分析对象。分析对象的选择可以以被引次数为根据,也可以利用专家评选、书目索引、名人录等能够确定其声望和水平的信息源。根据被引频次选择分析对象是最常用的方法,但是有两个问题需要注意:一是被引频次阈值的确定,过低过高都不好,要保证所选文献有一定的代表性和覆盖范围;二是绝对被引频次的局限性。由于不同学科在引文数量上有很大差异,这样必然导致学科结构分析结果失真,为此Small提出用改进的指标分数引文量(Fractional Citation Counting)来选择文献,就是每一篇引文都用引用它的来源文献的引文长度进行加权,以此来平衡学科差异。

4、搜集引文数据并生成共引矩阵。选择合适的引文数据库搜集引文数据,国外的主要有SCISSCIAHCI,国内主要有CNKICSCDCSSCI等。统计原理实际是找出引用了分析对象I的论文集合C1,找出引用了分析对象J的论文集合C2;比较C1C2中的论文,相同的文献数目即为分析对象IJ的共引频次。目前通过引文检索系统是能够获得两个分析对象的共引频次的,但是相比于引文数量分析,共引频次的统计还是比较费时费力的。通过对共引频次进行统计,形成二维原始矩阵,即共被引频次矩阵。共引矩阵为对称矩阵,非主对角线上的值为共引次数,主对角线上的数据可定义为缺失值或者对其进行缩放。同时还要考虑对数据进行缩减,因为有些数据对于目标意义不大。

5、将原始共引矩阵转化为相关矩阵。共引分析关注的重点不是共引次数的高低,而是共引所形成的相似性,虽然共引矩阵本身也是相关矩阵,但是一般不直接作为输入数据,需要进行转化。将原始矩阵标准化,就是要消除那些高被引对象与那些与其相似却很少被引的对象在规模上的差别,得到更易于解释的分析结果。常用的是将原始矩阵转换为皮尔逊相关矩阵(Pearson Correlations),直接使用SPSS软件中的”correlate”程序即可。矩阵转换实际是根据一定的相似系数测量分析对象之间的相关程度,形成一个新的矩阵,因此相似系数的选择很重要。共引分析中常用的相似系数有余弦系数、Jaccard系数,Pearson系数等。早期Small等人主要采用余弦、Jaccard来测量文献之间的相关度,后面White等人的作者共引分析,则主要采用Pearson测量作者相关度,怎样选择相似系数至今还没有一个严格的标准。

6、数据的综合处理分析。运用聚类分析算法对分析对象之间的相互关系进行定量研究,并将分析对象及其关系显示在二维空间中。聚类分析算法详情下面会做介绍。

7、结果的分析和解释。通过对引文数据的分析处理,能使分析对象的格局更加清晰直观,并能提供分析对象之间由引文关系形成的相对位置关系和相互关系的亲疏程度,再结合学科专业知识,可做出进一步的分析和判断。

将一群物理的或抽象的对象,根据它们之间的相似程度,分为若干组,其中相似的对象构成一组,这一过程就称为聚类过程(clustering),一个聚类又称簇,就是由彼此相似的一组对象所构成的集合。聚类分析,是指把分析对象根据彼此之间的相关程度分成类群,群内尽量相似,群间尽量相异,然后进行分析研究的过程。它借助计算机,把数量一般比较庞大、彼此间关系错综复杂的分析对象根据一定的相关性测度方法聚成数目相对较少的一些类群,简化了数据,有利于揭示对象之间的相互关系,探求其中的规律。聚类分析是传统共引分析中最常用的技术方法,也最常用的多元统计方法之一,它属于降低维数技术的范畴。聚类分析一般过程是:首先计算两两对象之间的相关程度,形成相关矩阵,然后把相关矩阵作为输入数据,根据一定的聚类算法把对象分成类群。这一过程中,相似系数和聚类算法的选择非常重要,相似系数前已阐述。聚类算法一般可分为层次方法(hierarchical methods)和划分方法(partition methods)两种类型。

层次方法对给定数据对象集合进行层次的分解。根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称为自底向上的方法,一开始将每个对象作为一个单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个,或者达到一个终止条件。分裂的方法,也称为自顶向下的方法,一开始将所有的对象置于一个簇中,在迭代的每一步中,一个簇分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者达到一个终止条件。

给定n个对象,一个划分方法构建对象的k个划分,每个划分表示一个聚簇,并且k<=n。给定要构建的划分的数目k,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,将对象从一个划分移到另一个划分来改善划分质量。一个好的划分的一般准则是:在同一个类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能“远离”或不同。目前比较流行的是k-平均算法,k-中心点算法两种启发式的划分方法。目前在SASSPSS统计分析包中都有聚类程序。

基于共引的聚类分析方法虽然已经比较成熟,应用广泛,但是不可避免的还是存在一定的局限性:一方面是共引分析固有的问题,包括:a数据搜集过程烦琐且费时,搜集好的数据还需要转化成统计工具或可视化工具所需要的形式;b相似度计算方法众多,缺乏一种广泛认可的相似度选择标准;c由于聚类时针对的是高被引论文,而一些新出现的研究领域,因为太新可能在分析时还未被高被引,因此分析结果可能会漏掉一些前沿研究领域。另一方面是聚类方法存在的问题,虽然聚类结果的树状图能够反映分类过程的细节信息,但无法反映最终类群之间的相异程度,不便于分析解释;聚类分析虽然在一定程度上能够实现数据降维,但是不适用于数据集较大的情况。

共引分析方法的演进加速了上述问题的解决。在方法类型上,随着信息技术的发展,可视化技术逐渐渗透到共引分析领域。1997年,Linxia已开始尝试将自组织映射技术(SOM)应用到作者共引分析中;1999年和2000年,Chen将潜在语义索引(LSI)和网络寻址定位(PFNETs)融入作者共引分析。在方法实践上,学者们也在不断的探寻更有效的途径。在已经实践的聚类过程中可以发现, 引文率高的学科往往可以形成比较完备的聚类,而引文率低的学科如数学、工程等大学科在共引聚类中的地位明显不足。为此, Small等人引入了可变水平聚类方法,即在聚类过程中限定类中结点数目,不断调整聚类临界值的方法,来消除不同学科间引文率不同所造成的分析结构的不平衡性。还提出以类聚类的反复聚类方法,即以一次聚类形成的簇为单元再次聚类, 逐步形成大类、超类。

共引聚类分析方法随着现代信息技术的发展和大型引文数据库出现而不断发展,已然成为科学学、情报学和现代科技管理应用研究中常用的基本方法之一。相信随着方法本身的演进和技术的发展,共引聚类分析会更加成熟,从而为科学决策者、各级部门管理者和科研工作者提供有效的决策支持。

 

参考文献:

[1]庞景安. 科学计量研究方法论[M]. 北京:科学技术文献出版社,1999

[2]王建芳,冷伏海. 共引分析理论与实践进展[J]. 中国图书馆学报,2006 ; (1)

[3]赵党志.共引分析—研究学科及其文献结构和特点的一种有效方法[J].情报杂志,1993(5)

[4]耿海英,肖仙桃.国外共引分析研究进展及发展趋势[J].情报杂志,2006(12)

[5]耿海英.共引分析方法及其应用研究[D].中国科学院国家科学图书馆,2007

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章