大數據時代傳播研究中語料庫分析方法的價值

摘要】:大數據時代的研究邏輯,對傳播學研究形成了新的衝擊,傳統的文本分析方 法,已經不能滿足對樣本數量的宏闊和數據挖掘深度上的雙重要求。語料庫的研究方法 在數據新聞、輿情監測和學術研究等領域都可以得到廣泛的應用。通過語料庫這種結構 化的文本數據來開展的量化研究,在國內外新聞傳播學界都屬新鮮待開發的領域。

關鍵詞】:大數據 語料庫 文本數據 語義挖掘 定量研究

在新聞傳播學視野之下,大數據的分析思維正在對我們的研究形成衝擊,比如新聞業務將實現一些方向性調 整,趨勢預測性新聞和數據驅動型深度報道分量增加。對 於輿情研究來說,問卷發放和小組訪談等傳統的民意調查 方法,已經不能滿足基於社交媒體平臺的海量信息處理要 求。新聞傳播學領域的研究面臨一個共同問題,即文本分 析方法的創新。基於大數據的分析思維,文本也是一種有巨大潛在價值的數據。但是傳統的文本分析手段拘泥於有 限的樣本數量和定性研究的窠臼,無法滿足大數據時代對 內容挖掘上廣度和深度的要求。在這種情況下,來源於應 用語言學領域的語料庫分析方法的介入,能夠使結構化文 本數據庫的構建成爲可能。再結合語言學、修辭學領域的內容分析手段,能爲我們從研究範式到研究方法、工具上都提供一些新思路。

一、大數據時代對新聞傳播學研究範式提出的新課題

(一)新聞實踐領域

隨着社交媒體的應用和智能手機的普及,人人都可以是事件的目擊者和發佈者,傳統媒體新聞報道在原創性和獨家性方面的優勢已不復存在。大衆傳媒作爲社會 的記錄者與傳播者的傳統定位及面向所有受衆的粗放式 信息傳播方式,已越來越不能滿足受衆對於精準信息和 定製內容的需求。

大數據時代,最重要的是數據的開放性,其被壟斷的可能性很小,公共雲、公共數據庫到處存在。媒體既要生產自己的數據,更要會用、用好公共數據。這些公 共數據不僅包括數字信息,也包括大量文本內容。要使 用這些公共內容,就需要有對海量信息的整合能力以及 對潛在信息價值的挖掘能力,並需用可視化工具把結果 精準地呈現出來。

二)輿情研究領域

在研究視角上,傳統的輿情研究大都侷限於比較表 層化的話語研究和事件研究,沒有深入挖掘公衆的思想、 行爲和情感方面豐富的內涵和規律性信息。而且受傳統的 調查、訪談方法自身的侷限性影響,很難進行受衆心理圖譜、行爲圖譜和社會關係圖譜這樣複雜的語義關係的繪製和分析。

在研究時距上,目前的輿情研究以共時性研究爲主, 歷時性研究缺乏。但是,輿情熱點的變化具有年輪效應,只有橫向的共時性分析是不夠充分的,沒有對公衆輿論的歷時性演變和輿情發生機制的縱向研究,我們在認識和行 動上的方位感就會不夠客觀和真實。

在採集方法上,現有的輿情監測和分析軟件的同質化程度較高,採集的文本大多是基於互聯網社交媒體, 分析結果的呈現方式也比較相似。在炫目的可視化圖景 背後,沒有對文本數據的深度分析,而這種深度分析要 基於對大量文本的內容挖掘和整合,這就需要經過結構化處理的文本數據庫來支持。輿情話語的表達亂象紛 繁,真僞並存,既需要小型的基礎文本數據庫來深度挖 掘某類熱點專題,也需要大型合成文本數據庫對輿論走向和趨勢進行宏觀把握。

(三)傳播學學術研究領域

傳統的傳播學文本分析,主要以框架分析、符號分 析等定性分析方法爲主,但這兩種分析主要集中於意識形 態、修辭方式等方面,不夠客觀。而文本內容,特別是輿 論研究的文本內容,有零散化、碎片化的特徵,在拉斯韋 爾的5W裏面, say what(文本內容研究)的問題常常被 人忽略。雖然有一些專門的詞頻統計分析軟件,可以完成 對高頻詞和低頻詞的統計分析,但在語義深度挖掘方面仍 然有待開發。我們需要找到一種常規的工具,可以把學術 文本進行結構化方法上的整合,通過把文本分類、合併, 提取常用關鍵詞和核心詞,按研究主題分門別類地進行儲存,爲對比研究、專題研究等領域提供更加嚴謹和結構化的文本數據庫支持。

二、語料庫分析:體現大數據思維的研究方法

語料庫屬於應用語言學的範疇,是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現的連續 語言運用文本或話語片段而建成的、具有一定容量的大 型電子文本庫。該方法在國外已有三十年以上的研究歷 史,如今也擁有較爲成熟的語料庫構建與檢索工具,比如 Wordsmith、AntConc等。國內語料庫的研究亦開展近二十 年時間,研究範疇基本被劃分爲詞彙、語法、語篇、語用 和文體研究等五個方面。利用語料庫作爲研究工具,可以 從微觀層面對新聞傳播學領域的文本內容進行研究。在語言學領域,語料庫的研究方法已日趨成熟,只不過尚未走進新聞傳播學的視野,這是因爲新聞傳播學在文本內容分析方面欠缺新的方法,需要語料庫這類研究方法的介入。

三、語料庫研究方法的應用領域

(一)在新聞實踐領域的應用

1.史料檢索語料庫。即把新聞報道的原創內容和歷史資料數據化,變成媒體的核心資產。在新聞傳播渠道 日益扁平化的今天,建立一個受衆易於發現和易於使用 的史料數據庫,是報紙生存下去的核心競爭力之一。另 外還可以採集一些外部數據來作爲語料庫的擴充部分, 如通過合作、購買、交換、抓取等方式來獲取來自其他 媒體的內容和來自互聯網平臺用戶創造的內容,並完善 語料庫的資料存儲、檢索查詢和版權管理,爲進一步轉 化利用打好基礎。

2.政府公開信息語料庫。彭博社亞洲區新聞資訊主 編Lee Miller指出:數據驅動型報道中的數據都可以並且應 該從公開信息渠道中獲得。所謂的信源和數據,並不一定 要像“維基解密”或斯諾登那樣從祕密渠道獲取,而是應 該從公開信息中挖掘。這些信源包括政府機構網站中日常 發佈的政策信息和每年重大會議的政府工作報告;大衆媒 體官方網站上的報道和專題;官方媒體的新媒體移動終端 發佈的內容等等。根據政治、經濟、教育、公共衛生等不 同主題,建立可供隨時檢索的公開信息語料庫,能夠爲媒 體報道節約大量搜尋數據和素材的人力和物力。

3.“數據博客”語料庫。在基於社交網絡平臺的節 點式傳播基礎上,來自草根階層或者是專業領域人士的博 客、微博的內容和數據,也能成爲新聞線索的來源和報道 內容的基礎。因此,我們可以採集那些比較有影響力的博 客或微博的內容,通過初步的結構化處理,轉換成隨時可 供查詢和檢索的民間信息語料庫,供數據驅動型的新聞報道作爲參考,也可以作爲普通讀者查詢的數據庫。

(二)在輿情研究領域的應用

通過建立動態輿情監測語料庫,提供可供檢索的關 鍵詞數據庫,結合修辭學、語言學的分析方法,分析輿論 話語表達、公衆社會關係、羣體心理特徵等。首先按照一 定的規則和專題對收集的輿情文本內容進行分類和標註, 然後是文本合併和關鍵詞提取。在語料處理方面要注意兩 點:一是小型基礎語料庫的支撐和建設,大數據庫作爲信息母體,需要若干小型數據庫作爲檢索源;二是中心度和 關聯度結構化的算法,大數據庫作爲一種非結構化的數 據,需要進行一些結構化的解讀和梳理,這就需要相關的 數據結構化算法,這種算法可稱之爲數據模型。

1.輿情熱詞語料庫。輿情熱詞語料庫主要服務於輿 情監測,解決重大和突發事件中引爆點和關聯度的關係。 我們可以通過關注熱點內容,蒐集熱點事件的語料,建立 輿情熱詞數據庫,找出引發輿情關注的引爆詞。並結合語 詞情感分析、修辭分析手段,來劃分引爆詞的中心度級別 和關聯度級別,在此基礎上設計熱詞發現模型,達到輿情 預警和預測的目的。 

首先我們根據研究規模來選取一定數量的樣本,然後 用語料庫構建工具對選定文本進行標註和結構化處理, 對輿情關鍵詞進行再次統計並生成核心主題詞表數據 庫,從中找出輿情引爆詞。需要特別指出一點,核心主 題詞不一定是詞頻最高的那個詞,而是輿情敏感度,也 就是熱度最高的詞,即輿論的中心詞。中心詞是輿論的 引爆點,實現了引導公衆把輿論由說變成做的過程,同 時也是關聯度最高的詞,從最大限度上關聯其他的主題 詞並形成語義網絡。

關於輿情熱詞的分析,有兩個關鍵點:引爆點和關聯 點。由引爆點可以導出對引爆詞的挖掘;由關聯點可以導 出對連接詞的發現;引爆詞具有意見領袖的作用,迅速擴 大熱詞的影響力並號召公衆付之行動;關聯詞具有搬運工 的作用,能夠連接各種關係詞,形成主題詞網絡。基於引 爆詞的挖掘和連接詞的發現,輿情熱詞分析可以劃分出兩 個維度:中心度分析和關聯度分析,進而設定中心度指標 和關聯度指標,並設計指標體系的計算公式,形成具有引 爆性質的熱詞理論模型。這樣就可以輿情監測,隨着熱詞 強度的提高,熱詞的範圍是不是在擴大,社會的緊張度又 如何,進而往前預推,達到預警的目的。

2.意見領袖修辭特徵詞語料庫。在一些官方傳統媒 體失語或報道不及時的情況下,網民習慣於打開網絡意見 領袖的博客或追逐微博上的隻言片語,從他們那裏尋找解 讀、剖析和批判。意見領袖的觀點、意見情緒能爲受衆所 接收,能引起受衆的共鳴,會產生巨大的輿論影響,這與 他們個人的話語表達風格、對某個領域的專業知識和對某 類問題的把握能力密不可分。因此,通過對意見領袖的觀 點、態度關鍵主題詞等內容的提取,可以從中總結某個或 某類意見領袖的修辭特點及個人特徵,形成一定的辨識度 依據;進而還可以從中尋找具有心理喚起度和社會動員能 力的詞,爲輿論引導提供來自民間輿論場的參照。

3.傳播學學術主題詞語料庫。在傳播學內容研究 領域,可以嘗試用語料庫來完成對常規5W領域的深化研 究,尤其是引向微觀層面。越是細小的不易覺察的,越是 人們忽視的,也越是研究者值得進軍的領域,而微觀的研 究恰恰能夠揭示很多深度的東西。所以傳播學主題詞語料 庫可以做的,恰恰是把非結構化的文本數據結構化,根據 研究主題設定結構化的方向、結構化的座標、結構化的指 標,來完成研究的目標。比如傳播史方面的研究,我們可 以找到一個時間節點,蒐集與這一節點同步的史實資料, 然後把文本進行整合、分詞、標註,提取與這一歷史節點 關聯的年份詞、學者名稱、學術觀點、專門術語,構建主 題詞語料庫,繪製這一時期的主題詞學術地圖。

4.受衆特徵關鍵詞語料庫。利用微博進行廣告傳 播,有着天然的精準投放優勢。我們可以利用語料庫來分 析挖掘受衆羣體特徵,繪製不同目標羣體的心理圖譜、行 爲圖譜和社會圖譜,從而實現對目標接觸點的精準把握, 找到受衆的需求交叉點。這種語料庫分析的應用原理來自 於特徵聚類,以此爲依據,來向具有相似心理需求的受衆 推送受本羣體認可的資訊和產品廣告,從而達到對品牌接 觸點和受衆需求交叉點的精準把握。

四、語料庫分析在傳播學研究方法論上的創新點

工具性的研究方法,要和研究內容的屬性相匹配;要 把主觀感覺的內容變成可靠結論,從而挖掘出研究對象的 潛在價值。語料庫的分析方法,符合大數據的思維邏輯, 通過對海量文本數據的處理,可以對文本內容進行深入挖 掘,而不僅僅侷限於表層研究或定性分析。以微觀偏中觀 的修辭手段和語義分析的研究爲基礎,通過語料庫這種結 構化的文本數據來開展量化研究,這在國內外新聞傳播學界都屬新鮮待開發的領域。 語料庫的研究,本質上也是一種跨學科的研究,綜合了語言學、修辭學、計算機科學和統計學各學科的知識。 當前國內外大型語料庫的建設都具有動態性的特點,即語 料會定期更新,基於它可以豐富傳播學量化研究的方法, 發現關鍵詞和主題詞的歷史性演變,從而尋找其中的年輪 效應,爲學術文本和實踐領域的研究提供縱向的和歷時性 的參照物和座標系。

本文系中國人民大學科學研究基金(中央高校基本科研業務費專項資助)“基於修辭傳播學語料庫的輿情熱詞研究”(項目編號:14XNH111)的研究成果之一。

(喻國明系中國人民大學新聞學院教授、副院長;李慧娟系中國人民大學新聞學院博士研究生)

參考文獻

[1]彭蘭.大數據時代,新聞業面臨的新震盪[J].編輯之 友,2012(1).

[2]官建文,劉揚,劉振興.大數據時代對傳媒業意味着什 麼[J].新聞戰線,2012(2).

[3]李彪.大數據視域下社會輿情研究的新境界.編輯之 友,2013(6).

[4]人民網輿情辦公室.如何應對網絡輿情——網絡輿情 分析師手冊[M].北京:新華出版社,2011.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章