水晶宫建筑

 首頁 >> 新聞傳播學 >> 傳播學
大數據文本挖掘技術在新聞傳播學科的應用
2019年10月09日 10:46 來源:《當代傳播》2018年第5期 作者:鐘智錦 王童辰 字號

內容摘要:

關鍵詞:

作者簡介:

  內容提要

  文本挖掘技術在社會科學領域中的應用日漸廣泛,本文對比了文本挖掘和傳統的內容分析法,介紹了文本挖掘的幾種常用技術,即詞典法、無監督的機器學習和有監督的機器學習,通過案例闡述了這些方法在情感分析、主題建模、語義網絡中的具體應用。本文總結了文本挖掘技術在新聞傳播學科中的使用場景和特征,分析了它給傳播學研究帶來的機遇及其在發展應用中的瓶頸。

  關 鍵 詞

  文本挖掘/文本分析/情感分析/主題模型/語義網絡/機器學習

  作者簡介

  鐘智錦,中山大學傳播與設計學院教授;王童辰,中山大學傳播與設計學院博士生

  基金項目

  本文系國家社科基金項目“基于行為和關系大數據的網民識別與輿情研判”階段性成果,編號:15BXW063。

 

    一、導論

  隨著互聯網和計算機的發展,人們在互聯網、社交網絡上產生了海量的網絡文本。在計算機技術的輔助下,基于大數據的文本挖掘日益成為自然科學和社會科學中數據挖掘研究的重要領域,從2000年開始得到廣泛應用。文本挖掘的數據主要包括新聞文本、研究論文、書籍、期刊、web頁面、社交媒體文本等。①目前,國內外文本挖掘的主要研究成果均集中在社會科學與自然科學的交叉領域,國外研究更多涉及管理學、社會學、政治學等領域,而國內社會科學領域相關成果較少。②分析文本是傳播學研究中的重要路徑,近年來國內外傳播學領域均有不少學者探索使用計算機文本挖掘技術解決大數據時代的傳播問題。

  本文旨在回顧和討論文本挖掘技術近年來在傳播學領域的國內外研究,對比傳統的內容分析方法和大數據文本挖掘方法,通過案例介紹文本挖掘技術在新聞傳播學研究中的主要功能,并分析其對傳播學研究帶來的機遇和挑戰。本文主要利用Social Sciences Citation Index(SSCI)數據庫檢索外文文獻,利用“中國知網”進行中文文獻的檢索。在搜索過程中,主要應用的英文關鍵詞包括:text mining、text analytics、text categorization、topic modeling、text retrieval、semantic mining、semantic analysis、semantic categorization等,中文關鍵詞包括文本挖掘、自動文本處理/分析等。在輸入關鍵詞之后,通過SSCI的分類檢索功能,選取與“傳播學”相關的期刊文章;中文文獻中選取了“新聞與傳播”類別進行篩選。之后再對每個關鍵詞所檢索出的文獻進行二次篩選,剔除雖符合主題和類別但屬于質化研究的文章、通篇運用傳統定量分析方法(調查、實驗、內容分析)的文章、綜述性文章(并未使用文本挖掘方法的文章)后,得到40多篇文獻。文獻出版年份均在2010年以后,其中2015-2017年的文獻較多。

  需要說明的是,計算機文本挖掘技術在社會科學中的應用屬于跨學科研究,有相當一部分研究成果并未發表在傳播學領域期刊,而是分散在計算機科學、社會學、政治學、理論物理等交叉學科,因此并未被本文選取。本文選取的文獻來自于新聞傳播學科傳統SSCI期刊、與話語及信息研究相關期刊、區域性傳播學研究雜志和部分中文刊物。

  本文所選取文獻的研究主題包括政治傳播、科學傳播、品牌傳播、健康傳播、大眾傳播技術、文本挖掘技術綜述、社會網絡分析等,其中應用于政治傳播中的選舉和對外關系研究、應用于科技傳播和品牌傳播的文獻相對較多。文獻的研究對象主要包括社交媒體發布內容、新聞數字文本(包括文字和影像)和期刊文章,其中以社交媒體發布內容為主。

  二、從內容分析到文本挖掘

  對信息的分析是新聞傳播學科研究的主流,傳統的研究范式多為以定量研究為主的內容分析和以定性研究為主的話語分析。傳統的內容分析方法通過設定編碼框、對文本進行人工編碼,分析文本內容信息及其變化,從而對文本內容進行可再現的、有效的推斷。③內容分析的基本步驟包括提出研究問題、抽樣、確定分析層次、編碼、檢驗信效度、統計檢驗等。內容分析發展至今逐步趨于成熟和完善,但其自身依舊存在一定的局限性,主要體現在抽樣過程中可能會出現主觀判斷、手工編碼效率低下、長期或集體作業可能帶來信度問題。④在新聞傳播學領域,以內容分析作為主要研究方法的論文較多,研究常常采用框架理論、議程設置理論、鋪墊理論等經典傳播學理論,分析報刊文本內容,從中找尋新聞媒體對相關議題的報道規律。

  進入大數據時代,用傳統方式對海量文本進行處理,不僅耗費人力物力,而且其數量之龐大也使人工編碼等過程困難重重?;謔萃誥虻奈謀就誥蚍椒?,可以利用機器學習來實現對大量文本的快速處理。相比之下,文本挖掘的方法在信息分析的過程中,從過程、方法、工具等方面來說,都與內容分析法有較大差別。文本挖掘涉及數據挖掘、機器學習、統計、自然語言處理、可視化技術、數據庫技術等多個學科領域的知識和技術,包括數據預處理(包括自然語言的識別和抽取、數據源的分類等)、核心挖掘操作、統計分析、可視化等步驟。⑤文本挖掘方法能夠更有效地提取、描繪信息,對傳播內容進行可視化,⑥⑦從而呈現文本的宏觀圖景。⑧

  傳統的定量傳播學研究中,在5W理論的視角下,內容分析法主要是運用在對“傳播者”和“傳播內容”的研究上,這與大數據時代下的文本挖掘技術在傳播學領域的研究是相對應的,⑨但兩者在實際操作和應用方面依舊存在著較大差異。筆者主要列舉了對于傳統傳播學內容分析法和文本挖掘方法在樣本大小、抽樣方法、測量、分析單位、編碼、效度檢驗等方面的不同(見表1)。

  通過以上對比發現,文本挖掘不僅對于大樣本數據的處理更有優勢,而且也拓展了傳統內容分析的測量范圍,對于分析海量網絡文本數據有著明顯的優勢。但是,計算機自動處理的維度仍然有限。而傳統的內容分析雖然樣本量不大,卻勝在可以通過人腦進行復雜的編碼,從而對文本進行更加豐富深刻的解讀。在整個研究過程中,內容分析的編碼工作耗時耗力,統計分析工作則相對簡單。而文本挖掘的數據采集工作往往比較輕松,但由于網絡數據多而雜,需要花費大量精力用于數據的清理。一旦算法確立,在數據分析部分則較為輕松。

作者簡介

姓名:鐘智錦 王童辰 工作單位:

轉載請注明來源:中國社會科學網 (責編:張賽)
W020180116412817190956.jpg
用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
 驗證碼 
所有評論僅代表網友意見
最新發表的評論0條,總共0 查看全部評論

QQ圖片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
內文頁廣告3(手機版).jpg
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|水晶宫建筑