【摘要】人工智能浪潮已經(jīng)席卷全球,不僅改變了人類的生活方式和傳播行為,也改變了人類觀察和認識世界的方式。人工智能與大數(shù)據(jù)驅(qū)動的計算范式延伸至社會科學領(lǐng)域,受傳統(tǒng)傳播學定量研究范式、數(shù)據(jù)科學和網(wǎng)絡(luò)科學的影響和啟發(fā),計算傳播學方興未艾,已經(jīng)成為計算社會科學的重要分支學科之一。從數(shù)據(jù)挖掘到機器學習,再到深度學習,人工智能算法和技術(shù)極大提高了計算方法處理大數(shù)據(jù)的精度和效率。目前,與無監(jiān)督和監(jiān)督學習方法相結(jié)合,自動化內(nèi)容分析、情感分析和社會網(wǎng)絡(luò)分析等方法為計算傳播學研究提供了數(shù)據(jù)處理、整合和分析的研究策略和經(jīng)驗。在未來,通過開發(fā)和建立可擴展的自動化內(nèi)容分析框架和系統(tǒng),引入更豐富的深度學習策略,以及推動跨學科研究的方法創(chuàng)新等,將有助于人工智能與計算傳播學在更廣泛的交叉領(lǐng)域?qū)崿F(xiàn)深度融合。
【關(guān)鍵詞】計算傳播學 人工智能 機器學習 深度學習
【中圖分類號】G20 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2019.20.003
當前,越來越多的社會科學研究者在大數(shù)據(jù)的驅(qū)動下,使用統(tǒng)計學、數(shù)學模型和機器學習等方法,探索社會科學知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的新方向,開啟了規(guī)模更廣、參與度更深的社會科學新紀元。2009年,拉澤爾等[1]提出了“計算社會科學”(Computational Social Science)的概念,他們認為以“計算”作為研究的基礎(chǔ)手段的社會科學業(yè)已形成,展現(xiàn)出人類在前所未有的廣度、深度和規(guī)模上收集和分析數(shù)據(jù)的能力。人文社會科學的學者開始關(guān)注大數(shù)據(jù)、人工智能等信息技術(shù)對社會經(jīng)濟發(fā)展以及科學研究等方面帶來的影響和價值。尤其是社會科學研究者效法自然科學,以計算機作為研究社會復雜性的基本工具,創(chuàng)新地運用多種計算方法(computational methods)研究社會科學問題,并影響了諸如社會學、語言學、傳播學等學科研究范式的轉(zhuǎn)型。在傳播學領(lǐng)域,這一轉(zhuǎn)型中的研究范式被稱為:計算傳播學(Computational Communication Research)。
人工智能與大數(shù)據(jù)之間的關(guān)系非常緊密,人工智能的深度學習進化依賴于大數(shù)據(jù)平臺和技術(shù)基礎(chǔ),同時后者的改進也需要人工智能算法的支撐。計算傳播學何以可能?可以說,它的出現(xiàn)正是得益于大數(shù)據(jù)和人工智能的協(xié)同發(fā)展,主要體現(xiàn)在三個方面的因素:第一,海量的數(shù)字化數(shù)據(jù),從社交媒體信息、其他“數(shù)字痕跡”(digital trace)到在線檔案、數(shù)字化的報紙以及其他歷史檔案;第二,用于分析數(shù)據(jù)的工具的進步,包括網(wǎng)絡(luò)分析、自動化文本分析、主題模型、詞嵌入等統(tǒng)計學和機器學習方法;第三,強大而廉價的處理能力以及計算工具的易用性,包括科研目的和商業(yè)用途的云計算、共享和編程平臺的涌現(xiàn)和發(fā)展。[2]可見,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)為社會科學提供了可資研究的大規(guī)模數(shù)據(jù),其中以半結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)為主(包括文本、語音、視覺圖像等),而人工智能成為了這類數(shù)據(jù)處理的關(guān)鍵性技術(shù),[3]對計算傳播學的發(fā)展起到至關(guān)重要的支撐和催化作用。
本文將從計算傳播學的概念、起源出發(fā),探尋計算傳播學與傳播研究定量傳統(tǒng)、數(shù)據(jù)科學、網(wǎng)絡(luò)科學的學科淵源;并在簡述人工智能熱潮下機器學習、深度學習概況的基礎(chǔ)上,對人工智能在計算傳播學研究方法(包括內(nèi)容分析、情感分析和社會網(wǎng)絡(luò)分析)中的應(yīng)用現(xiàn)狀和前景進行綜述和探討;最后,討論和展望推動人工智能與計算傳播學深度融合的發(fā)展方向和未來趨勢。
計算傳播學的概念及淵源
計算傳播學的概念。作為計算社會科學的重要分支,計算傳播學藉由海量的互聯(lián)網(wǎng)數(shù)據(jù)和先進的計算技術(shù)對人類傳播現(xiàn)象和行為進行跨學科研究。所謂“計算傳播學”,可以被理解為是一種正在興起的數(shù)據(jù)驅(qū)動的研究取向,是基于人類傳播行為的數(shù)字足跡,采用文本挖掘、情感分析、社會網(wǎng)絡(luò)分析等帶有顯著計算特征的數(shù)據(jù)分析方法進行研究,來探究人類傳播行為的表現(xiàn)模式和內(nèi)在邏輯;數(shù)據(jù)集、可計算、可建模成為計算傳播學有別于傳統(tǒng)傳播學的顯著特征。因此,計算傳播學帶有濃厚的方法和工具的屬性特征,所以計算傳播學也被研究者(在之前的一段時間中,乃至于有可能在以后的一段時間中)普遍認為是研究方法的轉(zhuǎn)型,而非傳播學范式的轉(zhuǎn)型。然而隨著整個人類社會都在邁向數(shù)字化,(新生代)人類的傳播行為大多依賴于數(shù)字化平臺來實現(xiàn),即便是在現(xiàn)實空間的傳播與交流行為也因為各種技術(shù)的突破可以被數(shù)字化記錄和存儲,于是,傳播學所探究的人類傳播行為自身顯現(xiàn)出顯著的數(shù)字式傾向。傳播學關(guān)注的對象在數(shù)字化,其研究范式不可避免也需要有數(shù)字化的轉(zhuǎn)型。因此,我們認為計算傳播學并不僅僅是一系列研究方法和工具的集合,它更有可能是整個傳播學在數(shù)字化時代的學科范式的轉(zhuǎn)型。
借鑒沙哈等人[4]的標準,計算傳播學的研究范式通常包括:(1)大而復雜的數(shù)據(jù)集;(2)由數(shù)字痕跡和其他“自然發(fā)生”的數(shù)據(jù)組成;(3)需要算法對此進行分析;(4)允許運用和檢驗傳播理論來研究人類傳播行為。[5]換言之,一種方法是在計算機上執(zhí)行的,并不意味著它就是一種“計算方法”,因為傳播學者在過去半個多世紀里一直使用計算機來輔助他們進行研究;另一方面,計算范式也不是由日益復雜的算法造就的“神話”,更不是社會科學和計算機科學的機械式拼湊,[6]而是跨學科乃至“超學科”[7]的知識體系和方法論的深度融合。
計算傳播學的學科淵源。從研究范式來看,計算傳播學起源至少受到三個學科發(fā)展的重要影響,即(實證)傳播學、數(shù)據(jù)科學以及網(wǎng)絡(luò)科學。傳播領(lǐng)域根源于社會科學和人文學科,傳統(tǒng)實證范式的傳播學研究主要以心理學實驗、社會學調(diào)查、統(tǒng)計學、計量經(jīng)濟學、社會網(wǎng)絡(luò)分析等方法為主。相比于其他社會科學,傳播學對方法的重視程度歷來不足,缺乏研究傳播過程的方法和采用其他學科領(lǐng)域的方法,[8]長期以來一直被認為是一個理解傳播學的特殊挑戰(zhàn)。傳播作為一門學科正處于數(shù)據(jù)革命的潮頭之上,因為大多數(shù)公開的在線行為留下的數(shù)字足跡都源自某種形式的傳播,所以在線用戶行為的觀察性研究成為計算傳播學的重要領(lǐng)域。[9]
從歷史淵源來說,用戶行為挖掘是傳播學電視收視率數(shù)據(jù)挖掘與分析在網(wǎng)絡(luò)時代的延續(xù)和發(fā)展,[10]用戶分析的基本概念和測量指標由收視率調(diào)查發(fā)展而來。[11]雖然收視率調(diào)查是針對有限樣本的隨機抽樣研究,但回溯至20世紀30年代,通過日記卡或測量儀等多種數(shù)據(jù)采集手段獲得的數(shù)據(jù)規(guī)模已然十分龐大,可以說傳播學是較早使用大數(shù)據(jù)開展調(diào)查分析的社會科學之一。進入大數(shù)據(jù)時代,人們通過互聯(lián)網(wǎng)及其相關(guān)應(yīng)用的“中介”(mediated)傳播行為成為社會科學研究的重心,在線的人際和社會交流直接產(chǎn)生的海量數(shù)字記錄正在對許多傳統(tǒng)研究方法帶來巨大的挑戰(zhàn)。
受數(shù)據(jù)科學的影響,傳播學正在經(jīng)歷一個從定性研究到定量研究,再到計算研究,從簡單分析到復雜處理,從屬性數(shù)據(jù)到關(guān)系數(shù)據(jù)的研究范式和方法論思考的過程。[12]傳播研究的定量范式主要基于統(tǒng)計學,而真正意義上的現(xiàn)代統(tǒng)計學是從處理小數(shù)據(jù)、不完美的實驗等這類現(xiàn)實問題發(fā)展起來的。[13]格雷(Jim Gray)早在20世紀90年代中期就提出了科學研究的“第四范式”(the fourth paradigm),即數(shù)據(jù)密集型科學,預示著科學研究由傳統(tǒng)的假設(shè)驅(qū)動向數(shù)據(jù)驅(qū)動的探索性方法的轉(zhuǎn)變,其中一個重要的特征就是“從用少量數(shù)據(jù)集的輔助研究,轉(zhuǎn)向?qū)?shù)量不斷擴大的各種高信息含量數(shù)據(jù)進行研究”,這將促使“大部分人文社會科學走向具有自然科學的特征”。[14]
目前,傳統(tǒng)分析工具對大數(shù)據(jù)很難發(fā)揮作用,也就是說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計分析技術(shù)很難在有限時間范圍內(nèi)完成數(shù)據(jù)存儲、預處理、計算和管理等一系列過程。為了有效地處理這類數(shù)據(jù),數(shù)據(jù)科學(Data Science)的新范式應(yīng)運而生,從而構(gòu)成了計算傳播研究的數(shù)據(jù)和方法基礎(chǔ)。不僅是數(shù)量級上的差異,計算傳播學所處理的大數(shù)據(jù)與傳統(tǒng)小數(shù)據(jù)相比也已發(fā)生了質(zhì)的變化,前者以半/非結(jié)構(gòu)型數(shù)據(jù)為主,處理難度和挑戰(zhàn)遠超于后者(結(jié)構(gòu)型數(shù)據(jù)為主)。由于數(shù)據(jù)的規(guī)模之大、結(jié)構(gòu)之復雜,計算傳播研究需要借助人工智能和并行處理等現(xiàn)代計算技術(shù)才能實現(xiàn)。
計算傳播學的另一個重要學科來源是網(wǎng)絡(luò)科學(Network Science)——“專門研究復雜網(wǎng)絡(luò)系統(tǒng)的定性和定量規(guī)律的一門嶄新的交叉科學”。[15]網(wǎng)絡(luò)科學的出現(xiàn)開啟了21世紀社會科學的新的研究方向,基于互聯(lián)網(wǎng)傳播產(chǎn)生的數(shù)據(jù)和互動性將會變革我們對于人類集體行為的認識,[16]利用社會計算的方法深入分析每一個個體的關(guān)系和連接,有可能預知社會發(fā)展的趨勢。[17]網(wǎng)絡(luò)科學以復雜網(wǎng)絡(luò)為研究對象,關(guān)注不同拓撲結(jié)構(gòu)特征、功能及其相互關(guān)系,進而為在線傳播網(wǎng)絡(luò)中的各種動力學行為和信息流過程的計算、預測和控制提供了原理和方法基礎(chǔ)。
毫無疑問,復雜性和非線性是物質(zhì)、生命和人類社會進化中的顯著特征。為此,傳統(tǒng)的定量研究采用非線性問題線性化的方法,在對社會結(jié)構(gòu)進行劃分的基礎(chǔ)上,用函數(shù)關(guān)系組成的反饋回路、流等來模擬社會結(jié)果,實現(xiàn)社會作用機理的宏觀模擬。[18]與傳統(tǒng)路徑不同,計算傳播研究強調(diào)探究人類傳播動因和機制并不取決于個體的想法或意圖,而是著眼于從個體所嵌入的復雜的社會結(jié)構(gòu)中去發(fā)現(xiàn)傳播規(guī)律。因此,計算傳播學研究本質(zhì)上依托于對復雜網(wǎng)絡(luò)的挖掘和分析,旨在探索傳統(tǒng)定量研究所忽視的及受技術(shù)方法制約無法完成的大量網(wǎng)絡(luò)特征及相關(guān)性,以解決回歸或線性方案無法應(yīng)對的網(wǎng)絡(luò)依賴性和復雜性問題。
人工智能、機器學習和深度學習
人工智能。人工智能(Artificial Intelligence)是“智能主體”(intelligent agents)如何最優(yōu)化決策過程的統(tǒng)稱,通過訓練計算機模擬人類以完成自主學習、判斷、決策等智能行為,主要涵蓋視覺處理、語音識別、自然語言處理和智能機器人等應(yīng)用領(lǐng)域。
人工智能同時也是計算機科學的一個分支。其作為一門獨立的新型學科,是以1956年麥肯錫(McCarthy)在美國達特茅斯(Dartmouth)研討會上首次提出“人工智能”概念為標志的。近年來,國際人工智能相關(guān)的研究和應(yīng)用領(lǐng)域取得突破性進展,在國家發(fā)展戰(zhàn)略、科學研發(fā)、應(yīng)用創(chuàng)新等方面形成“井噴式”發(fā)展的態(tài)勢,同時人工智能的發(fā)展也為相關(guān)學科帶來了新機遇。[19]人工智能領(lǐng)域的發(fā)展具有跨學科的特性,總體上以計算機科學(Computer Science)、工程電氣類(Engineering,Electrical & Electronic)、醫(yī)學及成像類、數(shù)學類等理工學科為核心學科,由于對語音識別和自然語言處理的關(guān)注,其中還包括語言學(Linguistics),對于人工智能領(lǐng)域的跨學科發(fā)展具有關(guān)鍵性的作用;以神經(jīng)科學(Neurosciences)、心理學(Psychology)為代表的潛在學科也憑借其迅猛的增長率而在其中扮演著重要的角色。[20]
人工智能一般被分為弱人工智能(Artificial Narrow Intelligence, ANI)、強人工智能(Artificial General Intelligence, AGI)、超人工智能(Artificial Superintelligence,ASI)三種分類和發(fā)展階段。[21]我們今天討論的人工智能基本上還處于弱人工智能階段,例如,引發(fā)廣泛關(guān)注的谷歌AlphaGo和AlphaGoZero就屬于ANI的范疇。目前的人工智能還難以在認識、學習和決策等綜合智能上與人類比肩,甚至超越人類智能。尤其在社會科學研究領(lǐng)域,弱人工智能主要是以完成特定的任務(wù)而存在的,例如語音識別、圖像識別和語言翻譯等。在實現(xiàn)方法上,弱人工智能采取的是基于統(tǒng)計和概率的方法,在特定的算法規(guī)則下基于大規(guī)模優(yōu)質(zhì)或混雜的語料庫,從數(shù)據(jù)中歸納出模型以發(fā)現(xiàn)普遍規(guī)律或最優(yōu)方案。[22]
機器學習。機器學習(machine learning)是人工智能的重要領(lǐng)域和主要發(fā)展方向之一。機器學習的核心是學習,也就是讓計算機通過識別和利用現(xiàn)有數(shù)據(jù),模擬人的學習過程以獲得對研究者有意義的知識?;ヂ?lián)網(wǎng)上的傳播活動產(chǎn)生大量的圖像與文本數(shù)據(jù)——結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),因此必須根據(jù)先驗的或已有知識對這類數(shù)據(jù)進行特征抽取,并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以建立模型,而機器學習正是解決這類問題的重要手段。[23]
就目前的計算傳播學研究實踐而言,機器學習更多被運用于自動化的文本分析,[24]例如用于關(guān)鍵詞提取和共現(xiàn)分析的自然語言處理技術(shù),[25]有監(jiān)督的文本分類方法[26]、情感分析[27]以及語義網(wǎng)絡(luò)等。雖然自動化的文本分析技術(shù)極大地簡化了研究者繁瑣的文本編碼,并且能夠有效減少因主觀偏見帶來的誤差,但現(xiàn)有的文本分析技術(shù)還有很大的局限性,尤其大數(shù)據(jù)(包括各種媒體數(shù)據(jù)、時序數(shù)據(jù))具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關(guān)系復雜等特點,傳統(tǒng)的機器學習算法也已難以有效處理和分析大數(shù)據(jù),必須借助分布式處理和并行計算或改進數(shù)據(jù)挖掘算法。[28]
深度學習。深度學習(deep learning)源于人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)的研究,是新興的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的學習算法。在諸多機器學習理論中,神經(jīng)網(wǎng)絡(luò)學習是借鑒人腦結(jié)構(gòu)及功能的一種抽象數(shù)學模型,通過由大量神經(jīng)元節(jié)點連接而組成的網(wǎng)絡(luò),模擬大腦信息處理、知識表征和學習的過程,因此也被稱為“連接主義”。從20世紀80年代末期以來,機器學習的發(fā)展大致經(jīng)歷了淺層學習(shallow learning)和深度學習兩個階段,[29]前者以反向傳播算法(back propagation, BP)為代表掀起了基于統(tǒng)計學方法的機器學習浪潮,隨后不同的淺層機器學習模型相繼出現(xiàn),比如傳統(tǒng)隱馬爾可夫模型(HMM)、條件隨機場(CRFs)、支持向量機(SVM)在模型結(jié)構(gòu)有一層隱含層(hidden layer)——單個將輸入信號轉(zhuǎn)換到特定問題空間特征的結(jié)構(gòu),而最大熵方法(比如,邏輯回歸,LR)則沒有隱含層。以2006年為界,自Hinton等人提出了深度置信網(wǎng)絡(luò)(DBN)和多層自動編碼器等解決深層結(jié)構(gòu)優(yōu)化問題的算法,成為之后深度學習算法的主要框架,對機器學習領(lǐng)域產(chǎn)生了極其重要的影響。
其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是第一個真正訓練成功的多次結(jié)構(gòu)算法,[30]其網(wǎng)絡(luò)結(jié)構(gòu)受生物視覺模型的啟發(fā),通過用已知模式訓練卷積網(wǎng)絡(luò),使得卷積網(wǎng)絡(luò)獲得輸入與輸出之間的非線性映射關(guān)系,而不追求它們之間精確的數(shù)學關(guān)系。目前,CNNs在圖像處理和視覺目標識別方面已經(jīng)獲得了較高的精確度[31]。在傳播領(lǐng)域,計算機除了需要理解文本、語言所傳遞的人類語義信息的任務(wù)之外,非語言交流和圖像在人際溝通中無所不在也是人工智能亟待克服的問題,因為對圖形數(shù)據(jù)的學習有助于增進對人類傳播行為的理解,比如,對政治運動的理解以及網(wǎng)絡(luò)抗議和圖片的動員作用。[32]
人工智能在計算傳播研究中的應(yīng)用
不同于專門學科對人工智能技術(shù)和應(yīng)用的開發(fā)和推進研究,國內(nèi)人文社會科學對人工智能研究的著力點主要側(cè)重于探討人工智能的邏輯和基礎(chǔ)認識、挖掘人工智能的應(yīng)用空間、預判人工智能的社會性影響和后果等方面。[33]近年來,隨著計算科學的出現(xiàn),機器學習、深度神經(jīng)網(wǎng)絡(luò)等人工智能的算法和技術(shù)不斷擴散、滲透進入社會科學領(lǐng)域,在傳播研究中已經(jīng)出現(xiàn)和積累了不少以自動內(nèi)容分析、情感分析和網(wǎng)絡(luò)分析等為計算方法的研究經(jīng)驗。
自動化內(nèi)容分析。在傳播學研究中,內(nèi)容分析(content analysis)通過強調(diào)信息處理和意義建構(gòu)而成為核心的研究方法之一,[34]它是一種“從文本(或其他有意義的事物)中對語義進可復現(xiàn)的、有效的推理研究技術(shù)”。[35]但是傳統(tǒng)的內(nèi)容分析依靠大量的時間、人力和資金才能保證研究的可靠性,因此早期的傳播學研究就已經(jīng)引入計算機輔助的自動化內(nèi)容分析技術(shù)(Automated Content Analysis,ACA)。近年來,有監(jiān)督的機器學習(Supervised Machine Learning, SML)和語義網(wǎng)絡(luò)分析(Semantic Network Analysis, SNA)為自動化內(nèi)容分析提供了更加有效的算法實現(xiàn)和技術(shù)支持。機器學習將正確標注的數(shù)據(jù)作為輸入以訓練算法模型,訓練的過程要求機器分類器(classifier)與人類編碼者在樣本數(shù)據(jù)集的編碼結(jié)果上達到高度一致,盡管計算機并不具備語言和語義理解的能力。通過對人工編碼材料的學習,有監(jiān)督的分類方法能夠有效彌合傳統(tǒng)內(nèi)容分析和自動內(nèi)容分析之間的鴻溝。例如,研究者通過一項實驗性的研究中評估了有監(jiān)督機器學習對大量語料數(shù)據(jù)進行自動化分類的潛力,通過對德國在線新聞的既定主題類別進行分類測試,發(fā)現(xiàn)自動化分類的可靠程度一般比人類編碼效度低15%,尤其當分類被明確定義和有效標注時,機器學習對于某些類別來說通常是穩(wěn)健和可靠的。[36]
另外,有研究者(Pilny, McAninch, SloneA, etal.)[37]以“關(guān)系不確定性”(relational uncertainty)研究為案例,提出了一套結(jié)合SML算法的ACA方法在傳播學研究中的簡易操作程序和效度檢驗方法,主要分為以下三個步驟。步驟1:從傳統(tǒng)內(nèi)容分析程序開始,包括確定分析單位(如論壇發(fā)帖)、編碼方案(如關(guān)系確定與否)和抽樣方法(如分層抽樣)等。步驟2:在計算評價者間的一致性信度的基礎(chǔ)上確立編碼的基準,然后將文本轉(zhuǎn)為供計算機處理的數(shù)據(jù),包括詞袋(bag of word)、字典(dictionary)、主體模型(topic modelling)等自然語言處理方法,并選擇最合適的SML算法類型,常用的學習方法有支持向量機(SVM)、隨機森林(Random Forest, RF)和樸素貝葉斯(Naïve Bayes, NB)等算法;接著進行特征選擇(feature selection),包括過濾法(filter)、封裝法(wrapper)、嵌入法(embedded)等方法。最后,將上述模型算法用于文檔編碼與人工編碼(hold-out)進行一致性檢驗,并與獨立的人工編碼標準做比較以評估模型的精度、召回率和F1值等指標。步驟3:在獨立測試集的文本上測試算法的信度和效度,目的在于防止訓練集的內(nèi)在聯(lián)系性而導致模型的過擬合(over fitting)現(xiàn)象,并通過補充調(diào)查建立機器分類方法的相關(guān)效度,主要包括聚合效度和區(qū)分效度兩個維度效度檢驗。
除了有監(jiān)督的機器學習,無監(jiān)督(unsupervised)自動化內(nèi)容分析方法也被廣泛運用于諸如風險溝通研究中。[38]無監(jiān)督方法可以歸納地識別文本中的詞簇,其目的不在于搜索預定義的類別,而是為研究人員提供關(guān)于文本中可以找到哪些類別的信息,通過共現(xiàn)的關(guān)鍵詞可以確定意義的結(jié)構(gòu)和更抽象的文本結(jié)構(gòu),比如新聞或議題框架(frame)的識別。例如,在荷蘭公眾對機場風險討論的研究[39]和組織風險研究[40]中均使用了非監(jiān)督學習方法。
情感分析/意見挖掘。情感分析(Sentiment Analysis)或意見挖掘(Opinion Mining)通常被定義為尋找主體對特定實體的觀點、態(tài)度或情緒的任務(wù)。情感分析是計算機科學中最熱門的研究領(lǐng)域之一,已經(jīng)有超過7000篇關(guān)于這個主題的文章。[41]在新聞傳播領(lǐng)域,如政治傳播、公共傳播和品牌傳播相關(guān)的研究中,主要用于判斷相關(guān)文本所包含的態(tài)度是積極、正面的還是消極、負面的。[42]
文本的情感分析主要分為有監(jiān)督和無監(jiān)督學習兩類方法:(1)有監(jiān)督方法將文檔分類到有限的情感類別中,如正向、負向、中性等,或者表示為一些離散的數(shù)值范圍;給定訓練數(shù)據(jù)后,系統(tǒng)將利用支持向量機、樸素貝葉斯、邏輯回歸、KNN等常用分類算法學習進行情感分類;(2)無監(jiān)督方法則基于確定文檔中特定短語的語義指向(Semantic Orientation, SO),如果這些短語的平均SO超過某個預定的閾值,則文檔將被分類為正,否則將被視為負,短語的選擇通常依據(jù)詞類模式或情感詞典。由于自然語言的復雜特點,已有的機器學習方法一般很難取得較好的文本分類效果。然而,在特定的領(lǐng)域,使用機器學習算法根據(jù)文本的情感取向?qū)ξ谋具M行分類的效果很好。
在政治傳播領(lǐng)域,有研究者[43]將有監(jiān)督的情感分析技術(shù)應(yīng)用于檢測推文對美國總統(tǒng)候選人的態(tài)度,采用基于詞典的(lexicon-based)方法——詞典通常來源于被分析的文本之外,經(jīng)由人工所注釋和驗證——收集給定用戶關(guān)于候選人的所有推文,測量并確定該用戶對特定候選人的平均情緒得分;他們在Senti Strength情感分析軟件的基礎(chǔ)上,結(jié)合機器學習和t檢驗的方法檢查了詞典在分析語料上的有效性并補充了情感詞匯,經(jīng)過抽樣測試,機器編碼得分與人工編碼的一致性達到82.8%。在中文語境下,基于SVM的監(jiān)督學習法還被有效地運用于對微博文本的態(tài)度分類任務(wù)中,以研究關(guān)于中國“改革開放”的網(wǎng)絡(luò)論爭的態(tài)度傾向和變化,并使用查準率(0.80)、查全率(0.80)、F1值(0.79)等指標對模型進行評估。[44]
也有研究者(Ortigosa, Martín, Carro)[45]基于字典和機器學習算法,提出了一種新的情緒分析混合方法,開發(fā)Facebook的應(yīng)用程序以檢索面向?qū)W生的情感極性(積極、中性和消極)狀況和情緒變化,通過將基于詞匯的預處理技術(shù)與SVM相結(jié)合得到的分類精度最高可達到83.27%,證明了從用戶在Facebook上所寫的信息中提取其準確的情感信息是可行的。
相比于有監(jiān)督方法,無監(jiān)督學習方法依賴于語料所涉及的不同領(lǐng)域特征,對基準情感詞的準確度要求較高,廣泛應(yīng)用的難度和挑戰(zhàn)性也較大。然而,互聯(lián)網(wǎng)應(yīng)用場景和社交媒體容易產(chǎn)生并積累大量未標記的數(shù)據(jù),而且獲得情緒標簽的成本相對較高,因此無監(jiān)督方法有其施展拳腳的現(xiàn)實需求。例如,研究者Turney[46]在對汽車、銀行、電影及旅游等評論的情感分析中運用了無監(jiān)督方法。他們將評論分成推薦和不推薦兩類,評論的分類是由評論短語中的形容詞或副詞的平均語義取向來進行預測,使用互信息算法(PMI)分別計算文本短語與基本正向/負向情感詞的關(guān)聯(lián)度,以正向關(guān)聯(lián)度減去負向關(guān)聯(lián)度的差值來確定該文本的情感極性,如果其短語的平均語義取向為正,則將其分類為推薦。該算法在410條不同的評論分類中的準確率為74%,介于汽車評論的84%和電影評論的66%之間。除此之外,無監(jiān)督的學習方法還被探索性地應(yīng)用于解決社交媒體的非正式文本交流[47]、表情符號[48]以及中文評論[49]等情感分類問題。
社會網(wǎng)絡(luò)分析。自20世紀70年代以來,傳播學研究者利用社會網(wǎng)絡(luò)分析來理解大眾傳播、健康傳播、組織傳播和人際傳播。社交網(wǎng)絡(luò)由一組節(jié)點和節(jié)點之間的一個或多個關(guān)系組成,節(jié)點是特定的實體,包括個人、媒體、組織、群體、機構(gòu)等,或者是詞語、事件、議題等抽象概念。隨著互聯(lián)網(wǎng)和社交媒體的發(fā)展,出現(xiàn)了很多社會網(wǎng)絡(luò)數(shù)據(jù),包括電郵交換網(wǎng)絡(luò)、博客網(wǎng)絡(luò)、在線社交網(wǎng)絡(luò)、在線文獻引文庫等。這些關(guān)系型數(shù)據(jù)的規(guī)模較大,且結(jié)構(gòu)復雜多變,已經(jīng)成為影響社會個體行為改變和傳播關(guān)系形成的結(jié)構(gòu)性變量和因素。社會網(wǎng)絡(luò)又屬于復雜網(wǎng)絡(luò)(Complex Network)的一種,后者以網(wǎng)絡(luò)的幾何性質(zhì)、結(jié)構(gòu)穩(wěn)定性、形成機制、網(wǎng)絡(luò)演化的統(tǒng)計規(guī)律和動力學機制等為主要研究問題,成為推動網(wǎng)絡(luò)科學和復雜性科學的發(fā)展的前沿領(lǐng)域。在計算機科學中,社會網(wǎng)絡(luò)分析是一個非常新的研究領(lǐng)域,可以看成網(wǎng)絡(luò)知識發(fā)現(xiàn)或網(wǎng)絡(luò)挖掘的一個分支,涉及數(shù)據(jù)挖掘、機器學習、信息抽取與檢索等不同領(lǐng)域。
傳統(tǒng)機器學習的處理的數(shù)據(jù)往往由多個屬性值的向量來表示,而且屬性之間具有獨立性;而社會網(wǎng)絡(luò)數(shù)據(jù)中的節(jié)點并非統(tǒng)計上獨立的采樣點,而是相互之間存在依賴性。因此,使用機器學習技術(shù),需要考慮數(shù)據(jù)實例之間的關(guān)系,由此產(chǎn)生了一個新興的研究方向——鏈接挖掘[50]。常見的鏈路挖掘任務(wù)包括對象排序(object ranking)、群體發(fā)現(xiàn)(group detection)、集群分類(collective classification)、鏈路預測(link prediction)和子圖發(fā)掘(subgraph discovery)等。
以鏈路預測為例,它既是社會網(wǎng)絡(luò)分析的重要研究領(lǐng)域,也是數(shù)據(jù)挖掘領(lǐng)域的研究方向之一,旨在通過節(jié)點屬性和已觀察到的鏈接來預測未知或未來鏈接的存在,研究的思路和方法主要基于馬爾科夫鏈和機器學習。[51]例如,研究者將鏈接預測作為一種監(jiān)督學習任務(wù)來研究,在確定一系列重要的網(wǎng)絡(luò)特征的基礎(chǔ)上,使用不同的性能指標,如準確性,精確度-召回率,F(xiàn)值,平方誤差等,比較不同類別的監(jiān)督學習算法的預測性能,其中包括決策樹(decision-tree)、支持向量機、K近鄰(K-NN)、多層感知器、RBF網(wǎng)絡(luò)等算法,以發(fā)現(xiàn)支持向量機在所有性能指標上均略優(yōu)于其他算法。
隨著信息網(wǎng)絡(luò)數(shù)據(jù)的規(guī)模越來越大,單個網(wǎng)絡(luò)可能包含數(shù)十億個節(jié)點和關(guān)系,傳統(tǒng)的社會網(wǎng)絡(luò)分析方法和技術(shù)難以處理如此龐大而復雜的網(wǎng)絡(luò)推理過程。因此,必須解決網(wǎng)絡(luò)表示學習(Network Representation Learning)的問題,其中網(wǎng)絡(luò)嵌入(network embedding)是學習網(wǎng)絡(luò)中節(jié)點低維表示的一種重要方法,其中心思想就是找到一種映射函數(shù),使得網(wǎng)絡(luò)中的每個節(jié)點轉(zhuǎn)換為低維度的潛在表示。目前流行的方法為無監(jiān)督的深度學習算法,主要包括Deep Walk、LINE、PTE和Node2vec等。[52]Deep Walk(即深度游走)是第一個被提出來使用表示學習方法,本質(zhì)上是隨機游走(Random Walk)和神經(jīng)語言模型中的skip-gram的算法組合;Node2vec則是Deep Walk的擴展,它引入了一個偏向的隨機游走程序,是結(jié)合廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)的領(lǐng)域搜索算法。[53]
最近,在健康傳播研究領(lǐng)域,Node2vec這種先進的深度學習方法已經(jīng)被用于研究在線論壇關(guān)于艾滋病交流的社會支持現(xiàn)象,研究者利用網(wǎng)絡(luò)嵌入(即Node2vec)算法將論壇的每個成員表示為一個密集的向量,并結(jié)合聚類方法識別樣本中不同的子種群和模式。另外,一項討論社交媒體中疫苗接種與人類價值觀關(guān)系的研究[54]也采用了網(wǎng)絡(luò)嵌入的學習方法,基于對人們在Facebook“喜好”頁面上的共現(xiàn)關(guān)系,利用Node2vec算法實現(xiàn)完全無監(jiān)督學習,而不需要任何個體的先驗信息,使同一鄰域的節(jié)點保持“結(jié)構(gòu)”等價性或同質(zhì)性,從而探索反對疫苗接種者的共同興趣。在基于嵌入模型的弱監(jiān)督學習過程中,研究者Raisi &Huang[55]借助Word2vec和Node2vec模型分別將語言和用戶表示為實數(shù)向量,用于實現(xiàn)對社交媒體網(wǎng)絡(luò)欺凌的檢測。
未來與展望
人工智能的迅猛發(fā)展已經(jīng)影響到社會經(jīng)濟發(fā)展的方方面面,促進了科學與行業(yè)應(yīng)用的深度結(jié)合,不僅推動了智能生活和智慧社會的構(gòu)建,也深刻地改變了科學研究的深度和廣度。在新聞業(yè),人工智能已經(jīng)滲透到新聞編輯室及新聞生產(chǎn)過程中,自動化新聞寫作(Automated Writing)已然成為世界新聞業(yè)的新浪潮。但從社會科學研究的角度來說,我們更關(guān)注人工智能技術(shù)的發(fā)展為社會科學研究思維和研究方法所帶來的挑戰(zhàn)和機遇。在人工智能的引擎驅(qū)動下,數(shù)據(jù)挖掘、機器學習和深度學習等領(lǐng)域的知識創(chuàng)新和技術(shù)研發(fā),為大數(shù)據(jù)時代新聞傳播學的新研究范式——計算傳播學的興起和成長插上了想象的翅膀,提高了計算機輔助的研究手段在智能時代的功能和效率,突破了人類研究者在認識和理解復雜社會問題上所需體力、感官和智力的限制和禁錮。從研究方法、工具和策略創(chuàng)新的角度出發(fā),人工智能視域下的計算傳播學研究還存在進一步發(fā)展的空間。
建立可擴展的、廣泛的自動化內(nèi)容分析框架。隨著計算方法的日益普及,不同的研究者在不同的研究課題上進行獨立的研究工作,研究人員可能會使用特定的程序或付費服務(wù)采集數(shù)據(jù),并使用不同的程序處理、計算和展示數(shù)據(jù)。這并不利于科學研究的持續(xù)性和可復現(xiàn)性。因此,我們迫切需要建立人工智能環(huán)境下使用和實現(xiàn)自動化內(nèi)容分析的技術(shù)和操作標準。我們可以借鑒已有研究者(Trilling & Jonkman)[56]提出了擴展自動化內(nèi)容分析框架的四個基本標準和思路,即可擴展性(scalability)、開源(open source)、適用性(adaptability)以及多界面(multiple interfaces)。
(1)可擴展性:當研究數(shù)據(jù)的規(guī)模較大時,研究者用于存儲和計算的軟件和算法必須具有可延展性,既要提高算法的效率(如對小數(shù)據(jù)采用稀疏矩陣),同時也要合理布局數(shù)據(jù)存儲和處理的模塊結(jié)構(gòu),例如,將非關(guān)系型的數(shù)據(jù)庫(NoSQL)作為數(shù)據(jù)綜合處理的后臺。(2)開源:軟件開源和代碼共享有助于科學研究的重復檢驗和錯誤發(fā)現(xiàn),而不是讓算法和操作過程成為“黑箱”,由于文本分析和機器學習的包或組件(如NLTK、scikit-learn、gensim等)的廣泛可用性,因此用Python編程語言實現(xiàn)開源可能是一個不錯的選擇。(3)適用性:與前兩個標準緊密相關(guān),適用性要求框架應(yīng)該足夠靈活、彈性,使不同能力的研究者能夠通過合理的努力調(diào)整和擴展框架,不應(yīng)該存在任何阻止分析來自不同語言和腳本的上下文的障礙,例如傳播學者常常會面臨的來自社交網(wǎng)絡(luò)的表情符號、標簽和混合語言等字符編碼問題;同時,對研究項目的集成能力要求也將有助于提升框架的適應(yīng)性。(4)多界面:雖然很多機器學習的自動化內(nèi)容分析技術(shù)已經(jīng)為人所知,特別是在計算機科學等領(lǐng)域,但是能夠應(yīng)用這些方法的傳播學者卻相對較少。同時,考慮技術(shù)的易用性不能以犧牲強化內(nèi)容分析框架的可擴展性和適用性為代價,所以應(yīng)該提供對框架的多種訪問方法(如web界面、命令行界面、API等),以讓具有不同需求和技術(shù)水平的研究小組都可以輕松駕馭。
為計算傳播研究領(lǐng)域引入更豐富的深度學習策略。傳播學研究的計算范式方興未艾,雖然許多包括自動化文本分類、主題模型、情感分析、網(wǎng)絡(luò)嵌入等機器學習算法已經(jīng)被部分研究者引入傳播研究中,但其應(yīng)用范圍依然十分有限;而且,傳播學者整體上對機器學習的理解和運用程度還不及其他社會科學,如管理學、經(jīng)濟學和社會學等,更不用說計算機科學、網(wǎng)絡(luò)科學等學科的研究者。從現(xiàn)有研究的成果來看,傳播學者對文本或其他數(shù)據(jù)的處理主要采用傳統(tǒng)的有監(jiān)督學習方法,比如最大熵、支持向量機等淺層次學習,而鮮有對深度學習算法(如RNN、CNN、DNN等神經(jīng)網(wǎng)絡(luò)等)的涉獵,雖然深層網(wǎng)絡(luò)結(jié)構(gòu)的學習算法在自然語言處理、語音識別和圖像識別方面已經(jīng)取得很好的應(yīng)用效果。如果這些學習方法被有效地引入計算傳播學的研究當中,將有助于將數(shù)據(jù)處理從傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù)擴展至非正式文本、語音、圖像等非結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)。
由于社交媒體中人們的情感、態(tài)度和觀點很可能以表情、標簽、圖片和視頻等形式存在,一般的自動化文本分類方法難以應(yīng)付這類數(shù)據(jù)。比如,針對短文本的文本分類任務(wù),由于缺少上下文,短文本(如推文、微博等)在表示時通常會遇到數(shù)據(jù)稀疏性和模糊性問題。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學習算法,如基于詞嵌入的深度學習模型,[57]無論是結(jié)合語義聚類信息的有監(jiān)督學習模型,[58]還是無監(jiān)督神經(jīng)語言模型[59]都能夠準確地完成情感分類學習。
對社會媒體中大規(guī)模的視覺內(nèi)容進行情感分析,可以更好地提取用戶對特定事件或話題的情感。一項深度學習的研究[60]采用基線情緒算法來標記網(wǎng)絡(luò)相冊的圖片,提出了一種漸進的策略來微調(diào)深層卷積神經(jīng)網(wǎng)絡(luò)用于圖像的情感分析;還有研究借助網(wǎng)絡(luò)相片的標簽作為統(tǒng)計線索來檢測圖像中描述的情緒,利用卷積神經(jīng)網(wǎng)絡(luò)模型對大型可視化數(shù)據(jù)庫(ImageNet)進行了有效的情感分類[61]。
對視覺內(nèi)容的情感預測是對文本情感分析的極其重要的補充。因此,與單獨對文本和圖像進行情感分析相比,文本和圖像的結(jié)合可以更充分地揭示用戶情感。鑒于此,有研究者開始關(guān)注多媒體(multimedia,即文本、圖像)情緒分析深度學習方法[62],以及基于多核學習算法(multiple kernellearning, MKL)的多模態(tài)(multimodal)情感分析[63]。
不同于文本分類學習的火熱,口頭語言的情感識別(emotion recognition)至今仍然是研究較少的課題,曾有研究者(Nicholson, Takahashi & Nakatsu)[64]提出了一種基于神經(jīng)網(wǎng)絡(luò)的語音情感識別系統(tǒng),利用大型音素詞數(shù)據(jù)庫,實現(xiàn)了說話者與上下文的獨立,該系統(tǒng)對八種情緒的測試識別率達到了50%左右。然而,值得我們注意的是,人工神經(jīng)網(wǎng)絡(luò)的缺陷就是其典型的“黑箱”效應(yīng),即通過訓練的神經(jīng)網(wǎng)絡(luò)所學到的知識及其背后的機制難以為人們所理解,深層神經(jīng)網(wǎng)絡(luò)的集成化又加劇了這一問題解決的難度。所以,這是計算傳播學者在使用深度學習策略并解讀機器學習結(jié)果時應(yīng)該深刻認知的前提和基礎(chǔ)。
跨學科合作推動人工智能與計算傳播研究的深度融合。大數(shù)據(jù)和人工智能時代的計算傳播學,在方法層面的創(chuàng)新是具有跨學科意義的。傳播學在社會科學中一直是“領(lǐng)域?qū)W科”,具有“十字路口”的特征,尤其是新媒體和社交媒體的出現(xiàn),傳播學研究的問題和對象更是諸多學科紛紛涉足的領(lǐng)域,與此相反的是,當前傳播學對其他學科方法的運用和貢獻依然表現(xiàn)乏力。因而,傳播領(lǐng)域向計算科學的演變,將帶來促進該領(lǐng)域內(nèi)部進行方法創(chuàng)新和發(fā)展的希望。
計算傳播學以互聯(lián)網(wǎng)環(huán)境下人類傳播行為為研究客體,有著深厚傳播學傳統(tǒng)和大數(shù)據(jù)研究的基因,借助數(shù)據(jù)科學、網(wǎng)絡(luò)科學的理論和方法發(fā)展起來的計算范式,正在成長為計算社會科學中的一股蓬勃向上的新生力量。人工智能同樣也是跨學科的新興領(lǐng)域,自然科學與人文社會科學的交叉協(xié)作促進了機器學習、深度學習走向更廣闊、更深邃的科研疆域。對于計算傳播學而言,一方面,我們欣喜地看到越來越多具有理工科訓練背景(如物理學、計算機科學、生物學、數(shù)學等)的學者進入這個領(lǐng)域并扮演重要的角色;另一方面,目前機器學習的方法和策略框架尚未為更多計算傳播學者所熟悉和使用,尤其是基于深度學習的社會網(wǎng)絡(luò)和復雜網(wǎng)絡(luò)理論和方法,在鏈接挖掘、網(wǎng)絡(luò)表示學習、網(wǎng)絡(luò)嵌入等方面的學習算法和應(yīng)用技術(shù),亟待更多的研究者去學習、挖掘和擴展。
當然,未來可期,當更多前沿的計算方法和機器學習技術(shù)進入這個領(lǐng)域時,傳播學者將處于獨特的戰(zhàn)略地位,參與甚至領(lǐng)導計算方法的發(fā)展,這些方法有望為整個社會科學的提供關(guān)于人類互動本質(zhì)和傳播效果的新穎的、令人興奮的見解,[65]從而使計算傳播學超越學科的界限而成為真正的“超學科”社會科學研究,也就是以人類交流傳播為基礎(chǔ)性問題,以多學科(主要是傳播學、數(shù)據(jù)科學、網(wǎng)絡(luò)科學等)方法融合為統(tǒng)一的方法框架、以“現(xiàn)象學”意義上的大數(shù)據(jù)為經(jīng)驗基礎(chǔ),實現(xiàn)人工智能與計算傳播學的深度融合和跨越式發(fā)展。
(深圳大學傳播學院副研究員黃文森對本文亦有貢獻)
注釋
[1]Lazer, D.; Pentland, A. & Adamic, L. et al., "Computational Social Science", Science, 2009, 323(5915), pp. 721-723.
[2][5]Van Atteveldt, W. and Peng, T. Q., "When Communication Meets Computation: Opportunities, Challenges, and Pitfalls in Computational Communication Science", Communication Methods and Measures, 2018, 12(2-3), pp. 81-92.
[3][22]羅?。骸队嬎闵鐣茖W與人工智能》,《貴州師范大學學報(社會科學版)》, 2016年第6期,第40~42頁。
[4]Shah, D. V.; Cappella, J. N. & Neuman, W. R., "Big Data, Digital Media, and Computational Social Science: Possibilities and Perils", The ANNALS of the American Academy of Political and Social Science, 2015, 659(1), pp. 6-13.
[6]Peng, T. Q.; Liang, H. & Zhu, J. H., "Introducing Computational Social Science for Asia-Pacific Communication Research", Asian Journal of Communication, 2019, 29(3), pp. 205–216.
[7]羅衛(wèi)東:《跨學科社會科學研究:理論創(chuàng)新的新路徑》,《浙江社會科學》,2007年第2期,第35~41頁。
[8]Poole, M. S., "Generalization in Process Theories of Communication", Communication Methods & Measures, 2007, 1(3), pp. 181-190.
[9][24][65]Hilbert, M.; Barnett, G. & Blumenstock, J. et al., "Computational Communication Science: A Methodological Catalyzer for a Maturing Discipline", International Journal of Communication, 2019, 13, p. 23.
[10]Zhu, J. H.; Zhou, Y. & Guan, L. et al., "Applying User Analytics to Uses and Effects of Social Media in China", Asian Journal of Communication, 2019, 29(3), pp. 291-306.
[11]Webster, J. G.; Phalen, P. F. and Lichty, L. W., Ratings Analysis: Audience Measurement and Analytics, 4th Edition, UK: Routledge, 2014.
[12][17]沈浩、黃曉蘭:《大數(shù)據(jù)助力社會科學研究:挑戰(zhàn)與創(chuàng)新》,《現(xiàn)代傳播(中國傳媒大學學報)》,2013年第35卷第8期,第13~18頁。
[13]Zumel, N. and Mount, J., Practical Data Science with R, Manning Publications Co., 2014.
[14]Tony; Stewart & Kristin, "The Fouth Paradigm: Data-Intensive Scientific Discover", Microsoft Research, 2009.
[15]方錦清、汪小帆、鄭志剛等:《一門嶄新的交叉科學:網(wǎng)絡(luò)科學(上)》,《物理學進展》, 2007年 27卷第3期,第239~343頁。
[16]Watts, D. J., "A Twenty-first Century Science", Nature, 2007, 445(7127), p. 489.
[18]米加寧、章昌平、李大宇、林濤:《第四研究范式:大數(shù)據(jù)驅(qū)動的社會科學研究轉(zhuǎn)型》,《社會科學文摘》,2018年第4期,第20~22頁。
[19]王延飛、劉記、趙柯然、陳美華:《智能信息技術(shù)發(fā)展現(xiàn)狀、趨勢與影響透視》,《情報學進展》,2018年第12卷,第117~153頁。
[20]姚艷玲、開濱:《近五十年國際上人工智能領(lǐng)域跨學科演變研究》,《計算機工程與應(yīng)用》,2017年第53卷第19期,第8~16頁。
[21]Spiegeleire, S.; Maas, M. & Sweijs, T., Artificial Intelligence and the Future of Defense: Strategic Implications for Small and Medium Sized Force Providers, The Hague Centre for Strategic Studies, 2017.
[23]王玨、石純一:《機器學習研究》,《廣西師范大學學報(自然科學版)》,2003年第2期,第1~15頁。
[25]Arendt, F. and Karadas, N., "Content Analysis of Mediated Associations: An Automated Text-analytic Approach", Communication Methods and Measures, 2017, 11(2), pp. 105-120.
[26]Scharkow, M., "The Maticcontent Analysis Using Supervised Machine Learning: An Empirical Evaluation Using German Online News", Quality & Quantity, 2013, 47(2), pp. 761-773.
[27]Ceron, A.; Curini, L. & Iacus, S., "To What Extent Sentiment Analysis of Twitter is Able to Forecast Electoral Results? Evidence from France, Italy and the United States", ECPR General Conference, 2013, pp. 5-8.
[28]何清、李寧、羅文娟、史忠植:《大數(shù)據(jù)下的機器學習算法綜述》,《模式識別與人工智能》,2014年第27卷第4期,第327~336頁。
[29]余凱、賈磊、陳雨強、徐偉:《深度學習的昨天、今天和明天》,《計算機研究與發(fā)展》,2013年第50卷第9期,第1799~1804頁。
[30]Le Cun, Y.; Boser, B. & Denker, J. S. et al., "Back Propagation Applied to Hand Written Zip Code Recognition", Neural Computation, 1989, 1(4), pp. 541-551.
[31]Krizhevsky, A; Sutskever, I. & Hinton, G. E., "Image Net Classification with Deep Convolutional Neural Networks", Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.
[32]Casas, A. and Williams, N. W., "Images that Matter: Online Protests and the Mobilizing Role of Pictures", Political Research Quarterly, 2019, 72(2), pp. 360-375.
[33]梅立潤:《國內(nèi)社會科學范疇中人工智能研究的學術(shù)版圖》,《內(nèi)蒙古社會科學(漢文版)》,2019年第40卷第3期,第203~212頁。
[34]Lacy, S.; Watson, B. R., & Riffe, D. et al., "Issues and Best Practices in Content Analysis", Journalism & Mass Communication Quarterly, 2015, 92(4), pp. 791-811.
[35]Krippendorff, K., Content analysis: An introduction to Its Methodology, Sage Publications, 2018.
[36]Mahrt, M. and Scharkow, M., "The Value of Big Data in Digital Media Research", Journal of Broadcasting & Electronic Media, 2013, 57, pp. 20-33.
[37]Pilny, A.; McAninch, K. & Slone, A., et al., "Using Supervised Machine Learning in Automated Content Analysis: An Example Using Relational Uncertainty", Communication Methods and Measures, 2019, pp. 1-18.
[38][40]Vander Meer and Toni GLA, "Automated Content Analysis and Crisis Communication Research", Public Relations Review 42.5, 2016, pp. 952-961.
[39]Jonkman and Jeroen, "Verhoeven, Piet, From Risk to Safety: Implicit Frames of Third-party Airport Risk in Dutch Quality Newspapers between 1992 and 2009", Safety Science, 2013, 58, pp. 1-10
[41]Feldman, R., "Techniques and Applications for Sentiment Analysis", Communications of the ACM, 2013, 56(4), pp. 82-89.
[42]鐘智錦、王童辰:《大數(shù)據(jù)文本挖掘技術(shù)在新聞傳播學科的應(yīng)用》,《當代傳播》, 2018年第202卷第5期,第14~20頁。
[43]Vargo, C. J; Guo, L. & McCombs, M. et al., "Network Issue Agendas on Twitter During the 2012 US Presidential Election", Journal of Communication, 2014, 64(2), pp. 296-316.
[44]鄭雯、桂勇、黃榮貴:《論爭與演進:作為一種網(wǎng)絡(luò)社會思潮的改革開放——以2013~2018年2.75億條微博為分析樣本》,《新聞記者》,2019年第1期,第51~62頁。
[45]Ortigosa, A.; Martín, J. M. & Carro, R. M., "Sentiment Analysis in Facebook and Its Application to E-learning", Computers in Human Behavior, 2014, 31, pp. 527-541.
[46]Turney, P. D., "Thumb Support Humbsdown?: Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002, pp. 417-424.
[47]Paltoglou, G. and Thelwall, M., "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media", ACM Trans Intell Syst Technol (TIST), 2012, 3(4), p. 66.
[48]Hu, X.; Tang, J. & Gao, H. et al., "Unsupervised Sentiment Analysis with Emotional Signals", Proceedings of the 22nd International Conference on WorldWideWeb. ACM, 2013, pp. 607-618.
[49]Zhai, Z.; Xu, H. & Jia, P., "An Empirical Study of Unsupervised Semantic Classification of Chinese Reviews", Tsinghua Science and Technology, 2010, 15(2), pp. 133-137.
[50]Getoor, L. and Diehl, C. P , "Link Mining: A Survey", Acm Sigkdd Explorations Newsletter, 2005, 7(2), pp. 3-12.
[51]呂琳媛:《復雜網(wǎng)絡(luò)鏈路預測》,《電子科技大學學報》,2010年第5期,第651~661頁。
[52]Qiu, J.; Dong, Y., & Ma, H. et al., "Network Embedding A Smatrix Factorization: Unifying Deep Walk, Line, Pte, and Node2vec", Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018, pp. 459-467.
[53]Grover, A. and Leskovec, J., "Node2vec: Scalable Feature Learning for Networks", Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, August 2016, 13-17, pp. 855-864.
[54]Kalimeri, K.; GBeiró, M. & Urbinati, A., et al., "Human Values and Attitudes towards Vaccination in Social Media", Companion Proceedings of The 2019 WorldWideWeb Conference. ACM, 2019, pp. 248-254.
[55]Raisi, E. and Huang, B., "Co-trained Ensemble Models for Weakly Supervised Cyberbullying Detection", NIPS Workshop on
Learning with Limited Labeled Data, 2017.
[56]Trilling; Damian; Jonkman & Jeroen, G. F., "Scaling up Content Analysis", Communication Methods and Measures, 2018, 12(2/3), pp. 158-174.
[57]Mikolov, T.; Sutskever, I. & Chen, K. et al., "Distributed Representations of Words and Phrases and the Incompositionality", Advances in Neural Information Processing Systems, 2013, pp. 3111-3119.
[58]Wang, P.; Xu, J. & Xu, B. et al., "Semantic Clustering and Convolutional Neural Network for Short Text Categorization", Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Volume 2, Short Papers, 2015, pp. 352-357.
[59]Severyn, A. and Moschitti, A., "Twitter Sentiment Analysis with Deep Convolutional Neural Networks", Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015, pp. 959-962.
[60]You, Q.; Luo, J. & Jin, H. et al., "Robust Image Sentiment Analysis Using Progressively Trained and Domain Transferred Deep Networks", Twenty-ninth AAAI Conference on Artificial Intelligence, 2015.
[61]Chen, T.; Borth, D. & Darrell, T. et al., "Deep Sentibank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks", arXiv preprint arXiv: 1410. 8586, 2014.
[62]Cai, G. and Xia, B., "Convolutional Neural Networks for Multimedia Sentiment Analysis", Natural Language Processing and Chinese Computing, Springer, Cham, 2015, pp. 159-167.
[63]Poria, S.; Peng, H. & Hussain, A. et al., "Ensemble Application of Convolutional Neural Networks and Multiple Kernel Learning for Multimodal Sentiment Analysis", Neuro Computing, 2017, 261, pp. 217-230.
[64]Nicholson, J.; Takahashi, K. & Nakatsu, R., "Emotion Recognition in Speech Using Neural Networks", Neural Computing & Applications, 2000, 9(4), pp. 290-296.
責 編/周于琬
Artificial Intelligence and Computational Communication
Chao Naipeng
Abstract: Artificial intelligence (AI) has swept the world, not only changing the way of human life and communicative behaviors, but also changing the way people observe and understand the world. The computational paradigm driven by AI and big data has extended to the field of social science. Influenced and inspired by the traditional quantitative research paradigm of communications, data science and network science, computational communication is developing rapidly and has become one of the most important branches of computational social science. From data mining to machine learning, and to deep learning, AI algorithm and technology has greatly improved the accuracy and efficiency of big data processing. At present, by combining with the unsupervised and supervised learning methods, automatic content analysis, emotional analysis and social network analysis can provide computational communication with research strategies and experience in terms of data processing, integration and analysis. In the future, by developing and establishing an extensible automatic content analysis framework and system, introducing more in-depth learning strategies and innovating interdisciplinary research methods, it will help AI and computational communication to achieve deeper integration in a broader interdisciplinary field.
Keywords: Computational communication, artificial intelligence, machine learning, deep learning
巢乃鵬,深圳大學傳播學院院長、教授、博導。研究方向為網(wǎng)絡(luò)傳播與新媒體研究、計算傳播學。主要著作有《網(wǎng)絡(luò)受眾心理行為研究:一種信息查尋的研究范式》《網(wǎng)絡(luò)廣告原理與實務(wù)》《網(wǎng)絡(luò)媒體經(jīng)營與管理》等。