人文大資料及其在數字人文領域中的應用

人文大資料及其在數字人文領域中的應用

陳靜

南京大學藝術學院,江蘇 南京 210031

摘要

人文大資料是指基於數字化或者數字生成的,被認為是人文藝術範疇的大規模資料集。與科學、工程及社會科學資料相比,人文大資料是一種“深層資料”,其來源更加混雜、格式更加多樣、維度更加多元、資料層次更加複雜、內涵更加豐富,因此在資料分析過程中存在較大困難。針對人文大資料的特點,結合數字人文研究應用中的關鍵問題,突出人文大資料作為一個集體概念的複雜情況及可能存在的誤區,彰顯人文大資料的價值。

關鍵詞

人文大資料 ; 數字人文 ; 深度資料 ; 智慧資料

人文大資料及其在數字人文領域中的應用

論文引用格式:

陳靜。 人文大資料及其在數字人文領域中的應用[J]。 大資料, 2022, 8(6): 3-14。

CHEN J。 Humanities big data and its application in the field of digital humanities[J]。 Big Data Research, 2022, 8(6): 3-14。

人文大資料及其在數字人文領域中的應用

0 引言

長期以來,人文學者習慣稱呼其研究物件為文字、影象,或是音樂、電影,而非資料。他們主要透過書籍、圖書館、檔案館、博物館,甚至是手工記錄和拍攝等途徑獲取材料,再透過經驗性閱讀、主觀分析和語言解釋的方式加以研究。儘管人文研究中也會涉及一定的資訊採集和基於資料分析的定量研究,但人文學者習慣處理基於印刷(print-based)或者實物的材料,並將之視為唯一可信且權威的依據,再以經多年訓練和研究獲得的學識為基礎,展開具有強烈經驗色彩的個人研究。這種傳統研究除了強調人文研究需要長時間知識生產的積累、承襲外,還高度依賴學者作為個體對材料的佔有和處理能力,以及材料本身的原真性和有效性。甚至在一定意義上,材料的質量、真假以及豐富性對於一項研究具有決定性的意義。然而,從20世紀中葉以來,資訊通訊技術(information and communications technology,ICT)及相關基礎設施已經深刻地改變了人文學者獲取材料、分析內容、書寫文字、組織學術交流的方式,重塑了當前的學術生態環境。數字技術及數字化使印刷物、手寫書稿、非正式出版檔案、繪畫、照片、影片、聲音檔案、建築、雕塑、壁畫、紡織物、器物等多種材質、多種型別的人造物從物質實體變成了虛擬數字,與大量數字生成(digital-born)的內容一起成為人文學者的新研究物件。數字檔案庫、文字和影象資料庫的出現使人文學者可以不用親自到訪千里之外的圖書館、博物館、檔案館就可以獲取所需要的資訊;搜尋和下載功能使研究者可以在成千上萬的資料中快速地瀏覽和找到有效資訊並“據為己有”;文字處理和管理軟體改變了研究者組織材料、撰寫文章的方式,使研究過程更多地成了“介面操作”;甚至研究者的思考方式也受網路化知識組織方式的影響而變得超文字化,使研究者更多地關注到不同議題和材料之間的關聯性

。這樣的新一輪知識生產方式的變革最集中的體現就是“數字人文”(digital humanities)作為一種跨學科研究領域的出現。數字人文強調將數字科技與人文研究進行結合以推動人文研究轉型,“其面對的是未來的知識體系及方法的構建,其迴應的是大資料時代基於學者導向(research oriented)的研究需求與基於資源共享的網路基礎設施建設(cyberinfrastructure),其建設的是面向數字出生(born-digital)新生代人類的認知方式系統與路徑”

。儘管作為一個新興的研究領域,“數字人文”諸多議題尚在討論之中,但從其發展歷程來看,資料的獲取和資料本身都對相關研究的開展及研究方法的提出起到了至關重要的作用。特別是大資料和人文資料的關係,以及大資料研究方法在數字人文研究領域中的應用,也是近年來數字人文研究中的焦點問題。本文將聚焦“人文大資料”這一具體物件,將之放置於“數字人文”的研究框架與範圍內,對其來源及產生方式進行描述,並透過與自然科學和社會科學資料進行比較,對其特點進行說明,進而對數字人文因人文大資料及其方法的特殊性而呈現出的多樣性問題進行探討。

1 人文大資料

大資料指的是超出了常用軟體工具在可容忍的時間內捕獲、管理和處理資料能力的資料集。自21世紀中葉以來,資料的收集和處理已經成為計算機、生物醫學、資訊科學、經濟金融等學科的基本研究手段。甚至有學者指出,大資料帶來的是一次新的認識論和正規化轉型,從知識驅動(knowledge-driven)轉向資料驅動(data-driven)。而資料驅動的主要特徵就是資料密集(data-intensive)、統計探索(statistical exploration)和資料探勘(data mining)。套用“大資料”的通用定義,即“超出了常用軟體工具在可容忍的時間內捕獲、管理和處理資料能力的資料集”,人文大資料可以被定義為“基於數字化或者數字生成的,被認為是人文藝術範疇的大規模資料集”。人文領域中的大資料可以分為兩類:一類是透過對人文物件數字化(資料採集)的方式獲取的各類資料,這類資料以美術館、圖書館、檔案館和博物館等文化機構的文化遺產資料為代表,規模龐大且型別多樣,在被數字化之前就已經具備了體量大、資料型別多樣且價值高等特點,這些資料主要來自手抄或印刷文獻、器物、建築、繪畫、模擬方式記錄的聲音、影片等人造物,代表人類物質與精神文明的歷史成就;另一類則是數字技術出現以後不斷生成的數字文字、影象、影片、音訊以及3D模型等基於各類數字軟體的多媒體資料,這類資料以部落格、Facebook、Instagram這類網路社交媒體的文字和影象為代表,體現了更寬泛意義上的“數字文化”(digital culture),是數字化時代對人類文化藝術活動的記錄。此外,還有一些資料,在傳統意義上被認為是非人文社會科學領域的資料,但其被應用到了人文研究之中,因此也開始被研究者認為是人文大資料,如地理及空間資訊資料。歷史地理資訊系統早在20世紀90年代已經出現,其旨在運用地理資訊系統(geographic information system,GIS)來研究歷史問題。近年來歷史地理資訊系統得到了進一步發展,從社會史向其他人文科學領域拓展,形成“人文GIS”,與“空間人文”形成了共謀。後者主要的特徵之一就是向人文內容進行滲透,更深一步地對人文材料內部進行挖掘(如對文學作品中蘊含的地理及空間特徵進行的研究)。而在人文研究領域,也有學者開始將地理系統或者空間作為研究方法,開展“文學地圖”或“在地研究”。這些都是人文研究在數字技術時代,尤其是大資料時代出現的新現象。

2 人文大資料的“大”與“小”

人文資料可以很大。若將人文藝術領域跨越千年的各種型別的材料都加以數字化,那所形成的資料集將相當可觀。以世界上最大的圖書館——美國國會圖書館為例,截至2021年,該館館藏超過17。3億件,其中2 200萬件藏品在“美國記憶”(American memory)專案的資助下被數字化,按照估算大概是9 PB,包括從公元10世紀至今的、來自66個國家的印刷書籍、期刊、照片、錄音、報紙、地圖、電影、手稿、法律文書、個人敘述、軟體、網頁、網路檔案庫和3D物件等多種格式的檔案。儘管這個數字化數量已經相當驚人,但尚不能代表人類文明的總量。類似“美國記憶”的數字化專案在過去幾十年間一直在進行中,積累了大量的人文大資料,也為相關研究者開展進一步的資料分析提供了基礎條件。另一個人文大資料的例子是谷歌的N-gram專案,以讓·巴蒂斯特·米歇爾為首的研究團隊與谷歌圖書合作開展的“基於百萬數字圖書的文化量化分析”基於谷歌大規模數字化書籍的語料庫開展計算分析,並以視覺化方式呈現人類文化的發展趨勢。研究團隊使用自然語言處理中較常用的N-gram模型,以單個詞或多個詞為單位,對來自全世界的大學圖書館的1 500萬本數字化圖書中的,從1800年到2000年的500萬本,共計7種語言500億字的文字進行了統計分析,對英語詞彙量變化、英語語法的變遷、集體記憶與健忘、大眾聲望、審查檢測等文化議題進行解讀。由於該專案是基於200年間的詞頻波動進行觀察的,因此得出的一些結果是非常具有啟發性的。例如英語書籍中最常使用的詞彙實際上比權威字典的要多,而且常用詞中大約63%的英文詞彙在齊夫定律(Zipf’s law)的測量下是低頻使用詞,更有52%的詞彙是沒有被收錄到詞典中的。這種透過對大資料集進行定量分析,從而學習人類文化的方式被命名為“文化測量”(cultural analytics)模式,相關成果於2011年在Science上發表。此後,不少學者也將此模式用於不同的文化資料集。例如卡萊弗·李塔魯(Kalev Leetaru)對30年間全球的本地新聞進行了調性和地理分析,併成功預測了2011年在阿拉伯半島發生的重大政治事件及該事件發生的地點。這種規模的資料集使從大規模尺度上對文化事件、趨勢、變化進行計算測量成為可能,實現了傳統人文學科無法企及的效果。

但對於人文資料而言,大資料的5個V(volume、variety、veracity、value、velocity)中的“volume”(體量大)是一個相對的概念。對於很多人文研究來說,資料集不會很大(如文字資料),幾十萬字甚至上百萬字的文字也不過以KB為單位,相比生物資料之類的大資料而言,算得上小。但是,這些文字包含的內容及其可供研究的問題,並不能用體量來衡量。回顧數字人文的發展歷史,很多“小”文字語料扮演了非常重要的角色。

“數字人文”在西方一般被認為有兩個源頭:人文計算(humanities computing)與文字批評(textual critics)。而文字批評以電子編輯(electronic editing)為代表。人文計算的開創往往會追溯到義大利神父羅伯託·布薩(Roberto Busa)在1949年開啟的、與國際商業機器公司(International Business Machines Corporation,IBM)合作的The Index Thomisticus專案。這個專案主要是利用IBM當時基於穿孔卡和磁帶儲存的計算機對中世紀神學家托馬斯·阿奎納(Thomas Aquinas)寫作的及與其相關的179部、1 000多萬字古典文字進行處理,半自動地生成中世紀拉丁文字詞的索引。該專案在20世紀70年代出版了56卷7萬多頁的印刷物,其中包括10卷索引(index)、31卷托馬斯·阿奎納作品索引大全(concordances)、8卷相關作者的索引大全以及7卷原初文字的重印本。該專案在1989年以CD-ROM形式出版後,在2005年釋出了線上版本,在2006年啟動了對全部語料庫的語義分析。整個專案持續多年,耗費巨大,除了成噸的卡片以外,還有長度達到1 500 km的磁帶、1萬小時的計算機工作時長和100萬小時的人工工作時長。無論是從文字還是從技術上而言,這個專案都是具有開創性意義的, 其塑造了一種新型的人文學者與科學家(工程師)合作模式的典範,也奠定了計算機處理人文文字的一些共性,如文字分析以語料分析為基礎、半自動化或者自動化程式處理、索引作為語料的基礎資料、多學科的跨學科性等。但倘若純粹地從資料量上來看,這個“不僅是第一個,也是有史以來最大的數字人文專案之一,儘管按照今天的標準,其結果可能被認為是‘小’”——其光碟內的資料不過1。4 GB。但可以確定的是,由此開啟的是人文研究,乃至知識生產歷史中的一個新時代。托馬斯·阿奎納專案的開啟和實施,不僅標誌著人文計算作為一個新興領域的出現,更標誌著人文研究中使用計算機運算的技術已經形成一套理論化的思考,也開啟了一系列基於文字索引的語料庫和程式的計算語言學專案,其中包括倫敦大學學院(University College London)和擎天計算實驗室(The Atlas Computer Laboratory)開發的COCOA二代、牛津語彙索引程式OCP和希臘語庫TLG等。這些文字處理程式主要致力於語料庫的建設與對文字建立、維護和儲存方面的程式進行聯合開發與推廣。這種取向在1950—1960年影響了不少文學研究者利用計算機處理機器可讀文字的內容,對大體量的作品做出分析,如關於聯邦黨人信件的作者研究堪稱經典。

由另一個源頭即文字批評所延伸出來的數字人文脈絡則更關注從文獻學的角度利用資訊科技對文字進行深度編輯與標註。最重要的成果是文字編碼倡議(Text Encoding Initiative,TEI)的《電子文字編碼和交換指南》(guidelines for electronic text encoding and interchange)。TEI是一個集體開發和維護數字形式的文字表示標準的聯盟,其主要成果是一套規定了機器可讀文字的編碼方法的準則。該準則主要被應用於人文學科、社會科學和語言學領域。對於數字人文領域而言,TEI提供了一種機器讀取人文文字的規範標準,因其靈活性、綜合性和可擴充套件性等特點,在很多圖博檔機構中得到了應用。此外,文字批評非常重視對文字的深度挖掘,因此尤其強調透過標註的方式對非結構化資料進行結構化,或生成元資料,在元資料的基礎上進行數字存檔和知識再生產。例如羅塞蒂檔案(the Rossetti Archire)或威廉姆·布萊克(William Blake)檔案這樣的專案就很好地踐行了這樣的路徑。特別是對於文字物質性的重視,使這些檔案在數字化的過程中儘可能地考慮到了印刷文字的專有屬性,並透過數字標註的方式加以呈現。在此類專案中,物件本身的數量並不多(如威廉姆·布萊克檔案中收錄的作品數量不過100多幅),但每一幅的元資料不僅包括了作品資訊資料,還包括對影象內容的標註和文字內容的轉錄。這種對小資料集展開的深度標引和研究,也形成了數字人文中的重要內容。特別是隨著20世紀90年代中後期數字技術的更新迭代、數字化內容的不斷增加,計算語言學逐漸從人文計算中獨立出去,這種研究趨勢得到了更廣泛的應用,影響遍及各個人文學科,也顯示著“數字人文”新階段不再延續早期的發展路徑。大約在2000年以後,“數字轉向”(digital turn)時代到來,個人計算機變得十分普遍,成為大多學者可以方便使用的裝置,如OMEKA、Voyant這樣的專門面向人文學者的資料檔案化、文字分析視覺化的工具也被開發了出來。

從西方形成的人文計算到數字人文這個脈絡來看,實際上我國在20世紀下半葉就開展了大量基於語料庫的計算語言學研究,如從1979年到1983年,就有4個大型的現代漢語語料庫專案在我國落地,即武漢大學的漢語現代文學作品語料庫(1979年, 527萬字)、北京航空航天大學的現代漢語語料庫(1983年,2 000萬字)、北京師範大學的中學語文教材語料庫(1983年,106。8萬字)和北京語言學院(1996年更名為北京語言大學)的現代漢語詞頻統計語料庫(1983年, 182萬字)。這些資料庫和之後的國家級語料庫、大規模真實文字語料庫等專業資料庫主要針對語言學方面的研究。面向更多領域學者的中文學術資料庫多為圖博檔甚至是商業公司開發的基於典籍的文字影象或者全文資料庫,如由香港迪志文化出版有限公司推出的文淵閣四庫全書的電子版、由北京大學等高校與北京愛如生數字化技術研究中心合作建立的“中國基本古籍庫”。與此同時,還有一些人文學者從研究需求出發開發的數字專案,如北京大學中文系開發的全唐詩分析系統與全宋詩分析系統、先在香港中文大學後遷至臺灣政治大學的“中國近現代思想史研究專業資料庫(1830—1930)”等。在這些專案中,資料規模雖大,型別各有不同,但資料庫限定性比較強,往往只能進行檢索,無法下載或者進行更深入的研究。關於此類問題,在近年來關於文獻數字化的相關討論中已經非常多了。尤其是研究者們已經關注到了以往數字化工作中的一些問題,如傳統的古籍數字化大多是對原始紙質文獻的圖片展示,僅可檢索編目資料,對內容僅以瀏覽為主,缺少全文提供,使用者也無法按照自身的研究需求對資料進行深度挖掘和再利用等。相較而言,“中國曆代人物傳記資料庫”(China biographical database,CBDB)和德龍(Donald Sturgeon)開發的“中國哲學書電子化計劃”(Chinese text,Ctext)則兼顧了大資料與人文研究的屬性。雖然CBDB的單機下載版總共不過幾十MB(SQlite格式),但其中收錄了超過52萬位歷史人物的傳記資料,每個人物條目都包含了人名、時間、地址、職官、入仕途徑、著作、社會區分、親屬關係、社會關係、財產、事件等資料,可供學者們開展統計分析、地理空間分析與社會網路分析等。值得一提的是, CBDB不僅涉及了中文文獻的數字化、資料化(datafication)、資料清洗、資料分析、資料庫搭建、軟體開發以及資料視覺化等一系列的資料全流程工作,而且非常仔細、詳盡地記錄和說明了整個資料庫的發展歷史、技術開發和資料處理過程,對其他人文大資料專案的建設極具參考價值。

3 人文大資料的多樣性與語境化

葛劍雄教授曾經在講座中提到,“運用現代科學技術,我有兩個衡量標準,那就是,首先它最後的精確度有沒有其他方法加以驗證,其次它的結果有沒有意義,能不能改變一個重大的學術論斷。我發現大資料在歷史研究中還是沒有太大必要,因為我們掌握的資料不夠,而且很多是二手甚至三手資料,盲目運用的結果就是可信度越來越低,誤差也會越來越大,到最後還是需要人來做出判斷和取捨,這是沒有必要的”。這裡他談到關於大資料應用於歷史研究的必要性,首先談到的是資料的量不足,其次是資料的可信度低。關於資料的量,這點前文已經討論過,對於人文資料而言,量並不是最重要的,過度強調大,其實是對大資料的一種化約式(reductive)的誤讀。實際上,大資料的多樣性(variety)和真實性(veracity)往往發揮著更加重要的作用。

首先,人文大資料的來源決定了這些資料從一開始就會是多種多樣的。例如美國國會圖書館在線上釋出時,不僅考慮到原真性,釋出了檔案數字化後的影象檔案,還考慮到了人文研究者的分析需要,提供了數字檔案的元資料,以及包括了XML格式的標記資料和TXT格式的全文資料,這體現了人文資料的多樣性和特殊性。異質的資料往往同時被應用於同一個人文研究專案中,而學者就是要利用這些異質資料集之間的聯絡和重疊進行各種推斷。對於人文大資料而言,多樣性還意味著這些資料集結構的多樣性。很多時候,這些不同的資料集無法被整合成一個統一的資料集,然後用一種方法來分析。甚至,同一種演算法針對不同的資料集也可能需要訓練不同的模型。但人文資料的異質性是人文大資料最明顯的優勢,也是人文學科資料最大的挑戰。有了這些來源不同、格式不同的資料,研究者才能更加靈活地組合,以便從中獲取最大的研究效果。這也是人文大資料與社會科學大資料、科學大資料的區別之一。

其次,大資料的真實性和準確性需要一定的人工干預。雖然更大量、多樣的資料才可以彌補以往小樣本、抽樣資料的片面與偏差,但正如葛劍雄教授所言,對資料的盲目應用往往是導致資料誤差的重要原因。布薩神父在論及他為何在阿奎那專案開始後試圖引入計算機時回憶說,“我相信計算機的速度和準確度將對這項研究中涉及的資料彙編工作有很大幫助”,但他也關注到了任何關於語言學資料的解釋都是歸納式的,更多的是基於已有的經驗證據及支援可靠結論的文獻的完整度,因此布薩非常關注源資料的質量。中國學者在處理大規模真實文字語料時也發現了類似的問題,如宋柔在統計語料庫中的詞語接續對時發現,隨著語料庫規模的增大,新增加的接續對中的垃圾逐漸會佔大部分甚至絕大部分。垃圾主要分佈在統計到的低頻度接續對中,主要來源是分詞中專名識別錯誤。實際上資料一旦達到一定的規模,其中難免存在錯誤、冗餘資料,對於傳統的統計學或者資料科學來說,合理範圍內的偏差是可以接受的,但對於人文研究而言,會因為文字在光學字元識別(optical character recognition,OCR)過程中出現的亂碼而被批評。在這個問題上,如何在儘可能擴大資料規模的同時,兼顧資料的多樣性,並確保其真實性,就成為人文大資料處理中的關鍵。大部分的數字人文專案會特別關注資料準確性的問題。

再次,人文資料需要語境。這種語境一方面體現在人文資料不僅僅是被提取和計算的物件,也要被放回原初語境,如放回文字的上下文中進行觀察和解讀;另一方面則是因為人文研究談及的社會或歷史“語境”是非常大的範圍。在概念史研究學界曾經有過一場爭論。金觀濤、劉青峰兩位老師在1997年啟動了一個名為“特定現代中文政治概念形式的量化研究”的專案,意圖對新文化運動期間最具代表性的12箇中文期刊中的文章進行量化統計和分析。隨後,兩位老師意識到現代重要政治觀念的研究開展是可以透過對更大範圍內的文字進行檢索和分析進行的,由此建立了“中國近現代思想史研究專業資料庫(1830—1930)”,並將基於該資料庫的相關研究以《觀念史研究:中國現代重要政治術語的形成》為名出版,其中包括了對近代思想史中多個(組)現代重要觀念進行的基於關鍵詞的研究。此後有學者提出,基於資料庫對歷史進行研究受到資料庫收錄資料的限制,其中很多資料沒有被收錄,會影響到研究的真實性。很多語境化的資訊,如資訊及觀念的傳播方式、物質構成、商業運作、讀者獲得途徑、讀者的閱讀接受情況等,無法用精準的時間或數字來表現,企圖用資料多少或出現頻率來揭示,不但存在極大的難度,更存在致命的缺陷。兩位老師隨後在迴應中明確回覆,其所做的研究也都是在資料庫所收錄的文獻範圍內開展的,因此如若認為更大規模資料的收錄會影響目前的研究結果,則需要進行實際的研究加以驗證。而且,以關鍵詞為中心的觀念史研究是典型的人文學科,只不過引進了資料庫方法:“資料庫在人文研究中只有輔助作用,它為研究者提供了極大的便利,也提出了更高的要求。它只是在對關鍵詞的使用情況和型別分析這一素材收集和整理環節上提供了工具,而研究者在此基礎上,要以人文學科的基本正規化和自己的研究素養來分析這些資料”。這場論辯中批評者的主要懷疑點在於一定數量的資料(哪怕是一億兩千字的資料量)及基於該資料集的一種統計分析能否體現歷史的真實?其實回到大資料本身,或許就能有更好的理解。不存在任何資料集是“全資料”,事實上,可能永遠都沒有辦法做到全資料。那麼基於大資料的研究與所有以往的研究一樣,都是在一定的範圍內基於一定的物件進行的研究,因此侷限性是不可避免的。那麼這裡實際上要回答的是,基於部分資料,而且是相當大的資料集的研究是否有效?這個答案也是毋庸置疑的,實際上,哪怕是基於某一種單一來源的資料集,當體量大到一定程度時,從資料的角度而言,其與基於多個數據來源的小資料集的研究都一樣具有意義。衡量的標準不在於資料本身,而在於研究的結論本身。而驗證結論的方法是定量還是定性也是沒有唯一性的。但提出批評是需要一定的條件的,尤其是對定量分析的批評,最好是要建立在對同樣資料集的驗證實驗的基礎上,而這一點往往更多地體現在自然科學研究中,而非人文研究。同時,資料、文字的語境與歷史、社會的語境並非同一層面。正如批評者所言,並非所有的歷史、社會語境都可以文字化、資料化,因此,也並非所有的人文研究都需要依賴資料分析。在這個意義上,有學者在討論“什麼不是數字人文”“什麼是數字人文”以及“什麼是好的數字人文”中都提到了,數字人文或者說基於人文大資料的人文研究,重要的並不是工具或者方法論本身,而是究竟用這樣的資料和工具解決什麼樣的人文問題。人文性在數字人文研究中是第一位的。可以說,這樣的討論體現了人文學界對於大資料及大資料研究方法的一種內省和警覺。正如葛劍雄教授提出的,要考量“它的結果有沒有意義,能不能改變一個重大的學術論斷”,人文研究的問題還是要回到人文的領域裡進行檢驗。

4 深層資料與智慧資料

那麼,理想的人文大資料是什麼樣的?不妨從與社會科學的比較開始分析。通常社會學、經濟學、政治學、傳播研究和營銷研究被認為更適合使用定量方法(即用於分析資料的統計、數學或計算技術),而人文學科,如文學研究、藝術史、電影研究和歷史,則傾向於使用詮釋學、參與觀察、厚重描述、符號學和細讀等方法。對於社會科學和人文研究而言,數字技術與大資料所帶來的學科影響則以計算社會學(computational social science)和數字人文為代表。儘管兩者在研究物件和研究方法上有相同與交叉,如皆以數字技術及數字文化為物件、都會涉及資料處理方法的應用,但兩者也存在區別,如資料獲取和處理的方式、研究問題的提出等。而從資料的層面來說,列夫·馬諾維奇(Lev Manovich)將前一類可以適用於定量分析的,與大群人或團體有關的資料稱為“表層資料”,將後一類與更為小眾的群體有關的資料稱為“深層資料”。他指出儘管基於大規模資料的社會計算(social computing)研究往往能提供關於人類在數字文化時代的行為和表現得更廣泛的數字圖景(digital landscape),但計算機在理解文字、影象、影片和其他媒介意義與語境方面具有的侷限性,使這些研究都只能是基於簡化維度的分析,甚至會受到錯誤資料的影響。而他所設想的理想狀態則是將人所具有而計算機所不具有的理解和解釋能力與計算機運用演算法處理大規模資料的能力結合起來。這一點其實在有關“智慧資料”的討論中也有所體現。

曾蕾、王曉光、範煒與克里斯托弗·紹什(Christof Schöch)分別曾撰文討論過智慧資料。曾蕾等指出智慧資料是“實現大資料特徵中最後一個‘V’——價值(value)的方法,即透過對任何規模的可信的、情境化的、相關切題的、可認知的、可預測的和可消費的資料的使用來獲得重大的見解和洞察力,揭示規律,給出結論和對策”。藉此他們提出,“智慧資料通常帶有自描述機制,背後有領域本體作支撐,使這些資料符合特定的邏輯結構和形式規範,而且可以支援推理,由此形成智慧的基礎,產生可預測和可消費的資料”。同時,還因為“智慧資料較強的可解釋性,支援邏輯推理從而使之可以用於多種用途和支援多種互操作,並且具有很強的可追溯能力,能夠滿足人文研究正規化的需要。”他們透過圖博檔中關於關聯資料、影象深度標引和非物質文化遺產資料的元資料等議題來說明智慧資料具有的特性。紹什關於智慧資料的定義則更加簡潔,即“我建議首先將大資料看作相對非結構化的、混亂的和隱含的、體積相對較大的、形式多樣的。相反地,我建議將智慧資料看作半結構化或結構化的、乾淨的和明確的,以及體積相對較小、異質性有限的。”兩種定義從不同方面指向了智慧資料的價值和屬性,可以幫助人們理解為什麼在人文研究中學者會強調智慧資料。這恰恰是因為人文研究對資料的要求更高、更加苛刻,而人文資料,尤其是第一類透過數字化生成的人文資料,其資料的結構化程度、清潔度和可量化效果都是由資料生成過程,甚至是投入人力的多少來決定的。

5 計算很重要,但不是全部

隨著大規模資料集的出現和資料分析方法的更新,計算的問題也越來越多地受到了學者的關注。在文學界,以佛朗哥·莫雷蒂(Franco Moretti)為代表的學者,包括馬修·喬克斯(Matthew Jockers)、馬修·威爾肯斯(Matthew Wilkens)和安德魯·派珀(Andrew Piper)等在內,支援運用主題建模、網路分析等從海量數字化文學資料庫中挑選出的語言與形式的宏觀模式。尤其是莫雷蒂基於對大量小說文字資訊(如標題)的統計分析形成的“遠讀”(distant reading)理論及研究方法對數字人文乃至整個人文學界影響深遠。但從實際效果而言,莫雷蒂的“遠讀”方法也並沒有真正從根本上解決布薩1949年提出的問題:如何用計算機使學者們快速而準確地深入研究諸如真實性、文字批評、風格、年代和翻譯等一系列問題。在美國現代文學協會出版物(Publication of the Modern Language Association,PMLA)2017年組織的一次關於“遠讀”的討論中,莫雷蒂對此作出了迴應。他部分地贊同了蘇真(Richard Jean So)教授對其的批評——“(莫雷蒂)所做的不過是對其語料的一個統計描述”,同時還指出安德魯·派珀所提出的實現一種“模型的模型”(model of a model)是未來必然的發展路徑。他指出,蘇真等人及芝加哥大學文學實驗室正在進行的“模式”的研究將完全改變理論所具有的可能性,將會改變歷史與文學研究的關係,尤其是改變文學研究的時間性框架,歷史將成為文學研究的前提

。而“模型的模型”或者說“模式”正是計算文學努力透過量化計算實現的方法論嘗試。趙薇指出,從莫雷蒂的概念模型到後來的文學實驗室的計算批評,“實證研究”與文學闡釋、文化批評被有機地融合在一起。量化文學研究的本質是根據研究的需要,選取合適的測量尺度和有效的測量手段,只有這樣才能真正發現問題

然而,並非所有的學者都能接受對人文資料進行量化分析。一篇於2017年10月15日發表在美國《高等教育紀事報》網站上名為《數字人文搞砸了》(The digitalhumanities bust)的文章引發了廣泛爭論

。作者提摩太·布倫南是明尼蘇達大學雙城分校的文化研究、比較文學及英語系教授。在布倫南教授看來,英國劍橋分析公司Ada演算法事件體現的是對“資料”和“演算法”的盲目樂觀主義在現實社會中的受挫。布倫南指出,演算法不僅是一系列失敗事件背後的推手,也是隱藏在數字人文研究及其20年蓬勃發展的邏輯,數字人文也在這種“非常公開和尷尬”的結果中面臨危機與反思。他在歷數了這些年來數字人文學者得到的諸多好處(如美國國家人文基金、梅隆基金會提供的大量資金資助,一流期刊文章的背書以及得到晉升終身教職崗位等)之後,提出質疑:數字人文到底有什麼成就?布倫南教授認為,數字人文研究對演算法的依賴使數字人文學者在面對文字時只看到了透過演算法所呈現出的文字的特點(如詞頻),卻無法觸及文字中有價值的內容;也同時因為對演算法的依賴,數字人文學者無法擺脫計算的侷限性,而以此侷限性為探尋研究問題的限定。尤其針對書籍內容的量化分析、文學批評中的“遠讀”策略和“文學模式識別”等,布倫南認為數字人文學者只是看到了表層的數字和資料,但卻不能像使用大腦那樣使用計算機進行深入的思考:“由於其自身機制,數字‘閱讀’從根本上將大腦自然產生的智慧靈感,建立價值形式的建立,以及本能衝動都徹底排除在外。”論其原因,一是因為將“更多資訊混淆為更多知識”,數字人文學者無法在其所施用的方法之外進行反思,認識到該方法在認識論上的意義和方法論上的價值;二是“對科學的迷戀,新自由主義的撤資”,佔有少量資源或者長期處於學界邊緣的年輕學者透過新科技在已經劃定格局的學術場域內爭取更多的文化資本,獲取地位提升。因此,“與其說數字人文是一場革命,不如說數字人文是為了反對主流形式,從而強行將人文從其存在原因中剝離出來的那個楔子”。

文中提到的關於數字人文中的某些侷限性也確實是數字人文學界普遍存在的問題,如部分研究還停留在詞頻的程度上,而且有些資料本身也是經過預先加工的,因而有“作弊”嫌疑,同時很多資料處理的過程也是在人工監督下完成的,因此結果也不那麼令人驚喜等。但布倫南一文中的問題也是非常明顯的,如“數字人文”在文中被簡化為了關於數字的“量化”,而抹殺掉了數字人文中學科、研究問題和領域的多樣性;再如蘇真和霍伊特·朗(Hoyt Long)關於日本俳句的“文學模式識別”(literary pattern recognition)研究並非只是在檢驗一個已知結果的正確性,而是透過一種新的計算方式挑戰及改變以往對於俳句的認知及研究思考。對於這種誤讀或者攻擊,包括被批評物件特德·安德伍德(Ted Underwood)和霍伊特·朗在內的3位學者在2017年11月1日的《“數字”與“人文”不對立》(“digital” is not the opposite of “humanities”)

中做出了迴應:首先,量化研究在經濟、社會學乃至人文研究中應用已久,數字人文因此“獲罪”實在是作者有意為之;其次,僅就量化或者說數字而言,數字人文中所說的“數字”也比作者所說的簡單計算詞頻要廣泛得多,例如之前提到的“文學模式識別”,“就已經被用來探討虛構的本質、文類的週期,以及塑造角色的性別假設等”。這些問題是文學史的核心問題,並且因數字人文得以從一個新的尺度進行討論。最後作者還指出,數字人文不僅僅意指新的研究手段,也影響到博物館、新聞、圖書館等機構面向公眾傳播的新形式。類似的討論還出現在了歷史研究、藝術史研究等領域。以大資料和計算的方式進行人文研究受到了普遍的爭議。但正如埃裡克·威斯科特(Eric Weiskott)在對此的迴應中提到的,數字技術正在重新創造歷史,這個過程和16世紀印刷技術在歐洲出現時發生的情況類似,也同樣引起了質疑。而作為一種不可逆轉的過程的結果,數字技術改變的不僅僅是知識傳遞,更是一種新的知識形式的體制建構,並非僅僅是認識論的改變

。確實如此,對於數字人文而言,計算並非僅有的手段,但人文大資料卻是已經存在且必須要面對的現象。如何更好地利用數字技術與方法對人文大資料開展多角度的研究是比爭論是否可以使用數字技術或方法更為實際和迫切的問題。

6 結束語

以上關於人文大資料的討論,多將人文大資料看作為達到某種研究目的所使用的材料,但事實上大資料本身及大資料分析過程中產生的一系列倫理問題,如ImgaeNet這樣的大規模影象資料集中具有的性別、種族偏見問題以及這些問題引發的相關演算法缺陷問題、資料收集及清理背後的資料勞動問題等,引發了人文學者的普遍關注。人文大資料帶來的問題不僅僅是研究正規化的轉變,其更成為研究問題本身。但很遺憾的是,目前從事資料科學的研究者們卻較少與人文學者就人文大資料及大資料在人文研究中的價值展開直接而深入的討論,期待此次專題能開啟如此契機。

作者簡介

陳靜(1981-),女,博士,南京大學藝術學院副教授,主要研究方向為數字人文、數字藝術與數字遺產。

聯絡我們:

Tel:

010-81055490

010-81055534

010-81055448

E-mail:

bdr@bjxintong。com。cn

http://www。infocomm-journal。com/bdr

http://www。j-bigdataresearch。com。cn/

轉載、合作:

010-81055307

大資料期刊

《大資料(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和資訊化部主管,人民郵電出版社主辦,中國計算機學會大資料專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及資訊通訊領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄,並多次被評為國家哲學社會科學文獻中心學術期刊資料庫“綜合性人文社會科學”學科最受歡迎期刊。

圖片

關注《大資料》期刊微信公眾號,獲取更多內容