中國世界中世紀史研究網   [考研指南]  [研究動態]  [佳篇共賞]  [資料匯編]  [學人風采]  [中國世界中世紀史學會概況] 
[共享資源]  [資源鏈接]  [學術焦點]  [新書評介]  [史學理論]  [資料大家譯]  [雁過留聲] 
當前位置:中國世界中世紀史研究網 - 研究動態 - 擁抱“大數據”對歷史研究的挑戰(上)

擁抱“大數據”對歷史研究的挑戰(上)
來源:易文網 作者:本站編輯 [日期:2018/10/10] 瀏覽:

擁抱“大數據”對歷史研究的挑戰

2018-5-30 15:24:40 來源:易文網

(代序)



梁啟超先生在談到史料對于史學發展的重要性時,把史料喻為“史之組織細胞”,認為“史料不具或不確,則無復史之可言”。傅斯年先生也強調,若要不斷地使史學發展、層累,就必須不斷地收集資料、挖掘資料。近代以來,研究者一直孜孜不倦地擴充史料來源,擴大研究范圍,“上窮碧落下黃泉,動手動腳找材料”即體現了對獲取研究史料的重視。隨著科技的進步,尤其大數據時代的來臨,史料的獲取、存儲、交流、再生產等諸多環節發生深刻變化,一個突出的表現就是數據庫的蓬勃發展。英國著名學者魏根深(Endymion Wilkinson)在其著作《中國歷史研究手冊》(以下簡稱《手冊》)的弁言中介紹了《手冊》的四個重要目標,其中之一就是“突出利用電子資源對中國歷史資料進行傳播、歸類和分析,這些資料上起商代甲骨文下到最近的中外學術研究”,還提到《手冊》選擇了225個數據庫(此外還有數以百計的原始資料及參考著作的電子版),并強調“中國歷史和考古研究領域在過去的十年中飛速變化,數據化亦改變了人們研究的方法,本書試圖跟上這些新的發展”。

就國內而言,2010年以來,僅國家社科基金支持的、以數據庫建設為核心的文史研究項目就不下70項,這兩年來增長尤甚。資料的數字化改變了歷史研究的資料來源,數字資源的采集、加工和處理對研究成果的取得作用日益顯著,如何理解歷史學在大數據時代下的發展就成了一個重要的課題。

首先,我們來回顧一下國內史學類數據庫的發展歷程。盡管數據庫技術濫觴于20世紀60年代末,但是直到80年代,國內的人文學科才逐漸開展數據庫的建設工作。就史學類數據庫的建設來看,迄今大體可以分為三個階段:

第一階段主要為數字化制作、整理階段,重點在于資料的輸入與整理,制作成電子光盤。如在1985年,臺灣“中研院”歷史語言研究所便啟動了“漢籍電子文獻資料庫”的建設工作,內容包括“二十五史”“十三經”以及超過2000萬字的臺灣史料、1000萬字的大正藏、道藏、清代經世文編等大型類書、叢書,收入典籍達460多種,計4億多字。此階段使用的范圍更多限于電腦單機,改變了知識的存儲形式,體現了攜帶方便、易于查詢等優勢,完成了從舊時的汗牛充棟到如今大容量可移動介質的重大轉變。

第二階段始于20世紀90年代中后期,在互聯網興起后,各類數據庫的建設和上線層出不窮。如中國知網、超星圖書館的上線為論文和圖書的查找提供了巨大的便利。就專業的歷史類數據庫的開發而言,尤為突出的是北京愛如生公司研發制作的“中國基本古籍庫”,該庫分4個子庫、20個大類、100個細目,精選了先秦至民國的歷代重要典籍,總計收書1萬余種,全文超過17億字。其他一些主要的全文數據庫,如書同文古籍數據庫、中華經典古籍庫也廣受歡迎。全文數據庫比較直觀,就像把一本紙書變成電子文本,然后我們在這里面抓取所需文本,其中原理跟搜索引擎頗為類似,而且也不需要什么培訓就可以上手使用。此外還有一些專題類型的數據庫,如中國金石總錄數據庫、東方雜志全文數據庫等也已陸續上線。除了相對商業化的文獻數字化機構,還有各公共圖書館、高等院校等都有為數不少的古典文獻數據庫,如中國國家圖書館的電子文獻也比較豐富,有數字善本、甲骨世界、碑帖菁華、敦煌遺珍、西夏文碎金等經典文庫,另有其他各色常見的古典文獻。

 

    第三階段主要為關系性數據庫的出現和建設。關系性數據庫注重利用數據庫內在內容再發現并分析文本間的關系,幫助研究者理解人物、文獻的脈絡,這是近年來人文研究類數據庫的發展趨向。目前在史學界有較大影響力的是哈佛大學燕京學社、臺灣“中研院”史語所、北京大學中古史研究中心合作的“中國歷代人物傳記資料庫”(China Biographical Database Project,簡稱CBDB)。CBDB早在20世紀80年代由美國賓州大學郝若貝教授(Robert Hartwell)開始建立,1996年郝教授去世,將其捐贈給哈佛大學燕京學社。2005年,上述三家單位開始共同開發,截至2016年5月數據庫共收錄約370726人的傳記資料。CBDB相較于一些企業開發的全文數據庫來說,在數據結構上更加復雜、精細,可以進行地理空間、社會網絡分析、群體劃分、統計分析等研究,但需要多種軟件的結合使用(如QGIS、PAJEK等),甚至需要進行專門培訓。由項潔教授領導、臺灣大學數位人文研究中心開發的臺灣數字歷史圖書館(簡稱THDL)也是此方面的杰出代表。項潔、陳詩沛、杜協昌:《臺灣古契書全文資料庫的建置》,第三屆臺灣古文書與歷史研究學術研討會,逢甲大學歷史與文物管理研究所,2009年3月14日,第1—19頁。該數據庫主要收錄臺灣地區契約文書及臺灣總督府檔案,臺灣大學數字人文研究中心并不擁有這些資料的版權,而是以授權復制或者錄入為電子文本的形式建立這一數據庫的知識產權。THDL中提供詞頻分析、上下手契關聯分析、人物相關性分析等不同功能,還可以部分地實現契約空間分布的展示。THDL提出了數據庫建設的理念,即數據庫的主要功能是為研究者提供研究環境并幫助研究者發現問題,而非僅僅是儲存與檢索。涂豐恩、杜協昌、陳詩沛、何浩洋、項潔:《當資訊科技遇到史料——臺灣歷史數位圖書館中的未解問題》,載項潔:《數位人文研究的新視野:基礎與想象》,臺灣大學出版中心2011年版,第21—44頁;項潔、翁稷安:《數位人文和歷史研究》,載《數位人文在歷史學研究的應用》,臺灣大學出版中心2011年版,第11—20頁。另外,上海交通大學建設的《中國地方歷史文獻數據庫》基于針對性設計的元數據結構提供交叉導航、數據統計等多種功能,這些功能不僅可以幫助研究者找到自己所需的文獻,更可能幫助研究者發現新的研究議題。

    可以預見的是,未來的數據庫肯定會朝著開放性、共享性、可視化方向去發展。大規模的數據化歷史資料平臺建設,為整個學術界提供了更豐富靈活而有效的研究資源,而且隨著海量的圖書、報紙、期刊、照片、繪本、樂曲、視頻等人文資料的數字化,更多的專題性數據庫或以獨立的形式或以合作的方式在如火如荼的建設中,諸如華東師范大學沈志華教授主導的關于冷戰檔案數據庫的建設、上海大學陶飛亞教授主導的關于漢語基督教書目文獻數據庫的建設都各有特色,值得關注。它們不僅是歷史研究的重要基礎,也越來越被其他相關學科所看重。

    二

    各種類型數據庫的廣泛使用,極大突破了研究者獲取資料的局限性,帶來了研究上的一些顯著變化。關于數據庫的使用對歷史研究的影響從2011年曹樹基就開始涉及,見曹樹基《數據庫:歷史研究的社會科學化》一文,其中討論了數據庫使歷史研究社會科學化的問題,參見《中國社會科學學術前沿(2010—2011)》,社會科學文獻出版社2011年版,第171—177頁。另梁晨、董浩、李中清的《量化數據庫與歷史研究》一文也涉及了量化數據庫對歷史研究的改變,參見《歷史研究》2015年第2期。僅從材料的獲取角度而言,各類數據庫的使用令各種類型史料得以進入研究視野,接近“竭澤而漁”的地步,同時也擴展了史學研究的材料范圍,方便了多時段、多角度的研究。研究人員足不出戶就可以查到各地的藏書狀況及學習資源,國內外開放的網絡數據資源使知識獲取更為便捷迅速,這在十多年前幾乎是無法想象的。

 

    盡管各類數據庫的建設和使用如火如荼,但就目前而言,國內文史類相關數據庫仍然存在諸多不足。首先,從材料的把握度上看,以“大數據”為代表的數據資源來源更加廣泛,信息質量參差不齊。文獻數字化也是各自為政,由于版權及產權的原因,數字化文獻分散于不同公司、不同研究機構中,而且重復建設的現象嚴重,不但功能單一,數據往往只是某個類別、某一專題,數據分散以致難以實現多元化及整體化的研究對比與分析。如《申報》電子版,至少存在湖南青蘋果數據公司版、北京愛如生公司版和臺灣中國近代報刊數據庫等三種檢索系統。數字化古籍文獻整合勢在必行,打破數據庫建設“小、散、亂”杜曉勤:《國學大數據時代來了》,《光明日報》2013年9月16日第15版。、各自為政的局面,已經形成學術界共識。其次,少數民族古籍數字化過程中也存在著諸多問題。我國歷史為多民族共同造就,除了漢語材料之外,還保留了眾多少數民族古籍,少數民族古籍的多樣性和模式化與數字化過程之間存在矛盾,數字化過程的安全問題、字庫不健全問題、著錄困難等解決起來難度也頗大。另外,中文光學字符識別軟件(Optical Character Recognition,OCR)的開發不夠,中文識別軟件的開發相對還是較為滯后,亟須技術創新和突破;國內古籍數據與境外漢籍數據庫的打通融合;同時當前史學類數據庫的建設存在重復化和個人市場開發不充分、學商合作不充分等一些問題,也亟待改進創新。

    盡管存在不足,但數據庫建設對于人文學科愈益重要,數據、文獻等信息加工方式的改變使得人文學科的建構知識流程與研究方式、方法也出現重大改變,可以說數據庫的使用和發展正深刻地改變著史學研究。當然大數據的研究并非局限在數據庫上面,數據庫的使用僅僅是運用工具的一種變革,更多的改變將會體現在研究思路、方法乃至研究范式的變化上,因行文關系,在此重點談論了數據庫的建設。

    第一,體現在歷史研究的內容。由于海量的資料涌現使得史學研究如同技術領域一樣,需要不斷地推進數據分析的能力。在諸多人文學科中,這種能力對注重文獻的歷史學研究而言尤為重要。面對大數據,研究者在處理分析數據的過程中將會充分發揮以往的研究模式與個性化、學術性的經驗優勢,以創造出不同于以往的認知對象的方式。這將大大拓展人對于數據材料的應用水平,為創新提供更多的可能。

    第二,從研究的主體形式來看,之前的史學研究更多是個人的工作,個體的活動和興趣愛好的體現。而數據庫的建構以及對龐大數據的處理,僅僅靠一個人很難完成,需要數名研究者形成合力才能做到,歷史研究中的搭建史學學科團隊現象日益突出。在香港科技大學李中清團隊參與研究的南京大學梁晨就認為:“鑒于我們研究組的自身經驗,組成由不同學科背景的研究成員密切互動的專項研究團隊,實現跨學科合作,是一條切實可行和較有成效的道路。”梁晨、董浩:《必要與如何:基于歷史資料的量化數據庫構建與分析——以大學生學籍卡片資料為中心的討論》,《社會》2015年第2期。這也是目前國外學者應對大數據變化的方式——注重團隊工作。或許是傳統思維的限制,國內人文學科的學術團隊建設較弱,但也已開始迎頭趕上,部分高校建立了學術研究中心,如北京大學成立量化歷史研究所,以面對大數據所帶來的史學新革命。

    第三,從歷史研究的方法來看,量化史學的研究方興未艾、持續發酵。定量方法的使用使得歷史學的研究成果增加了定量的特征,增強了人文科學中的科學屬性,這不僅使傳統定性研究中的模糊認識得到量化驗證而更趨于嚴謹和精確,而且還可以獲得僅靠定性分析難以達到的認識,從而有效彌補了中國傳統歷史研究中定性分析不足的缺憾。運用計量史學方法還可以幫助研究者揭示歷史規律,發現并預測歷史趨勢,明確強化史學研究的價值。

    第四,從歷史學與其他學科的關系來看,由于研究內容、方法所帶來的變化,各種人文社會科學的互相依賴和滲透趨勢將日益強化,歷史學不斷汲取政治學、經濟學、社會學等學科的相關知識和方法,其研究觀念亦滲透進其他學科之中,將會有更多的交叉學科和邊緣學科出現,學科之間的邊界有可能日益模糊,同時也將為專業研究者提供更為廣闊的空間。如最早提出“e考據”概念的臺灣清華大學的黃一農教授的研究,黃教授以“e考據”的學術方法和學術態度不斷開拓研究領域,從天文研究跨越到科學史、中西文明交流史乃至紅學領地。

    第五,從歷史書寫的完成和傳播來看,借助于各類數據庫以及網絡提供的材料,一批非職業歷史學家異軍突起,徹底打破了原有的史學生態,導致史學話語權向大眾轉移。無數個“當年明月”憑借著數字技術的便利,似乎正在發揮著比職業歷史學家更大的影響力。朱紹杰:《專家解讀國際歷史科學大會:史學研究大變革》,http://culture.china.com/11170621/20150920/20429509_1.html。隨著資料獲取的日益快捷,可以預見歷史的書寫、傳播方式將會更加多元化,出現更多的爭議。

下一篇:第二十屆全國史學理論研討會在北京舉行上一篇:舒健:擁抱“大數據”對歷史研究的挑戰(下)
評論留言交流 (僅限注冊用戶,請先注冊或登錄)

 
  【注意】 發表評論必需遵守以下條例:
 1. 尊重網上道德,遵守中華人民共和國各項有關法律法規
 2. 承擔一切因您的行為直接或間接導致的民事或刑事責任
 3. 本站管理人員有權保留或刪除其管轄留言中的任意內容
 4. 本站有權在網站內轉載或引用您的評論
 5. 參與本評論即表明您已經閱讀并接受上述條款
最新用戶評論留言
點此查看更多評論
 
   最新文章
   熱門文章

   相關文章
实况足球8中超风云