五年系統(tǒng)攻關(guān),數(shù)十項(xiàng)基礎(chǔ)設(shè)施,近百篇論文成果,其中二十余篇發(fā)表于《中國(guó)社會(huì)科學(xué)》及國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì)等知名期刊和會(huì)議……當(dāng)《全唐詩(shī)》的聲律規(guī)則被算法模型所重構(gòu),當(dāng)《紅樓夢(mèng)》的知識(shí)來(lái)源被文本相似度分析所發(fā)現(xiàn),當(dāng)“大數(shù)據(jù)技術(shù)與傳統(tǒng)文獻(xiàn)學(xué)的現(xiàn)代轉(zhuǎn)型”和“文獻(xiàn)學(xué)的數(shù)字化轉(zhuǎn)向”等重大命題首次得到系統(tǒng)深入闡釋?zhuān)诺湮膶W(xué)文獻(xiàn)的研究范式正在發(fā)生深刻變革。
由清華大學(xué)人文學(xué)院院長(zhǎng)、數(shù)字人文研究中心主任劉石教授領(lǐng)銜的國(guó)家社科基金重大項(xiàng)目“基于大數(shù)據(jù)技術(shù)的古代文學(xué)經(jīng)典文本分析與研究”于2025年結(jié)項(xiàng)并獲“優(yōu)秀”等級(jí)。作為國(guó)內(nèi)首個(gè)系統(tǒng)實(shí)現(xiàn)“古典文學(xué)+大數(shù)據(jù)”深度融合的標(biāo)志性成果,該項(xiàng)目構(gòu)建起以數(shù)據(jù)聚合、技術(shù)聚合、知識(shí)聚合、向量聚合全鏈條的方法體系,為人文學(xué)科在數(shù)字人文和人工智能時(shí)代的創(chuàng)新發(fā)展提供了全新方案。
劉石教授指出,隨著人工智能與大數(shù)據(jù)技術(shù)的深入應(yīng)用,古籍整理研究正從電子化、數(shù)字化,邁向知識(shí)化、智能化。這一轉(zhuǎn)變意味著,古籍這一傳統(tǒng)文化遺產(chǎn)的客觀(guān)載體,將在重構(gòu)知識(shí)體系、激發(fā)學(xué)術(shù)創(chuàng)新、服務(wù)數(shù)字強(qiáng)國(guó)建設(shè)等方面發(fā)揮前所未有的重要作用。
可校驗(yàn)的閱讀:從古籍?dāng)?shù)字化到古典文學(xué)文本新勘
古籍為何成為數(shù)字人文研究的突破口?這一選擇并非歷史與未來(lái)的偶然交互,而是建立在文本特性上的學(xué)術(shù)自覺(jué)。
“古籍本身就是一個(gè)相對(duì)獨(dú)立、邊界清晰的客觀(guān)存在?!敝卮箜?xiàng)目團(tuán)隊(duì)成員、人文學(xué)院李飛躍教授指出,“它在研究上偏重求實(shí)求是,加上近年古籍?dāng)?shù)字化的迅猛發(fā)展,為數(shù)字人文探索提供了理想對(duì)象?!闭蜻@種獨(dú)特的客觀(guān)性,研究團(tuán)隊(duì)選擇從古典文獻(xiàn)出發(fā)——從那些被千百年不斷抄讀、注釋、闡發(fā)的文本中,借助“可計(jì)算的閱讀”,尋繹古典新義。
團(tuán)隊(duì)成員多為從事與古代文學(xué)相關(guān)的學(xué)者,最初的目標(biāo)很樸素:讓古典文學(xué)文獻(xiàn)的材料處理更高效。一部典籍作品的核心實(shí)體如何抽取,其頻次特征如何分布?其篇章結(jié)構(gòu)、詞匯語(yǔ)法有何規(guī)律?借助算法與模型,研究者得以穿透文字表層,重新解構(gòu)文本,這正是邁向“知識(shí)化”的堅(jiān)實(shí)一步。
在研究過(guò)程中,團(tuán)隊(duì)發(fā)現(xiàn),數(shù)字技術(shù)的潛力遠(yuǎn)不止于“測(cè)量文本”,更在于“理解文本”乃至“重現(xiàn)現(xiàn)場(chǎng)”。他們用主題模型分析古典文學(xué)文本的風(fēng)格聚類(lèi),用社會(huì)網(wǎng)絡(luò)理論勾勒作家的交游脈絡(luò),用概念分析追蹤思想演變,甚至結(jié)合地理信息系統(tǒng)(GIS)與天文軟件還原文史時(shí)空現(xiàn)場(chǎng)。
截至項(xiàng)目結(jié)項(xiàng),團(tuán)隊(duì)已建成多模態(tài)語(yǔ)料庫(kù),涵蓋經(jīng)史子集四部文獻(xiàn)文本及全球古籍影像數(shù)據(jù)。在劉石教授的總體統(tǒng)籌下,六大子課題協(xié)同推進(jìn),構(gòu)建起深度交叉融合的學(xué)術(shù)創(chuàng)新合作體系。計(jì)算機(jī)科學(xué)與技術(shù)系孫茂松教授團(tuán)隊(duì)主要負(fù)責(zé)大規(guī)模語(yǔ)料的人工智能技術(shù)研發(fā),統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系鄧柯副教授團(tuán)隊(duì)主要負(fù)責(zé)古籍文本的分詞、專(zhuān)名識(shí)別、知識(shí)圖譜構(gòu)建與分析等工具研發(fā),由此產(chǎn)生了一系列具有廣闊應(yīng)用場(chǎng)景的發(fā)明專(zhuān)利。

“Top WORDS”算法示意圖
其中,子課題一聚焦大數(shù)據(jù)時(shí)代的古代文學(xué)文本分析技術(shù),鄧柯副教授主持開(kāi)發(fā)了“Top WORDS”中文無(wú)監(jiān)督分詞算法與古文命名實(shí)體識(shí)別模型,讓機(jī)器“讀懂”古籍中的上下文語(yǔ)義脈絡(luò)。子課題二構(gòu)建基于人工智能技術(shù)的古典詩(shī)歌數(shù)據(jù)庫(kù)與分析系統(tǒng),孫茂松教授主持研發(fā)和訓(xùn)練了BERT-CCPoem古詩(shī)文模型,讓算法會(huì)“聽(tīng)”詩(shī)、也能“寫(xiě)”詩(shī)。子課題三建設(shè)以事件庫(kù)為核心的作家生平數(shù)據(jù)庫(kù),聯(lián)通人物、紀(jì)年與地名等信息,讓古代作家的生命軌跡與歷史脈絡(luò)在時(shí)空框架中疊加重現(xiàn)。子課題四用計(jì)算風(fēng)格學(xué)方法重讀明清小說(shuō),構(gòu)建文本語(yǔ)料與戲曲詞表,揭示不同時(shí)期文學(xué)風(fēng)格的演變。子課題五結(jié)合復(fù)雜網(wǎng)絡(luò)理論,以量化分析挖掘人物關(guān)系與話(huà)語(yǔ)結(jié)構(gòu)。而子課題六聚焦古典詩(shī)歌的形式研究,構(gòu)建智能分析系統(tǒng),讓傳統(tǒng)詩(shī)學(xué)理論得到量化檢驗(yàn)與可視化呈現(xiàn)。

全球漢籍影像開(kāi)放集成系統(tǒng)
與上述研究相同步,項(xiàng)目組在基礎(chǔ)設(shè)施層面進(jìn)一步整合成果,構(gòu)建了多層次、開(kāi)放共享的數(shù)字人文基礎(chǔ)設(shè)施體系:“全球漢籍影像開(kāi)放集成系統(tǒng)”“中國(guó)古典文獻(xiàn)資源導(dǎo)航系統(tǒng)(奎章閣)”“時(shí)間軸知識(shí)圖譜”“璇琮數(shù)字人文智慧平臺(tái)”等相互聯(lián)通,共同構(gòu)成了支撐古籍整理、學(xué)術(shù)研究的數(shù)字底座,為古典文學(xué)文獻(xiàn)的知識(shí)化、智能化探索奠定了堅(jiān)實(shí)基礎(chǔ)。
重識(shí)經(jīng)典:以算法拓展文學(xué)研究新范式
如果說(shuō)數(shù)字化最初只是為了讓古籍更好地“被看見(jiàn)”,那么隨著研究的深入中,它逐漸成為一種新的理解方式。算法的介入,讓古典文學(xué)研究從主觀(guān)抽樣走向客觀(guān)實(shí)證,從經(jīng)驗(yàn)分析走向多維量化,從而變得有標(biāo)準(zhǔn)、可驗(yàn)證與可累積。
《紅樓夢(mèng)》研究一直是中國(guó)古典文學(xué)研究的熱點(diǎn)領(lǐng)域,傳統(tǒng)紅學(xué)家多依賴(lài)細(xì)讀與語(yǔ)感來(lái)進(jìn)行文本分析,而數(shù)字人文手段則為紅學(xué)研究世界開(kāi)了一扇新窗。項(xiàng)目團(tuán)隊(duì)運(yùn)用多種模型綜合計(jì)算《紅樓夢(mèng)》詩(shī)詞與唐宋詩(shī)歌的語(yǔ)義距離,發(fā)現(xiàn)曹雪芹通過(guò)意象替換和語(yǔ)義遷移,將前人作品重新組織創(chuàng)造;而在其詩(shī)學(xué)體系中,占據(jù)核心位置的是《才調(diào)集》等唐代詩(shī)文選本。就這樣,團(tuán)隊(duì)以算法和數(shù)據(jù)追溯曹雪芹的知識(shí)結(jié)構(gòu)與閱讀背景,重新界定了《紅樓夢(mèng)》的詩(shī)學(xué)淵源。

唐宋文學(xué)編年時(shí)間軸
數(shù)字方法也讓古典詩(shī)歌研究煥發(fā)新機(jī)。項(xiàng)目團(tuán)隊(duì)以《全唐詩(shī)》為對(duì)象,建立了兼容“廣韻”和“平水韻”兩種古代押韻體系的聲律數(shù)據(jù)庫(kù),用計(jì)算方式重新審視唐詩(shī)的聲律規(guī)范。研究發(fā)現(xiàn),唐詩(shī)格律的演變并非一條直線(xiàn),而是在多種聲調(diào)組合中不斷試探與平衡,最終才形成今人所見(jiàn)的面貌。而在詩(shī)學(xué)語(yǔ)義層面,算法還揭示出李白、杜甫對(duì)《昭明文選》的創(chuàng)造性化用——二人系統(tǒng)性借鑒前人詩(shī)句,通過(guò)重新組合、語(yǔ)義轉(zhuǎn)化,形成了各自的獨(dú)特風(fēng)格。這一發(fā)現(xiàn)讓“靈感”有了可驗(yàn)證的依據(jù):“詩(shī)仙詩(shī)圣”不僅是天生之才,更是文化記憶與學(xué)習(xí)積累的再創(chuàng)造。

女子藝文資料庫(kù)
“當(dāng)我們?cè)倏匆皇自?shī)時(shí),看到的已不僅是文本本身,而是它在更高維度空間中的位置與聯(lián)系。”李飛躍教授說(shuō)。數(shù)字人文讓文本從線(xiàn)性平面進(jìn)入高維網(wǎng)絡(luò),在文字、聲音、圖像等多模態(tài)關(guān)聯(lián)中被重新理解。這種“高維閱讀”讓經(jīng)典重新煥發(fā)生命力,也讓我們以新的方式理解文學(xué)的生成邏輯。
這些突破性成果的背后,是一場(chǎng)真正意義上跨越學(xué)科壁壘的集體探索。項(xiàng)目在中文系牽頭下,聯(lián)合計(jì)算機(jī)系、統(tǒng)計(jì)系等多學(xué)科師生,共同探索古代文獻(xiàn)在數(shù)字時(shí)代的創(chuàng)造性轉(zhuǎn)化。在這一過(guò)程中,難點(diǎn)不在算力,而是標(biāo)準(zhǔn)——如何讓算法理解古人的語(yǔ)言與情感,如何在計(jì)算中保留文學(xué)的細(xì)微與復(fù)雜。每一次分詞、每一次模型校驗(yàn),都是人文經(jīng)驗(yàn)與技術(shù)方法的雙向磨合。
數(shù)字人文的價(jià)值,正是在經(jīng)驗(yàn)與技術(shù)、算法與文本的往復(fù)對(duì)齊對(duì)話(huà)中,讓理解重新獲得證據(jù),也讓數(shù)字被賦值,重新獲得意義。
從人文引領(lǐng)到文明傳播:數(shù)字人文的清華路徑
在全球范圍內(nèi),當(dāng)前人文學(xué)科正經(jīng)歷一場(chǎng)深層結(jié)構(gòu)性轉(zhuǎn)型。人們?cè)絹?lái)越意識(shí)到,要將科學(xué)的嚴(yán)格、系統(tǒng)、明確的方法特征帶到人文學(xué)科中,來(lái)解決那些迄今為止大多以偶然的方式被處理的人文學(xué)科問(wèn)題。統(tǒng)計(jì)數(shù)據(jù)現(xiàn)在無(wú)處不在,成為我們交換知識(shí)的語(yǔ)言。李飛躍教授認(rèn)為,人文學(xué)科不能以其特殊性規(guī)避一般性,也應(yīng)引入過(guò)程可重復(fù)、數(shù)據(jù)可驗(yàn)證、方法可復(fù)用、結(jié)論可推廣的研究方法。
當(dāng)“全面、精確、可驗(yàn)證、可重復(fù)”成為學(xué)術(shù)的基本邏輯,人文學(xué)科不得不重新思考:在一個(gè)被量化的世界中,如何安放人文的位置?
在這種知識(shí)范式的變遷中,清華數(shù)字人文研究所走的是這樣一種路徑——不是用技術(shù)取代人文,而是從人文問(wèn)題出發(fā),進(jìn)行知識(shí)和價(jià)值對(duì)齊。項(xiàng)目組成員、人文學(xué)院唐宸副教授認(rèn)為:“機(jī)器制定的規(guī)則與有經(jīng)驗(yàn)的人文學(xué)者制定的規(guī)則會(huì)相互補(bǔ)充,數(shù)字人文要找出它們的共性與可通約性?!痹谌宋呐c算法的循環(huán)中,前者提供理解與判斷的維度,后者提供計(jì)算與驗(yàn)證的能力。
以古文語(yǔ)料的分詞與命名實(shí)體識(shí)別為例,算法生成統(tǒng)計(jì)模式,而人文學(xué)者依據(jù)語(yǔ)法傳統(tǒng)與語(yǔ)義經(jīng)驗(yàn)不斷校正模型,使其能夠識(shí)別古代文本中格律、修辭與語(yǔ)境的復(fù)雜性。正是在這種互補(bǔ)中,技術(shù)的精確與人文的洞察相互校正。數(shù)字人文由此成為一種新的方法論——在數(shù)據(jù)中重建人文的尺度。

項(xiàng)目團(tuán)隊(duì)承辦世界古典學(xué)大會(huì)古典智慧與數(shù)智時(shí)代分論壇
這種由人文定義技術(shù)的研究方式,也讓數(shù)字人文超越學(xué)術(shù)范疇,走向文化交融與文明互鑒。依托“全球漢籍影像開(kāi)放集成系統(tǒng)”,無(wú)論身處何處,無(wú)論書(shū)在何處,都得以一鍵檢索全球中文古籍影像,跨越國(guó)界建立知識(shí)關(guān)聯(lián)。2024年11月,首屆世界古典學(xué)大會(huì)在北京舉行,清華大學(xué)承辦古典智慧與數(shù)智時(shí)代分論壇,劉石教授在論壇上作題為“古典知識(shí)工程:構(gòu)建人類(lèi)文明共同體的東方古典學(xué)構(gòu)想”的主旨發(fā)言,引發(fā)了國(guó)內(nèi)外參會(huì)學(xué)者的廣泛共鳴,新華社《半月談》2024年第12期亦以《當(dāng)古典學(xué)遇上數(shù)智時(shí)代》為題加以報(bào)道。
在學(xué)術(shù)共同體建設(shè)方面,項(xiàng)目團(tuán)隊(duì)做了長(zhǎng)期、大量的工作。連續(xù)舉辦六屆的清華數(shù)字人文國(guó)際論壇已成為代表國(guó)內(nèi)中文數(shù)字人文乃至文科前沿的會(huì)議品牌,累計(jì)吸引了數(shù)以千計(jì)的海內(nèi)外學(xué)者投遞征文、激蕩思想;并行設(shè)置的未來(lái)學(xué)者論壇,致力于持續(xù)發(fā)掘數(shù)字人文青年人才,培養(yǎng)新一代學(xué)人在數(shù)字人文的沃野上破土成林。清華大學(xué)數(shù)字人文中心與中華書(shū)局古聯(lián)公司牽頭成立了數(shù)字人文專(zhuān)業(yè)發(fā)展聯(lián)盟,數(shù)字人文學(xué)術(shù)共同體逐漸顯形。

首屆數(shù)字人文專(zhuān)業(yè)發(fā)展聯(lián)盟年會(huì)暨第六屆清華數(shù)字人文國(guó)際會(huì)議
自2017年舉辦首屆數(shù)字人文國(guó)際工作坊的星火初燃,到2025年成立數(shù)字人文研究中心,清華數(shù)字人文團(tuán)隊(duì)逐漸構(gòu)筑起以國(guó)家社科基金重大與重點(diǎn)科研項(xiàng)目、《數(shù)字人文》集刊、國(guó)際學(xué)術(shù)論壇、本研課程與未來(lái)學(xué)者培育、門(mén)戶(hù)網(wǎng)站與智能平臺(tái)建設(shè)為核心的數(shù)字人文學(xué)術(shù)鏈,在交叉學(xué)科的深水區(qū)開(kāi)拓創(chuàng)新,推動(dòng)傳統(tǒng)人文學(xué)科在智能時(shí)代的數(shù)字化轉(zhuǎn)型和發(fā)展。

清華大學(xué)中華傳統(tǒng)文化智能實(shí)驗(yàn)室架構(gòu)圖
2025年11月,隨著中華傳統(tǒng)文化智能實(shí)驗(yàn)室獲批教育部第二批哲學(xué)社會(huì)科學(xué)實(shí)驗(yàn)室,清華數(shù)字人文團(tuán)隊(duì)工作進(jìn)入了新的階段。實(shí)驗(yàn)室將致力于加強(qiáng)跨學(xué)科、跨領(lǐng)域協(xié)同創(chuàng)新,結(jié)合大數(shù)據(jù)和人工智能等新技術(shù)手段,打通出土文獻(xiàn)、傳世文獻(xiàn)與現(xiàn)代學(xué)術(shù)文獻(xiàn),創(chuàng)建“中國(guó)古典知識(shí)庫(kù)”與“中華傳統(tǒng)文化大模型”,以服務(wù)數(shù)字中國(guó)和教育強(qiáng)國(guó)建設(shè),推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展。