建置以《史記》歷史事件研究為目的之文本資訊擷取技術

計畫類別數位文化中心計畫
計畫編號AS-ASCDC-111-206
通過年度111
執行單位人社中心
主持人蔡宗翰 研究員
簡介本計畫基於前期「史語所學術創新數位深耕計畫」分項計畫「建置研究導向知識庫所需之巨量歷史文本資訊擷取技術」所研發之漢籍電子文獻標註系統架構,進一步推展整合資訊技術與人文研究之數位人文研究方法。利用自然語言處理技術,不僅可自動擷取巨量歷史文獻中的人物與地名等關鍵詞彙,有系統地呈現其時空特性,更可藉由多重文本段落的交互參照比對,推衍文本內容之間的語意關係,建立歷史事件擷取模式,以輔助人文相關研究課題的推展。
 
本計畫將《史記》作為實驗文本,以《史記》歷史事件擷取為主軸,完善歷史事件分析所需命名實體識別之處理,落實人、地、時等資訊擷取,並解構事件文本段落穿插引用的模式;由目前數位人文深度學習領域中,探究有關歷史事件擷取之相關文本分析技術,實作文本蘊涵、事件偵測與複雜事件構成模式之識別。上述工作將以專家研究資料為基礎,作為訓練資料來源,以及多重文本整合的依據,亦藉以驗證本研究分析模式的可用性。
 
本計畫研發之方法預計可廣泛應用於不同的歷史文本,且能有效擷取其所記載之事件,輔助解析歷史事件因果。本計畫亦將進一步強化時空資訊與歷史知識之整合應用,改善歷史事件於地圖呈現之可視化效果,拓展文本時空整合資訊系統於數位人文之研究範疇。
相關連結數位人文視野之歷史文本資訊擷取