113年度GIS專題中心暑期實習生成果介紹（6） – 中央研究院人社中心地理資訊科學研究專題中心

專題題目：基於大語言模型技術之中文學術文獻時空資訊擷取

實習學生：鄭卓欣（國立臺北大學資訊工程學系）

指導老師：蔡宗翰研究員

1.研究背景與動機

隨著數位化浪潮的推進，學術研究文獻數量呈現爆炸性成長，傳統的資訊檢索技術已難以應對日益龐大的文獻資料。特別是在地理學等涉及大量圖表、地圖的學科領域，現有的檢索系統存在明顯不足：

無法有效處理多模態資訊：地理學文獻包含豐富的文字、圖表、地圖等多種模態資料，但現有系統多僅針對文字內容進行索引和檢索，忽略了重要的視覺資訊。
缺乏對圖表內容的深入解析：學術文獻中的圖表往往包含關鍵的研究發現，但現有系統無法自動提取和理解圖表中的資訊。
時空資訊擷取能力有限：地理學研究高度依賴時間和空間資訊，但現有系統難以準確識別和提取文獻中的時空要素。

2.研究方法與步驟

本研究採用 Retrieval Argumented Generation (RAG) 架構，並以 Multivector Retriever 為核心，其整體結構如下：

a.文獻預處理：

◦利用 Unstructured IO 將 PDF 轉換成有意義的表格數據、內文和圖。主要分割方式採用 YOLOX 模型。

b.資訊提取與儲存：

◦將表格數據、內文和圖利用大語言模型做總結。
◦總結內容透過 Embedding model 轉化成向量並放入向量空間（Vectorstore），而對應的表格數據、內文和圖則存入資料庫（Docstore）。
◦向量空間會儲存對應資料的 ID，以便後續聯繫。

c.檢索與回答：

◦當問題傳入 Multivector Retriever 時，會先利用 Embedding model 預處理。
◦預處理後的向量會與 Vectorstore 中向量進行相似度搜尋，找出相似的向量。
◦接著利用 ID 從 Docstore 中提取相關資料，並將問題與提取資料一併傳入 LLM 中生成答案。

d.使用 ChatGPT-4o 來處理文字和表格。

3.系統架構圖 (Multivector RAG Pipeline)

PDF文獻經過 Unstructured IO 處理，提取出文字元素、表格元素和圖片。
這些元素以及 LLM 總結被分別存入 Docstore 和 Vectorstore。
使用者提出問題 (Prompt) 後，系統透過 Multivector Retriever 從 Vectorstore 检索相關資訊。
系統將檢索到的相關圖片、表格和文字總結與問題一起傳給 LLM，並產出答案。

4.預期應用潛力

能夠自動識別和提取文獻中的圖表、地圖等視覺元素。
能夠深度解析圖表內容，提取關鍵資訊。
能夠準確識別和標註文獻中的時空資訊。
大幅提升地理學術文獻的檢索效率和利用價值，為學術研究提供更強大的資訊支持。

結論：

本研究利用大語言模型技術和多模態機器學習模型，建構一個能夠自動化處理中文地理學文獻的智能系統。透過此系統，期望能夠解決傳統檢索方法在處理多模態資訊和時空資訊上的不足，進而提升學術研究效率。