113年度GIS專題中心暑期實習生成果介紹(6)

專題題目:基於大語言模型技術之中文學術文獻時空資訊擷取

實習學生:鄭卓欣 (國立臺北大學資訊工程學系)

指導老師:蔡宗翰 研究員

1.研究背景與動機

隨著數位化浪潮的推進,學術研究文獻數量呈現爆炸性成長,傳統的資訊檢索技術已難以應對日益龐大的文獻資料。特別是在地理學等涉及大量圖表、地圖的學科領域,現有的檢索系統存在明顯不足:

  • 無法有效處理多模態資訊:地理學文獻包含豐富的文字、圖表、地圖等多種模態資料,但現有系統多僅針對文字內容進行索引和檢索,忽略了重要的視覺資訊。
  • 缺乏對圖表內容的深入解析:學術文獻中的圖表往往包含關鍵的研究發現,但現有系統無法自動提取和理解圖表中的資訊。
  • 時空資訊擷取能力有限:地理學研究高度依賴時間和空間資訊,但現有系統難以準確識別和提取文獻中的時空要素。

2.研究方法與步驟

本研究採用 Retrieval Argumented Generation (RAG) 架構,並以 Multivector Retriever 為核心,其整體結構如下:

a.文獻預處理:

◦利用 Unstructured IO 將 PDF 轉換成有意義的表格數據、內文和圖。 主要分割方式採用 YOLOX 模型。

b.資訊提取與儲存:

◦將表格數據、內文和圖利用大語言模型做總結。
◦總結內容透過 Embedding model 轉化成向量並放入向量空間(Vectorstore),而對應的表格數據、內文和圖則存入資料庫(Docstore)。
◦向量空間會儲存對應資料的 ID,以便後續聯繫。

c.檢索與回答:

◦當問題傳入 Multivector Retriever 時,會先利用 Embedding model 預處理。
◦預處理後的向量會與 Vectorstore 中向量進行相似度搜尋,找出相似的向量。
◦接著利用 ID 從 Docstore 中提取相關資料,並將問題與提取資料一併傳入 LLM 中生成答案。

d.使用 ChatGPT-4o 來處理文字和表格。

3.系統架構圖 (Multivector RAG Pipeline)

本研究所設計之系統架構圖
  • PDF文獻經過 Unstructured IO 處理,提取出文字元素、表格元素和圖片。
  • 這些元素以及 LLM 總結被分別存入 Docstore 和 Vectorstore。
  • 使用者提出問題 (Prompt) 後,系統透過 Multivector Retriever 從 Vectorstore 检索相關資訊。
  • 系統將檢索到的相關圖片、表格和文字總結 與問題一起傳給 LLM,並產出答案。
使用者提出問題 (Prompt) 後,系統檢索回覆結果。
將檢索到的相關圖片、表格和文字總結與問題一起傳給 LLM,並產出答案。

4.預期應用潛力

  • 能夠自動識別和提取文獻中的圖表、地圖等視覺元素。
  • 能夠深度解析圖表內容,提取關鍵資訊。
  • 能夠準確識別和標註文獻中的時空資訊。
  • 大幅提升地理學術文獻的檢索效率和利用價值,為學術研究提供更強大的資訊支持。

結論:

本研究利用大語言模型技術和多模態機器學習模型,建構一個能夠自動化處理中文地理學文獻的智能系統。透過此系統,期望能夠解決傳統檢索方法在處理多模態資訊和時空資訊上的不足,進而提升學術研究效率。