113年度GIS專題中心暑期實習生成果介紹(7)

專題題目:基於 LLaVA 多模態模型方法評估行人空間品質

實習學生:鄭怡文 (國立政治大學地政學系)

指導老師:郭巧玲 助研究員

1.研究背景與動機

台灣的行人空間,包括人行道與騎樓,常常因臨時停放的車輛、私人商家攤販使用或公共設施設置,增加了行人的不便和意外風險。本研究旨在探索如何利用生成式AI方法—LLaVA(Large Language and Vision Assistant) (Haotian Liu et al., 2023)多模態模型進行Image to Text訓練任務,達成自動化評估行人空間品質,提供可步行性(Walkability)分析參考,希冀提升行人空間的品質和安全性。

2.研究流程與方法

本次訓練模型的影像來自「平安走路許願帳戶」(韓中梅、許武龍,2022),該專案以公民科學的精神,透過自發式地理資訊(Volunteered Geographic Information,縮寫VGI)方式蒐集各地的行人環境影像,在群眾標註上以CC0版權方式公開使用。

相關的研究流程與地圖網站設計架構可參照圖1,包含訓練資料取得、行人空間品質指標設計、資料預處理與標註、行人空間品質模型建構(LLaVA)、WebGIS架設、行人空間品質分析等步驟。其中的評分指標包含「是否設置人行空間」、「保護性」、「占用情形」、「行人被迫繞道、碰到的最大風險」、「視線遮擋」等五項。

圖1 研究流程圖

3.LLaVA 模型結構與訓練

  • LLaVA 模型為多模態模型,結合視覺與語言訊息。
  • 使用 LLaVA1.5-7B 版本模型,考量模型大小與運算資源限制,適合 Image to Text 任務需求。
  • 主要架構:預訓練的 CLIP ViT-L/14 視覺編碼器和 Vicuna 語言模型。
  • 模型特點:將影像特徵投影到語言嵌入空間,實現視覺與語言的整合。
  • Prompt 範例:請針對這個行人空間的「設置人行空間」、「保護性」、「佔用情形」、「行人被迫繞行或碰到的最大風險」和「視線遮擋」這五個方面進行評分,每一項的分數範圍為0到1分。
  • Answer 範例:(A)人行空間:有設置人行道或騎樓,得到1分 (B)保護性:實體人行道(有實體分隔),得到1分 (C)佔用情形:無佔用或阻礙,得到1分 (D)行人碰到的風險:無車輛行駛,得到1分 (E)視線遮擋:無視線遮擋,得到1分。
  • 模型訓練採用 Cross-Entropy Loss 作為損失函數◦
  • 訓練影像數量:1498,測試影像數量:749,訓練 Epoch:12,最終 Loss 值為 0.0038。

4.行人空間評估WebGIS應用

使用開源Mapbox地圖服務框架(Mapbox, n.d.)建立網站,設計規劃上以示警分析的方式呈現,同時也讓一般民眾嘗試了解自家周圍或上班區域的行人空間品質。

地圖網站透過500*500公尺網格進行顏色分級,顏色越綠代表行人空間越友善,越橘或越紅代表越不友善(圖2);放大至街道尺度時(圖3),一樣可看到用顏色進行分級的點,每一個點可以進行pop-up資訊呈現。

圖2 行人空間評估WebGIS網站

圖3 行人空間評估WebGIS網站功能

網站也提供圖片上傳,進行行人空間品質評估功能,使用者可以透過點擊或拖曳方式選擇圖片(圖4),按下「上傳圖片」按鈕,圖片將會回傳至後端進行行人空間評估文字生成,再將結果回傳前端顯示在網站上(圖5),進行A~E五個項目的評分顯示。

圖4 上傳圖片頁面
圖5 LLaVA模型推理結果

5.結論與後續目標

  • LLaVA 模型在行人空間評估上展現出可行性,可實現自動化評估。
  • 在簡單場景的理解上表現較為穩定,但在複雜情境下仍有進步空間。
  • 目前未考量交通尖峰與離峰時間特性,以及行人面對背對車道差別等影響因素,可作為後續研究探討內容。
  • 現有模型輸出結果在解釋性上仍顯不足,未來將建立 LLaVA 模型多輪推理的對話功能,讓使用者更清楚理解評分原因。