111年度GIS專題中心暑期實習生成果介紹（6） – 中央研究院人社中心地理資訊科學研究專題中心

專題題目：影像與音訊處理

實習學生：鄧人豪（陽明交通大學資訊工程學系）

指導老師：詹大千研究員

詹大千研究員所指導暑期實習學生鄧人豪同學，在本次暑期實習計畫中，參與聲感地圖現行錄計畫，調查民眾對環境聲音感受的健康影響，並研究影像與音訊的處理，以下分為幾個技術議題Audio Visualization、Transfer Learning、Audio Assessment及參與其他研究計劃的Semantic Segmentation實驗，簡述其研究方法與結果。

1.Audio Visualization

針對語音檔進行數據化分析，將其視覺化，以便之後研究人員的察看與研究；使用python package讀入音檔後進行處理，接著計算各種指標、音量大小對時間分布關係及頻率的各類分布。獲得之結果分為兩種，第一種使用python，程式會輸出兩張結果，分別為聲音音量與聲音頻譜；第二種為網頁，使用python、flask.js與chart.js將結果佈署在主機上，可在人社中心網域內看到網頁。

2.Transfer Learning

在計畫中，因受試者是用手機錄音，雜訊跟噪音較多，所以在機車、公車、卡車這三類上的預測準確率較低，因此鄧同學的目標是用transfer learning加上三個新的class，分別是新的機車、新的公車、新的卡車，讓模型的輸出從原本的521種變為524種。在訓練後，無論輸入的音檔是何種，最終predict出來的種類都是新的機車、新的公車、新的卡車這三個種類，這又被稱為 catastrophic forgetting，這現象代表的是學習新的 class 而忘記舊的 class。

3.Audio Assessment

研究人員期望藉由音檔直接預測受試者對於此音檔的舒適度；將音檔進行STFT(Short-time Fourier transform)當作input feature，然後進行訓練，並讓資料集盡量平衡。在多次調整參數與排除其他因素後，結果並不理想，鄧同學猜測表現不佳的其中一種原因為用於訓練的音檔雜訊及噪音過多的問題及ConvNet本身的設計問題。

4.Semantic Segmentation

在另一項計劃中，欲得知綠色植物對pm2.5的影響，計算綠色植物在圖片中占了多少比例（GVI）。將圖片中的各個物件分類，最後把樹、草地、植栽等等幾種的比例進行總和，成果使新的模型會輸出文字結果至csv檔以及inferenced image至資料夾中，獲得已標註的地真資料與inferenced image的相關係數為0.93；pixel的平均正確率為0.88；平均MIoU為0.6，效果佳。

資料提供：鄧人豪
說明文稿：鄧人豪、羅翊文、廖泫銘