資料載入中
跳到主要內容區塊

logo

內文查詢 網站導覽

文字大小

縮小 放大 English 中文
:::

電子報

新興科技應用
農村發展及水土保持署
當影像辨識從2D走向3D-電腦如何看見世界?
期數 / 第42期
發布日期 / 2022.04.07
主筆 / 林宥伯
責任編輯 / 陳振宇

影像辨識作為人工智慧應用的一環,已廣泛用於生活周遭,不管是辨別影像上的物件,或是對不同物件進行分類等,電腦藉由影像轉換、色彩調整、像素之間的對照與分類,最終能辨識圖像目標,勾勒物件輪廓(如圖1)。

圖1、興創知能開發之TronGisPy應用於森林圖資圈繪。來源:TronGisPy
圖1、興創知能開發之TronGisPy應用於森林圖資圈繪。來源:TronGisPy

這些技術的背後不僅有電腦視覺的理論基礎,面對不同應用情境,也有不同的影像訓練方式。試想,當遙測與光達技術不斷提升時,我們熟悉的2D影像技術,是否有更多應用的可能性?本期電子報將帶大家回顧機器學習的發展、觀察國內不同領域的應用、以及目前國際研究趨勢。

影像辨識的發展脈絡

過去約莫20年間,大數據浪潮席捲世界,從早期由數據萃取資訊,融合經驗形成知識,到2012年Gartner對大數據定義的3個V,Volume(量體)、Velocity(速度)和Variety(多樣性),藉由儲存技術與演算法改良之賜,數據時代逐漸走向智慧時代(如圖2)。

圖2、從BigData到AI。來源:taccplus.com。
圖2、從BigData到AI。來源:taccplus.com。

人工智慧(Artificial Intelligence = AI)廣義來說,是電腦經由程式設計後,能表現出近似人類智慧的行為,而機器學習是達成人工智慧的其中一種方式,藉由大量資料的處理與訓練,讓電腦找出背後隱藏的公式法則(判斷模型)。在這些演算法中,目前最成熟、應用最廣,也進一步促成這波AI應用大爆發的,就是深度學習演算法(如圖3)。

圖3、人工智慧、機器學習與深度學習架構圖。來源:www.prowesscorp.com
圖3、人工智慧、機器學習與深度學習架構圖。來源:www.prowesscorp.com

機器學習的方式,可概分為三種,監督、非監督以及強化式學習,不同方式有著不同的優點,同時也有其限制(如圖4)。

圖4、機器學習的3種方式。資料來源: Hackernoon
圖4、機器學習的3種方式。資料來源: Hackernoon

在有了上述的背景概念之後,下一個問題便是,電腦究竟是怎麼看圖像的呢?人類觀看世界的方式(如圖5),跟電腦觀看的方式有很大的不同;對電腦來說,依靠的是不同顏色的小點(像素,pixel),以不同方式的排列來分辨圖像(如圖6)。

圖5、人眼看世界的方式。來源:廖弘源,研之有物|中研院。
圖5、人眼看世界的方式。來源:廖弘源,研之有物|中研院。
圖6、電腦看世界的方式。來源:廖弘源,研之有物|中研院。
圖6、電腦看世界的方式。來源:廖弘源,研之有物|中研院。

當電腦使用像素的方式儲存圖像後,便能針對排列的規則(如圖7),應用不同演算法,進行特徵的掃描與歸納,最後得出像素的特徵矩陣(如圖8),作為後續辨識的模型。

圖7、影像轉換成像素方式儲存於電腦中。來源:www.twblogs.net
圖7、影像轉換成像素方式儲存於電腦中。來源:www.twblogs.net
圖8、圖解卷積神經網路演算法。來源:www.twblogs.net
圖8、圖解卷積神經網路演算法。來源:www.twblogs.net
產業與開源套件應用

上述像素轉換與特徵的萃取,加上大量的影像資料,結合訓練方式所得到的模型,便能使電腦獲得辨識影像中物件的能力,以此進行分析、統計、框選與比較,並進一步應用於不同議題與領域。比如遙測影像分類、防災監測、設施與巡檢、人流統計與自動駕駛、水位尺狀態偵測等(如圖9)。

圖9、影像辨識應用案例。來源:興創知能。
圖9、影像辨識應用案例。來源:興創知能。

例如,國內的興創知能公司以Python語言為基礎,整合GDAL(Geospatial Data Abstraction Library),開發了TronGisPy套件(如圖10),以開源的MIT授權釋出。這個GIS影像自動化處理開源套件,能提供機器學習前處理、後處理功能,加速資料處理速度,建置GIS自動化流程,其簡化的GDAL介面、Python介面等,能讓工程師快速開發多種應用(如圖11)。

圖10、興創知能開發之TronGisPy。來源:興創知能。
圖10、興創知能開發之TronGisPy。來源:興創知能。
圖11、TronGisPy開源程式碼,MIT授權。來源:興創知能。
圖11、TronGisPy開源程式碼,MIT授權。來源:興創知能。

影像辨識應用上不僅能用於遙測,也能用於道路安全,如交通部運輸研究所搭配無人機影像,偵測人、車等交通流量與軌跡(如圖12),並透過軟體分析路口衝突熱點(如圖13),以防範事故於未然。

圖12、應用無人機影像辨識人、車。來源:交通部運輸研究所。
圖12、應用無人機影像辨識人、車。來源:交通部運輸研究所。
圖13、分析人、車流移動軌跡與衝突熱點。來源:交通部運輸研究所。
圖13、分析人、車流移動軌跡與衝突熱點。來源:交通部運輸研究所。
電腦視覺的研究趨勢

在生活與商用領域,影像辨識技術越趨成熟,而在2D影像之外,演算法的發展、3D測量技術如光達掃描的結合,又有哪些應用的可能?讓我們從電腦視覺領域的大型研討會中,發掘目前的研究趨勢與技術前沿。

目前電腦視覺Computer vision研討會中,論文收錄方向包括了影像感知、顏色、光線與紋理處理,分割與聚合,運動與跟蹤,立體視覺與運動結構重構,圖像建模,物理建模,統計,物件或場景識別等。其中較為大型的三個會議分別為CVPR(Conference on Computer Vision and Pattern Recognition,如圖14)、ICCV(International Conference on Computer Vision,如圖15)和ECCV(European Conference on Computer Vision)。

圖14、CVPR研討會2021年論文集視覺化。來源:cvpr2021.thecvf.com
圖14、CVPR研討會2021年論文集視覺化。來源:cvpr2021.thecvf.com
圖15、ICCV研討會2021論文統計。來源:iccv2021.thecvf.com
圖15、ICCV研討會2021論文統計。來源:iccv2021.thecvf.com

研討會中涵蓋了電腦視覺的各種應用可能,其中2021的CVPR中,微軟亞洲研究院被收錄的論文之一,展示了3D物件偵測與深度圖、2D物件的混合辨識可能性。論文中提出了新的點雲產生器(SpareNet,如圖16),其微分特性與深度圖的應用(如圖17),在3D物件偵測與重建上,得到了不錯的結果(如圖18)

圖16、點雲產生器(SpareNet)。來源:https://arxiv.org/abs/2103.02535
圖16、點雲產生器(SpareNet)。來源:https://arxiv.org/abs/2103.02535
圖17、點雲模型進行微分後,產生2D模型深度圖。來源:https://arxiv.org/abs/2103.02535
圖17、點雲模型進行微分後,產生2D模型深度圖。來源:https://arxiv.org/abs/2103.02535
圖18、SpareNet與其他重建方法之結果比較。來源:https://arxiv.org/abs/2103.02535
圖18、SpareNet與其他重建方法之結果比較。來源:https://arxiv.org/abs/2103.02535

在可見的未來,影像辨識將不止於平面的光學影像,深度感測技術的進步,以及3D物件辨識的研究發展,相信在硬體成本逐漸克服後,3D影像辨識將帶來更多應用的可能性。

相關連結

1. ML機器學習種類與訓練方式:
https://ithelp.ithome.com.tw/articles/10276406
2. 人工智慧與機器學習的差異:
https://www.prowesscorp.com/whats-the-difference-between-artificial-intelligence-ai-machine-learning-and-deep-learning/
3. AI & Big Data的演變趨勢(中)—演算法篇:
https://taccplus.com/technews-2021-07-26/
4. 教電腦「看」世界:電腦也能當球賽戰術分析員!:
https://pansci.asia/archives/117676
5. 計算機視覺筆記及資料整理(含圖像分割、目標檢測):
https://www.twblogs.net/a/5ee54d6d938dcc944ed9ee7c
6. 興創知能- Geo-AI浪潮下的影像辨識應用新契機:
https://www.asmag.com.tw/showpost/12223.aspx?name=%E8%A1%8C%E6%A5%AD%E6%87%89%E7%94%A8
7. TronGisPy: GIS網格資料處理工具:
https://jeremy455576.medium.com/trongispy-gis%E7%B6%B2%E6%A0%BC%E8%B3%87%E6%96%99%E8%99%95%E7%90%86%E5%B7%A5%E5%85%B7-42815036b353
8. TronGisPy-GitHUB:
https://github.com/thinktron/TronGisPy
9. UAV空拍+AI影像辨識,協助地方守護路口安全:
https://www.iot.gov.tw/cp-24-206265-2e8d6-1.html
10. CVPR2021主要會議論文的視覺化查詢效果:
https://blog.kitware.com/demos/cvpr-2021-papers/?filter=authors&search=
11. CVPR 2021亮點:視覺研究前沿進展概述
https://www.microsoft.com/en-us/research/lab/microsoft-research-asia/articles/cvpr-2021-highlights-an-overview-of-the-cutting-edge-progress-of-vision-research/
12. Style-based Point Generator with Adversarial Rendering for Point Cloud Completion
https://arxiv.org/abs/2103.02535

Back To Top