電子報
影像辨識作為人工智慧應用的一環,已廣泛用於生活周遭,不管是辨別影像上的物件,或是對不同物件進行分類等,電腦藉由影像轉換、色彩調整、像素之間的對照與分類,最終能辨識圖像目標,勾勒物件輪廓(如圖1)。
這些技術的背後不僅有電腦視覺的理論基礎,面對不同應用情境,也有不同的影像訓練方式。試想,當遙測與光達技術不斷提升時,我們熟悉的2D影像技術,是否有更多應用的可能性?本期電子報將帶大家回顧機器學習的發展、觀察國內不同領域的應用、以及目前國際研究趨勢。
過去約莫20年間,大數據浪潮席捲世界,從早期由數據萃取資訊,融合經驗形成知識,到2012年Gartner對大數據定義的3個V,Volume(量體)、Velocity(速度)和Variety(多樣性),藉由儲存技術與演算法改良之賜,數據時代逐漸走向智慧時代(如圖2)。
人工智慧(Artificial Intelligence = AI)廣義來說,是電腦經由程式設計後,能表現出近似人類智慧的行為,而機器學習是達成人工智慧的其中一種方式,藉由大量資料的處理與訓練,讓電腦找出背後隱藏的公式法則(判斷模型)。在這些演算法中,目前最成熟、應用最廣,也進一步促成這波AI應用大爆發的,就是深度學習演算法(如圖3)。
機器學習的方式,可概分為三種,監督、非監督以及強化式學習,不同方式有著不同的優點,同時也有其限制(如圖4)。
在有了上述的背景概念之後,下一個問題便是,電腦究竟是怎麼看圖像的呢?人類觀看世界的方式(如圖5),跟電腦觀看的方式有很大的不同;對電腦來說,依靠的是不同顏色的小點(像素,pixel),以不同方式的排列來分辨圖像(如圖6)。
當電腦使用像素的方式儲存圖像後,便能針對排列的規則(如圖7),應用不同演算法,進行特徵的掃描與歸納,最後得出像素的特徵矩陣(如圖8),作為後續辨識的模型。
上述像素轉換與特徵的萃取,加上大量的影像資料,結合訓練方式所得到的模型,便能使電腦獲得辨識影像中物件的能力,以此進行分析、統計、框選與比較,並進一步應用於不同議題與領域。比如遙測影像分類、防災監測、設施與巡檢、人流統計與自動駕駛、水位尺狀態偵測等(如圖9)。
例如,國內的興創知能公司以Python語言為基礎,整合GDAL(Geospatial Data Abstraction Library),開發了TronGisPy套件(如圖10),以開源的MIT授權釋出。這個GIS影像自動化處理開源套件,能提供機器學習前處理、後處理功能,加速資料處理速度,建置GIS自動化流程,其簡化的GDAL介面、Python介面等,能讓工程師快速開發多種應用(如圖11)。
影像辨識應用上不僅能用於遙測,也能用於道路安全,如交通部運輸研究所搭配無人機影像,偵測人、車等交通流量與軌跡(如圖12),並透過軟體分析路口衝突熱點(如圖13),以防範事故於未然。
在生活與商用領域,影像辨識技術越趨成熟,而在2D影像之外,演算法的發展、3D測量技術如光達掃描的結合,又有哪些應用的可能?讓我們從電腦視覺領域的大型研討會中,發掘目前的研究趨勢與技術前沿。
目前電腦視覺Computer vision研討會中,論文收錄方向包括了影像感知、顏色、光線與紋理處理,分割與聚合,運動與跟蹤,立體視覺與運動結構重構,圖像建模,物理建模,統計,物件或場景識別等。其中較為大型的三個會議分別為CVPR(Conference on Computer Vision and Pattern Recognition,如圖14)、ICCV(International Conference on Computer Vision,如圖15)和ECCV(European Conference on Computer Vision)。
研討會中涵蓋了電腦視覺的各種應用可能,其中2021的CVPR中,微軟亞洲研究院被收錄的論文之一,展示了3D物件偵測與深度圖、2D物件的混合辨識可能性。論文中提出了新的點雲產生器(SpareNet,如圖16),其微分特性與深度圖的應用(如圖17),在3D物件偵測與重建上,得到了不錯的結果(如圖18)
在可見的未來,影像辨識將不止於平面的光學影像,深度感測技術的進步,以及3D物件辨識的研究發展,相信在硬體成本逐漸克服後,3D影像辨識將帶來更多應用的可能性。
1. ML機器學習種類與訓練方式:
https://ithelp.ithome.com.tw/articles/10276406
2. 人工智慧與機器學習的差異:
https://www.prowesscorp.com/whats-the-difference-between-artificial-intelligence-ai-machine-learning-and-deep-learning/
3. AI & Big Data的演變趨勢(中)—演算法篇:
https://taccplus.com/technews-2021-07-26/
4. 教電腦「看」世界:電腦也能當球賽戰術分析員!:
https://pansci.asia/archives/117676
5. 計算機視覺筆記及資料整理(含圖像分割、目標檢測):
https://www.twblogs.net/a/5ee54d6d938dcc944ed9ee7c
6. 興創知能- Geo-AI浪潮下的影像辨識應用新契機:
https://www.asmag.com.tw/showpost/12223.aspx?name=%E8%A1%8C%E6%A5%AD%E6%87%89%E7%94%A8
7. TronGisPy: GIS網格資料處理工具:
https://jeremy455576.medium.com/trongispy-gis%E7%B6%B2%E6%A0%BC%E8%B3%87%E6%96%99%E8%99%95%E7%90%86%E5%B7%A5%E5%85%B7-42815036b353
8. TronGisPy-GitHUB:
https://github.com/thinktron/TronGisPy
9. UAV空拍+AI影像辨識,協助地方守護路口安全:
https://www.iot.gov.tw/cp-24-206265-2e8d6-1.html
10. CVPR2021主要會議論文的視覺化查詢效果:
https://blog.kitware.com/demos/cvpr-2021-papers/?filter=authors&search=
11. CVPR 2021亮點:視覺研究前沿進展概述
https://www.microsoft.com/en-us/research/lab/microsoft-research-asia/articles/cvpr-2021-highlights-an-overview-of-the-cutting-edge-progress-of-vision-research/
12. Style-based Point Generator with Adversarial Rendering for Point Cloud Completion
https://arxiv.org/abs/2103.02535