資料載入中
跳到主要內容區塊
:::

電子報

前瞻策略與管理
農村發展及水土保持署
從翻譯到影像解讀:AI多模態應用在政府實務的深化探索
期數 / 第145期
發布日期 / 2025.06.12
主筆 / 許炘志
責任編輯 / 周湧裕

隨著人工智慧(AI)技術快速演進,現代AI工具已突破文字處理的界線,進一步掌握多國語言翻譯、影像理解,甚至協助詮釋歷史資料,為政府行政與數位轉型創造前所未有的可能性。過去,我們或許僅將ChatGPT等生成式AI視為文字撰寫助手;如今,這些AI已能跨越文字、語音與影像的藩籬,成為公部門同仁工作的全方位協作夥伴。在日益國際化、數位化的行政環境中,無論是多語翻譯、長篇文件解析,或視覺推理與歷史照片解讀,AI皆展現了卓越的實務價值。

本期電子報將透過多個真實應用案例,介紹AI如何成為跨模態的行政協作夥伴,協助公務人員提升效率,真正實踐人機協作的最大效益。

多層次翻譯應用:從直譯到意譯,翻譯品質全面提升

在政府對外聯絡與國際交流的工作中,經常需將中文資料翻譯成英文或其他語言,且必須同時兼顧譯文的準確性與在地性。像發布雙語新聞稿或向國際夥伴提供政策說明時,若僅用直譯,常難以傳達原文的微妙語氣,用詞不當甚至可能造成誤解。傳統翻譯工具通常只注重字面上的轉換,但在正式公文或新聞稿翻譯中,專業術語的一致性與語氣拿捏更是關鍵。

面對這類需求,ChatGPT 等生成式 AI 可擔任更全面的多層次翻譯助手角色。不僅能做到基本的多語言切換,亦能提供雙語對照輸出、協助比對專業術語,並根據實際需求靈活調整語氣與用詞風格。在實務操作中,可以使用 ChatGPT執行「直譯 → 反思 → 意譯」三階段翻譯流程,以有效提升譯文品質與自然度。

首先,由 ChatGPT 逐字忠實翻譯原文,完整保留資訊與細節。接著請 AI 像資深編輯一樣逐句審視直譯稿,檢查語氣自然度、用詞精準性以及專有名詞的正確性,指出不自然之處。最後,再根據這些反饋進行意譯潤色,確保譯文通順流暢且符合使用情境。

在提示設計方面,這三個步驟可分次進行,或以單一提示鏈整合多項指令。例如進階使用者可要求ChatGPT一次同時列出直譯與意譯兩個版本,便於比較修正。透過 AI 反覆自我審視和優化,能不斷調整語氣、術語用法與整體流暢性,最終產出既忠實原意又貼近目標語言習慣的高品質譯文。

案例參考連結:https://chatgpt.com/share/67eb8f5d-f6f0-8002-99ec-75e063d5afeb

圖1:使用ChatGPT提示詞執行三階段翻譯流程。
圖1:使用ChatGPT提示詞執行三階段翻譯流程。

此外由 Andrew Ng 團隊(DeepLearning.AI)開發的 Translation Agent,是一款開源的 Python 工具庫,採用「代理角色分工」的設計架構,自動化上述翻譯流程。Translation Agent 透過設定「翻譯者→編輯→評審」的多代理角色,進一步強化反思式翻譯的品質與效率。具體操作上,首先由「翻譯者」代理生成初步譯文,接著「編輯」代理像人工校對般仔細審閱初稿,指出用詞不精準或語意不自然之處並給予改善建議,最後由「評審」代理統整前述建議,產出精準、流暢且符合使用情境的高品質譯文。

圖2:使用Andrew Ng 團隊開發的開源工具組所架設的「翻譯反思改進器」介面,結合Translation Agent架構,將翻譯流程分為「初始翻譯」、「反思建議」、「最終譯文」三階段,並提供語氣選項與目標語言設定。
圖2:使用Andrew Ng 團隊開發的開源工具組所架設的「翻譯反思改進器」介面,結合Translation Agent架構,將翻譯流程分為「初始翻譯」、「反思建議」、「最終譯文」三階段,並提供語氣選項與目標語言設定。

透過預先設定的提示詞,Translation Agent 可自動化任務分工,流程化地產出接近人工翻譯水準的譯文。使用者能夠靈活調整提示,精準掌握翻譯風格、專有術語及地區用語。以農村社區里山地景與綠色經濟國際研討會的一段新聞稿為例,原稿含有許多專有名詞與特定表述。Translation Agent 在初步直譯後,透過提示即時進行反思修正,如建議將「民國114年」改為國際讀者更熟悉的「2025年」,並將術語「friendly farming practices」調整為更精準的「sustainable farming practices」。在語氣調整上,Agent 也依據提示將句子改寫得更加自然且符合正式語境,避免了過於生硬的直譯。經過「直譯→反思→意譯」的三階段過程,使用者彷彿擁有一位專業的雙語編輯,由AI協助反覆潤飾,最終得到精確且流暢的高品質譯文。

圖3:Andrew Ng 團隊開發的Translation Agent 將翻譯過程拆解為「初譯→反思建議→優化調整」三步,由 AI 依序扮演譯者、編輯和評審角色自動完成譯文潤色,實現高品質的翻譯結果。
圖3:Andrew Ng 團隊開發的Translation Agent 將翻譯過程拆解為「初譯→反思建議→優化調整」三步,由 AI 依序扮演譯者、編輯和評審角色自動完成譯文潤色,實現高品質的翻譯結果。
長文本翻譯工具比較:整份文件翻譯不再繁瑣

政府單位經常需要處理篇幅龐大的翻譯任務,例如數十頁的國外政策白皮書或技術報告等。傳統方式是使用一般翻譯軟體或線上服務,逐段切割後再逐一翻譯,不僅費時,還容易遺漏重要資訊。雖然 ChatGPT 能透過對話即時翻譯,但因受限於單次對話字元(token)上限,無法一次完整容納整份長文件,逐段貼入則繁瑣且可能因缺乏前後文脈絡而影響譯文品質。面對這些痛點,我們可以利用近期興起的長文本翻譯工具,包括 ChatGPT 的進階功能與專業翻譯軟體,一次性地處理整份文件,提升翻譯效率與品質,並減輕人工分割文本的負擔。

圖4:三款長文件AI翻譯工具的特點比較摘要。其中ChatGPT o3 + 深入研究模式可直接解析PDF章節內容,並提供翻譯、摘要與關鍵詞萃取等進階功能;DeepL翻譯以譯文自然流暢著稱,支援超過30種語言;PDFMathTranslate則是開源免費工具,優勢在於保留原文件的排版格式、數學公式和圖表,甚至能產生雙語對照的翻譯。
圖4:三款長文件AI翻譯工具的特點比較摘要。其中ChatGPT o3 + 深入研究模式可直接解析PDF章節內容,並提供翻譯、摘要與關鍵詞萃取等進階功能;DeepL翻譯以譯文自然流暢著稱,支援超過30種語言;PDFMathTranslate則是開源免費工具,優勢在於保留原文件的排版格式、數學公式和圖表,甚至能產生雙語對照的翻譯。

在實測中三款長文本翻譯工具各具特色。。我們以一份20頁、2.1 MB大小的《2023日本防災白皮書》英文章節為測試文本:

• ChatGPT(o3模型 + 深入研究模式):我們將完整 PDF 文件上傳 ChatGPT,設定其扮演專業編輯角色進行逐頁翻譯,並要求用詞須符合臺灣常用語且風格專業。ChatGPT 展現出良好的上下文理解能力,譯文正式且忠實原意。但圖片內容未進行文字翻譯,僅截圖保留原文,且當文件頁數超過 100 頁時,翻譯精確度會明顯下降。
翻譯結果參考連結:https://drive.google.com/file/d/1bAWdGdrab8E75j3jHAtieBoEk70nky9-/view

• DeepL 翻譯:直接上傳 PDF 文件至 DeepL,一鍵即可在短時間內取得全篇譯文。DeepL 的翻譯自然流暢且易讀,幾乎無須額外潤飾;圖片內文也能辨識並翻譯,排版維持完整、處理迅速。對科技及政策文件的術語掌握度高,譯文貼近日常慣用語。但免費版有限制(單檔 5MB 內),且需上傳雲端,有內網隱私需求時需謹慎評估。整體適合高品質直譯、不需額外摘要或編輯的情境。
翻譯結果參考連結:https://drive.google.com/file/d/1WTbEUhdSoLC3BNF9nACvLsr9SIRQB8b8/view

• PDFMathTranslate:這是由社群開發、可在本機或離線環境執行的開源工具。上傳 PDF 後,工具會輸出原文與譯文雙語對照的文件,保留原始格式與數學公式、表格等特殊排版,便於校對與學習。然而其翻譯品質取決於串接的翻譯引擎(如 Google、Bing、LLM 等),且圖片內文無法翻譯,偶有漏譯情形;也不具ChatGPT 摘要與語句重組能力,介面相對簡單,雙語對照模式為學習與校對提供便利的參考素材。

PDFMathTranslate github:https://github.com/Byaidu/PDFMathTranslate

翻譯結果參考連結:https://drive.google.com/file/d/1UVbB5wV1FqEnzbPG_whM9G19H6itE0fT/view?usp=sharing

視覺推理應用:當AI成為照片偵探

除了文字翻譯外,ChatGPT 的視覺理解能力也逐漸在實務中展現出價值。OpenAI 在 2025 年推出具備圖像理解功能的 o3 模型,能將圖片中的元素轉化為文字線索,結合已有知識進行跨模態推理。這表示我們可以僅憑一張圖片,便能讓 AI 描述內容,甚至針對圖片進行提問。舉例來說,它可同步分析圖像與附帶的文字資訊,遇到細節模糊處,還會主動嘗試放大或旋轉以尋找更多線索,若圖片中包含地標建築或手寫文字,AI 同樣具備基本的辨識與解讀能力。

我們透過一張未附說明的街道災後照片,測試 ChatGPT 能否僅憑圖像線索推理事件的時空背景,進一步驗證其跨模態推理能力。ChatGPT 仔細分析影像中的關鍵資訊,包括街道上的巨量泥砂、遠處的橋樑,以及建築招牌上的電話號碼「2458-8 …」。AI 判斷「245」開頭的市內電話屬於基隆市暖暖、八堵一帶的交換機號碼段,再根據背景中約九層樓的都市建築特色,推測地點可能位於基隆市區。進一步比對臺灣歷年重大災害紀錄,ChatGPT 推斷此場景極可能是 2001 年納莉颱風侵襲後基隆市暖暖區的災情。

我們要求先列舉可見細節,再進行推理,避免 AI 一開始就產生主觀臆測。這種方式提升了回答的可追溯性與準確性。ChatGPT 不僅成功判斷出災害類型、發生地點,甚至合理還原事件時序,展現其從圖像資訊中抽絲剝繭、構築敘事的能力。此案例顯示,生成式 AI 不僅能支援災後判讀與歷史影像考證,更提醒我們:善用結構化提問與多重線索比對,是提升 AI 理解力與推理準確度的關鍵策略。

案例參考連結:https://chatgpt.com/share/680b2da1-8008-8002-9a2a-01b2c769f957

圖5:農村水保署歷史影像平台收藏了大量災害現場照片,其中部分尚未完成拍攝地點定位。這張影像透過 ChatGPT o3 模型協助推理,根據街景、招牌與地貌特徵,成功判斷為 2001年納莉颱風後的基隆市暖暖區,並已完成於平台上標註定位。
圖5:農村水保署歷史影像平台收藏了大量災害現場照片,其中部分尚未完成拍攝地點定位。這張影像透過 ChatGPT o3 模型協助推理,根據街景、招牌與地貌特徵,成功判斷為 2001年納莉颱風後的基隆市暖暖區,並已完成於平台上標註定位。
老照片說故事

政府機關典藏的歷史照片,彷彿時間膠囊,封存了過去的災後現場、工程施工與政策身影。然而由於年代久遠,許多照片缺乏標註與背景資料,成為一幅幅無法開口說話的無聲影像。畫面中的人們依舊鮮明,但背後的地點、時間與脈絡卻模糊難尋,也使這些珍貴的影像難以發揮敘事的力量。這次我們運用 ChatGPT的視覺推理能力,試著替這些沉默的歷史影像重新「補故事」。

這是一張攝於民國55年(1966年)的老照片,一群人站在「南化鄉公所」門口合影。沒有人名、沒有說明、只有建築上的門牌與模糊布條。於是,我們請ChatGPT仔細觀察,並逐步推理出照片的時空背景與角色身分,試圖挖掘背後隱藏的故事。

圖6:民國55年蘇振杰局長暨各主管參訪南化鄉公所。
圖6:民國55年蘇振杰局長暨各主管參訪南化鄉公所。

透過視覺辨識,AI 首先確認了建築門楣上的「臺南縣南化鄉公所」字樣;右側布條的「賀蔣公當選連任」,指向1966年3月的總統選舉;左柱布條則寫有「歡迎山地農牧局長官」,進一步確認來訪單位。而中央穿著開領襯衫、神態自信的主要人物,其外型與當時山地農牧局局長蘇振杰十分相符。

結合1960年代的坡地治理政策與歷史背景,ChatGPT 進一步推論出當天可能的行程脈絡:南化鄉地處後堀溪流域,長年飽受坡地災害影響,同時也是龍眼、芒果等果樹的新興栽培區,因此成為山地農牧局推動水土保持工程的重要示範地點。此次視察行程可能包括鄉公所簡報、梯田與牧場現場踏查,以及相關補助項目審核,最後再回到鄉公所門前合影留念,成就了這一歷史瞬間。

這張照片不僅是一張地方視察的紀錄,更是臺灣水土保持體系在萌芽階段的縮影。照片記錄了當年坡地治理現場,從山地清理到梯田示範,體現出政策從草創到系統化治理的轉折點。人物的排列與角色結構,更反映了中央與地方之間的治理動員模式,部會長官、地方人員與基層農友一同站在現場,不只是禮儀,更是當年政策落地仰賴的多層次協作網絡。此外,「賀蔣公連任」布條與坡地治理的場景同時入鏡,也提醒我們,在威權年代,專業技術治理常與政治象徵緊密交織。六十年後回顧,這張影像已超越了單純的合影意義,成為理解當代臺灣治理模式與歷史脈絡的重要切片。

如今水土保持工作已步入數位時代,從人工繪圖、現場丈量,到如今透過 LiDAR 地形掃描與 AI邊坡預測。然而,這張老照片中那些腳踩泥濘、穿著工作服的人物卻提醒我們:無論技術如何進步,政策與治理終究必須扎根於土地、連結於人與地方的故事。AI 能協助我們理解過去,但治理的真正核心,仍然是人與土地之間持續而深刻的連結。

案例參考連結:https://chatgpt.com/share/68381ff8-c19c-8002-8c93-324a079efcf8

結語

隨著AI的跨模態能力日益成熟,我們看見的不僅是技術的進步,更是工作方式與思維模式的轉變。無論是翻譯精準的公文、解析複雜的長文件,抑或從歷史影像中重建被遺忘的故事,AI都證明了它在政府行政場域的多元價值。然而,技術再先進也需落地於實務與人際脈絡之中,真正推動進步的,始終是人與科技之間精妙的協作與相互激盪。期待未來的AI應用,不只是提升效率,更能深刻融入人們的生活與記憶,成為真正有溫度的科技夥伴。

Back To Top