資料載入中
跳到主要內容區塊
:::

電子報

新興科技應用
農村發展及水土保持署
讓 AI Agent 成為 24 小時不打瞌睡的值班同事
期數 / 第163期
發布日期 / 2026.05.28
主筆 / 洪鵬智
責任編輯 / 周湧裕
從 LibreNMS 告警清單到 AI 自動研判,公部門也能打造低成本、可落地的智慧監控流程

在公部門資訊單位的日常維運中,我們常常面臨一個看似矛盾的困境:我們擁有極為完善的監控系統,卻依然在浩瀚的告警資訊中迷失方向。每天一早打開 libreNMS(Network Management System)儀表板(如圖1),迎面而來的是數以百計的紅燈與黃燈,這些告警有的來自設備的短暫連線波動,有的來自例行性的備份作業,還有許多是已知但尚未處理的低風險事件。

對於第一線的值班工程師而言,監控系統跳出大量告警已是家常便飯。然而,告警並不等於真正的風險。有些是誤報,有些是已知狀態,有些則是真正需要優先處理的致命問題。當人力有限且業務繁重時,我們面臨最困難的挑戰,往往不是「有沒有資料可以看」,而是「能不能從海量資料中,快速看出處理的優先順序」。每天花費大量時間在確認與過濾無效告警,不僅消耗了同仁的精力,也可能讓我們錯失了真正危急的異常徵兆。

圖 1:NMS 維運中心儀表板總覽,顯示總設備數、伺服器數、網路防火牆數與告警清單。
圖 1:NMS 維運中心儀表板總覽,顯示總設備數、伺服器數、網路防火牆數與告警清單。
從看告警到看結論:為什麼需要 AI-Net Memo

為了解決這個痛點,我們開始思考:既然系統已經收集了足夠的數據,我們是否能引進一個「24 小時不打瞌睡的值班同事」,來幫忙做第一輪的資料整理與判讀?這個想法促成了「智能網管備忘錄(AI-Net Memo)」的誕生。這不是要用 AI 來取代現有的監控系統,更不是要取代工程師的專業判斷,而是要改變我們與監控系統互動的方式——從「被動看告警」變成「主動得到交班備忘錄」。

在這個架構中,我們將大家熟知的 LibreNMS 系統(就像是資訊設備的健康檢查系統),透過 API(像是讓系統把資料主動交給 AI 看的資料窗口)連接到我們自行開發的 AI Agent(一位 24 小時待命、不會疲倦的值班助理)。我們利用 Claude Code 作為開發助手,快速打造出 FastAPI 網頁儀表板,並在本地端部署 Ollama 與 Gemma 4模型,負責把大量生硬的告警轉成簡短、可執行的處理摘要。

名詞小辭典:讓技術語言更親近

表 1:相關技術名詞與功能說明
表 1:相關技術名詞與功能說明
把 LibreNMS API 接到 AI Agent:讓系統自己整理交班備忘錄

這套機制的運作方式非常直觀。系統設定為每 30 分鐘自動啟動一次,AI Agent 會透過 API 撈取 LibreNMS 上所有的告警資訊與系統狀態。接著,Gemma 4模型會根據我們預先設定的提示詞與判斷邏輯,對這些告警進行分類、去重與重要性排序。

最終呈現出來的,不再是落落長的告警列表,而是一份精煉的「值班交班備忘錄」(如圖2)。這份備忘錄會明確列出前 8 個需要優先處理的項目,並針對每一項異常提供簡要的說明。更重要的是,AI 會根據歷史經驗與知識庫,提醒工程師「先做什麼」(例如先下指令檢查特定程序),並標示出「不處理會有什麼後果」。這樣的設計,大幅降低了工程師的認知負擔,讓他們一接班就能迅速掌握全局,將寶貴的時間投入在實質的決策與問題排除上。

圖 2:AI Agent 針對告警產生優先處理清單,自動排序並提供每項異常的處理建議。
圖 2:AI Agent 針對告警產生優先處理清單,自動排序並提供每項異常的處理建議。
實際案例:AI 找出 10.70.35.254 CPU 飆高問題

這套系統上線後不久,就展現了它的實質價值。在一次例行的自動分析中,AI Agent 在眾多告警中特別標示出了一台 IP 為 10.70.35.254 的設備。系統畫面顯示(如圖3),這台設備的 CPU 負載長時間超過 90%(loading over 90%),同時有多個介面呈現 down 的狀態,但也有部分介面正常 up。

如果是傳統的看告警模式,這個 CPU 飆高(如圖4)的訊息可能被淹沒在其他介面斷線的告警海中。然而,AI 的分析直接點出了問題的核心,並給出了明確的建議。

圖 3:設備 10.70.35.254 詳細告警畫面,顯示 CPU loading over 90% 以及各介面狀態,並附有 AI 自動分析結果。
圖 3:設備 10.70.35.254 詳細告警畫面,顯示 CPU loading over 90% 以及各介面狀態,並附有 AI 自動分析結果。

AI Agent 分析摘要(10.70.35.254)

表2:針對異常事件之診斷與處置建議摘要表
表2:針對異常事件之診斷與處置建議摘要表

經由這份備忘錄的提醒,值班同仁立刻與 SI(系統整合)團隊進行確認。經過追查,證實 10.70.35.254 是匯集所有無線網路基地台 AP 的重要交換器。這個發現至關重要,因為如果該設備因為 CPU 滿載而當機,可能造成本署及各分署的 iTaiwan 無法使用,進而嚴重影響洽公民眾使用網路的權益。

這個真實案例完美詮釋了 AI Agent 的價值。它的價值不在於「看起來很聰明」或是能寫出多複雜的程式碼,而在於它能協助我們提前發現那些在日常繁雜維運中,極可能被忽略的潛在風險。

圖 4:LibreNMS 上 10.70.35.254 的 CPU 使用率趨勢圖,可清楚看出設備長期處於高負載狀態,並在特定時間點後急遽攀升至接近滿載。
圖 4:LibreNMS 上 10.70.35.254 的 CPU 使用率趨勢圖,可清楚看出設備長期處於高負載狀態,並在特定時間點後急遽攀升至接近滿載。
圖 5:透過通訊軟體與 SI 團隊確認設備角色,證實 10.70.35.254 為匯集無線 AP 的重要交換器,若故障將影響 iTaiwan 服務。
圖 5:透過通訊軟體與 SI 團隊確認設備角色,證實 10.70.35.254 為匯集無線 AP 的重要交換器,若故障將影響 iTaiwan 服務。
人機協作:讓 AI 處理繁瑣,讓人專注決策

許多人在談論 AI 導入時,常有一種迷思,認為 AI 會自動解決所有的故障,甚至取代工程師的工作。但在公部門的資訊維運場域中,我們深刻體會到:真正的智慧化是「人機協作」,而非「人機取代」。

AI Agent 擅長的是不知疲倦地進行第一輪的資料整理、過濾雜訊與初步排序;而人類工程師擅長的,則是根據組織脈絡、過往經驗與當下情境,做出最終的判斷與處置。AI 給出的是建議與備忘錄,而按下修復按鈕、聯絡廠商、評估業務影響的,依然是具備專業素養的資訊人員。這種分工模式,不僅提升了處理效率,也讓工程師從枯燥的盯螢幕工作中解放出來,轉而從事更具價值的工作。

換個比喻來說,AI Agent 就像是一位勤奮的實習生,他會幫你把所有的郵件分類好、把緊急的事項貼上紅色標籤,並且準備好一份摘要報告放在你的桌上。但最終要怎麼回覆、如何決策,依然是你這位有經驗的主管職責。這樣的搭配,才是 AI 在公部門落地最務實的樣貌。

未來可延伸應用:打造全方位的智慧維運生態

「智能網管備忘錄」只是一個起點。當我們成功將監控數據與 AI 語言模型串接後,未來的延伸應用充滿無限可能。以下整理幾個值得期待的方向:

表 3:預期應用方向說明與效益分析表
表 3:預期應用方向說明與效益分析表

這一切的基礎,都建立在我們願意踏出第一步,讓 AI 成為我們日常維運的得力助手。每一個小小的自動化,都是邁向智慧維運的重要里程碑。

結語與導入心得

AI 導入的關鍵,從來不是買最貴的工具或追求最炫的技術,而是從一個真實的痛點開始。回顧這次「智能網管備忘錄」的實作經驗,我們整理了幾個心得與大家分享:

1. 先從資料已經存在的系統開始:例如我們選擇了已穩定運作的 LibreNMS,省去了重新佈建感測器的麻煩,讓導入成本降到最低。
2. 先讓 AI 做摘要與排序:不要一開始就期望 AI 自動處置故障,先從提供交班備忘錄這樣低風險、可人工複核的任務做起,逐步建立信任。
3. 重視工程師的備註與經驗:AI 需要人類經驗來補足脈絡,系統中工程師的處理紀錄與備註,是訓練 AI 判斷邏輯最寶貴的養分。
4. 減少沒人想做的重複性工作:最好的 AI 導入不是新增工作,而是把重複判讀、資料整理交給 AI,讓人負責確認、決策與處置,把時間還給真正有價值的事。

讓 AI Agent 成為 24 小時不打瞌睡的值班同事,公部門也能以低成本、可落地的方式,逐步邁向主動預警的智慧維運新時代。AI 賦能的起點,不在於技術有多先進,而在於我們是否願意從一個真實的問題出發,讓科技真正服務於人。

Back To Top