勤業眾信科技與轉型服務 / 黃志豪資深執行副總經理
過去一年,生成式 AI(Generative AI)帶來的技術震撼已無庸置疑。許多企業積極展開 AI 概念驗證(POC),最先關心的往往是「模型」本身:該選哪一家的大語言模型?算力是否足夠?地端部署還是上雲?然而,隨著專案進入實戰階段,主管們開始感受到一個殘酷的現實:真正決定 AI 能否從「實驗室」走向「生產線」的關鍵,往往不是模型本身,而是那些藏在水面下、佔了 80% 的資料治理工程。
這個現象與經典的「冰山理論」不謀而合:企業目光所及的,往往是露出水面的模型效能與應用介面(只佔 20%);但真正支撐 AI 落地的,卻是底層那 80% 龐大且複雜的資料基礎建設——包含資料品質、權限管理、流程整合與合規制度。
模型是能力的「放大器」,而非髒資料的「清潔器」
企業初次導入生成式 AI,往往驚豔於其強大的語言理解與生成能力。但在導入財務分析、客戶服務或內控合規等高精確度場景時,問題便接踵而至:AI 回答不精準、引用過時數據,甚至產生「幻覺」(Hallucination)。
許多企業誤以為換一個更強的模型就能解決問題,但事實上,更好的模型,未必能彌補「不乾淨的資料」。
我們必須認清一個關鍵事實:AI 模型是企業能力的「放大器」,而不是髒資料的「清潔器」。 若企業內部的資料生態是混亂的——例如客戶名稱在不同系統不一致、文件版本新舊夾雜——AI 的導入非但無法創造價值,反而只會「更有效率地放大這些混亂」。若是底層資料缺乏治理,模型越強,犯錯的速度與自信度反而越高,這對企業決策而言將是巨大的潛在風險。
RAG 架構下的新挑戰:非結構化資料治理
為了讓 AI 更懂企業內部知識,檢索增強生成(RAG)已成為主流架構。許多人誤以為 RAG 可以跳過繁瑣的訓練步驟,直接把文件丟進向量資料庫即可,但事實上,RAG 對資料治理提出了更高的要求。
在傳統 IT 時代,我們習慣治理結構化資料(如資料庫表格);但在 GenAI 時代,我們必須治理大量的「非結構化資料」。這帶來了一系列新的檢核清單:
若缺乏這些治理手段,RAG 系統將難以辨識資料的時效性與權威性,最終導致模型「自信地引用了錯誤的過期資訊」,大幅降低使用者對系統的信任。
不只是 IT 問題,更是組織流程的重整
企業導入 AI 時常存有一個認知誤區:以為這只是「加裝一個新科技工具」,實際上這往往涉及「舊流程的重整」。
以保險理賠或供應鏈管理的場景為例,若想讓 AI 輔助判斷,企業首先得面對歷史共業:診斷書格式不一、代碼對應表版本混亂、人為備註缺乏標準欄位。實務經驗顯示,一個成功的 AI 專案,往往有 70% 的時間花在資料清理與跨部門的流程對齊。
這不僅是 IT 部門的責任,更需要業務單位的投入。企業需要建立跨部門的資料字典、定義單一資料來源(Single Source of Truth),並釐清資料擁有者(Data Owner)。AI 專案在本質上,其實是一次強迫企業面對資料孤島(Data Silos)並進行流程再造的契機。
資料治理是 AI 時代的護城河
資料治理並非一次性的專案,而是如同水電般的營運基礎建設。隨著資料持續生成、組織架構調整,若沒有持續性的維護機制,AI 的準確度會隨時間迅速下降。例如新部門成立後權限未同步、新欄位未納入定義,都會導致系統逐漸失效。
模型與演算法會隨著市場技術而不斷演進、甚至標準化,但企業獨有的「高品質資料」與「治理流程」卻無法被輕易複製。在未來的競爭中,AI 導入不再只是比拚誰的模型更大,而是比拚誰的資料更乾淨、治理更扎實。
當主管在評估 AI 專案時,除了問「模型準不準」,更應該先問:「我們的資料準備好了嗎?」那 80% 看不到的冰山下工程,才是企業建構 AI 護城河的真正關鍵。