跳到主要內容
網站顏色切換 深色模式
進階搜尋
關閉搜尋
:::

臺灣主權AI訓練語料庫

背景說明

為完善AI發展所需之基礎建設,加速建構臺灣主權AI生態,提升中文訓練語料庫之多樣性與高品質,以支援AI模型訓練與應用發展,徵集具臺灣文化特色與語意連貫之高品質正體中文語料,建構合法合規的語料資源共享機制,促進主權AI發展。

打造臺灣主權AI訓練語料庫

鑒於大型語言模型(LLM)著重於自然語言表達能力,訓練資料應集中於語意連貫性、內容結構完整且流暢之高品質資料,本部規劃優先推動政府機關提供高品質正體中文語料,協同教育部、文化部、原住民族委員會、客家委員會等逾200個機關,共同打造「臺灣主權AI訓練語料庫」,提供文化藝術、語言詞彙、歷史文物、在地文化、觀光旅遊、教育學習等多元主題語料,支援我國主權AI的發展與應用。

主權AI訓練語料庫攜手各機關,打造豐富多元語料庫

授權條款機制先行

為加速完備AI訓練資料的多樣性與品質,並適當消弭AI訓練資料於著作權爭議,促進各機關擴大訓練資料釋出,本部研擬並發佈《臺灣主權AI訓練語料授權條款-第1版》,協助資料提供者與AI模型訓練者之間建立一套可行的授權機制,進而促進資料的合法流通與技術自主,並會同經濟部智慧財產局研提相關授權適用案例,提供各機關參考,期能在擴大訓練資料釋出與維護原著作權人權益間取得平衡。

返回頁面頂端