客語語音資料是自然語言處理技術能與其他語種接軌之必備材料,為帶動客語語音科技應用之發展,蒐集客語語音資源乃不可或缺之工作。
透過臺灣客語語音資料庫建置,收集數量龐大之客語語料與文字,錄製四縣及海陸腔調客語語音辨識與語音合成語料。以臺灣客語語音資料
為基礎,未來可結合人工智慧技術,發展客語數位應用,並供各界自由開發客語語音相關應用,讓客語能在教學推廣及常態生活使用中注入
科技能量。
四縣腔
-
語音合成:男聲:30小時,女聲:30小時
了解更多
-
語音辨識:300小時
了解更多
海陸腔
-
語音合成:男聲:30小時,女聲:30小時
了解更多
-
語音辨識:300小時
了解更多
應用範疇
台灣客語語音資料庫旨在促進人工智慧(AI)技術應用於客語保存、推廣及智慧服務發展。主要涵蓋範疇包括但不限於:
- 語音辨識系統開發:協助建置具備客語辨識能力的語音轉文字(Speech-to-Text, STT)服務。
- 語音合成技術開發:推動具備自然發音及客語口音特色之文字轉語音(Text-to-Speech, TTS)服務。
- 語音溝通系統建置:打造智慧語音互動平台,應用於智慧客服、智慧家庭裝置、教育服務、文化推廣等領域。
- 語言學及文化研究:透過語音資料庫的深入分析,有效支援客語語音語料研究及文化保存。
授權使用方式
-
授權範圍:
- 台灣客語語音資料庫所有權歸屬於客家委員會(客委會),由客委會授權予特定單位或機構使用。
- 被授權單位僅得將此語音資料庫運用於AI系統相關開發用途,不得將其作為其他未經許可用途。
-
使用限制:
- 被授權單位不得以任何形式將該資料庫進行再轉授權、販售或商業轉讓。
- 使用本資料庫之相關成果,需於顯著處明確標註本資料來源為「台灣客語語音資料庫(客委會授權)」。
- 若被授權單位之合作對象須使用此資料庫,需向客委會另行申請取得授權。
保密與資料保護
- 被授權單位應建立適當的資料保護措施,確保資料庫不被未授權之人員取得、洩漏或不當使用。
- 資料使用過程若涉及敏感資訊,需嚴格遵守個資相關法規及資料保護規定。
成果回饋
- 被授權單位於使用該語音資料庫後,如有相關成果發表,應主動通知客委會,並提供適當之成果文件以供推廣及記錄。
客委會保留最終解釋權,並有權利隨時檢視被授權單位之使用狀況與成果,以確保資料庫之妥善使用及管理。
立即前往中華民國計算語言學學會申請臺灣客語語音資料庫 (Hakka Across Taiwan)