臺灣客語語音資料庫

語料授權

客語語音資料是自然語言處理技術能與其他語種接軌之必備材料，為帶動客語語音科技應用之發展，蒐集客語語音資源乃不可或缺之工作。透過臺灣客語語音資料庫建置，收集數量龐大之客語語料與文字，錄製四縣及海陸腔調客語語音辨識與語音合成語料。以臺灣客語語音資料為基礎，未來可結合人工智慧技術，發展客語數位應用，並供各界自由開發客語語音相關應用，讓客語能在教學推廣及常態生活使用中注入科技能量。

四縣腔

語音合成：男聲：30小時，女聲：30小時了解更多
語音辨識：300小時了解更多

海陸腔

語音合成：男聲：30小時，女聲：30小時了解更多
語音辨識：300小時了解更多

應用範疇

台灣客語語音資料庫旨在促進人工智慧（AI）技術應用於客語保存、推廣及智慧服務發展。主要涵蓋範疇包括但不限於：

語音辨識系統開發：協助建置具備客語辨識能力的語音轉文字（Speech-to-Text, STT）服務。
語音合成技術開發：推動具備自然發音及客語口音特色之文字轉語音（Text-to-Speech, TTS）服務。
語音溝通系統建置：打造智慧語音互動平台，應用於智慧客服、智慧家庭裝置、教育服務、文化推廣等領域。
語言學及文化研究：透過語音資料庫的深入分析，有效支援客語語音語料研究及文化保存。

授權使用方式

授權範圍：
- 台灣客語語音資料庫所有權歸屬於客家委員會（客委會），由客委會授權予特定單位或機構使用。
- 被授權單位僅得將此語音資料庫運用於AI系統相關開發用途，不得將其作為其他未經許可用途。
使用限制：
- 被授權單位不得以任何形式將該資料庫進行再轉授權、販售或商業轉讓。
- 使用本資料庫之相關成果，需於顯著處明確標註本資料來源為「台灣客語語音資料庫（客委會授權）」。
- 若被授權單位之合作對象須使用此資料庫，需向客委會另行申請取得授權。

保密與資料保護

被授權單位應建立適當的資料保護措施，確保資料庫不被未授權之人員取得、洩漏或不當使用。
資料使用過程若涉及敏感資訊，需嚴格遵守個資相關法規及資料保護規定。

成果回饋

被授權單位於使用該語音資料庫後，如有相關成果發表，應主動通知客委會，並提供適當之成果文件以供推廣及記錄。

客委會保留最終解釋權，並有權利隨時檢視被授權單位之使用狀況與成果，以確保資料庫之妥善使用及管理。

立即前往中華民國計算語言學學會申請臺灣客語語音資料庫 (Hakka Across Taiwan)