Logo 臺灣客語語音資料庫

語料授權

客語語音資料是自然語言處理技術能與其他語種接軌之必備材料,為帶動客語語音科技應用之發展,蒐集客語語音資源乃不可或缺之工作。 透過臺灣客語語音資料庫建置,收集數量龐大之客語語料與文字,錄製四縣及海陸腔調客語語音辨識與語音合成語料。以臺灣客語語音資料 為基礎,未來可結合人工智慧技術,發展客語數位應用,並供各界自由開發客語語音相關應用,讓客語能在教學推廣及常態生活使用中注入 科技能量。

四縣腔
  1. 語音合成:男聲:30小時,女聲:30小時 了解更多
  2. 語音辨識:300小時 了解更多
海陸腔
  1. 語音合成:男聲:30小時,女聲:30小時 了解更多
  2. 語音辨識:300小時 了解更多

應用範疇

台灣客語語音資料庫旨在促進人工智慧(AI)技術應用於客語保存、推廣及智慧服務發展。主要涵蓋範疇包括但不限於:

  1. 語音辨識系統開發:協助建置具備客語辨識能力的語音轉文字(Speech-to-Text, STT)服務。
  2. 語音合成技術開發:推動具備自然發音及客語口音特色之文字轉語音(Text-to-Speech, TTS)服務。
  3. 語音溝通系統建置:打造智慧語音互動平台,應用於智慧客服、智慧家庭裝置、教育服務、文化推廣等領域。
  4. 語言學及文化研究:透過語音資料庫的深入分析,有效支援客語語音語料研究及文化保存。

授權使用方式

  1. 授權範圍:
    • 台灣客語語音資料庫所有權歸屬於客家委員會(客委會),由客委會授權予特定單位或機構使用。
    • 被授權單位僅得將此語音資料庫運用於AI系統相關開發用途,不得將其作為其他未經許可用途。
  2. 使用限制:
    • 被授權單位不得以任何形式將該資料庫進行再轉授權、販售或商業轉讓。
    • 使用本資料庫之相關成果,需於顯著處明確標註本資料來源為「台灣客語語音資料庫(客委會授權)」。
    • 若被授權單位之合作對象須使用此資料庫,需向客委會另行申請取得授權。

保密與資料保護

  • 被授權單位應建立適當的資料保護措施,確保資料庫不被未授權之人員取得、洩漏或不當使用。
  • 資料使用過程若涉及敏感資訊,需嚴格遵守個資相關法規及資料保護規定。

成果回饋

  • 被授權單位於使用該語音資料庫後,如有相關成果發表,應主動通知客委會,並提供適當之成果文件以供推廣及記錄。

客委會保留最終解釋權,並有權利隨時檢視被授權單位之使用狀況與成果,以確保資料庫之妥善使用及管理。

立即前往中華民國計算語言學學會申請臺灣客語語音資料庫 (Hakka Across Taiwan)