Logo 臺灣客語語音資料庫
音檔
試聽
海陸腔 → 四縣腔 →

Zoom HB 8-Track Digital Recorder: Face Speaker, distance 100cm. 「客家委員會自民國 106 年底開始建置臺灣客語語料庫將語言數位化、典藏化,直至2021年更利用語音人工智慧技術, 降低人與機器使用客語進行聽說讀寫的門檻,以四年分二階段逐步完成「臺灣客語語音資料庫」。臺灣客語語音資料庫之建 立,為擴大此資料之應用,遂採用高品質多軌錄音設備,並採用多種類麥克風進行收音,包括遠距離收音,手機、視訊會 議、電腦麥克風、隨身型麥克風等多種設備同步錄音,以為將來開發AI應用準備。讓未來人工智慧 (AI) 的世界裡,客 語人機對話不缺席,完成客家語文智慧應用基礎建設,讓客語迎上時代潮流,奠定數位化應用基石。」 收音設備:
Android系统手機、iOS系統手機、電容式麥克風、PC麥克風、領夾式麥克風、視訊攝影機麥克風、遠距離麥克風(右聲道)、遠距離麥克風(左聲道)

設計理念

客語語音資料庫旨在建立高品質且多元情境的語音資料,以滿足客語語音辨識(ASR)及語音合成(TTS)技術之發展需求,協助保存及推廣客家語文化,並提高各種語音AI產品對客語使用者之友善程度。

語料設計規格

語音合成 (TTS) 語音辨識 (ASR)
  1. 錄音時數:
    • 每一客語腔調60小時
    • 男聲:30小時
    • 女聲:30小時
  2. 錄音方式:
    • 單軌錄音
    • 使用專業電容式麥克風
  3. 錄音環境:
    • 專業錄音室(無殘響設計)
  4. 設計原因:
    • 確保語音合成品質純淨且一致,無雜訊與殘響干擾,利於提升TTS合成自然度與清晰度。
    • 男、女聲比例均衡,有助於建立更完整及普遍適用的客語語音合成模型。
  1. 錄音時數與人數:
    • 每一客語腔調200~300小時
    • 參與錄音人數:100~200人
  2. 錄音方式:
    • 採用8軌同步錄音,涵蓋多種設備,包括:
      • iOS手機
      • Android手機
      • 領夾麥克風
      • 專業電容式麥克風
      • 視訊會議麥克風
      • PC麥克風
      • 2個遠距離麥克風
  3. 錄音環境:
    • 一般辦公室環境
  4. 設計原因:
    • 為模擬真實使用情境,透過多種設備與遠近距離的收音,能有效訓練ASR模型處理不同設備與環境的噪音和回音影響。
    • 廣泛的人數規模與多樣設備可增加語音辨識模型之強健性與適應性,進而提高客語辨識準確率與應用效果。

語料比例說明

錄音語料與媒體語料之比例 設計原因
  • 錄音語料(純語音文本朗讀):占70%
  • 媒體語料(日常對話、新聞播報、自然語流等非腳本內容):占30%
  • 語音資料以朗讀形式為主,確保模型訓練有高品質基礎語料,以利語音合成和初階語音辨識。
  • 搭配適當比例的自然語流與非腳本媒體語料,有助於模型進行真實情境適應性訓練,從而更有效應用於現實生活之多元情境中。

透過上述設計理念與規劃,可有效建立全面且高品質之客語語音資料庫,促進相關語音技術與產業發展,推動客語之數位傳承與創新應用。

分布圖

新北市 30
基隆市 30
臺北市 30
桃園市 30
新竹市 30
新竹縣 30
宜蘭縣 30
苗栗縣 30
臺中市 30
花蓮縣 30
南投縣 30
彰化縣 30
雲林縣 30
嘉義市 30
嘉義縣 30
臺南市 30
臺東縣 30
高雄市 30
屏東縣 30

聲音

總人數 75
男聲 75
女聲 75

年齡

【資料更新時間:2022-11-30】