Logo 臺灣客語語音資料庫

客語語音合成資料庫

說明 (introduction)

本資料庫為客語朗讀語料(reading speech),是以原生客語文本,收集客語海陸腔,一男一女(HM, HF)每人 30 小時的語料。 主要目標是要建置客語語音合成語料庫,作為研發人工智慧之基礎建設,尤其是針對基於深度學習之語音合成研究資料之要求。

  • 上列語料庫申請人需向客委會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。

麥克風(microphones)

  • 電容式

音檔(wav)格式

  • 取樣格式: 16kHz,16 bits PCM
  • 音檔格式: *.wav

JSON檔(metadata)格式

{ "音檔長度": "00:05", "客語漢字": "頭前斡轉正片就到臺北市政府咧!", "客語拼音": "teu55 cien55 vad5 zhon24 zhin11 pien24 ciu33 do11 toi55 bed5 shi33 zhin11 fu24 le53 !", "華語字": "前面向右轉就到臺北市政府了!", "提示卡編號": "E1001", "音檔編號": "1", "發音員編號": "HF", "性別": "女性", "年齡": "54", "身分別": "專業發音員", "現居地": "臺北市大安區", "18歲前居住地": "新竹縣竹東鎮", "教育程度": "大學", "錄音腔調": "海陸腔", "語言背景": "", "錄音環境": "專業錄音室", "流暢度": "流暢" }