Logo 臺灣客語語音資料庫

客語語音辨識資料庫

說明 (introduction)

本資料庫為客語朗讀語料(reading speech),是以原生客語文本,收集來自臺灣各地不同腔調的客語語音,並同時以 8 隻麥克風進行錄製。 錄好的客語語音,經由兩次人工校正文本後,整理成可供語音辨認技術研究與開發使用之語音語料庫。目前共錄製 81 人,每位語者錄製 30 至 120 分鐘,總計 150 小時語料 (8 tracks)。

  • 上列語料庫申請人需向客委會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。

麥克風(microphones)

  • iPhone
  • Android 手機
  • 電容式
  • PC
  • 領夾式(lavalier)
  • 視訊攝影機
  • 遠距離-左聲道
  • 遠距離-右聲道

音檔(wav)格式

  • 取樣格式: 16kHz,16 bits PCM
  • 音檔格式: *.wav

JSON檔(metadata)格式

{ "音檔長度": "00:10", "客語漢字": "外背个狗緊吠,當像有人來樣。", "客語拼音": "ngo33 boi11 gai11 gieu24 gin24 poi33 , dong53 ciong11 rhiu53 ngin55 loi55 rhong33 。", "華語字": "外面狗一直吠,好像有人來的樣子。", "提示卡編號": "G1053", "音檔編號": "18", "發音員編號": "HM302", "性別": "男性", "年齡": "45", "身分別": "一般民眾", "現居地": "新竹縣竹北市", "18歲前居住地": "新竹縣新埔鎮", "教育程度": "研究所", "錄音腔調": "海陸腔", "語言背景": "海四腔", "錄音環境": "一般辦公室", "流暢度": "普通" }