客語語音資料是自然語言處理技術能與其他語種接軌之必備材料,「臺灣客語語音資料庫」利用語音人工智慧技術,降低人與機器使用客語,進行聽說讀寫的門檻,為推動與發展客語 AI 系統之第一步。
本資料庫已於 110 年開始,進行語音資料蒐集及資料庫系統建置,以四年分二階段逐步完成各腔調客語語音之收錄,本階段已收錄了四縣 (含南四縣)、海陸等腔調,共計 300 小時之客語語音辨識標註語料及四縣 (含南四縣)、海陸各達 60 小時之客語語音合成標註語料。
下一階段將處理大埔腔、饒平腔及詔安腔之語音資料蒐集,三腔將各達 300 小時之客語語音辨識標註語料及各達 60 小時之客語語音合成標註語料。未來可結合人工智慧技術,發展客語數位應用,並供各界自由開發客語語音相關應用,讓客語能在教學推廣及常態生活使用中注入科技能量。讓未來人工智慧 (AI) 的世界裡,客語人機對話不缺席,完成客家語文智慧應用基礎建設,讓客語迎上時代潮流,奠定數位化應用基石。
本語音資料庫提供之檢索結果,不論是合成音檔、語音辨識結果等,使用時皆須符合中華民國法律,以及著作權法有關合理使用等相關規定。
請在使用時註明出處,提供二種引用格式: