關於我們

客語語音資料是自然語言處理技術能與其他語種接軌之必備材料，「臺灣客語語音資料庫」利用語音人工智慧技術，降低人與機器使用客語，進行聽說讀寫的門檻，為推動與發展客語 AI 系統之第一步。

本資料庫已於 110 年開始，進行語音資料蒐集及資料庫系統建置，以四年分二階段逐步完成各腔調客語語音之收錄，本階段已收錄了四縣 (含南四縣)、海陸等腔調，共計 300 小時之客語語音辨識標註語料及四縣 (含南四縣)、海陸各達 60 小時之客語語音合成標註語料。

下一階段將處理大埔腔、饒平腔及詔安腔之語音資料蒐集，三腔將各達 300 小時之客語語音辨識標註語料及各達 60 小時之客語語音合成標註語料。未來可結合人工智慧技術，發展客語數位應用，並供各界自由開發客語語音相關應用，讓客語能在教學推廣及常態生活使用中注入科技能量。讓未來人工智慧 (AI) 的世界裡，客語人機對話不缺席，完成客家語文智慧應用基礎建設，讓客語迎上時代潮流，奠定數位化應用基石。

本語音資料庫提供之檢索結果，不論是合成音檔、語音辨識結果等，使用時皆須符合中華民國法律，以及著作權法有關合理使用等相關規定。

請在使用時註明出處，提供二種引用格式：