Title

MATBN: A Mandarin Chinese Broadcast News Corpus

DOI

10.30019/IJCLCLP.200507.0004

Authors

Hsin-Min Wang;Berlin Chen;Jen-Wei Kuo;Shih-Sian Cheng

Key Words

broadcast news ; corpus ; speech recognition ; Mandarin Chinese ; transcription ; annotation

PublicationName

中文計算語言學期刊

Volume or Term/Year and Month of Publication

10卷2期(2005 / 07 / 01)

Page #

219 - 235

Content Language

英文

English Abstract

The MATBN Mandarin Chinese broadcast news corpus contains a total of 198 hours of broadcast news from the Public Television Service Foundation (Taiwan) with corresponding transcripts. The primary purpose of this collection is to provide training and testing data for continuous speech recognition evaluation in the broadcast news domain. In this paper, we briefly introduce. the speech corpus and report on some preliminary statistical analysis and speech recognition evaluation results.

Topic Category 人文學 > 圖書資訊學
基礎與應用科學 > 資訊科學
工程學 > 電機工程
Reference
  1. Chen,B.,J. W. Kuo,W. H. Tsai(2004).Lightly Supervised and Data-driven Approaches to Mandarin Broadcast News Transcription.Proceedings of the 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing.
    連結:
  2. Wang,H. C.(1997).MAT - A Project to Collect Mandarin Speech Data thtough Telephone Networks in Taiwan.Computational Linguistics and Chinese Language Processing.
    連結:
  3. Barras,C.,E. Geoffrois,Z. B. Wu,M. Liberman(2001).Transcriber: Development and Use of a Tool for Assisting Speech Corpora Production.Speech Communication,33,5-22.
  4. Federico,M.,D. Giordani,P. Coletti(2000).Development and Evaluation of an Italian Broadcast News Corpus.Proceedings of the 2nd international Conference on Language Resources and Evaluation.
  5. Graff,D.(2002).An Overview of Broadcast News Corpora.Speech Communication,37,15-26.
  6. Katz,S. M.(1987).Estimation of Probabilities from Sparse Data for Other Language Component of a Speech Recognizer.IEEE Transactions on Acoustics, Speech and Signal Processing.
  7. Matsuoka,T.,Y. Taguchi,K. Obtsuk,S. Furul,K. Shiral(1997).Toward Automatic Transcription of Japanese Broadcast News.Proceedings of the 5th European Conference on Speech Communication and Technology.
  8. Stern,R. M.(1997).Specification of the 1996 Hub 4 Broadcast News Evaluation.Proceedings of the 1997 DARPA Speech Recognition Workshop.
  9. Tseng,S.-C.(2004).Processing Spoken Mandarin Corpora.Traitement automatique des langues,45(2),89-108.
  10. Wang,H. M.,S. S. Cheng,Y. C. Chen(1997).The SoVideo Mandarin Chinese Broadcast News Retrieval System.International Journal of Speech Technology.
  11. Wessel,F.,R. Schluter,K. Macherey,H. Ney(2001).Confidence Measures for Large Vocabulary Continuous Speech Recognition.IEEE Transactions on Speech and Audio Processing.
Times Cited
  1. 黃于珊(2010)。A Generalized-Ditransitive Analysis for Gei in Mandarin Chinese。清華大學語言學研究所學位論文。2010。1-129。 
  2. 張瑩如(2007)。「把」「給」的語源與發展過程:以接觸引發的演變初探。清華大學語言學研究所學位論文。2007。1-111。 
  3. 余朗祺(2017)。基於辨識錯誤模型之語音文件抽象標題產生。臺灣大學電信工程學研究所學位論文。2017。1-62。 
  4. 劉士弘(2016)。改善語言模型於中文廣播新聞節錄式摘要。臺灣大學電機工程學研究所學位論文。2016。1-96。 
  5. 陳冠宇(2015)。統計式語言模型 – 語音文件標記、檢索以及摘要。臺灣大學資訊工程學研究所學位論文。2015。1-113。 
  6. 楊家銘(2011)。用機器學習整合索引資訊之中文語音文件檢索。臺灣大學資訊工程學研究所學位論文。2011。1-66。 
  7. 杞俊賢(2010)。語音查詢檢索語音文件之初步研究。臺灣大學資訊工程學研究所學位論文。2010。1-54。 
  8. 周建宇(2009)。基於機器學習之中文語句分段。臺灣大學電信工程學研究所學位論文。2009。1-58。 
  9. 程永任(2008)。最小音素錯誤訓練法及其改進方法在國語大字彙辨識上之評估與分析。臺灣大學電信工程學研究所學位論文。2008。1-120。 
  10. 呂東烜(2008)。跨詞相依三連音素模型大字彙連續語音辨識系統之實作及分析。臺灣大學資訊工程學研究所學位論文。2008。1-81。 
  11. 朱忠玲(2007)。大字彙中文連續語音辨識之聲學模型及特徵正規化。臺灣大學電信工程學研究所學位論文。2007。1-83。 
  12. 謝雅超(2006)。使用動態關鍵詞詞典和信心量度之 語音文件檢索技術。臺灣大學資訊網路與多媒體研究所學位論文。2006。1-75。 
  13. 陳佳妤(2006)。最小音素錯誤模型及特徵訓練法於中文大詞彙辨識上之初步研究。臺灣大學電機工程學研究所學位論文。2006。1-74。 
  14. 黃耀民(2004)。以字句擷取為基礎並應用於文件分類之自動摘要之研究。臺灣師範大學資訊工程研究所學位論文。2004。1-78。
  15. 蔡文鴻(2004)。語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究。臺灣師範大學資訊工程研究所學位論文。2004。1-95。
  16. 陳鴻彬(2006)。以能量為基礎之語音正規化方法研究及其於語音端點偵測之應用。臺灣師範大學資訊工程研究所學位論文。2006。1-74。
  17. 劉士弘(2006)。改善鑑別式聲學模型訓練於中文連續語音辨識之研究。臺灣師範大學資訊工程研究所學位論文。2006。1-123。
  18. 陳怡婷(2006)。中文語音資訊摘要-模型與特徵之改進。臺灣師範大學資訊工程研究所學位論文。2006。1-158。
  19. 邱炫盛(2006)。利用主題與位置相關語言模型於中文連續語音辨識。臺灣師範大學資訊工程研究所學位論文。2006。1-147。
  20. 林俊郁(2006)。應用事前模型與環境調適於隨機向量映射為基礎之噪音語音辨識。成功大學資訊工程學系學位論文。2006。1-62。
  21. 朱芳輝(2007)。資料選取方法於鑑別式聲學模型訓練之研究。臺灣師範大學資訊工程研究所學位論文。2007。1-116。
  22. 黃建霖(2008)。中英多語語音文件分析與檢索之研究。成功大學資訊工程學系學位論文。2008。1-86。
  23. 簡伶伃(2009)。The development of transitive predicates in Mandarin Chinese。清華大學語言學研究所學位論文。2009。1-87。
  24. 李鴻欣(2009)。基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識。臺灣師範大學資訊工程研究所學位論文。2009。1-107。
  25. 麥世昕(2009)。影片檢索中應用文字與畫面推論作概念物件切割之研究。成功大學資訊工程學系學位論文。2009。1-52。
  26. 羅永典(2010)。使用邊際資訊於鑑別式聲學模型訓練。臺灣師範大學資訊工程研究所學位論文。2010。1-51。
  27. 陳冠宇(2010)。主題模型於語音辨識使用之改進。臺灣師範大學資訊工程研究所學位論文。2010。1-175。
  28. 賴敏軒(2011)。實證探究多種鑑別式語言模型於語音辨識之研究。臺灣師範大學資訊工程研究所學位論文。2011。1-68。
  29. 黃邦烜(2012)。遞迴式類神經網路語言模型使用額外資訊於語音辨識之研究。臺灣師範大學資訊工程研究所學位論文。2012。1-78。