透過您的圖書館登入
IP:18.217.6.114
  • 學位論文

中文語音文件分析之初步研究-主題切割,標題設定及主題重組

Initial Studies on Chinese Spoken Document Analysis - Topic Segmentation, Title Generation and Topic Organization

指導教授 : 李琳山

摘要


語音文件是一整個連續時間的語音資料,天生無標點符號、段落資訊,更沒有標註好標題或摘要。加上在網路或其他管道上,每天都有大量的語音文件產生出來。 在這種情況下,要很有效的利用網路上的語音文件是很不容易的。為了提供使用者大量的多媒體資訊,人們需要花大量的時間與金錢來整理並標註語音資料,這是既耗時又沒有效率的作法。於是,以電腦幫助甚至取代人工作語音文件處理,是有必要且嶄新的一種趨勢。 這一篇論文討論了三種重要的語音文件處理技術,分別對於不同的語音文件處理問題提出可行方案。這三個問題分別是:語音文件的自動切割、自動標題產生以及自動主題分析。語音文件切割能自動的將未標註段落資訊的語音文件,自動切割為一則一則有意義的段落。這樣一來就大大有利於觀看或檢索所需的語音文件,減少需要從頭觀看或收聽整個語音文件的時間。 自動標題產生則是自動為語音文件加註標題。這樣一來,要瀏覽並選擇自己所要的語音文件,就再也不需要盲目的摸索了。 對大量語音文件語料的主題分析,能將語料中的主題以視覺化的方式呈現。並以非常自然的方式呈現出文件主題分佈結構。對於處理大量語料的機構而言是相當重要的。 在這篇論文我們針對這三個問題分別做探討與分析,並且設法改正過去方法的缺點,同時發展出幾種嶄新的方法。這篇論文也對於中文語音文件特性作相對應的處理,並實驗了不同種特徵單位在中文語音文件處理上的效果。我們也利用了主動式學習來降低製作訓練語料的時間與花費,深入的探討了各種可能的情形,並詳作分析。

並列摘要


參考文獻


[2] International Conference on Acoustics, Speech, and Signal Processing.
[3] International Conference on Spoken Language Processing.
[4] European Conference on Speech Communication and Technology.
[5] ACM Special Interest Group on Information Retrieval(
[7] International Conference on Computational Linguistics.

被引用紀錄


郭克儉(2007)。中文語音文件自動標題設定之進一步研究〔碩士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2007.10403

延伸閱讀