本論文主要基於語者識別應用在門禁系統下所作的研究,為了安全上的考量,測試語音和參考語音皆為文本相關(Text Dependent),且以動態時間扭曲(Dynamic Time Warping, DTW)的方法作語者識別。而本論文的目標是希望能夠提升語者識別的初始辨識率,因此提出兩大改善的方法,分別為改善端點偵測錯誤、濾除不佳的測試語音。 首先將測試語音和參考語音擷取出13維的MFCC,利用13維的MFCC作動態時間扭曲比對後,得到初始語者識別的辨識率。根據初始辨識錯誤的音檔作分析,得知端點偵測(Endpoint Detection)錯誤是影響辨識錯誤的主要原因,進而提出改善端點偵測錯誤的方法,使得在特徵擷取前即排除端點標錯的可能。在本論文中,提出改善端點偵測錯誤的方法有兩種,分別為改善端點偵測錯誤接受和改善端點偵測錯誤拒絕。 除此之外,不佳的測試語音也會造成語者識別上的錯誤,因此須在語者識別之前濾除不佳的測試語音,在本論文中,提出兩種濾除不佳測試語音的方法,一種為設定拒絕門檻值,另一種為拒絕不完整的測試語音。其中設定拒絕門檻值的部份,根據特徵擷取出的平均音量、平均音高、平均清晰度和音框數四種特徵參數,分別使用各別特徵參數設定門檻值,以及高斯混合模型設定門檻值。另外,測試語音可能包含錄音內容不完整的情形,若能事先拒絕錄音不完整的測試語音,語者識別的錯誤率就能降低。如此一來,便能在尚未比對參考語音之前,濾除一些可能會造成辨識錯誤的測試語音,使得辨識結果的準確率提升。