透過您的圖書館登入
IP:3.17.28.48

清華大學統計學研究所學位論文

國立清華大學,正常發行

選擇卷期


已選擇0筆
  • 學位論文

一般我們在做實驗設計時,實驗區間通常為一正方體,但科技業的工程師經常在晶圓上做實驗設計,此時實驗區間就是一個圓。實驗區間為正方體的各種資料分析,可在大多數實驗設計的書找到,至於實驗區間是一個圓的資料分析,則很少在各種文獻中出現。本篇論文討論如何利用圓上的數據來依圓上的曲面相似程度做群集分析。這時會發生一個有趣的新問題,就是必須考慮曲面的旋轉。本論文提供了一套方法來解決曲面旋轉的問題,並將其套用在真實晶圓數據上,本論文還介紹了如何在圓上建立一個允許極座標之圓心位置改變之模型。

  • 學位論文

Model selection is an important topic in data analysis. If the model is selected appropriately, we can use it to predict well. We introduced three tools for model selection in this paper. These three tools are QIC (Quasi-likelihood under the Independence model Criterion), L1-regularization path algorithm for generalized linear model, and L2-penalized logistic regression with a stepwise variable selection. The method QIC can be used for the correlated data such as family data. L1-regularization path algorithm and L2-penalized algorithm can be used for high-dimensional data such as microarray data. If we focus on gene interactions, the method L2-penalized algorithm may be useful. Our data from the SAPPHIRe (Stanford Asian Pacific Program for Hypertension and Insulin Resistance) project is from family data hence correlated. We use these three methods for the data set and compare the models selected by different methods and evaluate the performance of the prediction.

  • 學位論文

針對連續生產特性發展的抽樣計畫,Dodge (1943) 以單一產品為單位,提出了連續抽樣計畫, Dodge (1956) 更以連續抽樣計畫為延伸,針對『貨批』為單位提出了計數值跳批抽樣計畫,且由Perry (1973) 加以改善並探討計數值跳批抽樣計畫之貨批平均出廠品質公式,有效的在產品品質穩定時,降低抽檢頻率,減少檢驗成本。然而,在現行的半導體產業製程生產環境中,每一個生產站點皆為多產品多機台的生產製程,且其檢驗貨批是否允收的量測機台有其產能限制。因此,本論文主要探討在考慮貨批平均出廠品質之下,並且使用計量值參考計畫之跳批抽樣計畫的制訂,更考慮量測機台有產能限制之實際情況下,跳批抽樣計畫之平均抽樣頻率最佳化的調整,最後將以一實例探討執行跳批抽樣計畫之績效與敏感度分析。

若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。
  • 學位論文

中文斷詞在中文自然語言的處理上,是相當基礎且重要的工作。新近發展的基於詞位標籤的特製化隱藏式馬可夫模型(Specialized Hidden Markov Model)斷詞法,理論與實作合理簡單,效果優於傳統的長詞優先法(Maximum Matching Algorithm, MM)。本論文的研究目的是要利用詞位標籤斷詞法來提高中文轉注音的正確率,也就是在斷詞之後,使用詞串轉注音會比字串轉注音的正確率高。第一階段,使用各種斷詞法斷詞;第二階段,再使用中文斷詞後的詞串轉換為注音。實驗發現,其結果比單字轉注音的正確率高。而第三階段,利用第二階段M-HMM斷詞轉注音的結果,再尋求某些特定的注音轉換規則,提升注音的正確率,再以第二階段詞串轉注音的正確率為比較基礎,實驗結果也證實了確實可再提升注音的正確率。

  • 學位論文

批次製程目前已廣泛應用於化工、醫藥、半導體等製程工業,因為產品品質特徵值不容易及時取得,造成執行線上製程管制的困難,所以如何有效利用製程資料,執行製程的錯誤偵測與分類,是目前製程管制的重要研究課題。製程資料在批次之間的變異可以分為時間變異和變數變異,這兩種變異會影響製程管制的準確度而且通常與產品品質有關,所以必須以尺度參數表示,從製程資料中抽取出來。本文對批次剖面資料提出一套統計分析流程,先將批次剖面資料分為時間量度、位移量度和抽離位移量度後的殘差三部分,分別表示批次之間製程時間的差異、變數的平移或漂移量和沒有平移或漂移現象的批次剖面資料。然後用改善的健康指標分析殘差,並對分離出的尺度參數提供監控與分析的方法,除了能夠完備的監控製程中是否存在異常現象,亦可以研究製程變數之間的關係,以達成執行製程管制與瞭解並改善製程之目的。

  • 學位論文

本篇論文主要探討我們如何使用指標函數來表現各項實驗, 並且將指標函數推廣至同時具有定性型因子與定量型因子的實驗設計, 我們將這樣的指標函數稱為混合型指標函數。僅具有定性型因子的指標函數或是僅有定量型因子的指標函數,皆具有投影定理, 及係數平方總和相等的特性等。我們將這些定理推廣至混合型指標函數上。之後藉由比較定量型因子效應, 定性型因子的主效應及交互作用, 還有定量型因子效應與定性型因子的交互作用項等, 對實驗結果的影響程度來排序, 我們由混合型指標函數中的係數, 發展出一新的字長型態,γ字長, 其可用來比較同時具有定性及定量因子的實驗設計之優劣性。其後推導出, 定性型因子的水準調換並不改變γ字長。最後則是在部分限制下, 由資料分析的觀點解釋指標函數中係數平方和所代表的涵義。

  • 學位論文

本論文的主要目的在模仿語音辨識的信心量度,探討信心量度在中文斷詞的效用。首先,本文利用了詞位標籤將每個字分類成B、I、E、S四種(詞頭、詞中、詞尾以及單字詞)。有了詞位標籤之後,我們就可以自然的用隱藏式馬可夫模型來模型斷詞問題。所以本文是採用新近發展出的詞位標籤之特製化隱藏式馬可夫模型來作為斷詞方法,其斷詞正確率比傳統的隱藏式馬可夫模型(Hidden Markov Model, HMM)還要高。為了減少計算量和去除掉一些機率較低的狀態序列,使用了Beam Search的方法找出前n名的狀態序列,之後再利用這n條狀態序列來算出句子和字的事後機率,本文採用此事後機率來當作信心量度的評估。實驗結果發現,全句序列的信心量度和正確率之相關係數與句子的字數有其一定的關聯,但信心量度對於提昇Top-1的正確率並沒有幫助。

  • 學位論文

批次控制為針對半導體製程的特殊生產型態所發展出來的回饋控制工具。實際生產製程I-O模型多為複雜的動態模型。傳統的Single EWMA控制器,在靜態模型參數已知下,為干擾項IMA(1,1)的MMSE控制器,然而,在動態模型下,即使參數已知,並非為MMSE控制器。本文以MMSE控制器的概念為基礎,建構出Exponentially Integral (EI) 回饋控制器來監控常見的動態模型。文中探討此控制器的穩定性條件與最佳折扣因子的決定,並提供穩健的折扣因子選取方法。最後,在兩種 (long-tail 及 short-tail) 常見的動態模型下,分別以 的近似解析解來比較Single EWMA及EI控制器的績效表現,結果顯示EI控制器的績效在不同參數設定下,都比傳統的Single EWMA來的好,尤其是動態參數很明顯時,改善的程度會大幅提升。

若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。
  • 學位論文

為了推估物種絕種可能發生的時間,本論文的研究主題主要是探討五種不同的估計之特性。(1)有母數方法:均勻最小變異數不偏估計量(UMVUE)以及Beg於1982年提出在樣本為截斷指數分布情況下,得到最小變異數不偏估計量(MVUE)。(2)無母數方法:在大樣本時,使用線性估計量的最小均方差(MSE)求出最佳線性估計量(optimal linear estimation),(Cooke,1996);最後為Robson和Whitlock在1964年將一階摺刀法與二階摺刀法應用在估計截斷點(truncated point)上的估計量。 由上述五種估計方法作模擬分析,分別探究瀕臨絕種或已滅絕物種絕種時間,以其假設觀察到的年份為截斷均勻分布(truncated uniform distribution)、截斷指數分布(truncated exponential distribution)、截斷伽瑪分布(truncated gamma distribution)、截斷韋伯分布(truncated Weibull distribution)和截斷對數常態分布(truncated log-normal distribution)等五種不同的分布來生成樣本,分析比較五種方法的物種絕種時間平均值、樣本標準差、拔靴法標準差(bootstrap standard error)、均方根誤差(RMSE)、型一錯誤率(type I error rate),以及檢定拒絕虛無假說的比例為何。除此之外,利用無母數最佳線性估計量探討距離真正的絕種時間點最接近的k個觀察年份來做最佳線性估計量的模擬研究,找出不同分布下各種適當的k值。最後以三種真實的例子:加勒比僧海豹(caribbean monk seal)、多多鳥(dodo bird)和黑腳雪貂(black-footed ferret)做進一步的資料分析,計算出不同估計方法下的估計量與其信賴區間的上界、拔靴法標準差,並加以檢定在今年(2008)這三種物種是否已絕種,以此來比較五種估計方法之表現差異。

  • 學位論文

Candida albicans is a diploid, opportunistic fungal pathogen, and commonly colonizes on healthy humans. Usually, the host immune system keeps this pathogen under control. However, C. albicans can outgrow and cause serious infection particularly in the immunocompromised individuals. It usually forms biofilm, which is a complex structure of aggregation of microorganisms and has a significant consequence for drug resistance and for human health. Preventing the biofilm formation becomes an important health concern. There is no sufficient information about protein-protein interaction and others about C. albicans. On the contrary, Saccharomyces cerevisiae, cousin of C. albicans, is well studied in all aspects and lots of microarray data are available as well as sufficient ChIP-chip data. Some studies have tried to construct the network for its cell cycle and other functions. Hence, we try to use the gene expression data of C. albicans combined with the protein-protein interaction of S. cerevisiae reasonably to find the important information that affects the formation of biofilm. From some review papers [1-3], we have already known the transcription factors such as Cph1 and Efg1 will affect the formation of biofilm and we would like to find other important genes about biofilm with the two genes as a starting point. We construct the regulatory network of C. albicans and find the potentially important transcription factors and functional group that is potentially related to biofilm formation. This study provides a good way to investigate the regulatory network in a less-studied organism.

若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。