此篇論文主要在探討看得到的資料有 sample selection bias 的問題時應該如何利用這些資料做正確的估計及推論 。所謂 sample selection bias 是指所能看得到的資料是具有某些特性而被收集到的 ,這些資料無法表現整個有興趣母體的真正分布 。如果我們用這些資料不考慮他的抽樣機制直接做分析則會得到一個有偏差的估計值 。文中我們利用 Heckman (1979) 的想法建立兩個模型,這兩個模型分別描述母體的回歸方程式和抽樣機制的方程式。母體模型我們討論 Logistic 、Exponential 、Normal 和 Poisson distribution 四種情形。抽樣機制我們考慮一個普遍的 Cox proportational hazard model (Cox, 1972) 。利用二階段估計法的概念 ,先估出有關抽樣機制的參數再套入 estimating equation 中估計出有關母體的參數。二階段估計法中的第二步,四種分布中,只有 Logistic distribution 有 close form 我們可以直接用 MLE 估計 。其他三種分配我們必須經由繁複的數值運算才能再藉由 MLE 估計 。因此 ,我們建議用 weighted estimating equation 和 composite likelihood method ( pairwise pseudolikelihood approach )的方法 。其中 weighted estimator 在 truncation rate 大時容易出現估計不穩定的情形 ; composite likelihood method 相對 weighted estimator 來說 bias 小很多且估計很穩定 ,只是無法估計截距項 。不過通常我們感興趣的是 covariate 對 response 的影響大小而不是截距項 ,因此 composite likelihood method 會是個很有效率的方法 。