透過您的圖書館登入
IP:3.133.87.156
  • 期刊

Comparisons of Score Transformation Methods for the BCTEST Using Real and Simulated Data

基本學力測驗量尺轉換法之比較:實徵與模擬資料的應用

摘要


本研究使用國中基本學力測驗,探討採用直線、常態化、正弦反函數和log-odds的各種不同轉換法,將原始分數轉換為量尺分數後的效果。國中基本學力測驗為一標準化測驗,量尺分數是目前申請進入高中就學的依據。本研究使用實徵與模擬資料進行探究。實徵資料方面採用民國90-92年的基本學力測驗分數結果,包含國文、英語、數學、自然、以及社會五個測驗學科,每一年皆使用5,000筆的抽樣資料。模擬資料方面則是根據三參數extended beta-binomial的模式,模擬產生一如實際基本學力測驗各科的分數分配。 本研究評鑑使用各種轉換法所得量尺分數的結果,包含原始至量尺分數轉換對照圖形、量尺分數描述統計值、與以強真分數理論模式為基礎所計算出之量尺分數的測量特性。研究亦比較量尺分數使用整數值、將量尺的兩端截至設定的分數範圍所產生的影響,也比較轉換後所導致量尺分數間距的大小,以及評鑑轉換結果對於高中入學選擇決定的影響。 研究結果指出,使用各種不同的分數轉換法各有其優缺點,但沒有特定的方法能具備全部所有期望的特性。選擇採用哪一種轉換法應能考慮到測驗使用的目的與其優質的測量特性,也能考慮到解釋分數時的容易程度。從研究使用實徵與模擬資料的結果看來,各種轉換法在這兩種資料狀況下的表現大致相同。所有五個測驗學科在90-92這三個測驗年度裡,使用正弦反函數轉換法的結果是,在不同能力水準下,皆能得到大小相近的測量標準誤,亦即對於高低不同的量尺分數而言,測量的精確性仍可保持穩定。然而,直線轉換法所得的量尺分數間距最小,沒有與原始分數的間距產生過大落差的後果;而常態化轉換法能使各科量尺分數皆有類似的分配結果,尤其重要的是其量尺分數標準差/變異數大小變得非常接近。至於使用log-odds轉換法的結果,所產生的總平均測量誤差是最小的。 雖然本研究僅使用基本學力測驗的資料進行各種轉換法的比較,但所得的結果亦可應用、推論到其他類似的大型測驗。編製基本學力測驗作為高中申請入學的依據,以及對於其量尺分數作正確的解釋與使用並非簡單的工作;本研究不僅提供了關於目前基本學力測驗透過正弦反函數轉換所得量尺特性的有用訊息,以及使用其他不同分數轉換法的可行性,而且也提供了測驗研究者與實務工作者在建立量尺應考量的重要議題上,一些新的建議或方向。

並列摘要


This study evaluated the effects of employing the linear, normalizing, arcsine, and log-odds transformation methods for constructing scale scores on the BCTEST, a national standardized test that is used for high school admission in Taiwan. Tests in five subject areas (Chinese, English, Mathematics, Natural Science, and Social Studies) were studied using both the BCTEST real data and the simulated data. The resulting scale scores for each of the five tests were examined with respect to the raw-to-scale score conversions, summary statistics, and measurement properties calculated based on the strong true score model. The effects of adjustments in rounding and truncating and the gaps resulting from the score conversions were evaluated. Also, the impact on the admission decisions was investigated. The findings indicated that for all transformation procedures, the results produced by using the real and simulated data were similar for the most part. For all tests and years, employing the arcsine transformation stabilized the error variability along much of the entire scale. But, the linear transformation yielded the most satisfactory results regarding the size of the gaps, the normalizing approach created similar distributional characteristics among the tests, and the log-odds transformation produced the smallest values of the average error variance overall. This research has offered useful information about the properties of scales based on different transformation methods.

參考文獻


Lord, F. M.(1980).Applications of item response theory to practical testing problems.Hillsdale, NJ:Lawrence Erlbaum.
Kolen, M. J.,Hanson, B. A.(1989).Methodology used in scaling the ACT Assessment and P-ACT.Iowa City, IA:American College Testing Program.
The recentering of SAT scales and its effects on score distributions and score interpretations
Kolen, M. J.,Brennan, R. L.(2004).Test equating, scaling, and linking: Methods and practices.New York:Springer Science+Business Media.
Petersen, N. S.,Kolen, M. J.,Hoover, H. D.(1989).Educational measurement.New York:American Council on Education/Macmillan.

延伸閱讀