บทคัดย่องานวิจัย

การเปรียบเทียบวิธีซิบเทสท์และดีเอฟไอทีในการตรวจสอบการทำหน้าที่ เบี่ยงเบนของข้อสอบ หมวดข้อสอบ และแบบทดสอบจากข้อมูลการตอบข้อสอบที่ใช้ความสามารถหลายมิติ

สิริรัตน์   วิภาสศิลป์
ปริญญานิพนธ์ กศ.ด. (การทดสอบและวัดผลการศึกษา) มหาวิทยาลัยศรีนครินทรวิโรฒ คณะกรรมการควบคุม : รองศาสตราจารย์ ดร.บุญเชิด ภิญโญอนันตพงษ์, รองศาสตราจารย์ ดร.สมสรร วงษ์อยู่น้อย, อาจารย์ ดร.องอาจ นัยพัฒน์


บทคัดย่อ

การศึกษาครั้งนี้มีจุดมุ่งหมายเฉพาะเพื่อเปรียบเทียบวิธีซิบเทสท์และวิธีดีเอฟไอทีในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบ หมวดข้อสอบ และแบบทดสอบ จากข้อมูลการตอบข้อสอบที่ใช้ความสามารถหลายมิติ ในเงื่อนไขความยาวของแบบทดสอบ 30 40 และ 50 ข้อ กลุ่มตัวอย่างขนาด 50 100 200 500 และ 1,000 คน กลุ่มตัวอย่างในการศึกษาได้มาจากการสุ่มแบบใส่คืนจากประชากรเทียมซึ่งกำหนดจากนักเรียนชายและนักเรียนหญิงชั้นมัธยมศึกษาปีที่ 1 ในจังหวัดนนทบุรี แต่ละขนาดสุ่มกลุ่มตัวอย่าง 50 ครั้ง เครื่องมือที่ใช้ในการวิจัยเป็นแบบทดสอบวิชาคณิตศาสตร์ ชั้นมัธยมศึกษาปีที่ 1 ที่ผู้วิจัยสร้างขึ้น ประกอบด้วยข้อสอบแบบเลือกตอบชนิด 5 ตัวเลือก จำนวน 50 ข้อ มีข้อสอบที่ผู้เชี่ยวชาญพิจารณาว่าเป็นข้อสอบที่แสดงการทำหน้าที่เบี่ยงเบนต่อเพศชายจำนวน 16 ข้อ หลังจากเก็บรวบรวมข้อมูลแล้วคัดเลือกข้อสอบตามสัดส่วนในตารางกำหนดข้อสอบ จัดเป็นแบบทดสอบที่มีความยาว 40 และ 30 ข้อ แล้วตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบ หมวดข้อสอบ และแบบทดสอบด้วยโปรแกรมคอมพิวเตอร์สำเร็จรูป SIBTEST และ DFIT นำผลที่ได้ไปเปรียบเทียบความถูกต้องและการระบุผิดพลาดในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบด้วยวิธีเดียวกันและต่างวิธี โดยการวิเคราะห์ความแปรปรวนแบบตัวแปรพหุ หาความสอดคล้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบ เปรียบเทียบความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของหมวดข้อสอบและแบบทดสอบด้วยวิธีซิบเทสท์และวิธีดีเอฟไอทีโดยใช้สถิติ Z-test
ผลการวิจัยสรุปได้ดังนี้
1. เมื่อแบบทดสอบประกอบด้วยข้อสอบ 30 40 และ 50 ข้อ กลุ่มตัวอย่างขนาด 50 100 และ 200 คน ส่งผลต่อความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบด้วยวิธีซิบเทสท์ไม่แตกต่างกัน กลุ่มตัวอย่างขนาด 500 และ 1,000 คน ส่งผลต่อความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบด้วยวิธีซิบเทสท์สูงกว่ากลุ่มตัวอย่างขนาด 50 100 และ 200 คน แต่การระบุผิดพลาดในการตรวจสอบก็สูงกว่าด้วย เมื่อตรวจสอบด้วยวิธีดีเอฟไอทีพบว่ากลุ่มตัวอย่างขนาด 50 100 200 500 และ 1,000 คน ส่งผลต่อความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบไม่แตกต่างกัน
2. ทุกเงื่อนไขความยาวแบบทดสอบและกลุ่มตัวอย่างขนาดแตกต่างกัน วิธีซิบเทสท์มีความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบน้อยกว่าวิธีดีเอฟไอที และพบว่าความสอดคล้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของข้อสอบด้วยวิธีทั้งสองมีค่าต่ำกว่าร้อยละ 10
3. วิธีซิบเทสท์มีความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของหมวดข้อสอบมากกว่าวิธีดีเอฟไอที เมื่อแบบทดสอบมีข้อสอบ 30 ข้อ กลุ่มตัวอย่างขนาด 1,000 คน และเมื่อแบบทดสอบมี 40 ข้อ กลุ่มตัวอย่างขนาด 500 คน
4. วิธีซิบเทสท์มีความถูกต้องในการตรวจสอบการทำหน้าที่เบี่ยงเบนของแบบทดสอบมากกว่าวิธีดีเอฟไอที เมื่อแบบทดสอบมีข้อสอบ 50 ข้อ กลุ่มตัวอย่างขนาด 100 200 และ 1,000 คน


An Empirical Comparison of SIBTEST and DFIT Differential Functioning Detection Methods for Item, Bundle and Test Levels Based on Multidimensional Response Data.

Sirirat   Wipasillapa
Dissertation, Ed.D. (Testing and Measurement). Bangkok: Graduate School, Srinakarinwirot University. Advisor Committee: Assoc. Prof. Dr. Boonchird Pinyoanuntapong, Assoc. Prof. Dr. Somson Wongyounoi, Dr. Ongart Naiyapatana.


Abstract

The purpose of this study was to compare SIBTEST and DFIT methods for the differential item functioning (DIF), differential bundle functioning (DBF) and differential test functioning (DTF)based on multidimensional response data, under the test lengths of 30, 40 and 50 items and the sample sizes of 50, 100, 200, 500 and 1,000 students. The samples were selected by random sampling with replacement from pseudo population, consisting of Mathayom Suksa I male and female students, in Nonthaburi province. The sampling was under taken 50 times for each sample size. The research instrument was a Mathayom Suksa I mathematics test created by the researcher. The test was five-multiple-choice comprising 50 items, 16 of which were identified on experts' opinions as differential functioning to male. After the data were collected, the test was selected proportionately based on the table of specification and categorized into the 40-item and 30-item tests. After that the differential item functioning, differential bundle functioning and differential test functioning were all analyzed by SIBTEST and DFIT computer packages. Then the multivariate analysis of variance was used to compare the DIF detection results within the same method and between different methods. The agreement rate of DIF was calculated. Lastly, Z-test was used to compare DBF and DTF detection resulting from SIBTEST and DFIT.
This study led to the conclusion that;
1. When SIBTEST was used for combinations of test lengths of 30, 40 and 50 items and sample sizes of 50, 100 and 200 students, the power rate was not significantly different. The power rate and type I error rate with sample sizes of 500 and 1,000 students were significantly greater than with sample sizes of 50, 100 and 200 students. When DFIT was used for all combinations of test lengths and sample sizes the power rate was not significantly different.
2. For all combinations of the test lengths and sample sizes, the power rate and type I error rate for SIBTEST were significantly less than for DFIT and the agreement rate was less than 10 percent.
3. SIBTEST was more powerful for differential bundle functioning than DFIT when the test consisted of 30 items with 1,000 students and 40 items with 500 students.
4. SIBTEST was more powerful for differential test functioning than DFIT when the test consisted of 50 items with 100, 200 and 1,000 students.