Bài này giới thiệu phần mềm VITESTA, một phần mềm phân tích số liệu trắc nghiệm theo lý thuyết trắc nghiệm hiện đại (IRT), ra đời cách đây (2019) 12 năm. Cho đến nay chưa thấy có phần mềm khác nào của Việt Nam được công bố. Bài viết được đăng lại trên blog này xem như một kỷ niệm. Bạn nào muốn sử dụng phần mềm có thể liên hệ với Công ty EDTECH-VN (điện thoại 043 5145566)
PHẦN MỀM VITESTA VÀ VIỆC PHÂN TÍCH
KẾT QUẢ TRẮC NGHIỆM KHÁCH QUAN
GS.TSKH. Lâm Quang
Thiệp,
KS. Lâm Ngọc Minh, KS. Lê Mạnh Tấn, KS.Vũ Đình Bổng
Bài
viết giới thiệu phần mềm VITESTA, một phần mềm đầu tiên của nước ta được xây
dựng trên cơ sở lý thuyết trắc nghiệm hiện đại, tạo cơ hội để áp dụng đúng đắn
phương pháp trắc nghiệm khách quan nhằm đo lường và đánh giá kết quả học tập
trong các trường học.
1.
Trong mấy năm qua, khi trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ
thi tốt nghiệp phổ thông và tuyển sinh đại học, sự quan tâm của các trường học,
các cơ sở quản lý giáo dục và đội ngũ giáo chức về phương pháp này ngày một
tăng lên. Tuy nhiên số người nghiên cứu sâu và áp dụng phương pháp này ở nước
ta còn ít, và khi có nhu cầu phân tích số liệu trắc nghiệm các
chuyên gia trắc nghiệm thường sử dụng phần mềm của nước ngoài. Phần mềm phân
tích số liệu trắc nghiệm theo Lý thuyết Ứng
đáp Câu hỏi (Item Response Theory - IRT) đầu tiên được nhập vào nước ta
khoảng vào năm 1993 là phần mềm QUEST và phần mềm CONQUEST của Hội đồng Nghiên
cứu Giáo dục Úc (ACER) xây dựng theo mô hình Rasch (1 tham số). Phần mềm
BILOG-MG3, xây dựng cho cả các mô hình IRT 1, 2, 3 tham số cũng đã được nhập và
sử dụng từ 3 năm nay, chính nó được tác giả bài viết này dùng để phân tích số
liệu trắc nghiệm trong quá trình xây dựng hơn 30.000 câu hỏi trắc nghiệm (CHTN)
cho các trường Cao đẳng Sư
phạm, cũng như phân tích số liệu thử nghiệm để thiết kế các đề trắc nghiệm (ĐTN)
Toán và Tiếng Việt cho Dự án Tiểu học nhằm khảo sát khoảng 60.000 học sinh lớp
5 trong cả nước.
2. Lĩnh
vực khoa học về Đo lường trong giáo dục (Educational Measurement) ở nước ta
hình thành muộn và phát triển rất chậm, mặc dù nhiều người, trong đó có tác giả
của bài viết này, đã có nhiều cố gắng trong suốt 15 năm qua để góp phần thúc
đẩy nó. Trên thế giới, khoa học này bắt đầu phát triển từ khoảng đầu thế kỷ 20
và cho đến thập
niên 1970 thì hoàn thiện trong khuôn khổ lý
thuyết trắc nghiệm cổ điển. Từ sau thập niên 1970 đến nay một lý thuyết trắc nghiệm hiện đại, dựa trên
IRT, ra đời và phát triển rất nhanh nhờ khả năng tính toán bằng máy tính điện
tử. IRT được xây dựng dựa trên việc nghiên cứu mọi cặp tương tác nguyên tố “thí
sinh – câu hỏi” (TS-CH) khi triển khai một TNKQ. Mỗi TS đứng trước một CH sẽ
ứng đáp như thế nào, điều đó phụ thuộc vào năng lực tiềm ẩn của TS và các đặc
trưng của CH. Hành vi ứng đáp này được mô tả bằng một hàm đặc trưng CH (Item
Response Function) cho biết xác suất trả lời đúng CH tùy theo tương quan giữa năng
lực TS và các tham số đặc trưng cho CH. Hiện nay có 3 mô hình toán phổ biến
nhất trong IRT: mô hình 1 tham số (mô hình Rasch) chỉ xét đến độ khó của CH, mô hình 2 tham số có xét
đến độ phân biệt của CH, và mô hình 3
tham số xét thêm mức độ đoán mò của
TS khi trả lời CH. (1)
So với lý thuyết trắc nghiệm cổ điển, lý
thuyết trắc nghiệm hiện đại với IRT có nhiều ưu việt quan trọng. Trong lý
thuyết trắc nghiệm cổ điển độ khó, độ phân biệt của các CH tính được phụ
thuộc vào mẫu thí sinh được chọn để thử nghiệm, và năng lực xác định được của
TS phụ thuộc vào đề trắc nghiệm (ĐTN) cụ thể mà TS làm. Với IRT, thành tựu kỳ
diệu nhất mà các mô hình toán mang lại là các tham số đặc trưng của CH (liên
quan đến độ khó, độ phân biệt, mức độ đoán mò) không phụ thuộc mẫu thử để định
cỡ CH (sample-free), và năng lực đo
được của TS không phụ thuộc vào một ĐTN cụ thể (item-free), tức là phải như nhau cho dù đo bằng bất kỳ ĐTN nào được
lấy từ ngân hàng câu hỏi (NHCH) đã được cùng định cỡ. Như vậy, theo IRT, mỗi CH
có các thuộc tính đặc trưng cho nó, và mỗi TS ở một trình độ nào đó có một năng
lực tiềm ẩn xác định, các thuộc tính và đặc trưng này không phụ thuộc vào phép
đo, hoặc nói cách khác, chúng là các bất
biến (invariance). Cũng tương tự
như trong phép đo độ dài: mỗi cái thước dùng để đo có kích thước xác định, mỗi vật được đo có chiều dài xác
định, phép đo là sự so sánh cái thước với vật được đo để biết chiều dài vốn có
của vật được đo, các phép đo khác nhau không được làm thay đổi các thuộc tính vốn có của cái thước cũng như độ dài của
vật được đo.
Từ các hàm đặc
trưng CH xác định được theo IRT có thể tính hàm thông tin của CHTN, và từ hàm đặc
trưng và hàm thông tin của từng CH có thể tính được hàm đặc trưng của ĐTN (đường
cong điểm thực) và hàm thông tin của ĐTN. Sai số chuẩn của phép đo là đại
lượng tỷ lệ với nghịch đảo của căn số hàm thông tin trong IRT sẽ tùy thuộc các
mức năng lực tiềm ẩn chứ không phải được xác định bởi một đại lượng trung bình
chung cho cả phép đo như trong lý thuyết trắc nghiệm cổ điển. Đặc điểm đó giúp thiết
kế một ĐTN cho phép đo chính xác khoảng năng lực nào mà người thiết kế mong
muốn. Một hệ quả đặc biệt quan trọng của IRT là nó cho phép thiết kế các ĐTN
với mức độ tương đương rất cao để đảm
bảo sao cho các ĐTN khác nhau có thể cho cùng một kết quả như nhau khi đo năng
lực của một TS nào đó.
Các thành tựu quan trọng nêu trên
của IRT đã nâng độ chính xác của phép đo lường trong tâm lý và giáo dục lên một
tầm cao mới về chất so với các lý
thuyết trắc nghiệm cổ điển. Từ thành tựu tổng quát đó của IRT người ta có thể
đưa ra các quy trình để xây dựng NHCH (item
banking), phân tích các kết quả TNKQ để tu chỉnh các CHTN, chủ động thiết
kế các ĐTN theo các mục tiêu mong muốn: chẳng hạn, trắc nghiệm để tuyển chọn theo
nhiều mức năng lực hay trắc nghiệm để xác định một ngưỡng năng lực nào đó cần
vượt qua xem như đạt yêu cầu giáo dục.
3. Trong quá trình triển khai áp
dụng IRT vào các công việc cụ thể, đặc biệt khi xây dựng các ngân hàng gồm hơn
30.000 CHTN, dưới sự chỉ đạo khoa học của GS. Lâm Quang Thiệp, một nhóm chuyên
gia phần mềm của Công ty Công nghệ Giáo dục và Xử lý Dữ liệu (EDTECH-DP) có tên nêu ở đầu bài báo này đã xây dựng
thành công phần mềm VITESTA để phân tích CHTN và thiết kế ĐTN
theo IRT. Sau đây là các đặc điểm và tính năng chính của phần mềm VITESTA.
Bài toán trung tâm của việc phân
tích số liệu trắc nghiệm theo IRT là bài toán định cỡ (calibration), tức là ước lượng các tham số của CH và năng
lực của TS. Thuật giải ước lượng biến
cố hợp lý cực đại liên kết (joint maximum likelyhood estimation)(2)
đã được áp dụng cho bài toán nói trên khi xây dựng VITESTA. Ước lượng được
triển khai theo mô hình đường cong đặc trưng câu hỏi 1, 2 hoặc 3 tham số. Trong
tiến trình ước lượng, các tham số của CHTN theo lý thuyết trắc nghiệm cổ điển
cũng được tính toán, chẳng hạn độ khó,
độ phân biệt (tương quan điểm nhị
phân) của CHTN. Dựa vào các tham số CHTN ước lượng được, các đường cong đặc
trưng và hàm thông tin của từng CHTN và của toàn bộ ĐTN được tính toán và kết
xuất dưới dạng đồ thị. Từ giá trị năng lực của TS ước lượng được, phần mềm cũng
thực hiện phép biến đổi thông qua đường cong điểm thực của ĐTN nhằm thu được
điểm số của từng TS theo một thang điểm mong muốn nào đó (trên 10, trên 20,
trên 100 v..v…). Để dễ dàng phát hiện các CHTN có vấn đề nhằm lựa chọn hoặc
loại bỏ các CHTN không thích hợp trong quá trình thiết kế ĐTN, phần mềm cho
hiển thị các CHTN có độ phân biệt (cổ điển) âm, có các giá trị độ khó quá lớn
hoặc quá nhỏ. Phần mềm cũng cho phép đánh giá tương quan giữa ĐTN và mẫu TS thử
nghiệm qua việc hiển thị biểu đồ so sánh phân bố độ khó của các CH trong ĐTN
với phân bố năng lực của TS trong mẫu thử nghiệm. Nhằm hỗ trợ cho các nhà giáo
sử dụng phần mềm để phân tích kết quả làm trắc nghiệm của từng TS, phần mềm còn
cung cấp sơ đồ bài làm của từng TS: kết quả trả lời từng CH khó, dễ… Nói chung
các tiện ích mà phần mềm tạo ra làm cho phần mềm rất dễ dùng, hết sức thân
thiện với người sử dụng.
4. Để minh họa
về các tính năng của VITESTA, sau đây chúng tôi sẽ dùng phần mềm phân tích kết
quả trắc nghiệm thử nhằm thiết kế một ĐTN tiêu chuẩn hóa đánh giá môn tiếng
Việt của học sinh lớp 5 trong cả nước (Dự án Giáo dục Tiểu học). ĐTN gồm 40 CH,
được Viện Chiến lược và Chương trình Giáo dục thiết kế và thử nghiệm vào tháng
4 năm 2007 trên các mẫu đại diện của học sinh lớp 5 ở 4 tỉnh (Hải Phòng, Hà
Giang, Bình Định, Hậu Giang), bao gồm 535 học sinh.
H. 1. Đường cong điểm thực ước lượng và số liệu thực nghiệm
ĐTN thử được
phân tích theo mô hình 2 tham số. Trước hết, để hình dung mức độ phù hợp giữa
mô hình IRT và số liệu thực nghiệm, có thể xem trên H.1 đồ thị biểu diễn đường cong
điểm thực và số liệu thực nghiệm. Phần mềm cho hiển thị toàn bộ đường cong đặc
trưng và hàm thông tin của mọi CHTN, nhưng ở đây chỉ xin nêu minh họa về CH số
5. Phần mềm có tô màu để chỉ rõ các CH có vấn đề trong ĐTN, chẳng hạn CH 33 và
35 có độ phân biệt cổ điển âm. Dựa vào chỉ định, có thể xem lại các đường cong
đặc trưng của các CH đó (xem H.3): các đường cong cho thấy giá trị độ khó của
hai CH nói trên rất lớn và thông tin mà chúng cung cấp trong dải năng lực cần
xét xem như bằng không. Các CH này sau đó tất nhiên đã được loại khỏi ĐTN chính
thức. Phần mềm cũng cung cấp đồ
thị hàm thông tin của ĐTN và sai số chuẩn của phép đo được biểu diễn ở H.4: đồ
thị cho thấy ĐTN cung cấp thông tin về năng lực của TS trong một dải tương đối
rộng, tuy nhiên nó sẽ đo chính xác nhất ở một khoảng năng lực dưới trung bình.
H. 2.Ví dụ về các đường cong đặc trưng và hàm hông tin
của câu hỏi số 5
Câu số:
|
32
|
|
|
|
Bỏ
qua:
Độ
phân biệt:
Các
phương án:
Số
TS chọn:
Độ
khó(cổ điển - PA*):
Tương
quan điểm nhị phân:
Giá trị t:
Giá trị p:
|
7
0.4540773
A
46
0.08712
-0.22608
-5.35826
0.00000
|
B
58
0.10985
-0.25371
-6.05556
0.00000
|
C
62
0.11742
-0.21037
-4.96785
0.00000
|
D*
362
0.68561
0.45408
11.76614
0.00000
|
Câu số:
|
33
|
|
|
|
Bỏ
qua:
Độ
phân biệt:
Các
phương án:
Số
TS chọn:
Độ
khó (cổ điển - PA*):
Tương
quan điểm nhị phân:
Giá trị t:
Giá trị p:
|
4
-0.04013145
A
48
0.09040
-0.05737
-1.32661
0.09260
|
B*
190
0.35782
-0.04013
-0.92725
0.17711
|
C
197
0.37100
0.00784
0.18102
0.42821
|
D
96
0.18079
0.08289
1.92026
0.02768
|
Câu số:
|
34
|
|
|
|
Bỏ
qua:
Độ
phân biệt:
Các
phương án:
Số
TS chọn:
Độ
khó (cổ điển - PA*):
Tương
quan điểm nhị phân:
Giá trị t:
Giá trị p:
|
15
0.5195319
A
54
0.10385
-0.25533
-6.09688
0.00000
|
B
47
0.09038
-0.17093
-4.00506
0.00004
|
C
100
0.19231
-0.31993
-7.79584
0.00000
|
D*
319
0.61346
0.51953
14.03746
0.00000
|
Bảng 1. Các số liệu thống kê
theo lý thuyết trắc nghiệm cổ điển của từng câu hỏi.
Các thông tin về
năng lực của từng TS được trình bày ở Bảng 2, trong đó đối với từng TS có nêu
số CH làm đúng trên tổng số CH thực hiện, kết quả ước lượng năng lực θ của TS với sai số chuẩn ước lượng, và
điểm thực của TS được cho theo thang điểm 10. Từ bảng 2 có thể nêu một
nhận xét lý thú: có những TS đạt điểm thô như nhau (tức số CH trả lời đúng bằng
nhau) nhưng lại có điểm thực khác nhau (ví dụ cặp TS số 7 và 8 hoặc số 11
và 12). Lý do là vì mỗi CH mà các TS đó làm được cùng
cung cấp 1 điểm thô nhưng chúng lại có tham số độ phân biệt khác nhau nên dóng
góp vào kết quả ước lượng năng lực khác nhau. Sự khác nhau này sẽ không xảy ra
đối với mô hình một tham số vì tham số độ phân biệt của mọi câu hỏi trong mô
hình này là như nhau. Dù sao điều nhận xét trên cũng cho thấy: điểm thô không đánh giá chính xác năng lực
của TS, do đó trong các kỳ thi tiêu chuẩn hóa người ta thường biến đổi điểm
thô thành một điểm tiêu chuẩn thích hợp. Một biểu đồ nữa được dẫn ra ở H.5 mô
tả tương quan giữa ĐTN và mẫu TS thử nghiệm: nửa mặt phẳng trên cho thấy phân
bố các CHTN trong ĐTN từ dễ đến khó, nửa mặt phẳng dưới cho thấy phân bố năng lực của TS từ thấp đến
cao (theo chiều từ phải sang trái), giá trị trung bình của độ khó CH bằng 0,001
chỉ cao hơn giá trị trung bình của năng lực TS (được đặt bằng không) một lượng
không đáng kể. Như vậy ĐTN là tương đối vừa sức đối với mẫu TS thử nghiệm. Các minh họa qua
việc phân tích định cỡ một ĐTN triển khai trên một mẫu TS thử nghiệm chứng tỏ
phần mềm VITESTA có thể được sử dụng rất tiện lợi và có hiệu quả trong việc
phân tích số liệu trắc nghiệm, thiết kế ĐTN và đánh giá TS theo lý thuyết trắc
nghiệm hiện đại.
H. 3. Các đường cong đặc trưng và hàm thông tin của CH 33 và 35.
H.4. Hàm thông tin của đề trắc
nghiệm
STT
|
SBD
|
Năng lực
|
Sai số chuẩn
|
Đúng/Tổng
|
Điểm quy đổi
|
1
|
1030103201
|
0.64678
|
0.40867
|
30/40
|
7.20
|
2
|
1030103203
|
2.25628
|
0.56493
|
38/40
|
8.65
|
3
|
1030103205
|
0.03859
|
0.36746
|
27/38
|
6.12
|
4
|
1030103207
|
0.08351
|
0.36980
|
25/39
|
6.21
|
5
|
1030103209
|
1.69469
|
0.50706
|
33/40
|
8.31
|
6
|
1030103212
|
-0.48229
|
0.35105
|
20/40
|
4.93
|
7
|
1030103214
|
1.74158
|
0.51184
|
34/40
|
8.34
|
8
|
1030103216
|
1.93457
|
0.53167
|
34/40
|
8.47
|
9
|
1030103218
|
0.56809
|
0.40236
|
32/40
|
7.08
|
10
|
1030103220
|
0.59424
|
0.40443
|
30/40
|
7.12
|
11
|
1030103222
|
1.01261
|
0.44054
|
31/40
|
7.68
|
12
|
1030103224
|
1.14830
|
0.45319
|
31/40
|
7.83
|
13
|
1030103226
|
0.71720
|
0.41451
|
29/40
|
7.30
|
14
|
1030103228
|
0.38933
|
0.38897
|
30/39
|
6.79
|
15
|
1030103230
|
0.74421
|
0.41679
|
29/40
|
7.34
|
Bảng 2: Thông tin về năng lực
của từng TS
H. 5. Tương quan giữa ĐTN và
mẫu TS thử nghiệm
5. Từ khi ra đời đến nay phần mềm
VITESTA đã được thử nghiệm phân tích kết quả của nhiều kỳ thi trắc nghiệm (phục
vụ cho Dự án khảo sát học sinh tiểu học năm 2007, cho kỳ thi thử nghiệm của Dự
án khảo sát học sinh lớp 6 vào đầu năm 2009, phân tích các đề thi của các môn
TNKQ tốt nghiệp phổ thông và tuyển sinh đại học). Đối với các kỳ thi này phần
mềm VITESTA được sử dụng kết hợp với các phần mềm BILOG-MG3 và CONQUEST để phát
hiện nhanh các câu hỏi có vấn đề (chỉ có phần mềm VITESTA có tiện ích này).
Việc phân tích CH trắc nghiệm bằng VITESTA và bằng các phần mềm đã nêu của thế
giới cho thấy kết quả giữa các phần mềm hoàn toàn tương thích, trong khi phần
mềm VITESTA cho phép phân tích nhanh hơn và tiện lợi hơn. Việc ứng dụng phần
mềm VITESTA đã được giới thiệu sơ lược trong cuốn sách phổ cập về trắc nghiệm
của tác giả (3) và chuyển giao cho nhiều Trung tâm khảo thí của các
trường đại học, cao đẳng và các sở GD&ĐT, trong đó Đại học Quốc gia thành
phố Hồ Chí Minh.
Cuối cùng, tác giả xin gửi lời cám ơn đến TS.
Đặng Huỳnh Mai, nguyên Thứ trưởng Bộ GD&ĐT và Viện Chiến lược và Chương
trình Giáo dục đã tạo điều kiện cho tác giả tham gia phân tích số liệu thử
nghiệm ĐTN cho Dự án Tiểu học 2007, Dự án Trung học 2009, nhờ đó tác giả đã có
thể đưa ra những minh họa thực tế lý thú vào bài viết này. Tác giả cũng cám ơn
Trung tâm Khảo thí và Đảm bảo chất lường Đại học Quốc gia thành phố Hồ Chí Minh
đã phối hợp với tác giả trong việc phân tích nhiều kết quả thi trắc nghiệm nhằm
kết hợp thử nghiệm phần mềm.
Hà Nội, 10/2007-10/2009
_________________
TÀI LIỆU DẪN
(1) Educational
Measurement. Forth Edition. Edited by Robert L. Brennan.
ACE&PP, 2006.
(2) Frank B. Baker
& Seock-Ho Kim. Item Response
Theory- Parameter Estimation Techniques, Marcel Dekker, 2004.
(3) Lâm Quang Thiệp . Trắc
nghiệm và Ứng dụng, sách
216 trang, NXB Khoa học và Kỹ thuật, 3/2008
♦
Địa
chỉ liên lạc: Căn hộ 1913 Thành
Công Tower,
57 đường Láng Hạ, Hà Nội; ĐT: 04. 35145566,
Fax: 04. 36647633, E-mail: contact@edtech.com.vn.
Nhận xét
Đăng nhận xét