PHẦN MỀM VITESTA VÀ VIỆC PHÂN TÍCH KẾT QUẢ TRẮC NGHIỆM KHÁCH QUAN

Bài này giới thiệu phần mềm VITESTA, một phần mềm phân tích số liệu trắc nghiệm theo lý thuyết trắc nghiệm hiện đại (IRT), ra đời cách đây (2019) 12 năm. Cho đến nay chưa thấy có phần mềm khác nào của Việt Nam được công bố. Bài viết được đăng lại trên blog này xem như một kỷ niệm. Bạn nào muốn sử dụng phần mềm có thể liên hệ với Công ty EDTECH-VN (điện thoại 043 5145566)

PHẦN MỀM VITESTA VÀ VIỆC PHÂN TÍCH
KẾT QUẢ TRẮC NGHIỆM KHÁCH QUAN(*)

GS.TSKH. Lâm Quang Thiệp,
KS. Lâm Ngọc Minh, KS. Lê Mạnh Tấn, KS.Vũ Đình Bổng

Bài viết giới thiệu phần mềm VITESTA, một phần mềm đầu tiên của nước ta được xây dựng trên cơ sở lý thuyết trắc nghiệm hiện đại, tạo cơ hội để áp dụng đúng đắn phương pháp trắc nghiệm khách quan nhằm đo lường và đánh giá kết quả học tập trong các trường học.

1. Trong mấy năm qua, khi trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ thi tốt nghiệp phổ thông và tuyển sinh đại học, sự quan tâm của các trường học, các cơ sở quản lý giáo dục và đội ngũ giáo chức về phương pháp này ngày một tăng lên. Tuy nhiên số người nghiên cứu sâu và áp dụng phương pháp này ở nước ta còn ít, và khi có nhu cầu phân tích số liệu trắc nghiệm các chuyên gia trắc nghiệm thường sử dụng phần mềm của nước ngoài. Phần mềm phân tích số liệu trắc nghiệm theo Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT) đầu tiên được nhập vào nước ta khoảng vào năm 1993 là phần mềm QUEST và phần mềm CONQUEST của Hội đồng Nghiên cứu Giáo dục Úc (ACER) xây dựng theo mô hình Rasch (1 tham số). Phần mềm BILOG-MG3, xây dựng cho cả các mô hình IRT 1, 2, 3 tham số cũng đã được nhập và sử dụng từ 3 năm nay, chính nó được tác giả bài viết này dùng để phân tích số liệu trắc nghiệm trong quá trình xây dựng hơn 30.000 câu hỏi trắc nghiệm (CHTN) cho các trường Cao đẳng Sư phạm, cũng như phân tích số liệu thử nghiệm để thiết kế các đề trắc nghiệm (ĐTN) Toán và Tiếng Việt cho Dự án Tiểu học nhằm khảo sát khoảng 60.000 học sinh lớp 5 trong cả nước.

2. Lĩnh vực khoa học về Đo lường trong giáo dục (Educational Measurement) ở nước ta hình thành muộn và phát triển rất chậm, mặc dù nhiều người, trong đó có tác giả của bài viết này, đã có nhiều cố gắng trong suốt 15 năm qua để góp phần thúc đẩy nó. Trên thế giới, khoa học này bắt đầu phát triển từ khoảng đầu thế kỷ 20 và cho đến thập niên 1970 thì hoàn thiện trong khuôn khổ lý thuyết trắc nghiệm cổ điển. Từ sau thập niên 1970 đến nay một lý thuyết trắc nghiệm hiện đại, dựa trên IRT, ra đời và phát triển rất nhanh nhờ khả năng tính toán bằng máy tính điện tử. IRT được xây dựng dựa trên việc nghiên cứu mọi cặp tương tác nguyên tố “thí sinh – câu hỏi” (TS-CH) khi triển khai một TNKQ. Mỗi TS đứng trước một CH sẽ ứng đáp như thế nào, điều đó phụ thuộc vào năng lực tiềm ẩn của TS và các đặc trưng của CH. Hành vi ứng đáp này được mô tả bằng một hàm đặc trưng CH (Item Response Function) cho biết xác suất trả lời đúng CH tùy theo tương quan giữa năng lực TS và các tham số đặc trưng cho CH. Hiện nay có 3 mô hình toán phổ biến nhất trong IRT: mô hình 1 tham số (mô hình Rasch) chỉ xét đến độ khó của CH, mô hình 2 tham số có xét đến độ phân biệt của CH, và mô hình 3 tham số xét thêm mức độ đoán mò của TS khi trả lời CH. ⁽¹⁾

So với lý thuyết trắc nghiệm cổ điển, lý thuyết trắc nghiệm hiện đại với IRT có nhiều ưu việt quan trọng. Trong lý thuyết trắc nghiệm cổ điển độ khó, độ phân biệt của các CH tính được phụ thuộc vào mẫu thí sinh được chọn để thử nghiệm, và năng lực xác định được của TS phụ thuộc vào đề trắc nghiệm (ĐTN) cụ thể mà TS làm. Với IRT, thành tựu kỳ diệu nhất mà các mô hình toán mang lại là các tham số đặc trưng của CH (liên quan đến độ khó, độ phân biệt, mức độ đoán mò) không phụ thuộc mẫu thử để định cỡ CH (sample-free), và năng lực đo được của TS không phụ thuộc vào một ĐTN cụ thể (item-free), tức là phải như nhau cho dù đo bằng bất kỳ ĐTN nào được lấy từ ngân hàng câu hỏi (NHCH) đã được cùng định cỡ. Như vậy, theo IRT, mỗi CH có các thuộc tính đặc trưng cho nó, và mỗi TS ở một trình độ nào đó có một năng lực tiềm ẩn xác định, các thuộc tính và đặc trưng này không phụ thuộc vào phép đo, hoặc nói cách khác, chúng là các bất biến (invariance). Cũng tương tự như trong phép đo độ dài: mỗi cái thước dùng để đo có kích thước xác định, mỗi vật được đo có chiều dài xác định, phép đo là sự so sánh cái thước với vật được đo để biết chiều dài vốn có của vật được đo, các phép đo khác nhau không được làm thay đổi các thuộc tính vốn có của cái thước cũng như độ dài của vật được đo.

Từ các hàm đặc trưng CH xác định được theo IRT có thể tính hàm thông tin của CHTN, và từ hàm đặc trưng và hàm thông tin của từng CH có thể tính được hàm đặc trưng của ĐTN (đường cong điểm thực) và hàm thông tin của ĐTN. Sai số chuẩn của phép đo là đại lượng tỷ lệ với nghịch đảo của căn số hàm thông tin trong IRT sẽ tùy thuộc các mức năng lực tiềm ẩn chứ không phải được xác định bởi một đại lượng trung bình chung cho cả phép đo như trong lý thuyết trắc nghiệm cổ điển. Đặc điểm đó giúp thiết kế một ĐTN cho phép đo chính xác khoảng năng lực nào mà người thiết kế mong muốn. Một hệ quả đặc biệt quan trọng của IRT là nó cho phép thiết kế các ĐTN với mức độ tương đương rất cao để đảm bảo sao cho các ĐTN khác nhau có thể cho cùng một kết quả như nhau khi đo năng lực của một TS nào đó.

Các thành tựu quan trọng nêu trên của IRT đã nâng độ chính xác của phép đo lường trong tâm lý và giáo dục lên một tầm cao mới về chất so với các lý thuyết trắc nghiệm cổ điển. Từ thành tựu tổng quát đó của IRT người ta có thể đưa ra các quy trình để xây dựng NHCH (item banking), phân tích các kết quả TNKQ để tu chỉnh các CHTN, chủ động thiết kế các ĐTN theo các mục tiêu mong muốn: chẳng hạn, trắc nghiệm để tuyển chọn theo nhiều mức năng lực hay trắc nghiệm để xác định một ngưỡng năng lực nào đó cần vượt qua xem như đạt yêu cầu giáo dục.

3. Trong quá trình triển khai áp dụng IRT vào các công việc cụ thể, đặc biệt khi xây dựng các ngân hàng gồm hơn 30.000 CHTN, dưới sự chỉ đạo khoa học của GS. Lâm Quang Thiệp, một nhóm chuyên gia phần mềm của Công ty Công nghệ Giáo dục và Xử lý Dữ liệu (EDTECH-DP) (*)có tên nêu ở đầu bài báo này đã xây dựng thành công phần mềm VITESTA để phân tích CHTN và thiết kế ĐTN theo IRT. Sau đây là các đặc điểm và tính năng chính của phần mềm VITESTA.

Bài toán trung tâm của việc phân tích số liệu trắc nghiệm theo IRT là bài toán định cỡ (calibration), tức là ước lượng các tham số của CH và năng lực của TS. Thuật giải ước lượng biến cố hợp lý cực đại liên kết (joint maximum likelyhood estimation)⁽²⁾ đã được áp dụng cho bài toán nói trên khi xây dựng VITESTA. Ước lượng được triển khai theo mô hình đường cong đặc trưng câu hỏi 1, 2 hoặc 3 tham số. Trong tiến trình ước lượng, các tham số của CHTN theo lý thuyết trắc nghiệm cổ điển cũng được tính toán, chẳng hạn độ khó, độ phân biệt (tương quan điểm nhị phân) của CHTN. Dựa vào các tham số CHTN ước lượng được, các đường cong đặc trưng và hàm thông tin của từng CHTN và của toàn bộ ĐTN được tính toán và kết xuất dưới dạng đồ thị. Từ giá trị năng lực của TS ước lượng được, phần mềm cũng thực hiện phép biến đổi thông qua đường cong điểm thực của ĐTN nhằm thu được điểm số của từng TS theo một thang điểm mong muốn nào đó (trên 10, trên 20, trên 100 v..v…). Để dễ dàng phát hiện các CHTN có vấn đề nhằm lựa chọn hoặc loại bỏ các CHTN không thích hợp trong quá trình thiết kế ĐTN, phần mềm cho hiển thị các CHTN có độ phân biệt (cổ điển) âm, có các giá trị độ khó quá lớn hoặc quá nhỏ. Phần mềm cũng cho phép đánh giá tương quan giữa ĐTN và mẫu TS thử nghiệm qua việc hiển thị biểu đồ so sánh phân bố độ khó của các CH trong ĐTN với phân bố năng lực của TS trong mẫu thử nghiệm. Nhằm hỗ trợ cho các nhà giáo sử dụng phần mềm để phân tích kết quả làm trắc nghiệm của từng TS, phần mềm còn cung cấp sơ đồ bài làm của từng TS: kết quả trả lời từng CH khó, dễ… Nói chung các tiện ích mà phần mềm tạo ra làm cho phần mềm rất dễ dùng, hết sức thân thiện với người sử dụng.

4. Để minh họa về các tính năng của VITESTA, sau đây chúng tôi sẽ dùng phần mềm phân tích kết quả trắc nghiệm thử nhằm thiết kế một ĐTN tiêu chuẩn hóa đánh giá môn tiếng Việt của học sinh lớp 5 trong cả nước (Dự án Giáo dục Tiểu học). ĐTN gồm 40 CH, được Viện Chiến lược và Chương trình Giáo dục thiết kế và thử nghiệm vào tháng 4 năm 2007 trên các mẫu đại diện của học sinh lớp 5 ở 4 tỉnh (Hải Phòng, Hà Giang, Bình Định, Hậu Giang), bao gồm 535 học sinh.

H. 1. Đường cong điểm thực ước lượng và số liệu thực nghiệm

ĐTN thử được phân tích theo mô hình 2 tham số. Trước hết, để hình dung mức độ phù hợp giữa mô hình IRT và số liệu thực nghiệm, có thể xem trên H.1 đồ thị biểu diễn đường cong điểm thực và số liệu thực nghiệm. Phần mềm cho hiển thị toàn bộ đường cong đặc trưng và hàm thông tin của mọi CHTN, nhưng ở đây chỉ xin nêu minh họa về CH số 5. Phần mềm có tô màu để chỉ rõ các CH có vấn đề trong ĐTN, chẳng hạn CH 33 và 35 có độ phân biệt cổ điển âm. Dựa vào chỉ định, có thể xem lại các đường cong đặc trưng của các CH đó (xem H.3): các đường cong cho thấy giá trị độ khó của hai CH nói trên rất lớn và thông tin mà chúng cung cấp trong dải năng lực cần xét xem như bằng không. Các CH này sau đó tất nhiên đã được loại khỏi ĐTN chính thức. Phần mềm cũng cung cấp đồ thị hàm thông tin của ĐTN và sai số chuẩn của phép đo được biểu diễn ở H.4: đồ thị cho thấy ĐTN cung cấp thông tin về năng lực của TS trong một dải tương đối rộng, tuy nhiên nó sẽ đo chính xác nhất ở một khoảng năng lực dưới trung bình.

H. 2.Ví dụ về các đường cong đặc trưng và hàm hông tin của câu hỏi số 5

_{Câu số:}	₃₂
_{Bỏ qua:} _{Độ phân biệt:} _{Các phương án:} _{Số TS chọn:} _{Độ khó(cổ điển - PA*):} _{Tương quan điểm nhị phân:} _{Giá trị t:} _{Giá trị p:}	₇ _0.4540773 _A ₄₆ _0.08712 _-0.22608 _-5.35826 _0.00000	_B ₅₈ _0.10985 _-0.25371 _-6.05556 _0.00000	_C ₆₂ _0.11742 _-0.21037 _-4.96785 _0.00000	_D* ₃₆₂ _0.68561 _0.45408 _11.76614 _0.00000
_{Câu số:}	₃₃
_{Bỏ qua:} _{Độ phân biệt:} _{Các phương án:} _{Số TS chọn:} _{Độ khó (cổ điển - PA*):} _{Tương quan điểm nhị phân:} _{Giá trị t:} _{Giá trị p:}	₄ _-0.04013145 _A ₄₈ _0.09040 _-0.05737 _-1.32661 _0.09260	_B* ₁₉₀ _0.35782 _-0.04013 _-0.92725 _0.17711	_C ₁₉₇ _0.37100 _0.00784 _0.18102 _0.42821	_D ₉₆ _0.18079 _0.08289 _1.92026 _0.02768
_{Câu số:}	₃₄
_{Bỏ qua:} _{Độ phân biệt:} _{Các phương án:} _{Số TS chọn:} _{Độ khó (cổ điển - PA*):} _{Tương quan điểm nhị phân:} _{Giá trị t:} _{Giá trị p:}	₁₅ _0.5195319 _A ₅₄ _0.10385 _-0.25533 _-6.09688 _0.00000	_B ₄₇ _0.09038 _-0.17093 _-4.00506 _0.00004	_C ₁₀₀ _0.19231 _-0.31993 _-7.79584 _0.00000	_D* ₃₁₉ _0.61346 _0.51953 _14.03746 _0.00000

Bảng 1. Các số liệu thống kê theo lý thuyết trắc nghiệm cổ điển của từng câu hỏi.

Các thông tin về năng lực của từng TS được trình bày ở Bảng 2, trong đó đối với từng TS có nêu số CH làm đúng trên tổng số CH thực hiện, kết quả ước lượng năng lực θ của TS với sai số chuẩn ước lượng, và điểm thực của TS được cho theo thang điểm 10. Từ bảng 2 có thể nêu một nhận xét lý thú: có những TS đạt điểm thô như nhau (tức số CH trả lời đúng bằng nhau) nhưng lại có điểm thực khác nhau (ví dụ cặp TS số 7 và 8 hoặc số 11 và 12). Lý do là vì mỗi CH mà các TS đó làm được cùng cung cấp 1 điểm thô nhưng chúng lại có tham số độ phân biệt khác nhau nên dóng góp vào kết quả ước lượng năng lực khác nhau. Sự khác nhau này sẽ không xảy ra đối với mô hình một tham số vì tham số độ phân biệt của mọi câu hỏi trong mô hình này là như nhau. Dù sao điều nhận xét trên cũng cho thấy: điểm thô không đánh giá chính xác năng lực của TS, do đó trong các kỳ thi tiêu chuẩn hóa người ta thường biến đổi điểm thô thành một điểm tiêu chuẩn thích hợp. Một biểu đồ nữa được dẫn ra ở H.5 mô tả tương quan giữa ĐTN và mẫu TS thử nghiệm: nửa mặt phẳng trên cho thấy phân bố các CHTN trong ĐTN từ dễ đến khó, nửa mặt phẳng dưới cho thấy phân bố năng lực của TS từ thấp đến cao (theo chiều từ phải sang trái), giá trị trung bình của độ khó CH bằng 0,001 chỉ cao hơn giá trị trung bình của năng lực TS (được đặt bằng không) một lượng không đáng kể. Như vậy ĐTN là tương đối vừa sức đối với mẫu TS thử nghiệm. Các minh họa qua việc phân tích định cỡ một ĐTN triển khai trên một mẫu TS thử nghiệm chứng tỏ phần mềm VITESTA có thể được sử dụng rất tiện lợi và có hiệu quả trong việc phân tích số liệu trắc nghiệm, thiết kế ĐTN và đánh giá TS theo lý thuyết trắc nghiệm hiện đại.

H. 3. Các đường cong đặc trưng và hàm thông tin của CH 33 và 35.

H.4. Hàm thông tin của đề trắc nghiệm

STT	SBD	Năng lực	Sai số chuẩn	Đúng/Tổng	*Điểm quy đổi*
1	1030103201	0.64678	0.40867	30/40	*7.20*
2	1030103203	2.25628	0.56493	38/40	*8.65*
3	1030103205	0.03859	0.36746	27/38	*6.12*
4	1030103207	0.08351	0.36980	25/39	*6.21*
5	1030103209	1.69469	0.50706	33/40	*8.31*
6	1030103212	-0.48229	0.35105	20/40	*4.93*
7	1030103214	1.74158	0.51184	34/40	*8.34*
8	1030103216	1.93457	0.53167	34/40	*8.47*
9	1030103218	0.56809	0.40236	32/40	*7.08*
10	1030103220	0.59424	0.40443	30/40	*7.12*
11	1030103222	1.01261	0.44054	31/40	*7.68*
12	1030103224	1.14830	0.45319	31/40	*7.83*
13	1030103226	0.71720	0.41451	29/40	*7.30*
14	1030103228	0.38933	0.38897	30/39	*6.79*
15	1030103230	0.74421	0.41679	29/40	*7.34*

Bảng 2: Thông tin về năng lực của từng TS

H. 5. Tương quan giữa ĐTN và mẫu TS thử nghiệm

5. Từ khi ra đời đến nay phần mềm VITESTA đã được thử nghiệm phân tích kết quả của nhiều kỳ thi trắc nghiệm (phục vụ cho Dự án khảo sát học sinh tiểu học năm 2007, cho kỳ thi thử nghiệm của Dự án khảo sát học sinh lớp 6 vào đầu năm 2009, phân tích các đề thi của các môn TNKQ tốt nghiệp phổ thông và tuyển sinh đại học). Đối với các kỳ thi này phần mềm VITESTA được sử dụng kết hợp với các phần mềm BILOG-MG3 và CONQUEST để phát hiện nhanh các câu hỏi có vấn đề (chỉ có phần mềm VITESTA có tiện ích này). Việc phân tích CH trắc nghiệm bằng VITESTA và bằng các phần mềm đã nêu của thế giới cho thấy kết quả giữa các phần mềm hoàn toàn tương thích, trong khi phần mềm VITESTA cho phép phân tích nhanh hơn và tiện lợi hơn. Việc ứng dụng phần mềm VITESTA đã được giới thiệu sơ lược trong cuốn sách phổ cập về trắc nghiệm của tác giả ⁽³⁾ và chuyển giao cho nhiều Trung tâm khảo thí của các trường đại học, cao đẳng và các sở GD&ĐT, trong đó Đại học Quốc gia thành phố Hồ Chí Minh.

Cuối cùng, tác giả xin gửi lời cám ơn đến TS. Đặng Huỳnh Mai, nguyên Thứ trưởng Bộ GD&ĐT và Viện Chiến lược và Chương trình Giáo dục đã tạo điều kiện cho tác giả tham gia phân tích số liệu thử nghiệm ĐTN cho Dự án Tiểu học 2007, Dự án Trung học 2009, nhờ đó tác giả đã có thể đưa ra những minh họa thực tế lý thú vào bài viết này. Tác giả cũng cám ơn Trung tâm Khảo thí và Đảm bảo chất lường Đại học Quốc gia thành phố Hồ Chí Minh đã phối hợp với tác giả trong việc phân tích nhiều kết quả thi trắc nghiệm nhằm kết hợp thử nghiệm phần mềm.

Hà Nội, 10/2007-10/2009

_________________

TÀI LIỆU DẪN

(1) Educational Measurement. Forth Edition. Edited by Robert L. Brennan. ACE&PP, 2006.

(2) Frank B. Baker & Seock-Ho Kim. Item Response Theory- Parameter Estimation Techniques, Marcel Dekker, 2004.

(3) Lâm Quang Thiệp . Trắc nghiệm và Ứng dụng, sách 216 trang, NXB Khoa học và Kỹ thuật, 3/2008

♦

(*) Bài này đã được đăng ở tạp chí "Thiết bị Giáo dục", số 29, tháng 10/2007 và “Tạp chí Giáo dục” số 76 tháng 11 năm 2007. Một vài chi tiết được bổ sung vào năm 2009.

(*) Địa chỉ liên lạc: Căn hộ 1913 Thành Công Tower, 57 đường Láng Hạ, Hà Nội; ĐT: 04. 35145566,
Fax: 04. 36647633, E-mail: contact@edtech.com.vn.

Tìm kiếm Blog này

Lâm Quang Thiệp

PHẦN MỀM VITESTA VÀ VIỆC PHÂN TÍCH KẾT QUẢ TRẮC NGHIỆM KHÁCH QUAN

Nhận xét

Đăng nhận xét

Bài đăng phổ biến từ blog này

Đổi mới giáo dục đại học - thập niên đầu tiên

Sách "ĐO LƯỜNG TRONG GIÁO DỤC - LÝ THUYẾT VÀ ỨNG DỤNG"