ENThis research aims to determine the quality of odd semester assessment questions for class X in Biology for the 2023/2024 academic year. This research used a quantitative descriptive method involving 30 students with 30 questions being tested. Data were analyzed using classical test theory and processed using Microsoft Excel and Rasch models, which were processed using the Winstep program. The quality of the item questions tested includes difficulty level, distinguishing power, distractor effectiveness, validity, and reliability. The results of the CTT analysis show two categories of difficulty, namely easy (13.3%) and medium (86.7%) questions. There are four categories of differentiating power: low, sufficient, high, and very high. The effectiveness of functioning distractors was 16.7%, while non-functional ones were 83.3%. The validity of valid questions is 20%, and invalid is 80%. Meanwhile, the level of reliability is categorized as unreliable, with a value of r11 = 0.079 (very low). The results of the IRT analysis show that the difficulty level of the questions is in three categories, namely easy (20%), medium (66.7%), and difficult (13.3%). Differentiating power is only categorized as low. The effectiveness of functioning distractors was 43.3%, and non-functioning was 56.7%. The validity of the questions is classified as valid 63.7% and invalid 36.3. Person reliability is 0.03 in the weak category, while item reliability is 0.30 in the weak category. This study provides insight into the importance of using appropriate methodology for problem analysis, using both classical test theory and the Rasch model, which can help create evaluation instruments in the future. IDTujuan penelitian ini untuk mengetahui kualitas soal Penilaian Tengah Semester ganjil kelas X mata pelajaran Biologi tahun pelajaran 2023/2024. Penelitian ini menggunakan metode deskriptif kuantitatif yang melibatkan 30 siswa dengan 30 soal yang diujikan. Data dianalisis dengan teori tes klasik yang diolah menggunakan Microsoft Excel dan Rasch model yang diolah dengan program Winstep. Kualitas item soal yang diuji meliputi tingkat kesukaran, daya pembeda, efektivitas distraktor, validitas dan reliabilitas. Hasil analisis CTT menunjukkan tingkat kesukaran terdapat dua kategori yaitu soal kategori mudah (13,3%) dan sedang (86,7%). Daya pembeda terdapat empat kategori yaitu rendah, cukup, tinggi dan sangat tinggi. Efektifitas distraktor berfungsi sebanyak 16,7% sedangkan yang tidak berfungsi 83,3%. Validitas butir soal yang valid terdapat 20% dan tidak valid 80%. Sedangkan tingkat reliabilitas dikategorikan tidak reliabel dengan nilai r11= 0,079 (sangat rendah). Hasil analisis dengan IRT menunjukkan tingkat kesukaran soal terdapat tiga kategori yaitu mudah (20%), sedang (66,7%) dan sulit (13,3%). Daya pembeda hanya dikategorikan rendah. Efektifitas distraktor yang berfungsi sebanyak 43,3% dan tidak berfungsi 56,7%. Validitas butir soal tergolong valid 63,7% dan tidak valid 36,3. Reliabilitas person sebesar 0,03 dengan kategori lemah sedangkan reliabilitas item sebesar 0,30 dengan kategori lemah. Penelitian ini memberikan wawasan tentang pentingnya menggunakan metodologi yang tepat dalam analisis soal, baik menggunakan teori tes klasik maupun model Rasch , yang dapat membantu dalam pembuatan instrumen evaluasi di masa depan.