Perbandingan Akurasi, Kejelasan, Kelengkapan, dan Keringkasan Kecerdasan Buatan dalam Mengerjakan Ujian Akhir Calon Spesialis Bedah Plastik: Studi ChatGPT, Google Gemini, dan Grok = Comparison of Accuracy, Clarity, Completeness, and Conciseness of AI Models (ChatGPT-5, Gemini 2.5 Pro, and Grok-4) on the Plastic Surgeon Residency Exit Exam.

Skripsi

Perbandingan Akurasi, Kejelasan, Kelengkapan, dan Keringkasan Kecerdasan Buatan dalam Mengerjakan Ujian Akhir Calon Spesialis Bedah Plastik: Studi ChatGPT, Google Gemini, dan Grok = Comparison of Accuracy, Clarity, Completeness, and Conciseness of AI Models (ChatGPT-5, Gemini 2.5 Pro, and Grok-4) on the Plastic Surgeon Residency Exit Exam.

Latar Belakang Kecerdasan buatan (AI) menunjukkan potensi besar dalam mendukung pendidikan dan penilaian kedokteran, namun keandalannya pada ujian yang sangat terspesialisasi masih belum banyak diteliti. Ujian Akhir Calon Spesialis Bedah Plastik Rekonstruksi dan Estetik (FKUI) menuntut tingkat ketepatan kognitif, kejelasan, dan kelengkapan yang tinggi. Penelitian ini membandingkan kinerja tiga model AI terkini yaitu ChatGPT-5, Google Gemini 2.5 Pro, dan Grok-4 dalam menjawab soal resmi ujian tersebut berdasarkan empat parameter utama: akurasi, kejelasan, kelengkapan, dan keringkasan. Metode Penelitian ini menggunakan desain kuantitatif observasional potong lintang. Sebanyak 43 soal resmi Ujian Akhir Calon Spesialis Bedah Plastik periode 2022–2025 diberikan kepada ChatGPT-5, Gemini 2.5 Pro, dan Grok-4 dengan prompt yang identik setara tingkat pakar. Dua dokter spesialis bedah plastik tersertifikasi menilai setiap jawaban berdasarkan skala Likert tiga poin untuk empat parameter. Reliabilitas antarpenilai dianalisis menggunakan Weighted Kappa, sedangkan perbandingan antar model diuji menggunakan Friedman dan Wilcoxon Signed-Rank Test. Analisis subkelompok antara soal bergambar dan soal berbasis teks dilakukan dengan Mann–Whitney U. Tingkat signifikansi ditetapkan pada p < 0,05. Hasil Uji reliabilitas antarpenilai menunjukkan kesepakatan substansial hingga hampir sempurna (κ = 0,61–0,81; p < 0,001). Secara deskriptif, Grok-4 memperoleh nilai ratarata tertinggi untuk akurasi (2,40 ± 0,57) dan kejelasan (2,49 ± 0,63), sedangkan ChatGPT-5 unggul dalam keringkasan (2,68 ± 0,36). Kelengkapan menunjukkan hasil yang sebanding di antara ketiga model. Analisis Friedman menunjukkan perbedaan bermakna pada akurasi (p = 0,017), kejelasan (p = 0,001), dan keringkasan (p < 0,001), namun tidak pada kelengkapan (p = 0,463). Uji lanjut Wilcoxon menunjukkan perbedaan signifikan antara Grok-4 dan Gemini 2.5 Pro pada akurasi (p = 0,007) dan kejelasan (p = 0,003), sedangkan ChatGPT-5 secara signifikan lebih ringkas dibanding dua model lainnya (p < 0,011). Analisis subkelompok menunjukkan variasi performa antara soal bergambar dan berbasis teks pada seluruh parameter (p < 0,008). Kesimpulan Ketiga model AI menunjukkan performa yang kompeten namun dengan karakteristik yang berbeda pada Ujian Akhir Calon Spesialis Bedah Plastik. Grok-4 memberikan jawaban paling akurat dan jelas, sementara ChatGPT-5 unggul dalam penyajian yang lebih ringkas. Gemini 2.5 Pro tampil stabil tetapi relatif kurang optimal. Hasil ini menunjukkan bahwa AI berpotensi menjadi alat bantu dalam proses penilaian dan persiapan pendidikan bedah plastik, meskipun peningkatan kemampuan spesifik bidang masih diperlukan sebelum implementasi lebih luas.
Kata Kunci: Kecerdasan buatan, large language model, ChatGPT-5, Gemini 2.5 Pro, Grok-4, pendidikan bedah plastik, ujian medis, perbandingan performa

Introduction Artificial intelligence (AI) has shown promising capabilities in supporting medical education and assessment, yet its reliability in highly specialised examinations remains underexplored. The Plastic Surgery Residency Exit Exam (Ujian Akhir Calon Spesialis Bedah Plastik Rekonstruksi dan Estetik, FKUI) demands high cognitive precision, clarity, and completeness. This study compared the performance of three state-of-the-art AI models such as ChatGPT-5, Google Gemini 2.5 Pro, and Grok-4, in answering the official written questions of the examination, focusing on four key quality metrics: accuracy, clarity, completeness, and conciseness. Method A cross-sectional observational quantitative design was applied. Forty-three official exitexam questions from 2022–2025 were administered to ChatGPT-5, Gemini 2.5 Pro, and Grok-4 using identical expert-level prompts. Two board-certified plastic surgeons independently assessed each model’s responses on a three-point Likert scale across the four parameters. Inter-rater reliability was analysed with weighted Kappa, followed by Friedman and Wilcoxon signed-rank tests to compare model performance. Mann– Whitney U was used for subgroup analysis between text- and image-based questions. Significance was set at p < 0.05. Results Inter-rater reliability was substantial to almost perfect (κ = 0.61–0.81, p < 0.001). Descriptively, Grok-4 achieved the highest mean accuracy (2.40 ± 0.57) and clarity (2.49 ± 0.63), while ChatGPT-5 demonstrated the highest conciseness (2.68 ± 0.36). Completeness scores were comparable across all models. Friedman analysis revealed significant differences in accuracy (p = 0.017), clarity (p = 0.001), and conciseness (p < 0.001), but not in completeness (p = 0.463). Post-hoc tests showed Grok-4 differed significantly from Gemini 2.5 Pro in accuracy (p = 0.007) and clarity (p = 0.003), while ChatGPT-5 was significantly more concise than both competitors (p < 0.011). Subgroup analysis indicated performance variation between image- and text-based items across all parameters (p < 0.008). Conclusion All three AI models demonstrated competent yet distinct performance profiles on the Plastic Surgery Residency Exit Exam. Grok-4 produced the most accurate and clear responses, while ChatGPT-5 excelled in concise presentation. Gemini 2.5 Pro performed consistently but less optimally. These findings suggest that AI models can complement assessment and preparation in specialised surgical education, though continued refinement and domain-specific training are essential before clinical implementation.
Keywords: Artificial intelligence, large language model, ChatGPT-5, Gemini 2.5 Pro, Grok-4, plastic surgery education, medical examination, performance comparison

Judul Seri: -
Tahun Terbit: 2025
Pengarang: Jessie Laurencia Afaratu - Nama Orang
Mohamad Rachadian Ramadan - Nama Orang
No. Panggil: S25163fk
Penerbit: Jakarta : Program Pendidikan Dokter Umum S1 Reguler., 2025
Deskripsi Fisik: xv, 42 hlm. ; 21 x 30 cm
Bahasa: Indonesia
ISBN/ISSN: SBP Online
Klasifikasi: NONE
Edisi: -
Subjek: Artificial Intelligence
large language model
plastic surgery education
performance comparison
Info Detail Spesifik: -

S25163fk S25163fk Perpustakaan FKUI Tersedia - File Digital

Mohon masuk area anggota untuk membaca file digital

TULIS SEBUAH ULASAN

Masuk ke area anggota untuk memberikan review tentang koleksi

Image of Perbandingan Akurasi, Kejelasan, Kelengkapan, dan Keringkasan Kecerdasan Buatan dalam Mengerjakan Ujian Akhir Calon Spesialis Bedah Plastik: Studi ChatGPT, Google Gemini, dan Grok = Comparison of Accuracy, Clarity, Completeness, and Conciseness of AI Models (ChatGPT-5, Gemini 2.5 Pro, and Grok-4) on the Plastic Surgeon Residency Exit Exam.

Sitasi Unduh MARC

Hasil Spesifik

Bibliografi

Ketersediaan

File Digital

Related Collection