Perbandingan Akurasi, Kejelasan, Kelengkapan, dan Keringkasan Model Bahasa Kecerdasan Buatan terhadap Ujian Tulis Penerimaan Residen Bedah Plastik Indonesia: Studi ChatGPT, Gemini, dan Grok = Comparing the Accuracy, Clarity, Completeness, and Conciseness of AI-Language Models in Answering Indonesian Plastic Surgery Residency Entrance Exam: A Study of ChatGPT, Gemini, and Grok.

Skripsi

Perbandingan Akurasi, Kejelasan, Kelengkapan, dan Keringkasan Model Bahasa Kecerdasan Buatan terhadap Ujian Tulis Penerimaan Residen Bedah Plastik Indonesia: Studi ChatGPT, Gemini, dan Grok = Comparing the Accuracy, Clarity, Completeness, and Conciseness of AI-Language Models in Answering Indonesian Plastic Surgery Residency Entrance Exam: A Study of ChatGPT, Gemini, and Grok.

Latar Belakang Kecerdasan Buatan (AI) semakin digunakan dalam lingkungan akademik dan klinis. Perbandingan kualitas jawaban berbagai model AI terhadap materi bedah plastik belum banyak ditelusuri. Studi ini bertujuan mengetahui performa ChatGPT-5, Gemini 2.5 Pro, dan Grok-4 pada Ujian Tulis Masuk Residen Bedah Plastik, berdasarkan akurasi, kejelasan, kelengkapan, dan keringkasan. Metode 171 respon generatif dikumpulkan menggunakan teknik prompting yang disesuaikan untuk ketiga model AI. Setiap respon yang dihasilkan dinilai oleh dua ahli bedah plastik dengan penilaian pada skala likert 3 poin. Statistik deskriptif, reliabilitas antar penilai, dan korelasi Spearman diuji. Analisis perbandingan dilakukan dengan uji Kruskal-Wallis dan uji Mann-Whitney U. Hasil Akurasi Grok-4 lebih tinggi dari ChatGPT-5 dan Gemini 2.5 Pro. Kejelasan Grok-4 dan Gemini 2.5 Pro sama dan lebih tinggi dari ChatGPT-5. Kelengkapan Grok-4 lebih tinggi dibandingkan ChatGPT-5 dan Gemini 2.5 Pro. Keringkasan ChatGPT-5 dan Gemini 2.5 Pro tinggi dan berbeda signifikan dengan Grok-4. Uji korelasi menunjukkan di antara parameter akurasi, kejelasan, dan kelengkapan pada ketiga model AI lebih berhubungan dibandingkan dengan keringkasan. Reliabilitas antar penilai bervariasi di setiap parameter. Kesimpulan Grok-4 unggul pada akurasi dan kelengkapan dengan jawaban panjang. Gemini 2.5 Pro menampilkan kejelasan dan keringkasan yang tinggi, tetapi kelengkapannya lebih rendah. ChatGPT-5 menunjukkan performa seimbang di antara parameter, meskipun kurang jelas dibanding kedua model lainnya. Studi ini menunjukkan bahwa kriteria akurasi, jelas, dan lengkap yang penting pada ujian tulis diprioritaskan dibandingkan dengan kriteria ringkas. Grok-4 merupakan pilihan optimal untuk membantu asesmen, sementara ChatGPT-5 dan Gemini 2.5 Pro menjadi alternatif dengan kualitas serupa.
Kata Kunci: akurasi, bedah plastik, kecerdasan buatan, kejelasan, kelengkapan, keringkasan

Introduction Artificial Intelligence (AI) are constantly evolving as promising tools within academic and clinical environments. Comparative evaluations of their response in the plastic surgery remains limited. This study aims to determine the performance of ChatGPT-5, Gemini 2.5 Pro, and Grok-4 on the Plastic Surgery Resident Entrance Exam, based on accuracy, clarity, completeness, and conciseness. Method 171 AI-generated responses were collected using prompts designed for the comparison of three AI models. Two board-certified plastic surgeons independently rated each response with a 3-point Likert scale. Descriptive statistics, inter-rater reliability, and Spearman correlation were tested. For comparative analysis, Kruskal-Wallis test and Mann-Whitney U test were conducted. Results Grok-4 had the highest accuracy, ahead of ChatGPT-5 and Gemini 2.5 Pro. Both Grok-4 and Gemini 2.5 Pro had higher clarity than ChatGPT-5. Grok-4 had higher completeness, ahead of ChatGPT-5 and Gemini 2.5 Pro. The conciseness of ChatGPT-5 and Gemini 2.5 Pro were higher and significantly different to Grok-4. Correlation tests showed that the three AI models had a stronger correlation between accuracy, clarity, and completeness than conciseness. Inter-rater reliability varied across parameters. Conclusion Grok-4’s answers are the most accurate and complete, while being longer. Gemini 2.5 Pro excelled in clarity and conciseness, but showed lower completeness. ChatGPT-5 has balanced performance across all parameters, with less clarity than other models. This study shows that accuracy, clarity, and completeness, which are important in written exam, are prioritized compared to conciseness. Grok-4 is the best tool for helping assessments, but ChatGPT-5 and Gemini 2.5 Pro remains an alternative with similar quality.
Keywords: accuracy, artifical intelligence, clarity, completeness, conciseness, plastic surgery

Judul Seri: -
Tahun Terbit: 2025
Pengarang: Bryan Semara Rafazha - Nama Orang
Mohamad Rachadian Ramadan - Nama Orang
No. Panggil: S25037fk
Penerbit: Jakarta : Program Pendidikan Dokter Umum S1 Reguler., 2025
Deskripsi Fisik: xvi, 108 hlm., ; 21 x 30 cm
Bahasa: Indonesia
ISBN/ISSN: SBP Online
Klasifikasi: NONE
Edisi: -
Subjek: Accuracy
Plastic Surgery
artifical intelligence
Info Detail Spesifik: -

S25037fk S25037fk Perpustakaan FKUI Tersedia - File Digital

Mohon masuk area anggota untuk membaca file digital

TULIS SEBUAH ULASAN

Masuk ke area anggota untuk memberikan review tentang koleksi

Image of Perbandingan Akurasi, Kejelasan, Kelengkapan, dan Keringkasan Model Bahasa Kecerdasan Buatan terhadap Ujian Tulis Penerimaan Residen Bedah Plastik Indonesia: Studi ChatGPT, Gemini, dan Grok = Comparing the Accuracy, Clarity, Completeness, and Conciseness of AI-Language Models in Answering Indonesian Plastic Surgery Residency Entrance Exam: A Study of ChatGPT, Gemini, and Grok.

Sitasi Unduh MARC

Hasil Spesifik

Bibliografi

Ketersediaan

File Digital

Related Collection