Evaluasi Kelayakan Jawaban Large Language Models (LLMs) pada Bidang Kesehatan Menggunakan Metode BERTScore

Penulis

  • Listia Baene Universitas Buddhi Dharma
  • Dram Renaldi Universitas Buddhi Dharma
  • Edy Edy Universitas Buddhi Dharma

Kata Kunci:

BERTScore, ChatGPT, Google Colab, LLMs, Python

Abstrak

Penelitian ini dilatarbelakangi oleh meningkatnya pemanfaatan Large Language Models (LLMs) seperti ChatGPT dalam menyediakan informasi kesehatan, yang menuntut adanya evaluasi kuantitatif terhadap kelayakan jawaban yang dihasilkan. Tujuan penelitian adalah mengembangkan dan menguji instrumen pengujian otomatis berbasis Python di Google Colab untuk menilai kualitas jawaban ChatGPT bidang kesehatan menggunakan metrik semantik BERTScore. Metode yang digunakan meliputi dataset CSV berisi pertanyaan medis, jawaban referensi, dan jawaban ChatGPT, perhitungan nilai Precision , Recall , dan F1-Score BERTScore, pelabelan kualitas jawaban, analisis per kategori, visualisasi hasil, serta validasi terhadap aspek SQA, antarmuka, dan struktur pengkodean. Hasil pengujian 100 pertanyaan dalam 10 kategori menunjukkan skor BERTScore tinggi (sekitar 0,84–0,89) dengan persentase kelayakan jawaban “bagus” 40–90%, di mana kategori Anatomi dan Fisiologi Manusia serta Gizi dan Nutrisi mencapai persentase tertinggi, sedangkan Farmakologi, Kesehatan Masyarakat dan Pencegahan, serta Etika dan Hukum berada pada kisaran terendah. Validasi tiga pakar menghasilkan rata-rata penilaian 82,6%, sehingga instrumen yang dikembangkan dinyatakan berjalan baik dan cukup reliabel untuk evaluasi jawaban LLMs di bidang Kesehatan

Unduhan

Data unduhan belum tersedia.

Unduhan

Diterbitkan

2026-01-07