Yapay Zeka Tabanlı Dil Modellerinin Deri Kanseri Hakkındaki Hasta Bilgilendirme Broşürü Üretme Performansının Değerlendirilmesi

XXVII. Prof.Dr. A. Lütfü Tat Sempozyumu, Ankara, Türkiye, 19 - 23 Kasım 2025, ss.4, (Özet Bildiri)

Amaç: Yapay zeka tabanlı büyük dil modellerinin(YZTBDM) hem hekimler hem hastalar için bilgi kaynağı olarak

kullanımı her geçen gün artmaktadır. Ancak paylaşılan verilerin doğruluğu, güvenirliliği ve anlaşılabilirliği

ilgili endişeler mevcuttur. Cilt kanserleri sık görüldüğünden ve hasta eğitimi önemli olduğundan bu

çalışmada sık kullanılan YZTBDM’lerinin cilt kanserleri hakkındaki hasta bilgilendirme broşürü (HBB) üretme

performanslarını değerlendirmeyi amaçladık.

Gereç-Yöntem: Gemini(Google), ChatGPT 4o(OpenAI) ve Copilot(Microsoft) YZTBDM’lerinin Ağustos 2025

ücretsiz versiyonları kullanılarak doğrudan prompt kullanmadan ve promptlu (HBB için hedef olan 6-8. Sınıf

okuma düzeyinde) “Kendi Kendine Ben Muayenesi”, “Skuamöz Hücreli Kanser”, “Bazal Hücreli Kanser”,

“Malign Melanom” hakkında Türkçe ve İngilizce HBB’leri oluşturuldu. Oluşturulan Türkçe HBB için Ateşman

okunabilirlik indeksi (AOİ) ve Bezirci-Yılmaz okunabilirlik değeri (YOD); İngilizce HBB’leri için Flesch Okuma

Kolaylığı Skoru (Flesch Reading Ease Score, FRES), Flesch-Kincaid Grade Level (FKGL) ve SMOG indeksleri

ile okunabilirlikleri hesaplandı. HBB kör bir şekilde iki araştırmacı tarafından doğrululuk ve kapsayıcılık

açısından beşli Likert ölçeği ile değerlendirildi ve uygun istatistiksel analizleri yapıldı.

Bulgular: Gemini, Türkçe HBB’nde doğruluk (p=0.162) ve kapsayıcılıkta (p=0.004); ChatGPT ise İngilizce

HBB’de doğruluk (p=0.007) ve kapsayıcılıkta (p=0.002) en yüksek puanları almıştır. Her iki dilde de Copilot

istatiksel olarak anlamlı olmamakla birlikte daha kolay okunabilir HBB üretti. Promptsuz HBB’lerinde

İngilizce HBB’leri ortalama lise-üniversite düzeyindeyken Türkçe HBB’leri ortaokul-lise düzeyinde bulundu.

Prompt eklenmesi, her üç modelde de doğruluk skorlarını düşürse de bu düşüşler istatistiksel olarak anlamlı

saptanmadı. Prompt ile kapsayıcılık skorlarında Türkçede ChatGPT ve Gemini’de anlamlı olmayan düşüşler

görülürken, İngilizcede Gemini’de anlamlı bir azalma gözlendi (p = 0.018).

Sonuç: İngilizce HBB’lerinin, Türkçeye kıyasla daha zor okunabilir içerik üretmesi, dil modellerinin İngilizce

dilinde daha çeşitli ve akademik içeriklere dayalı veri tabanlarına erişimiyle ilişkili olabilir. Çalışmada,hiçbir

model HBB üretiminde doğruluk, kapsayıcılık ve okunabilirlik ölçütlerinin tamamında tutarlı bir üstünlük

sergileyememiştir. Bu da yapay zeka kaynaklı içeriklerin hasta eğitiminde güvenilirliği ve anlaşılabilirliğinin

artırılması için uzman değerlendirmesinin gerekliliğine işaret etmektedir.