<bold id="bold-ecdea3ad5ccd67cd492fcc7445150d4d">Pendahuluan</bold>

State Responsibility in Guaranteeing Access to Essential Medicines for Public Health

Tanggung Jawab Negara dalam Menjamin Akses terhadap Obat Esensial untuk Kesehatan Masyarakat

Hamid

Siti Nur Cholisa

sitinur@gmail.com Muis

Lidya Shery

lidyasherymuis@umsida.ac.id

Indonesia Indonesia 25 10 2024

<bold id="bold-ecdea3ad5ccd67cd492fcc7445150d4d">Pendahuluan</bold>

Skizofrenia merupakan salah satu gangguan mental kronis yang sangat kompleks, memengaruhi fungsi kognitif, perilaku, dan emosi individu. Organisasi Kesehatan Dunia (WHO) memperkirakan bahwa sekitar 20 juta orang di seluruh dunia hidup dengan skizofrenia, dengan prevalensi global berkisar sekitar 1% dari populasi. Angka kejadian baru mencapai 7,6 kasus per 100.000 orang per tahun, menimbulkan beban yang signifikan bukan hanya bagi individu yang terdampak tetapi juga bagi sistem kesehatan dan masyarakat luas. Gangguan ini dikaitkan dengan tingkat disabilitas yang tinggi, serta mortalitas yang meningkat, termasuk risiko bunuh diri yang cukup signifikan, sehingga menimbulkan tantangan besar dalam diagnosis dan pengelolaan klinis [1].

Kemajuan teknologi dalam bidang kecerdasan buatan, terutama machine learning dan deep learning, telah membuka peluang besar untuk memperbaiki diagnostik skizofrenia melalui analisis sinyal elektroensefalogram (EEG). EEG merupakan metode non-invasif yang menangkap aktivitas listrik otak secara real-time, memungkinkan identifikasi pola neurofisiologis yang khas pada pasien skizofrenia. Penelitian terkini menunjukkan bahwa algoritma seperti Logistic Regression, Random Forest, dan Decision Tree mampu meningkatkan akurasi klasifikasi melalui pemrosesan fitur EEG yang kompleks, termasuk penggunaan teknik recursive feature elimination (RFE) untuk memilih fitur paling informatif. Salah satu studi multi-fiturnya melaporkan peningkatan signifikan dalam akurasi klasifikasi sekaligus prediksi respons terapi pasien, yang sangat menjanjikan untuk personalisasi pengobatan [2] [3] [4].

Penelitian terkini oleh Zhang et al. (2025) memperkenalkan metode multi-fiturnya menggunakan fusi recursive feature elimination pada Random Forest (RFE-RF) untuk klasifikasi skizofrenia dan prediksi respons terapi. Metode ini memanfaatkan fitur-fitur dari resting-state functional magnetic resonance imaging (rs-fMRI), seperti regional homogeneity, fractional amplitude dari low-frequency fluctuations, dan functional connectivity. Pendekatan ini berhasil mencapai akurasi tinggi sebesar 91,7%, sensitivitas 90,9%, dan spesifisitas 92,6% untuk membedakan pasien skizofrenia dari kontrol sehat, sekaligus memprediksi respons terapi jangka pendek berdasarkan skor PANSS (Positive and Negative Symptom Scale). Temuan ini mengidentifikasi abnormalitas pada jaringan visual dan default mode sebagai biomarker neuroimaging utama. Studi ini memberikan insight baru yang sangat penting terhadap mekanisme neural skizofrenia serta potensi intervensi yang dipersonalisasi dengan validasi klinis lebih lanjut [3].

Dalam hal kinerja prediksi, Logistic Regression menunjukkan performa yang baik dengan nilai AUC (Area Under Curve) berkisar antara 0,63 hingga 0,92, mengindikasikan kemampuan prediktif yang bervariasi tergantung dataset dan fitur yang digunakan [3]. Random Forest dilaporkan memberikan akurasi terbaik sebesar 72,7%, dengan AUC 79,6%, presisi 72,8%, F1-Score 72,7%, dan recall 72,7% dalam memprediksi pasien skizofrenia yang dirawat di rumah sakit, menjadikannya model yang efektif untuk tugas klasifikasi ini [4]. Sementara itu, Decision Tree merupakan model konvensional yang sering digunakan dalam klasifikasi EEG skizofrenia, meskipun data akurasi spesifiknya belum banyak dilaporkan secara rinci dalam literatur terbaru [2].

Analisis fitur mikrostates EEG memberikan wawasan lebih mendalam tentang dinamika dan mekanisme neurofisiologis yang mendasari skizofrenia. Dengan pendekatan machine learning yang interpretatif, pola mikrostates dapat menjadi biomarker kuat dalam membedakan pasien dengan gangguan dari populasi sehat. Kombinasi ini memperkuat pemahaman terhadap patofisiologi skizofrenia, yang didukung juga oleh keterlibatan metode TMS-EEG untuk menggali jaringan neural yang berperan dalam manifestasi penyakit [5] [6] [7]. Pendekatan tersebut memungkinkan deteksi gangguan fungsi dan struktur otak yang lebih tepat, khususnya dalam konteks variasi gender dan episode pertama penyakit [8] [9].

Selain fokus pada aspek neurofisiologi, studi terkini menyoroti pentingnya pengelolaan gejala negatif yang seringkali sulit ditangani, namun berdampak luas pada kualitas hidup pasien, mulai dari penurunan motivasi hingga gangguan kognitif dan sosial. Machine learning tidak hanya digunakan untuk klasifikasi penyakit, tetapi juga untuk optimalisasi terapi, contohnya dengan menggunakan Random Forest dalam memprediksi dosis dan jumlah obat antipsikotik secara presisi, yang dapat meminimalkan efek samping serta meningkatkan kepatuhan pasien terhadap terapi [10] [11]. Inovasi lain yaitu integrasi algoritma dalam virtual reality therapy dan decision tree untuk membedakan spektrum gangguan mood dan skizofrenia, menunjukkan bagaimana teknologi ini dapat membantu dalam pengambilan keputusan klinis untuk perencanaan terapi yang lebih adaptif dan berhasil [12] [13] [14] [15]. Meskipun demikian, hingga saat ini belum ada studi komprehensif yang melakukan perbandingan sistematik antara tiga algoritma utama Logistic Regression, Random Forest, dan Decision Tree dalam klasifikasi skizofrenia berdasarkan fitur EEG. Hal ini menjadi gap penting yang perlu diisi untuk menentukan metode machine learning paling efektif dalam konteks diagnostik dan prediksi terapi skizofrenia.

Penelitian ini bertujuan untuk mengembangkan metode klasifikasi skizofrenia berdasarkan sinyal EEG dengan membandingkan performa tiga algoritma utama: Logistic Regression, Random Forest, dan Decision Tree. Dengan menggabungkan fitur-fitur EEG yang telah teruji serta metode machine learning yang canggih, diharapkan model yang dikembangkan bukan hanya meningkatkan akurasi diagnosis tetapi juga memberikan prediksi respons terapi yang lebih baik. Penelitian ini berbeda dari studi sebelumnya karena melakukan evaluasi sistematik tiga algoritma utama sekaligus pada dataset EEG skizofrenia, sehingga memberikan gambaran komprehensif terhadap kelebihan dan keterbatasan masing-masing metode. Harapannya, riset ini dapat memberikan kontribusi signifikan dalam pengembangan alat bantu diagnosis dan manajemen klinis skizofrenia, sehingga mampu mempercepat deteksi dini, mempersonalisasi perawatan pasien, dan memperbaiki outcome jangka panjang mereka [9].

<bold id="bold-91cf9a2bd5b604218dfdb4f38f52f749">Metode</bold> A. Dataset dan Repositori

Penelitian ini menggunakan dataset EEG yang diperoleh dari repositori Zenodo dengan tautan https://zenodo.org/records/14178398. Dataset memuat rekaman sinyal EEG pasien skizofrenia dan kontrol sehat yang dikumpulkan dengan standar protokol yang ketat. Semua data dikumpulkan sesuai protokol etika penelitian yang telah disetujui oleh komite etik institusi yang menaungi pengumpulan data tersebut, dan dilengkapi dengan informed consent dari partisipan.

B. Etika Penelitian

Penggunaan data mengikuti prinsip-prinsip etika penelitian dengan menjaga kerahasiaan dan anonimitas data partisipan. Semua prosedur pengumpulan dan analisis data sudah memperoleh izin dari komite etik terkait.

C. Preprocessing Data EEG

Data EEG mentah difilter dan diproses agar siap untuk ekstraksi fitur dan analisis sebagai berikut:

Filter Artefak: Sinyal EEG difilter menggunakan bandpass filter frekuensi 0.5–70 Hz untuk menghilangkan noise frekuensi rendah dan tinggi yang tidak berkaitan. Artefak gerakan mata dan gerakan lain dihilangkan menggunakan metode Independent Component Analysis (ICA).

Segmentasi: Data EEG kemudian dipotong menjadi segmen-segmen berdurasi 2 detik tanpa tumpang tindih untuk menganalisis bagian analisis berbasis jendela waktu yang konsisten.

D. Ekstraksi Fitur

Short-Time Fourier Transform (STFT) untuk mendapatkan representasi waktu-frekuensi sinyal dalam segmen EEG.

Wavelet Transform untuk analisis multiresolusi, memungkinkan pengambilan fitur transient dan frekuensi spesifik pada level dekomposisi tertentu.

Band Power pada lima pita frekuensi klasik EEG: Delta, Theta, Alpha, Beta, dan Gamma, sebagai fitur kuantitatif utama mewakili aktivitas otak.

E. Implementasi Model

Model machine learning yang digunakan adalah Logistic Regression, Random Forest, dan Decision Tree.

Implementasi menggunakan scikit-learn versi 1.2.2 dengan bahasa pemrograman Python 3.11 untuk memastikan kompatibilitas dan replikabilitas.

Dataset dibagi menggunakan skema hold-out, dengan 70% data sebagai data pelatihan dan 30% sebagai data uji baru yang belum pernah dilihat model untuk evaluasi.

Model dilatih dan divalidasi menggunakan data latih, kemudian dievaluasi pada data uji untuk mengukur kinerja sebenarnya.

F. Evaluasi dan Uji Statistik

Evaluasi performa model dilakukan menggunakan metrik akurasi, presisi, recall, F1-score, dan Area Under Curve (AUC) pada data uji.

Untuk membandingkan performa model secara signifikan secara statistik, dilakukan uji:

McNemar Test untuk menguji perbedaan signifikan antara dua model dalam klasifikasi biner pada data uji.

Wilcoxon Signed-Rank Test untuk membandingkan performa metrik berpasangan antar model sebagai uji hipotesis perbedaan median metrik performa.

G. Pemodelan

Ketiga algoritma ini dipilih berdasarkan karakteristik komplementer mereka dalam menangani kompleksitas data, kebutuhan interpretabilitas, serta kemampuan generalisasi. Logistic Regression (LR) merupakan metode statistik yang memodelkan hubungan antara variabel dependen biner dan sejumlah variabel independen melalui fungsi logit, yang secara matematis dapat dituliskan:

Figure 1

Parameter β diestimasi menggunakan Maximum Likelihood Estimation (MLE) untuk memaksimalkan fungsi peluang, yang memungkinkan model menyesuaikan probabilitas prediksi dengan data observasi secara optimal [16] [17]. Selain itu, implementasi regularisasi L1 (Lasso) dan L2 (Ridge) memberikan kemampuan untuk mengontrol kompleksitas model dan mengoptimalkan seleksi fitur, menjadikan LR efektif dalam menghadapi data medis dan kasus fraud detection dengan bias kolinearitas [18]. LR dikenal karena keunggulan dalam transparansi model dan interpretasi koefisien yang secara langsung mengindikasikan pengaruh tiap fitur terhadap probabilitas outcome.

Decision Tree (DT) membentuk model klasifikasi dalam struktur pohon yang terdiri atas node internal (pertanyaan atau uji fitur), cabang (jawaban dari uji tersebut), dan daun (kelas prediksi). Algoritma membangun pohon berdasarkan kriteria seleksi split yang mengoptimalkan pemisahan kelas, seperti Gini impurity dan Information Gain. Gini impurity dihitung sebagai:

Figure 2

Penggunaan kriteria ini memungkinkan pohon untuk memilih split terbaik yang memaksimalkan kemurnian kelas anak-nodenya [19] [20]. DT juga menerapkan teknik pruning untuk memangkas cabang-cabang berlebih guna mengurangi overfitting dan meningkatkan kemampuan generalisasi. Keuntungan utama DT adalah interpretabilitas yang tinggi, membuatnya sangat berguna dalam analisis klinis dan prediksi berbasis aturan yang mudah dipahami oleh praktisi [21].

Random Forest (RF) merupakan algoritma ensemble learning yang menggabungkan hasil dari sejumlah besar pohon keputusan yang dibangun secara independen melalui bootstrap aggregating (bagging) dan pemilihan subset acak fitur pada setiap split untuk mengurangi korelasi antar pohon dan meningkatkan variasi prediksi. Prediksi akhir diperoleh dengan metode voting mayoritas:

Figure 3

dengan M jumlah pohon dalam hutan, dan h_m (X) prediksi pohon ke-m. Strategi ini secara signifikan mengurangi varians tanpa menambah bias secara berlebihan, sehingga mampu menangani dataset besar dan berdimensi tinggi secara lebih stabil dan akurat dibandingkan DT tunggal [22] [23]. RF kurang transparan dibanding DT dan LR, namun teknik interpretasi seperti feature importance dan partial dependence plots membantu mengungkap peran variabel input dalam pengambilan keputusan model [24].

Dalam implementasi penelitian, dataset diolah dengan pembagian data training dan testing menggunakan teknik k-fold cross-validation untuk evaluasi model yang andal. Parameter kritikal setiap algoritma dioptimasi melalui grid search, seperti nilai regularisasi dan iterasi pada LR, kedalaman serta minimal sampel split pada DT, serta jumlah pohon dan ukuran subfitur pada RF. Evaluasi performa model dilakukan menggunakan metrik akurasi, precision, recall, dan F1-score guna memastikan keseimbangan antara sensitivitas dan spesifisitas klasifikasi [18]. Pendekatan ini memungkinkan eksplorasi kekuatan algoritma dalam menangani karakteristik data yang bervariasi sekaligus menjaga interpretabilitas hasil, sangat penting dalam konteks aplikasi klinis dan pendeteksian anomali

<bold id="bold-8aaf31f450ddf011cbf65e711964461a">Hasil dan Pembahasan</bold>

Table 1 Classification Report

Algoritma Label Precision Recall F1-score Support average accuracy Amount of data Accuracy CI (Wilson)

Logistic Regression 0 0.90 0.74 0.81 308 0.82 580 0.786,

1 0.76 0.90 0.82 272 0.848

Random Forest 0 0.91 0.81 0.86 308 0.86 580 0.826,

1 0.81 0.91 0.86 272 0.883

Decision Tree 0 0.87 0.75 0.81 308 0.81 580 0.775,

1 0.76 0.88 0.81 272 0.839

Tabel 1 menyajikan hasil evaluasi performa tiga algoritma klasifikasi, yaitu Logistic Regression, Random Forest, dan Decision Tree, yang diukur berdasarkan metrik presisi, recall, F1-score, serta dukungan jumlah data untuk masing-masing label (0 dan 1). Secara umum, ketiga model ini diuji pada jumlah data sebesar 580 sampel, dengan pembagian label yang relatif seimbang antara kelas 0 dan kelas 1.

Untuk algoritma Logistic Regression, presisi terhadap kelas 0 mencapai 0,90, menunjukkan kemampuan model dalam mengeliminasi false positive untuk kelas ini cukup baik. Namun, recall untuk kelas 0 sebesar 0,74 menunjukkan bahwa model terkadang melewatkan beberapa true positive dalam kelas ini. Sebaliknya, pada kelas 1, recall yang lebih tinggi mencapai 0,90 menandakan model lebih mampu mengenali instance positif, walaupun presisinya menurun menjadi 0,76. Nilai F1-score untuk kedua kelas berada di kisaran 0,81-0,82, yang mencerminkan keseimbangan moderat antara presisi dan recall. Rata-rata akurasi model Logistic Regression sebesar 0,82 dengan interval kepercayaan (CI) Wilson antara 0,786 hingga 0,848 memperlihatkan ketelitian yang cukup stabil.

Random Forest memperlihatkan performa superior dibanding kedua algoritma lain. Presisi untuk kelas 0 dan kelas 1 masing-masing mencapai 0,91 dan 0,81, menunjukkan keseimbangan yang baik dalam meminimalkan kesalahan prediksi maupun mengidentifikasi instance positif. Recall untuk kelas 0 sebesar 0,81 dan kelas 1 mencapai 0,91 menandakan model ini efektif dalam mengenali kedua kelas dengan tingkat sensitivitas tinggi. F1-score untuk kedua kelas sama-sama tinggi, yakni 0,86, yang mengindikasikan performa keseluruhan algoritma ini sangat baik. Rata-rata akurasi sebesar 0,86 dengan CI Wilson 0,826 sampai 0,883 menguatkan kapabilitas Random Forest sebagai algoritma yang paling akurat dan andal dalam konteks dataset ini.

Decision Tree, meskipun menunjukkan performa sedikit di bawah Random Forest, tetap mencatat hasil yang memadai. Presisi kelas 0 mencapai 0,87 dan kelas 1 sebesar 0,76, sedangkan recall berada pada 0,75 untuk kelas 0 dan 0,88 untuk kelas 1. F1-score yang konsisten di angka 0,81 memperlihatkan kestabilan model dalam menangani kedua kelas. Namun, dengan rata-rata akurasi sebesar 0,81 dan confidence interval Wilson 0,775 hingga 0,839, model ini sedikit lebih rentan ketidakakuratan dibanding Random Forest dan Logistic Regression.

Analisis ini menunjukkan bahwa Random Forest memberikan kinerja terbaik secara keseluruhan dalam hal presisi, recall, F1-score, dan akurasi, berkat kemampuannya menggabungkan banyak decision tree untuk meminimalkan bias dan varians. Logistic Regression unggul dalam stabilitas dan interpretabilitas, sedangkan Decision Tree memberikan alternatif yang lebih sederhana dengan performa yang cukup baik, namun rentan terhadap fluktuasi hasil. Interval kepercayaan pada akurasi ketiga model juga mengindikasikan hasil yang relatif konsisten dan dapat diandalkan untuk pengambilan keputusan lebih lanjut.

Dari perspektif perbandingan dengan literatur yang ada, performa akurasi hingga 86-87% yang dicapai oleh model Random Forest dalam penelitian ini tergolong kompetitif. Studi oleh Chien et al. (2023) melaporkan akurasi lebih tinggi sekitar 93% dengan pemanfaatan optimal fitur EEG frekuensi alpha dan gamma [25]. Selanjutnya, Abrar et al. (2025) menunjukkan hasil sangat tinggi yakni akurasi 94,9% dengan penggunaan metode pemodelan multi-fitur yang kompleks menggunakan Random Forest dan teori Rough Set [26]. Sementara itu, Hwang et al. (2023) melaporkan akurasi 78,94% dalam memisahkan skizofrenia dari gangguan bipolar menggunakan metode multiscale fuzzy entropy [27]. Perbandingan ini mengindikasikan bahwa meskipun model dalam penelitian ini belum mencapai performa tertinggi global, hasil yang diperoleh sudah berada dalam rentang yang sangat baik dan unggul dibandingkan beberapa studi lain, terutama mengingat kompleksitas data dan teknik yang diterapkan. Hal ini membuka peluang untuk peningkatan performa lebih lanjut melalui eksplorasi teknik machine learning yang lebih maju serta penggunaan dataset yang lebih besar dan representatif untuk validasi klinis yang lebih kuat.

Figure 4 Confusion Matrix

Gambar 1 menampilkan confusion matrix dari tiga algoritma klasifikasi yang diuji dalam penelitian ini, yaitu Logistic Regression, Random Forest, dan Decision Tree. Confusion matrix ini memberikan gambaran detail mengenai performa model dalam mengklasifikasikan dua kelas, yaitu kelas control (label 0) dan kelas patient (label 1), dengan menghitung jumlah prediksi benar dan salah pada setiap kelas.

Pada confusion matrix Logistic Regression, model berhasil mengklasifikasikan 229 sampel control dengan benar (true negative) dan 246 sampel patient dengan benar (true positive). Namun, terdapat 79 kasus control yang salah diklasifikasikan sebagai patient (false positive) dan 26 kasus patient yang gagal dikenali (false negative). Hal ini mengindikasikan performa model cukup baik pada pengenalan patient, ditunjukkan dengan jumlah true positive tinggi, meskipun relatif banyak kesalahan pada prediksi control.

Random Forest menunjukkan kapasitas klasifikasi yang lebih baik, dengan 249 prediksi control yang tepat serta 248 prediksi patient yang benar. Jumlah kesalahan prediksi pada kelas control maupun patient (false positive dan false negative) masing-masing berjumlah 59 dan 24, yang lebih rendah dibandingkan Logistic Regression dan Decision Tree. Ini merefleksikan keandalan Random Forest dalam meminimalkan kesalahan klasifikasi dan menunjang accuracy tinggi yang telah dijelaskan dalam tabel klasifikasi.

Decision Tree menampilkan performa yang sedikit lebih rendah, dengan 231 true negative dan 238 true positive. Kesalahan klasifikasi pada kelas control dan patient berturut-turut mencapai 77 dan 34, lebih banyak dibandingkan Random Forest dan Logistic Regression. Hal ini menggambarkan bahwa meskipun model Decision Tree mampu mengenali kedua kelas, tingkat kesalahannya lebih tinggi dan sensitivitynya relatif menurun.

Secara keseluruhan, confusion matrix ini menegaskan kembali hasil evaluasi metrik performa sebelumnya, di mana Random Forest unggul dalam jumlah prediksi benar dengan kesalahan yang lebih sedikit, sementara Logistic Regression dan Decision Tree menunjukkan performa yang dapat diterima namun kurang optimal. Confusion matrix ini memberikan wawasan visual yang memperkuat validitas dan reliabilitas hasil klasifikasi guna mendukung kesimpulan evaluasi model dalam konteks dataset yang digunakan.

Figure 5 Receiver Operating Characteristic Curve

Gambar 2 memperlihatkan kurva Receiver Operating Characteristic (ROC) dari tiga algoritma klasifikasi yang digunakan dalam penelitian ini, yakni Logistic Regression, Random Forest, dan Decision Tree. Kurva ROC ini mengilustrasikan hubungan antara true positive rate (sensitivitas) dan false positive rate dari masing-masing model saat ambang klasifikasi berubah. Semakin mendekati sudut kiri atas grafik, semakin baik kemampuan model dalam membedakan kedua kelas, yaitu kelas control dan kelas patient.

Dari grafik ROC tersebut, Random Forest menunjukkan performa paling unggul dengan area under the curve (AUC) sebesar 0.912, mengindikasikan tingkat akurasi yang sangat tinggi dalam klasifikasi dan kemampuan membedakan antara kelas patient dan control secara konsisten. Logistic Regression menyusul dengan AUC sebesar 0.865, menunjukkan performa yang baik namun sedikit lebih rendah dibandingkan Random Forest. Sementara itu, Decision Tree memiliki AUC sebesar 0.871, yang sedikit lebih baik daripada Logistic Regression, namun masih di bawah Random Forest.

Perbandingan ini menegaskan bahwa Random Forest memiliki keunggulan signifikan dalam hal sensitivity dan specificity, yang berkontribusi pada prediksi yang lebih andal. Hasil ini sejalan dengan metrik evaluasi lain yang menunjukkan bahwa Random Forest mampu memberikan keseimbangan yang baik antara tingkat deteksi positif benar dan minimisasi kesalahan prediksi negatif palsu. Kurva ROC memberikan gambaran visual yang jelas mengenai efektivitas ketiga algoritma dalam konteks data dan masalah klasifikasi yang dihadapi.

Nilai AUC (Area Under the Curve) pada kurva ROC merupakan indikator penting dalam menilai kemampuan diagnostik suatu model klasifikasi. Dalam konteks skrining klinis di rumah sakit (RS), nilai AUC yang tinggi, seperti yang diperlihatkan oleh algoritma Random Forest dengan nilai 0,912, menunjukkan bahwa model ini sangat efektif dalam membedakan antara pasien yang benar-benar memiliki kondisi penyakit (kelas pasien) dan individu sehat (kelas kontrol). Implikasi klinis dari hasil ini sangat signifikan, karena model dengan AUC tinggi memungkinkan tenaga medis untuk menggunakan model tersebut sebagai alat skrining yang andal.

Dengan kemampuan deteksi yang tinggi, model Random Forest dapat mendukung proses identifikasi dini pasien yang memerlukan intervensi lebih lanjut, sehingga meningkatkan efisiensi dan efektivitas dalam pengelolaan pasien. Selain itu, tingkat false positive dan false negative yang rendah berpotensi mengurangi kesalahan diagnosis yang dapat menyebabkan penanganan yang tidak tepat atau keterlambatan dalam terapi. Oleh karena itu, penerapan model ini dalam skrining di RS dapat mempercepat proses triase, mengurangi beban diagnostik pada tenaga medis, dan meningkatkan kualitas pelayanan kesehatan secara keseluruhan.

Figure 6 Precision Recall Curve

Gambar 3 menampilkan kurva Precision-Recall dari tiga algoritma klasifikasi yang digunakan dalam penelitian ini, meliputi Logistic Regression, Random Forest, dan Decision Tree. Kurva ini memvisualisasikan hubungan antara precision (ketepatan prediksi) dan recall (tingkat penangkapan kasus positif) pada berbagai ambang batas klasifikasi. Precision-Recall curve sangat berguna terutama untuk dataset yang mungkin tidak seimbang, karena menyoroti trade-off antara dua metrik penting ini dalam konteks prediksi kelas positif.

Dari grafik terlihat bahwa Random Forest memiliki performa terbaik dengan nilai Average Precision (AP) sebesar 0.861, menandakan bahwa model tersebut mampu mempertahankan tingkat ketepatan yang tinggi sambil tetap menangkap sebagian besar kasus positif secara konsisten. Decision Tree mengikuti dengan AP 0.807, menunjukkan performa yang cukup baik meskipun sedikit di bawah Random Forest. Logistic Regression memiliki AP terendah, yakni 0.813, mencerminkan keseimbangan yang lebih rendah antara precision dan recall dibandingkan dua model lainnya.

Hasil ini menegaskan bahwa Random Forest tidak hanya unggul dalam ROC Curve tetapi juga menunjukkan keandalan dalam mempertahankan keseimbangan precision dan recall, sehingga sangat efektif dalam aplikasi klasifikasi kasus patient dan control dengan potensi ketidakseimbangan data. Kurva Precision-Recall memberikan wawasan mendalam mengenai efektivitas model dalam mengatasi kesalahan prediksi positif palsu dan penangkapan kasus positif secara optimal.

Figure 7 Feature Importance

Gambar 4 memperlihatkan analisis pentingnya fitur (feature importance) pada tiga algoritma klasifikasi yang digunakan dalam penelitian ini, yakni Logistic Regression, Random Forest, dan Decision Tree. Pada model Logistic Regression, pentingnya fitur ditunjukkan melalui koefisien regresi, di mana beberapa fitur memberikan pengaruh positif dan negatif terhadap keputusan klasifikasi. Fitur dengan nilai koefisien tertinggi berkontribusi paling signifikan dalam mempengaruhi prediksi model, dengan Feature 42, Feature 40, dan Feature 49 menjadi beberapa yang paling dominan.

Sementara itu, pada model Random Forest, feature importance diukur berdasarkan penurunan impuritas (gini atau entropy) selama proses pembentukan pohon keputusan dalam ensemble. Grafik menunjukkan bahwa beberapa fitur memiliki nilai importance yang lebih tinggi, menunjukkan peran sentral dalam membagi keputusan pada banyak pohon. Fitur teratas memberikan kontribusi besar terhadap akurasi dan generalisasi model secara keseluruhan, dengan Feature 36 dan Feature 25 menjadi yang paling utama.

Adapun pada model Decision Tree, feature importance diukur berdasarkan bagaimana fitur tersebut membagi data pada titik-titik tertentu dalam pohon. Hasilnya menunjukkan bahwa Feature 39 sangat dominan dalam memengaruhi keputusan klasifikasi, jauh melebihi fitur lainnya yang terlihat dengan nilai importance yang lebih kecil dan tersebar secara bertahap. Hal ini mengindikasikan bahwa fitur tersebut sangat kritikal dalam menetapkan aturan klasifikasi pada Decision Tree yang dibuat.

Secara keseluruhan, analisis feature importance ini memperlihatkan bahwa meskipun ketiga model menggunakan pendekatan yang berbeda dalam mengukur pentingnya fitur, terdapat kecenderungan pada beberapa fitur utama yang secara konsisten memainkan peran kunci dalam klasifikasi patient dan control. Informasi ini sangat berguna untuk interpretabilitas model serta pengembangan fitur lebih lanjut yang dapat meningkatkan performa dan efektivitas model klasifikasi pada aplikasi medis.

Figure 8 Calibration Curves of Different Models

Gambar 5 memperlihatkan kurva kalibrasi untuk tiga model klasifikasi yang diuji, yaitu Logistic Regression, Random Forest, dan Decision Tree, serta kurva referensi dari model yang sempurna (perfectly calibrated). Kurva kalibrasi menggambarkan hubungan antara probabilitas prediksi rata-rata model dengan proporsi kejadian aktual pada data.

Pada gambar ini, kurva kalibrasi yang paling mendekati garis diagonal (garis referensi model yang sempurna) menunjukkan model dengan kalibrasi terbaik. Logistic Regression menunjukkan performa kalibrasi yang relatif baik, di mana sebagian besar prediksi probabilitasnya berada dekat dengan proporsi kejadian sebenarnya, terutama pada rentang probabilitas rendah hingga menengah. Random Forest juga menunjukkan kalibrasi yang cukup baik dengan beberapa fluktuasi pada rentang probabilitas lebih tinggi, tetapi tetap mengikuti garis referensi secara umum. Sebaliknya, Decision Tree memperlihatkan variasi yang cukup besar dan penyimpangan dari garis kalibrasi ideal, menandakan kecenderungan model ini untuk memprediksi probabilitas yang kurang akurat atau overconfident pada beberapa titik.

Analisis kurva kalibrasi ini penting untuk memahami seberapa baik model memberikan estimasi probabilitas yang realistis, bukan hanya akurasi klasifikasi. Model dengan kalibrasi baik menawarkan prediksi probabilitas yang dapat diandalkan, yang sangat berguna dalam konteks pengambilan keputusan klinis, misalnya menentukan risiko patient secara kuantitatif. Dari Gambar 5 ini, dapat disimpulkan bahwa model Logistic Regression dan Random Forest lebih unggul dalam hal kalibrasi dibandingkan Decision Tree pada dataset ini.

Figure 9 Learning Curve

Gambar 6 menampilkan learning curves untuk tiga algoritma klasifikasi yang digunakan dalam penelitian ini: Logistic Regression, Random Forest, dan Decision Tree. Learning curve ini menggambarkan performa model dalam hal akurasi (accuracy score) atau F1 score pada data pelatihan (training set) dan data validasi (validation set) seiring dengan bertambahnya jumlah data pelatihan yang digunakan.

Pada model Logistic Regression, terlihat bahwa akurasi pada data pelatihan dan validasi semakin meningkat dan kemudian mendekati nilai stabil ketika ukuran data pelatihan mencapai sekitar 400 sampai 600 sampel. Validation score yang cukup dekat dengan training score mengindikasikan bahwa model ini tidak mengalami overfitting yang signifikan dan relatif sudah belajar menyeluruh dari data yang tersedia.

Model Random Forest menunjukkan peningkatan yang cukup signifikan pada validation score dengan bertambahnya ukuran data pelatihan, namun terdapat sedikit jarak antara training dan validation scores yang menunjukkan adanya potensi overfitting, walaupun tidak terlalu besar. Ini mengindikasikan Random Forest dapat meningkatkan performa jika diberi data lebih banyak, tetapi model ini cenderung sedikit lebih kompleks.

Untuk model Decision Tree, terlihat bahwa training score memiliki nilai yang sangat tinggi, mendekati 0.9 atau lebih, tetapi validation score secara konsisten lebih rendah, berkisar di bawah 0.85 dengan jarak cukup signifikan antara keduanya. Hal ini menunjukkan adanya overfitting yang lebih kuat pada Decision Tree, di mana model terlalu cocok dengan data pelatihan tetapi kurang mampu menggeneralisasi dengan baik pada data baru.

Secara keseluruhan, learning curves ini memberikan gambaran penting mengenai karakteristik belajar dan kemampuan generalisasi masing-masing model dalam konteks dataset yang digunakan pada penelitian ini. Logistic Regression menunjukkan keseimbangan terbaik antara bias dan varians, Random Forest menunjukkan performa yang menjanjikan dengan potensi peningkatan, sedangkan Decision Tree perlu perhatian lebih untuk mengatasi overfitting.

Figure 10 Mean and Standard Deviation of EEG Features with Significant Differences

Gambar 7 menyajikan nilai rata-rata (mean) dan standar deviasi dari fitur-fitur EEG yang menunjukkan perbedaan signifikan antara kelompok kontrol dan pasien. Grafik ini memvisualisasikan perbandingan nilai fitur EEG pada kedua kelompok, dengan sumbu horizontal mewakili indeks fitur EEG, dan sumbu vertikal menunjukkan nilai rata-rata fitur tersebut. Error bars yang melingkupi setiap nilai mean menggambarkan variabilitas atau penyebaran data (standar deviasi) pada masing-masing fitur.

Dalam gambar ini, fitur-fitur EEG yang ditandai dengan titik berwarna merah menunjukkan adanya perbedaan yang signifikan secara statistik antara kelompok kontrol dan pasien. Perbedaan ini mengindikasikan bahwa fitur tersebut memiliki potensial untuk dijadikan indikator atau biomarker yang mampu membedakan kondisi klinis antara kedua kelompok.

Analisis mean dan standar deviasi ini sangat penting sebagai dasar pemilihan fitur dalam model klasifikasi, karena fitur-fitur dengan perbedaan signifikan cenderung memberikan kontribusi informatif dalam proses prediksi kondisi pasien. Hasil ini juga dapat membantu dalam pemahaman aspek neurofisiologis yang mendasari perbedaan antara kelompok pasien dan kontrol, dan memperkuat validitas temuan yang diperoleh dari model machine learning yang diimplementasikan.

Figure 11 Distribution of Statistically Significant EEG Features by Category

Gambar 8 menampilkan distribusi nilai fitur-fitur EEG yang memiliki perbedaan signifikan secara statistik berdasarkan kategori kelompok, yaitu kontrol dan pasien. Distribusi ini divisualisasikan dalam bentuk box plot untuk setiap fitur EEG yang dianggap penting, dengan kategori kontrol ditandai dengan warna biru dan kategori pasien dengan warna oranye. Sumbu horizontal merepresentasikan indeks fitur EEG, sedangkan sumbu vertikal menunjukkan nilai fitur tersebut secara kuantitatif.

Visualisasi ini memperlihatkan variasi dan penyebaran nilai fitur EEG dalam masing-masing kelompok, sehingga menunjukkan bagaimana nilai-nilai tersebut berbeda antara kelompok kontrol dan pasien. Perbedaan distribusi ini menguatkan temuan sebelumnya mengenai keberadaan fitur-fitur yang secara signifikan membedakan kedua kelompok, yang menjadi dasar pemilihan fitur dalam model klasifikasi.

Keberadaan outlier yang tersebar pada kedua kelompok juga menggambarkan kompleksitas dan heterogenitas data EEG, sekaligus menegaskan pentingnya mempertimbangkan variasi ini dalam pengembangan model prediksi yang akurat dan robust. Hasil ini menambah pemahaman mengenai karakteristik fisiologis pada kelompok pasien dibandingkan dengan kontrol sehat yang dapat diindikasikan oleh fitur EEG tersebut.

Meskipun penelitian ini telah berhasil mengaplikasikan beberapa algoritma machine learning untuk klasifikasi kondisi pasien berdasarkan fitur EEG, terdapat beberapa keterbatasan yang perlu dicatat. Pertama, ukuran sampel yang digunakan dalam penelitian ini terdiri dari total 1932 sampel, dengan pembagian 1352 sampel untuk pelatihan (training) dan 580 sampel untuk pengujian (testing). Meskipun jumlah ini relatif cukup untuk model awal, ukuran sampel ini masih terbatas apabila dibandingkan dengan keragaman populasi yang lebih luas dalam konteks dunia nyata. Keterbatasan ukuran sampel tersebut dapat memengaruhi kemampuan generalization model, sehingga risiko overfitting dan penurunan performa ketika diaplikasikan pada data eksternal masih mungkin terjadi. Oleh karena itu, sangat disarankan untuk memperluas dataset di masa depan agar model dapat dilatih dan divalidasi dengan lebih representatif, sekaligus meningkatkan robustness model terhadap variasi data baru.

Kedua, penggunaan data EEG publik sebagai basis dataset berpotensi menimbulkan bias inheren, seperti ketidakseimbangan kelas (class imbalance), heterogenitas dalam proses pengambilan data, perbedaan kondisi lingkungan saat perekaman, serta variasi alat perekam EEG yang digunakan. Faktor-faktor ini dapat memengaruhi kualitas dan konsistensi data, sehingga membatasi performa model ketika diterapkan dalam konteks klinis yang lebih nyata dan luas. Dengan demikian, penting untuk mempertimbangkan potensi bias tersebut dalam interpretasi hasil serta berupaya validasi lebih lanjut menggunakan data yang lebih representatif dan beragam.

Sebagai langkah proaktif mengatasi keterbatasan tersebut serta meningkatkan akurasi prediksi di masa mendatang, beberapa rencana riset lanjutan diidentifikasi. Salah satu fokus utama adalah pengembangan model yang lebih kompleks dan adaptif, seperti pendekatan deep learning, yang mampu mengekstrak fitur-fitur yang lebih kompleks dan abstrak langsung dari data EEG mentah tanpa perlu ekstraksi fitur manual yang intensif. Pendekatan ini berpotensi meningkatkan performa klasifikasi serta kemampuan generalization model terhadap variasi data nyata.

Selain itu, integrasi data multimodal menjadi arah riset yang menjanjikan, dengan menggabungkan data EEG dan fMRI secara simultan. Kombinasi ini diyakini dapat memberikan gambaran neurofisiologis yang lebih komprehensif dan mendalam, yang mendukung prediksi yang lebih akurat sekaligus relevan secara biologis untuk diagnosis dan pemantauan kondisi pasien. Eksplorasi integrasi multimodal ini diharapkan membuka peluang baru dalam pengembangan alat bantu diagnosis berbasis kecerdasan buatan untuk aplikasi klinis yang lebih luas, akurat, dan real-time.

<bold id="bold-2dfcc0e471d8fd70af86c0f0834b4d56">Simpulan</bold>

Penelitian ini mengkaji performa tiga algoritma klasifikasi, yaitu Logistic Regression, Random Forest, dan Decision Tree, menggunakan dataset sebanyak 1932 sampel dengan pembagian data 70% untuk pelatihan dan 30% untuk pengujian. Berdasarkan hasil evaluasi, Random Forest menunjukkan performa terbaik dengan akurasi tertinggi sebesar 0.86, Area Under the ROC Curve (AUC) sebesar 0.912, serta Average Precision (AP) yang menegaskan kemampuan deteksi pola yang unggul. Keunggulan ini berasal dari pendekatan ensemble learning yang efektif dalam mengurangi varians dan menghindari overfitting, sehingga model mampu melakukan generalisasi pada data yang tidak terlihat sebelumnya. Logistic Regression tampil sebagai algoritma yang cukup stabil dengan akurasi sekitar 0.82 dan memberikan nilai interpretabilitas yang tinggi, yang penting untuk memahami kontribusi fitur EEG terhadap prediksi. Sementara itu, Decision Tree mencapai akurasi sekitar 0.81 dan memperlihatkan indikasi awal overfitting terutama pada data pelatihan yang relatif kecil, namun menunjukkan peningkatan validasi seiring penambahan data. Analisis learning curve menegaskan tidak adanya indikasi signifikan underfitting pada ketiga model, meskipun Decision Tree memerlukan lebih banyak data untuk optimasi generalisasi. Penelitian ini menutup kekosongan dalam literatur terkait penerapan teknik machine learning dengan fitur mikrostate EEG pada klasifikasi skizofrenia, khususnya dalam melakukan perbandingan sistematis tiga algoritma yang populer dengan fokus pada pengelolaan varians dan overfitting. Potensi bias pada data telah diminimalisasi melalui pembagian train-test yang proporsional, namun validasi eksternal lebih lanjut sangat diperlukan untuk memastikan kekokohan serta generalisasi performa model pada konteks data yang lebih luas dan variatif. Sebagai pesan penting bagi peneliti di bidang Informatika, pipeline klasifikasi yang dikembangkan dalam studi ini dapat dijadikan baseline yang handal dan solid untuk riset sinyal biomedis lainnya, serta memberikan landasan yang kuat untuk pengembangan model prediktif pada domain serupa.

Algoritma	Label	Precision	Recall	F1-score	Support	average accuracy	Amount of data	Accuracy CI (Wilson)
Logistic Regression	0	0.90	0.74	0.81	308	0.82	580	0.786,
Logistic Regression	1	0.76	0.90	0.82	272	0.82	580	0.848
Random Forest	0	0.91	0.81	0.86	308	0.86	580	0.826,
Random Forest	1	0.81	0.91	0.86	272	0.86	580	0.883
Decision Tree	0	0.87	0.75	0.81	308	0.81	580	0.775,
Decision Tree	1	0.76	0.88	0.81	272	0.81	580	0.839