Claim Missing Document
Check
Articles

Implementasi RapidMiner untuk Klasifikasi Risiko Kanker Payudara Menggunakan Metode Naive Bayes Berbasis Cross Validation M.Fery Ardiansyah; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodho
Jurnal Intelek Insan Cendikia Vol. 2 No. 12 (2025): Desember 2025
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Prediksi kekambuhan (recurrence) kanker payudara pasca-mastektomi merupakan tantangan klinis yang kompleks karena melibatkan interaksi berbagai variabel biologis pasien. Ketidakpastian prognosis ini menuntut adanya sistem pendukung keputusan medis yang akurat untuk menentukan urgensi pengobatan lanjutan. Penelitian ini bertujuan untuk membangun model klasifikasi risiko kekambuhan menggunakan algoritma Naive Bayes Classifier, yang dipilih karena keunggulannya dalam menangani probabilitas bersyarat pada data atribut nominal. Dataset yang digunakan bersumber dari UCI Machine Learning Repository (Institute of Oncology, Ljubljana) yang terdiri dari 286 rekam medis, mencakup 9 atribut prediktor kategorikal seperti tumor-size, inv-nodes, dan deg-malig. Dataset ini memiliki tantangan berupa missing values dan ketidakseimbangan kelas (class imbalance), dengan proporsi 201 kasus no-recurrence berbanding 85 kasus recurrence. Penelitian ini menerapkan metodologi Knowledge Discovery in Database (KDD) menggunakan perangkat lunak RapidMiner Studio. Tahapan pra-pemrosesan meliputi penamaan atribut manual dan imputasi data yang hilang menggunakan modus statistik. Validasi model dilakukan secara ketat menggunakan metode 10-Fold Cross-Validation untuk meminimalisir bias evaluasi. Hasil eksperimen menunjukkan bahwa model Naive Bayes menghasilkan tingkat Akurasi sebesar [72,03 %], Presisi sebesar [78,14 %], dan Recall sebesar [83,58 %]. Tingginya nilai akurasi namun dengan variasi pada nilai recall mengindikasikan pengaruh ketidakseimbangan data terhadap sensitivitas model dalam mendeteksi kasus positif. Kesimpulannya, Naive Bayes terbukti efektif dan komputasional efisien untuk dataset medis berdimensi kecil dengan fitur kategorikal, namun teknik penyeimbang data (resampling) disarankan untuk penelitian lanjutan guna meningkatkan deteksi pada kelas minoritas.
Penerapan Model Klasifikasi Biner Menggunakan Regresi Logistik pada Dataset Kismis Armand Cahya Nugraha; Hasbi Firmansyah; Wahyu Asriyani; Riski Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 2 No. 12 (2025): Desember 2025
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Dalam sektor pertanian presisi, penggunaan teknologi visi komputer menjadi solusi penting untuk menggantikan cara inspeksi manual. Penelitian ini fokus pada masalah pengelompokan varietas kismis Kecimen dan Besni yang sering tercampur karena kesamaan morfologi. Tujuan utama dari penelitian ini adalah untuk mengevaluasi seberapa efektif algoritma Logistic Regression dalam memprediksi jenis kismis serta menganalisis dampak fitur bentuk terhadap ketepatan klasifikasi. Dataset yang digunakan adalah Raisin Dataset yang berisi 900 contoh data. Proses pra-pemrosesan data mencakup normalisasi fitur dan penetapan peran atribut menggunakan perangkat lunak data mining RapidMiner. Tujuh fitur morfologis yang diambil dari gambar digital berfungsi sebagai variabel independen, yaitu luas area, keliling, panjang sumbu utama dan minor, eksentrisitas, luas cembung, dan jangkauan. Untuk evaluasi model, metode yang digunakan adalah Split Data dengan rasio 70:30, di mana 630 data dipakai untuk melatih model dan 270 data disiapkan untuk menguji kinerja. Hasil dari eksperimen menunjukkan bahwa model Logistic Regression mendapatkan akurasi keseluruhan sebesar 84,07%. Penilaian lebih lanjut dengan menggunakan Confusion Matrix mengungkapkan nilai Precision dan Recall yang seimbang di atas 80% untuk kedua kelas, yang menunjukkan bahwa model tidak menunjukkan bias yang signifikan terhadap salah satu dari varietas tersebut. Meskipun terdapat tingkat kesalahan klasifikasi sebesar 15,93%, angka tersebut masih bisa diterima mengingat kerumitan kesamaan biologis antar varietas. Hasil ini mendukung bahwa Logistic Regression, sebagai metode linear yang efisien secara komputasi, cukup kuat untuk digunakan dalam sistem penyortiran real-time dibandingkan dengan metode yang lebih kompleks dan lambat.
Implementasi Algoritma Artificial Neural Network (ANN) Untuk Klasifikasi Varietas Kismis Berdasarkan Fitur Morfologi Abrori Musafic Al Rasyid; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 2 No. 12 (2025): Desember 2025
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Industri pengolahan hasil pertanian, terutama kismis, menghadapi kesulitan dalam memilah varietas yang bagus seperti Kecimen dan Besni karena kedua jenis tersebut memiliki bentuk yang mirip. Cara penyortiran secara manual memakan waktu dan bisa salah akibat kesalahan manusia. Penelitian ini mencoba menggunakan algoritma Artificial Neural Network (ANN) untuk mengklasifikasikan jenis kismis secara otomatis berdasarkan karakteristik bentuknya. Data yang digunakan berasal dari UCI Machine Learning Repository, terdiri dari 900 sampel dengan 7 karakteristik bentuk, yaitu Area, Major Axis Length, Minor Axis Length, Eccentricity, Convex Area, Extent, dan Perimeter. Penelitian ini dilakukan dengan menggunakan perangkat lunak RapidMiner, dengan tahap pra-pemrosesan berupa normalisasi data (Z-transformation) untuk meningkatkan kinerja jaringan. Metode pengecekannya menggunakan 10-Fold Cross Validation. Hasil uji coba menunjukkan bahwa algoritma ANN mampu mengenali jenis kismis dengan akurasi sebesar 87.00% Hal ini membuktikan bahwa metode Neural Network efektif digunakan sebagai alternatif sistem cerdas dalam memperbaiki kualitas produk pertanian.
Analisis Pengelompokan Komposisi Kaca Forensik menggunakan Algoritma K-Means dan Software Rapid Miner Hanjiyan Riyan Hidayat; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 2 No. 12 (2025): Desember 2025
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Penelitian ini bertujuan untuk mengelompokkan jenis kaca forensik berdasarkan komposisi kimia yang terkandung di dalamnya menggunakan algoritma K-Means Clustering dan perangkat lunak RapidMiner. Data yang digunakan adalah Glass Identification Dataset yang terdiri dari 9 atribut kimia (seperti RI, Na, Mg, Al, dll.) dan 214 sampel. Sebelum proses clustering, data dinormalisasi menggunakan Z-Transformation untuk memastikan kontribusi atribut yang setara. Algoritma K-Means diimplementasikan dengan nilai k (jumlah cluster) yang ditentukan sebesar 5, dengan 10 kali percobaan (max runs) untuk menemukan struktur pengelompokan yang paling stabil. Hasil menunjukkan pembentukan lima kelompok (cluster) yang berbeda dengan kualitas pengelompokan yang baik (nilai WCSS rendah). Analisis Tabel Centroid mengungkapkan profil kimia yang unik dan dominan untuk setiap kelompok. Misalnya, Cluster X dicirikan oleh kandungan Magnesium (Mg) tertinggi dan Kalsium (Ca) terendah. Pengelompokan ini memvalidasi potensi K-Means dalam mengidentifikasi pola komposisi material yang signifikan, yang sangat berguna dalam aplikasi forensik dan ilmu material.
Analisis Prediksi Harga Properti Menggunakan Algoritma Regresi Linear Berbasis Rapid Miner Irfandi Irfandi; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 2 No. 12 (2025): Desember 2025
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Penentuan nilai pasar properti yang akurat merupakan tantangan signifikan bagi pelaku ekonomi karena dipengaruhi oleh berbagai faktor infrastruktur dan letak geografis. Penelitian ini bertujuan untuk membangun model yang mampu memprediksi harga unit properti di Distrik Sindian, New Taipei City, menggunakan teknik Data Mining dengan algoritma Linear Regression. Data yang digunakan berasal dari UCI Machine Learning Repository yang mencakup 414 catatan transaksi dengan 6 variabel independen, yaitu usia bangunan, jarak ke stasiun MRT, jumlah toko ritel, serta koordinat lokasi (latitude dan longitude). Penelitian ini dilakukan menggunakan perangkat lunak RapidMiner Studio dengan metode evaluasi korelasi dan error metric. Hasil penelitian menunjukkan bahwa algoritma Linear Regression mampu memprediksi harga properti secara efektif dengan tingkat akurasi yang diukur melalui Root Mean Squared Error (RMSE). Berdasarkan analisis koefisien, variabel jarak ke stasiun MRT memiliki pengaruh negatif paling signifikan, yang berarti semakin dekat lokasi properti dengan akses transportasi publik, maka harga unit properti akan meningkat secara drastis. Penelitian ini membuktikan bahwa faktor aksesibilitas merupakan penentu utama nilai real estat, sehingga model ini dapat digunakan sebagai Sistem Pendukung Keputusan (Decision Support System) bagi tenaga profesional di bidang properti.
Penerapan Algoritma Linear Regression untuk Prediksi Harga Rumah Berdasarkan Faktor Lokasi dan Usia Bangunan Muhamad Aris Purwanto; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 3 No. 1 (2026): JANUARI 2026
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Harga properti merupakan nilai yang fluktuatif dan dipengaruhi oleh banyak faktor kompleks, sehingga sulit untuk diprediksi secara manual dengan akurasi tinggi. Penelitian ini bertujuan untuk membangun model prediksi harga rumah per satuan luas menggunakan algoritma Linear Regression. Dataset yang digunakan adalah data Real Estate Valuation yang terdiri dari 414 data transaksi dengan variabel prediktor meliputi tanggal transaksi, usia bangunan, jarak ke stasiun MRT terdekat, jumlah convenience store, serta koordinat geografis (latitude dan longitude). Penelitian dilakukan menggunakan perangkat lunak RapidMiner Studio. Hasil analisis korelasi menunjukkan bahwa jarak ke stasiun MRT memiliki hubungan negatif yang paling kuat terhadap harga rumah. Model regresi linear yang dihasilkan mampu memprediksi harga dengan tingkat Root Mean Squared Error (RMSE) sebesar [Nilai RMSE 8.290 +/- 0.000]. Penelitian ini menyimpulkan bahwa faktor lokasi (aksesibilitas) memiliki pengaruh lebih signifikan dibandingkan usia bangunan dalam penentuan harga properti pada dataset ini.
Analisis Pola Fitur Statistik Citra Digital untuk Klasifikasi Uang Kertas Menggunakan Metode K-Nearest Neighbor Chandra Pratama Putra Raharja; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 3 No. 1 (2026): JANUARI 2026
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pemalsuan mata uang merupakan masalah global yang berdampak signifikan terhadap stabilitas ekonomi. Deteksi keaslian uang kertas secara manual seringkali tidak efisien dan rentan terhadap kesalahan manusia, sehingga diperlukan sistem deteksi otomatis yang presisi. Penelitian ini bertujuan untuk mengevaluasi performa algoritma K-Nearest Neighbor (K-NN) dalam mengklasifikasikan keaslian uang kertas berdasarkan ekstraksi fitur statistik citra digital. Dataset yang digunakan bersumber dari UCI Machine Learning Repository yang terdiri dari 1.372 sampel data dengan empat atribut fitur utama: Variance, Skewness, Curtosis, dan Entropy yang dihasilkan dari Transformasi Wavelet. Pengujian dilakukan menggunakan metode validasi silang 10-lipatan (10-fold Cross Validation) untuk memastikan konsistensi model. Hasil eksperimen menunjukkan performa yang sangat tinggi dengan tingkat akurasi mencapai 99,93%. Analisis confusion matrix memperlihatkan bahwa model hanya mengalami kesalahan klasifikasi pada 1 data sampel dari total keseluruhan data uji, dengan nilai Recall untuk kelas uang asli mencapai 100%. Penelitian ini menyimpulkan bahwa fitur statistik yang diekstraksi dari citra uang kertas memiliki pola data yang sangat kuat dan algoritma K-NN sangat efektif untuk diterapkan dalam sistem forensik deteksi uang palsu.
Analisis Kinerja Algoritma K-Nearest Neighbor (KNN) pada Klasifikasi Data Bank Marketing Yosephus Arpan Polado Sinurat; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 3 No. 1 (2026): JANUARI 2026
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pemasaran langsung (direct marketing) merupakan salah satu strategi utama industri perbankan untuk menawarkan produk deposito berjangka. Namun, kampanye yang tidak tertarget seringkali tidak efisien dan memakan biaya tinggi. Penelitian ini bertujuan untuk membangun model prediksi klasifikasi menggunakan algoritma K-Nearest Neighbor (KNN) untuk menentukan nasabah yang berpotensi berlangganan deposito berjangka berdasarkan data historis kampanye pemasaran bank. Dataset yang digunakan adalah Bank Marketing Dataset dari UCI Machine Learning Repository. Proses penelitian meliputi pra-pemrosesan data (cleaning, encoding, dan normalisasi Min-Max), pembagian data latih dan uji, serta pengujian nilai $k$ yang berbeda (k=3, 5, 7, 9). Hasil eksperimen menunjukkan bahwa algoritma KNN dengan nilai k=5 menghasilkan kinerja optimal dengan akurasi sebesar 89,2%, presisi 65%, dan recall 58%. Penelitian ini menyimpulkan bahwa KNN efektif digunakan untuk klasifikasi data pemasaran bank, namun memerlukan penanganan ketidakseimbangan kelas untuk meningkatkan nilai recall.
Analisis Pemetaan Pola Pendonor Darah pada Blood Transfusion Service Center Menggunakan Metode Self-Organizing Map Rafli Juan Lauda Al Faiq; Hasbi Firmansyah; Wahyu Asriyani; Rizki Prasetyo Tulodo
Jurnal Intelek Insan Cendikia Vol. 3 No. 1 (2026): JANUARI 2026
Publisher : PT. Intelek Cendikiawan Nusantara

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Manajemen stok darah sangat bergantung pada perilaku orang yang memberi darah. Penelitian ini bertujuan untuk memahami pola cara orang-orang tersebut memberi darah menggunakan algoritma yang disebut Self-Organizing Map (SOM). Data yang digunakan terdiri dari 748 orang dengan fitur utama berdasarkan model RFM, yaitu tingkat kebaruannya, frekuensi, nilai kontribusi, dan waktu. Dengan metode SOM, data yang memiliki banyak dimensi dipetakan ke dalam grid dua dimensi untuk mengelompokkan orang yang memberi darah berdasarkan tingkat kesetiaannya. Hasil penelitian menunjukkan bahwa pemetaan ini dapat membedakan secara visual antara orang yang aktif dan tidak aktif dalam memberi darah, yang membantu pusat transfusi darah dalam mengambil keputusan yang lebih baik untuk menahan orang-orang yang memberi darah.
Analisis Kinerja Algoritma C4.5 pada Dataset Titanic yang Tidak Seimbang Menggunakan Gain Ratio: Penelitian Kuncoro Singgih Prasojo; Hasbi Firmansyah; Wahyu Asriyani; Ali Sofyan
Jurnal Pengabdian Masyarakat dan Riset Pendidikan Vol. 4 No. 2 (2025): Jurnal Pengabdian Masyarakat dan Riset Pendidikan Volume 4 Nomor 2 (October 202
Publisher : Lembaga Penelitian dan Pengabdian Masyarakat

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.31004/jerkin.v4i2.4402

Abstract

This study aims to analyze the performance of the C4.5 algorithm in classifying passenger survival status using the Titanic dataset, which exhibits an imbalanced class distribution. The research employed a quantitative approach consisting of data preprocessing, manual calculation of entropy, information gain, split information, and gain ratio using Microsoft Excel, followed by model implementation using RapidMiner. The dataset contains 800 passenger records with the survived attribute defined as the class label. Manual calculation results indicate that the Gender attribute has the highest information gain value of 0.955, making it the root node of the decision tree, while other attributes such as Pclass, Age Group, and Fare Group contribute very limited information. The experimental results show that the C4.5 model achieves an accuracy of 62.50%; however, all test instances are predicted as non-survived, resulting in 0% precision and recall for the survived class. In addition, the generated decision tree structure is very shallow with no significant branching. These findings demonstrate that class imbalance in the Titanic dataset strongly affects the performance of the C4.5 algorithm, indicating the need for imbalanced data handling techniques to improve classification results.