Claim Missing Document
Check
Articles

Handling Imbalanced Data Pada Prediksi Churn Menggunakan Metode Smote Dan Knn Based On Kernel Oscar Ramadhan; Adiwijaya Adiwijaya; Annisa Aditsania
eProceedings of Engineering Vol 4, No 3 (2017): Desember, 2017
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Customer churn merupakan masalah umum yang ditemui diperindustrian telekomunikasi. Customer churn didefinisikan sebagai kecenderungan customer berhenti melakukan bisnis dengan suatu perusahaan. Tetapi hanya terdapat sedikit sekali churn customer yang ada. Kekurangan data yang menunjukan bahwa customer tersebut termasuk churn customer menyebabkan masalah imbalanced data. pada tugas akhir ini penulis membuat sebuah sistem yang dapat melakukan penanganan terkait imbalanced data menggunakan SMOTE (Synthetic Minority Over-sampling Technique). Classifier yang digunakan untuk menentukan suatu customer apakah termasuk churn atau tidak, menggunakan metode Improve KNN Algorithm Based on Kernel Method. Metode ini merupakan perkembangan dari metode KNN Standard. Dimana pada metode KNN Standard proses klasifikasi dilakukan dengan melihat sejumlah k tetangga terdekat, dan akan diklasifikasikan berdasarkan jumlah kelas terbanyak pada sejumlah k tetangga terdekatnya. Classifier tersebut diuji menggunakan 3 fungsi Kernel dan 40 kombinasi parameter untuk menemukan performansi tertinggi. Performansi tertinggi yang didapat dari kombinasi parameter tersebut diukur menggunakan f1-measure dan akurasi secara berurut pada data tanpa smote, smote 1:3, smote 1:2, smote 3:4, dan smote 1:1, yaitu: 0,314 & 97,58%, 0,449 & 94,55%, 0,413 & 93,70%, 0,382 & 92,74% dan 0,363 & 92,08%. Kata Kunci: Churn Prediction, Over-sampling, SMOTE (Synthetic Minority Over-sampling Technique), Improve KNN Algorithm Based on Kernel Method.
Implementasi Algoritma Binary Particle Swarm Optimization (BPSO) dan C4.5 Decision Tree untuk Deteksi Kanker Berdasarkan Klasifikasi Microarray Data Amalya Citra Pradana; Adiwijaya Adiwijaya; Annisa Aditsania
eProceedings of Engineering Vol 5, No 3 (2018): Desember 2018
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Kanker merupakan salah satu penyakit yang mematikan di dunia. Upaya pendeteksian kanker dapat dilakukan dengan merepresentasikan kanker ke dalam microarray data dengan mengukur perubahan yang terjadi pada level ekspresi gen. Deteksi gejala kanker dapat dilakukan dengan teknik data mining, yaitu klasifikasi terhadap microarray data. Salah satu penerapan algoritma untuk klasifikasi adalah C4.5 Decision Tree dimana algoritma tersebut mudah diinterpretasi dan termasuk paling berpengaruh dalam klasifikasi namun memiliki kekurangan yaitu sensitif terhadap data noise. Microarray data memiliki jumlah feature yang sangat besar (high dimensional) dimana tidak semua feature tersebut memiliki informasi yang penting (high noise) dan jumlah sampel yang sedikit sehingga penerapan proses klasifikasi saja menjadi sulit karena dapat mempengaruhi nilai akurasi. Binary Particle Swarm Optimization (BPSO) merupakan salah satu algoritma optimasi pencarian untuk mendapatkan fitur yang optimal. Pemodelan rule pada Decision Tree menggunakan nilai diskrit sehingga data perlu didiskritkan. Diskritisasi dilakukan menggunakan K-Means. Sistem dibagi menjadi dua skema yaitu skema Information Gain (IG) – C4.5 dan skema BPSO – C4.5. Akurasi yang diperoleh berdasarkan skema IG-C4.5 dan BPSO-C4.5 berturut-turut adalah 54% dan 99%. Pengaruh seleksi fitur terhadap klasifikasi berperan penting dalam menghindari data noise untuk memodelkan rule yang akurat. Dengan penerapan BPSO sebagai seleksi fitur mampu mencari fitur yang paling signifikan. Kata kunci : microarray data, binary particle swarm optimization, C4.5 decision tree, classification, feature selection, K-Means Abstract Cancer is one of deadly disease in the world. Cancer can be detected by representing the cancer into microarray data with measuring the changes occured in gene expression level. Cancer detection can be done by doing classification technique for microarray data. One of most algorithm that applied for classification is Decision Tree C4.5. It is a linier method which is easy to interpret and included into the algorithm which has given impact in classification but it is sensitive to noise data. Microarray data has a large features (high dimensional) which is not all features have important information (high noise) and has a small samples and causing the application is difficult and affected the accuracy. Binary Particle Swarm Optimization (BPSO) is one of searching optimization algorithm that could find an optimal feature. Rule in Decision Tree is modelled with discrete value so the data has to be discretized. Discretization is applied using K-Means. System is divided into two schemas such as Information Gain (IG) – C4.5 and BPSO – C4.5. The accuracy based on IG – C4.5 and BPSO – C4.5 schema are 54% and 99%. Feature selection has given impact to classification for avoiding noise data to build the rule accurately. With applying BPSO as feature selection can find the features significantly. Keywords: microarray data, binary particle swarm optimization, C4.5 decision tree, classification, feature selection, K-Means
Diagnosa Penyakit Jantung Koroner Pada Pasien Dengan Mengunakan Fuzzy Inference System Muhamad Paisal Hanip; Danang Triantoro Murdiansyah; Annisa Aditsania
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Penyakit Jantung Koroner (PJK) merupakan keadaan dimana terjadi penimbunan plak pembuluh darah koroner. Hal ini menyebabkan arteri koroner menyempit atau tersumbat. Arteri koroner merupakan arteri yang menyuplai darah ke otot jantung dengan membawa oksigen yang banyak. Penelitian ini menggunakan sistem fuzzy untuk mendiagnosa tingkat keparahan penyakit jantung koroner. Variabel input yang digunakan dalam penelitian yaitu Usia, Jenis kelamin, Tipe nyeri dada, Tekanan darah, Kolesterol, Gula darah, Restecg, Thalach, Nyeri dada, Oldpeak, Slope, Ca, Thal, Diagnosa. Dalam pembuatan sistem digunakan 90 data yang kemudian dibagi menjadi 2 jenis data yaitu 70 data training dan 20 data testing. Hasil dari penelitian tentang aplikasi sistem fuzzy untuk diagnosa penyakit jantung koroner yaitu diperoleh tingkat keakuratan pada metode defuzzifikasi centroid sebesar 92,8% untuk data training dan 90% untuk data testing, sedangkan untuk metode defuzzifikasi MOM diperoleh tingkat keakuratan data training sebesar 85,7% dan data testing sebesar 90%. Berdasarkan hasil penelitian, dapat dikatakan bahwa metode defuzzifikasi centroid lebih baik dibanding sistem defuzzifikasi MOM untuk sistem diagnosa penyakit jantung koroner, sehingga, dapat disimpulkan bahwa dengan menggunakan sistem fuzzy dengan defuzzifikasi centroid, kemungkinan benar dalam mendiagnosa Penyakit Jantung Koroner (PJK) sebesar 92,8%. Kata kunci : penyakit,jantung koroner,fuzzy,centroid,MOM,defuzzifikasi Abstract Coronary Heart Disease (CHD) is a condition where there is accumulation of coronary artery plaque. This causes the coronary arteries to narrow or become blocked. Coronary arteries are arteries that supply blood to the heart muscle by carrying large amounts of oxygen. This study uses a fuzzy system to diagnose the severity of coronary heart disease. Input variables used in the study are age, sex, cp, trestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal. In making the system used 90 data which is then divided into 2 types of data, namely 70 training data and 20 testing data. The results of the research on the application of fuzzy systems for the diagnosis of coronary heart disease are obtained the level of accuracy in the centroid defuzzification method of 92.8% for training data and 90% for testing data, while for the MOM defuzzification method the training data accuracy rate is 85.7% and data testing of 90%. Based on the results of the study, it can be said that the centroid defuzzification method is better than the MOM defuzzification system for the coronary heart disease diagnosis system, so, it can be concluded that by using a fuzzy system with centroid defuzzification, it is likely correct in diagnosing Coronary Heart Disease (CHD) 92.8%. Keywords : disease, coronary heart, fuzzy, centroid, MOM, defuzzification
Implementasi Algoritma Modified K-nearest Neighbor (mknn) Untuk Klasifikasi Penyakit Kanker Payudara M Ikhsan Perdana Putra; Danang Triantoro Murdiansyah; Annisa Aditsania
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Kanker payudara adalah salah satu penyakit mematikan di dunia.Menurut data WHO tahun 2013,penderita kanker payudara di dunia meningkat dari 12,7 juta kasus pada tahun 2008 menjadi 14,1 kasus juta pada tahun 2012.Sedangkan jumlah kematian meningkat dari 7,6 juta orang tahun 2008 menjadi 8,2 juta pada tahun 2012[1]. Dikarenakan semakin tinggi penyakit kanker payudara penting untuk mengetahui dan mencegah penyakit tersebut. Penelitian ini menggunakan data dari “UCI – Machine Learning Repository Breast Cancer Winconsin”. Data yang diklasifikasikan terbagi atas 2 kelas yaitu kanker payudara jinak dan kanker payudara ganas. Tujuan dari penelitian ini adalah mengelompokkan penyakit tersebut termasuk kategori jinak atau ganas berdasarkan data yang ada. Penelitian ini menggunakan dataset breast cancer Wisconsin. Metode yang digunakan dalam penelitian ini adalah algoritma Modified K-Nearest Neighbor(MKNN). Hasil pengujian menunjukkan bahwa nilai K sangat mempengaruhi akurasi. Rata-rata akurasi cenderung menurun jika nilai K dinaikkan dan akurasi akan meningkat jika data latihnya dinaikkan. Hasil akurasi tertinggi pada pengujian ini sebesar 97.61 % dengan K=1 dan data latih 90%. Kata kunci : Kanker Payudara, Modified K-Nearest Neighbor(MKNN) Abstract Breast cancer is one of the deadliest diseases in the world. According to WHO data in 2013, breast cancer patients in the world increased from 12.7 million cases in 2008 to 14.1 million cases in 2012. While the number of deaths increased from 7.6 million people in 2008 became 8.2 million in 2012 [1]. Because the higher breast cancer is important to know and prevent the disease. This study uses data from "UCI - Machine Learning Repository Breast Cancer Wisconsin". Data classified are divided into 2 classes, namely benign breast cancer and malignant breast cancer. The purpose of this study is to classify the disease including benign or malignant categories based on existing data. This study uses the Wisconsin breast cancer dataset. The method used in this study is the Modified K-Nearest Neighbor (MKNN) algorithm. The test results show that the K value is very affect accuracy. Average accuracy tends to decrease if the value of K is increased and accuracy will increase if the training data is increased. The highest accuracy results in this test are 97.61% with K = 1 and training data 90%. . Keywords: breast cancer, Modified K-Nearest Neighbor(MKNN)
Prediksi Mata Uang Digital (bitcoin) Menggunakan Feed Forward Neural Network Ulky Parulian Wibowo; Jondri Jondri; Annisa Aditsania
eProceedings of Engineering Vol 6, No 1 (2019): April 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Abstrak Bitcoin adalah mata uang kripto yang dikembangkan pada tahun 2019 oleh seorang ahli kriptografi dengan nama samaran Satoshi Nakamoto, karena Bitcoin memiliki jumlah yang terbatas sebanyak 21juta koin yang sifatnya mirip seperti emas yang jumlahnya terbatas. Bitcoin menggunakan teknologi blokchain yang artinya berjalan tanpa terikat oleh 1 pihak atau tanpa berpusat di satu titik yang artinya blokchain bersifat desentralisasi dan terdistribusi ke berbagai klien yang terhubung ke jaringan peer to peer blokchain. Adapun manfaat yang bisa diambil dari transaksi yang menggunakan Bitcoin, selain dari segi praktis dalam penggunaan juga kecepatan dalam bertransaksi, biaya transfer rendah sehingga membuat para pengguna dan komonitas Bitcoin itu sendiri memilih Bitcoin sebagai alat transaksi mereka. Metode yang digunakan dalam penelitian ini adalah Artificial Neural network (ANN) dengan model topologi Feed Forward Neural Network (FFNN). Dari 7,4 tahun data close price Bitcoin dengan struktur ANN terbaik 9-10-1 (7 variabel input, 1 hidden layer dengan 10 neuron dan 1 output) menghasilkan nilai root means square error (RMSE) 2350,0515. Kata kunci : Bitcoin, Artificial Neural Network(ANN) Feed Forward Neural Network (FFNN). Abstract Bitcoin is a crypto currency that was developed in 2019 by a cryptographer with a pseudonym Satoshi Nakamoto, because Bitcoin has a limited number of 21 million coins that are similar in appearance to a limited amount of gold. Bitcoin uses blockchain technology, which means it runs without being bound by 1 party or without centering on one point, which means the block is decentralized and distributed to various clients connected to the peer to peer network block chain. As for the benefits that can be taken from transactions that use Bitcoin, in addition to the practical aspects of the use of speed in transactions, the transfer fee is low so that the users and community of Bitcoin themselves choose Bitcoin as their transaction tool. The method used in this study is Artificial Neural network (ANN) with the Feed Forward Neural Network (FFNN) topology model. From 7,4 years of data close price Bitcoin with the best ANN structure 9-10-1 (7 input variables, 1 hidden layer with 10 neurons and 1 output) produces a root means square error (RMSE) 2350,0515. Keywords: Bitcoin, Artificial Neural Network (ANN), Feed Forward Neural Network (FFNN).
Pembentukan Portofolio Saham Melalui Proses Clustering Kurva Harga Saham Hasil Spline Kuadratik Andhika Rama Putra; Deni Saepudin; Annisa Aditsania
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Dalam investasi saham seorang investor perlu mengerti strategi mengelola portofolio saham yang baik untuk membantu membuat keputusan kapan waktu yang tepat untuk membeli, menjual serta mempertahankan sahamnya, salah satu caranya adalah dengan menjaga diversifikasi pada portofolio saham. Tujuan diterapkannya konsep diversifikasi yaitu agar terhindar dari resiko kerugian yang dapat diperoleh. Salah satu cara untuk menjaga diversifikasi portofolio saham adalah dengan menerapkan spline kuadratik pada data harga saham. Dalam penelitian ini, dilakukan pengelompokkan saham melalui proses clustering kurva harga saham hasil spline kuadratik agar dimensinya tereduksi. Kegunaan spline kuadratik adalah agar pergerakan harga saham dapat dipelajari, jika pergerakan harga sahamnya sama, maka koefisien dari spline juga tidak akan jauh berbeda sehingga pergerakan harga saham yang relatif sama akan berada dalam cluster yang sama, kemudian tujuannya agar saham yang masuk ke dalam portofolio pergerakan harga sahamnya benar-benar berbeda satu sama lain. Nilai return dan risiko portofolio dapat dihitung dengan teknik pembobotan Equal Weight. Dalam penelitian ini, hasil analasis portofolio yang paling efisien dalam konteks diversifikasi portofolio adalah ketika data harga saham direduksi menjadi 24 bagian dan dikelompokkan menjadi 4 cluster, dengan risiko portofolio minimum sebesar 0.0625  dan return portofolio sebesar 0.0020 . Kata kunci : K-Means, spline kuadratik, saham
Pembentukan Portofolio Saham Melalui Proses Clustering Kurva Harga Saham Hasil Cubic-Spline Faturachman Nugraha Sasmita; Deni Saepudin; Annisa Aditsania
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pelaku transaksi saham seringkali mengalami kesulitan dalam menentukan waktu yang tepat untuk membeli atau menjual saham. Hal ini disebabkan karena waktu pembelian saham dapat menentukan keuntungan investasi pada suatu saham. Maka dari itu, diperlukan portofolio saham yang dapat mendiversifikasi harga saham sehingga dapat membantu pembeli maupun penjual saham dalam bertransaksi di pasar modal. Penelitian ini membahas mengenai pembuatan portofolio saham melalui clustering kurva harga saham yang berasal dari metode cubic spline. Cubic spline untuk menginterpretasikan data yang sudah direduksi. Metode clustering pada penelitian kali ini dipakai untuk mengelompokkan koefisien cubic-spline dan menghasilkan 2,3, dan 4 clustering saham yang pengelompokkannya digunakan dengan metode K-means. Selanjutnya dilakukan pembentukan portofolio saham dengan memilih satu perwakilan dari setiap clustering berdasarkan rata-rata return setiap saham. Penelitian ini menghasilkan portofolio dengan nilai risiko terendah untuk pembagian cluster menjadi 4 cluster sebesar 0.0598 jika dibandingkan dengan pembagian cluster menjadi 2 cluster sebesar 0.1049 dan 3 cluster sebesar 0.2396. Kata kunci : portofolio, saham, cubic-spline, k-means, clustering
Prediksi Penyebaran Penyakit Demam Berdarah Dengue (DBD) di Kabupaten Bandung menggunakan Hybrid Random Forest (RF) dan Genetic Algorithm (GA) Maharani Padma Utami; Fhira Nhita; Annisa Aditsania
eProceedings of Engineering Vol 6, No 2 (2019): Agustus 2019
Publisher : eProceedings of Engineering

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Penyakit Demam Berdarah Dengue (DBD) merupakan penyakit yang ditularkan melalui nyamuk Aedes Ageypti. Nyamuk tersebut berada di wilayah tropis dan sub tropis seperti Asia Tenggara. Di Indonesia, khususnya Kabupaten Bandung jumlah kasus penyakit ini cenderung meningkat dan daerah penyebarannya semakin luas. Oleh karena itu, diperlukan informasi mengenai penyebaran untuk membantu menganalisa dalam menentukan tindakan yang harus dilakukan untuk menanganinya pada masa yang akan datang. Dalam menyusun informasi ini, dilakukan pengolahan data penyinaran lama matahari, kelembapan, angin, temperature, uap, curah hujan, jumlah kasus, jumlah penduduk dan presentase PHBS di Kabupaten Bandung menggunakan metode Hybrid Random Forest dan Genetic Algorithm untuk menemukan prediksi penyebaran penyakit yang hasilnya ditampilkan dengan tools yaitu GIS (Geographic Information System). Perbandingan menggunakan algoritma Random Forest tanpa Genetic Algorithm dan Random Forest dengan Genetic Algorithm, adalah akurasi rata-rata sebesar 83,42% dan 89,12 %. Kata kunci : prediksi, penyebaran, demam berdarah dengue, Random Forest, Genetic Algorithm
Implementation of Ant Colony Optimization – Artificial Neural Network in Predicting the Activity of Indenopyrazole Derivative as Anti-Cancer Agent Isman Kurniawan; Nabilla Kamil; Annisa Aditsania; Erwin Budi Setiawan
JOIN (Jurnal Online Informatika) Vol 8 No 1 (2023)
Publisher : Department of Informatics, UIN Sunan Gunung Djati Bandung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.15575/join.v8i1.1055

Abstract

Cancer is a disease induced by the abnormal growth of cells in body tissues. This disease is commonly treated by chemotherapy. However, at first, cancer cells can respond to the activity of chemotherapy over time, but over time, resistance to cancer cells appears. Therefore, it is required to develop new anti-cancer drugs. Indenopyrazole and its derivative have been investigated to be a potential drug to treat cancer. This study aims to predict indenopyrazole derivative compounds as anti-cancer drugs by using Ant Colony Optimization (ACO) and Artificial Neural Network (ANN) methods. We used 93 compounds of indenopyrazole derivative with a total of 1876 descriptors. Then, the descriptors were reduced by using the Pearson Correlation Coefficient (PCC) and followed by the ACO algorithm to get the most relevant features. We found that the best number of descriptors obtained from ACO is ten descriptors. The ANN prediction model was developed with three architectures, which are different in hidden layer number, i.e., 1, 2, and 3 hidden layers. Based on the results, we found that the model with three hidden layers gives the best performance, with the value of the R2 test, R2 train, and Q2 train being 0.8822, 0.8495, and 0.8472, respectively.
Discrete Wavelet Transform (DWT) dan Random Forest untuk Deteksi Kanker Berdasarkan Klasifikasi Data Microarray Monica Triyani; Adiwijaya Adiwijaya; Annisa Aditsania
JURNAL INFOTEL Vol 12 No 3 (2020): August 2020
Publisher : LPPM INSTITUT TEKNOLOGI TELKOM PURWOKERTO

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.20895/infotel.v12i3.484

Abstract

Cancer is one of the leading causes of death worldwide. According to the World Health Organization (WHO), in 2018, about 9.6 million deaths caused by cancer. DNA microarray technology has played an important role in analyzing and diagnosing cancer. The accuracy resulting from the classification of Random Forests is not optimal because microarrays have large dimensional data. Therefore, it is necessary to reduce the dimensions of the Discrete Wavelet Transform (DWT) as a feature to reduce dimensions and increase accuracy in microarray data. Based on the simulation, the dimension can be reduced and improve the accuracy of classification up to 8% - 20%. DWT approximation coefficient can improve accuracy better than detailed coefficients for data on colon cancer 100%, lung cancer 100%, ovarian 100%, prostate tumor 80%, and central nervous system 83.33%.