Claim Missing Document
Check
Articles

Found 7 Documents
Search

Average Weight Information Gain Untuk Menangani Data Berdimensi Tinggi Menggunakan Algoritma C4.5 Joko Suntoro; Cahya Nurani Indah
Jurnal Buana Informatika Vol. 8 No. 3 (2017): Jurnal Buana Informatika Volume 8 Nomor 3 Juli 2017
Publisher : Universitas Atma Jaya Yogyakarta

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24002/jbi.v8i3.1315

Abstract

Abstract. In the recent decades, a large data are stored by companies and organizations. In terms of use, big data will be useless if not processed into information according to the usability. The method used to process data into information is called data mining. The problem in data mining especially classification is data with a number of attributes that many and each attribute are irrelevant. This study proposes attribute weighting method using weight information gain method, then the attribute weights calculates the average value. Having calculated the average value of the attribute selection, the selected attributes are those with a value weights above average value. Attributes are selected then performed using an algorithm C4.5 classification, this method is named Average Weight Information Gain  C4.5 (AWEIG-C4.5). The results show that AWEIG-C4.5 method is better than C4.5 method with the accuracy of the average value of each is 0.906 and 0.898. Keywords: data mining, high dimensional data, weight information gain, C4.5 algorithmAbstrak. Dalam beberapa dekade terakhir, data yang besar disimpan oleh perusahaan dan organisasi. Dari segi penggunaan, data besar tersebut akan menjadi tidak berguna jika tidak diolah menjadi informasi yang sesuai dengan kegunaan. Metode yang digunakan untuk mengolah data menjadi informasi adalah data mining. Masalah dalam data mining khususnya klasifikasi adalah data dengan jumlah atribut yang banyak atau dalam bahasa komputer disebut data berdimensi tinggi. Pada penelitian ini diusulkan metode pembobotan atribut menggunakan metode weight information gain, kemudian bobot atribut tersebut dihitung nilai rata-rata. Setelah dihitung nilai rata-rata dilakukan pemilihan atribut, atribut yang dipilih adalah atribut dengan nilai bobot di atas nilai rata-rata. Atribut yang terpilih kemudian dilakukan klasifikasi menggunakan algoritma C4.5, metode ini diberi nama Average Weight Information Gain C4.5 (AWEIG-C4.5). Hasil penelitian menunjukkan metode AWEIG-C4.5 lebih baik daripada metode C4.5 dengan nilai rata-rata akurasi masing-masing adalah 0,906 dan 0,898. Dari uji paired t-Test terdapat perbedaan signifikan antara metode AWEIG C4.5 dengan metode C4.5.Kata Kunci: data mining, data berdimensi tinggi, weight information gain, algoritma C4.5
Perbandingan Algoritma Klasifikasi untuk Prediksi Cacat Software dengan Pendekatan CRISP-DM Nurtriana Hidayati; Joko Suntoro; Galet Guntoro Setiaji
Jurnal Sains dan Informatika Vol. 7 No. 2 (2021): Jurnal Sains dan Informatika
Publisher : Teknik Informatika, Politeknik Negeri Tanah Laut

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.34128/jsi.v7i2.313

Abstract

Proses prediksi cacat software merupakan bagian terpenting dalam sebuah pengujian kuliatas software sering juga disebut dengan software quality yang bertujuan untuk mengetahui mutu software dalam pemenuhan kebutuhan fungsional dan kinerjanya. Metode machine learning mempunyai kinerja lebih baik untuk menemukan cacat software daripada metode manual. Algoritma klasifikasi dalam machine learning yang pernah digunakan untuk prediksi cacat software antara lain k-Nearest Neighbor (k-NN), Naïve Bayes (NB) dan Decision Tree (CART). Dalam penelitian ini akan dibandingkan kinerja antara algoritma - algoritma klasifikiasi yaitu k-NN, NB, dan CART untuk prediksi cacat software dengan pendekatan CRISP-DM. CRISP-DM merupakan model proses data mining dengan 6 tahapan yaitu: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment dalam menentukan perbandingan algoritma klasifikasi dalam memprediksi cacat software. Software Matrix yang digunakan pada penelitian ini adalah tujuh dataset dari NASA MDP. Hasil penelitian menunjukkan bahwa nilai rata-rata akurasi algoritma CART lebih baik daripada algoritma k-NN dan NB dengan nilai 0,867. Sedangkan nilai rata-rata akurasi algoritma k-NN dan NB masing-masing 0,859 dan 0,778.
Random State Parameter Undersampling untuk Penanganan Data dengan Kelas Tidak Seimbang pada Algoritme Random Forest Setiaji, Galet Guntoro; Suntoro, Joko; Rifa'i, Ahmad
Jurnal Transformatika Vol. 21 No. 2 (2024): Januari 2024
Publisher : Jurusan Teknologi Informasi Universitas Semarang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26623/transformatika.v21i2.8901

Abstract

Algoritme Random Forest (RF) sangat populer digunakan pada metode klasifikasi karena waktu learning yang cepat, mampu melakukan pembobotan pada variabel, dan kinerja yang sangat baik pada dataset berukuruan besar, namun algoritme RF mempunyai performa yang buruk saat menangani data dengan kelas tidak seimbang. Data dengan kelas tidak seimbang adalah jumlah data pada kelas tertentu lebih banyak dibandingkan dengan jumlah data pada kelas lainnya. Undersampling (US-RF) adalah salah satu metode yang digunakan untuk penanganan data dengan kelas tidak seimbang, namun metode undersampling akan memilih dan mereduksi data secara acak pada kelas mayoritas sehingga berakibat hilangnya data yang berpotensi berguna. Untuk menghindari hilangnya data yang berpotensi berguna tersebut karena dipilih secara acak, maka akan diterapkan penetapan nilai random state pada metode undersampling. Metode yang diusulkan diberi nama random state parameter undersampling Random Forest (RSUS-RF). Dalam penelitian ini akan dibandingkan antara metode RF, US-RF dan RSUS-RF. Hasil penelitian menunjukkan nilai rata-rata akurasi metode RSUS-RF lebih tinggi dibandingkan dengan metode RF dan US-RF dengan nilai rata-rata akurasi metode RSUS-RF sebesar 0.8259, sedangkan nilai rata-rata akurasi metode RF dan metode US-RF sebesar 0.8035 dan 0.7945. Serta terdapat perbedaan secara signifikan diantara ketiga metode tersebut ketika diuji menggunakan Friedman Test dengan nilai p-value adalah 0.005. 
GA-SVM Wrapper Feature Selection untuk Penanganan Data Berdimensi Tinggi Rifa'i, Ahmad; Suntoro, Joko; Setiaji, Galet Guntoro
Jurnal Transformatika Vol. 21 No. 2 (2024): Januari 2024
Publisher : Jurusan Teknologi Informasi Universitas Semarang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26623/transformatika.v21i2.8886

Abstract

Peningkatan data dalam beberapa tahun terakhir ini mengalami peningkatan yang sangat signifikan karena penggunaan sosial media dan peralihan menjadi era digital. Teknik untuk pengolahan data menjadi informasi yang berguna dinamakan dengan data mining. Namun masalah yang terjadi ketika menerapkan data mining, khususnya metode klasifikasi adalah data berdimensi tinggi karena data berdimensi tinggi mempengaruhi hasil evaluasi dalam klasifikasi menjadi rendah. Data berdimensi tinggi didefinisikan sebagai data dengan jumlah fitur yang banyak dan kompleks, kompleksitas fitur mengakibatkan sulitnya memilih subset fitur yang optimal karena terdapat fitur yang tidak relevan. Dalam penelitian ini akan digunakan teknik wrapper dengan menerapkan metode metaheuristik yaitu algoritma genetika (GA) untuk pemilihan subset fitur agar lebih optimal, dan algoritma pengklasifikasi yang digunakan adalah algoritma Support Vector Machine (SVM), metode ini disebut dengan GA-SVM WFS. Hasil akurasi metode GA-SVM WFS lebih tinggi dibandingkan dengan metode SVM, dengan rata-rata hasil akurasi masing-masing sebesar 0,902 dan 0,874. Dalam penelitian ini terdapat perbedaan secara signfikan antara metode GA-SVM WFS dan metode SVM setelah dilakukan uji paired t-test dengan nilai p-value sebesar 0,01 dengan nilai α sebesar 0,05.
Pelatihan Menggunakan PhpMyadmin Untuk Mengolah Data Sederhana di SMK Negeri 2 Demak Setiaji, Galet Guntoro; Mohammad Burhan Hanif; Tirta Kumkamdani; Joko Suntoro
TEMATIK Vol. 5 No. 2 (2025): Juli
Publisher : Universitas Semarang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.26623/tematik.v5i2.12354

Abstract

Tim Pengabdian Kepada Masyarakat Universitas Semarang, memberikan pelatihan menggunakan PhpMyadmin kepada siswa di SMK Negeri 2 Demak. Dimana dalam pelatihan menggunakan PhpMyadmin diberikan contoh mengolah data sederhana membuat database dan tabel. Sebelum memulai kegiatan pelatihan akan diberikan Pre-Test terkait pemahaman terkait materi pelatihan, dan setelah mengikuti pelatihan seberapa jauh menangkap materi dan pemahaman terhadap pelatihan dengan memberikan Post-Test. Dimana Pre dan Post Test diolah menggunakan metode N-Gain untuk mengetahui seberapa besar siswa sebelum dan sesudah mengikuti pelatihan. Dimana nilai N-Gain score rata-rata yang didapat pelatihan sebesar 0,75 yaitu siswa dapat menangkap dan lebih paham setelah mengikuti pelatihan mengolah data menggunakan PhpMyadmin
Peningkatan Ketrampilan Merancang Identitas Visual Pada Produk Umkm Binaan Serabut Nusa Berdaya Kabupaten Semarang-Ungaran Vydia, Vensy; Putri, Astrid Novita; Suntoro, Joko
Dinamis: Jurnal Pengabdian Kepada Masyarakat Vol. 2 No. 1 (2022): Juni 2022
Publisher : Universitas Hasyim Asy'ari Tebuireng Jombang

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.33752/dinamis.v2i1.5865

Abstract

A good and strong visual identity is a tool in building a brand because it functions to form an impression that influences consumer perceptions. The longer people are familiar with a particular brand, the more likely they are to have a positive attitude toward that brand. In fact, by changing the visual identity of a product, it can also change or improve the brand image in the community and create an Identity. This is what is meant by the concept of brand loyalty, and vice versa if consumers get a negative stimulus from a visual identity of a brand, the biggest possibility is that consumers cancel the desire to try or make repeat purchases. To represent an identity, a logo and a visual system are needed, so that they are important assets in a company, institution, or product as an identity. This need is needed by various levels of business, including MSMEs. This community service program emphasizes increasing the competence of MSME actors in maximizing the potential for selling business products by strengthening the visual identity of the logo. The implementation of this service involves teaching staff (lecturers) from the Information Systems Study Program, Informatics Engineering and Communication Studies as well as students. This program collaborates with as many as 15 (Fifteen) MSME participants to create an identity design and its application media. In its implementation, the design starts from product analysis and then visual output is made, from illustrations to colors.
Software Defect Prediction Using AWEIG+ADACOST Bayesian Algorithm for Handling High Dimensional Data and Class Imbalance Problem Suntoro, Joko; Christanto, Febrian Wahyu; Indriyawati, Henny
International Journal of Information Technology and Business Vol. 5 No. 1 (2022): November: International Journal of Information Technology and Business
Publisher : Universitas Kristen Satya Wacana

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24246/ijiteb.512018.27-32

Abstract

The most important part in software engineering is a software defect prediction. Software defect prediction is defined as a software prediction process from errors, failures, and system errors. Machine learning methods are used by researchers to predict software defects including estimation, association, classification, clustering, and datasets analysis. Datasets of NASA Metrics Data Program (NASA MDP) is one of the metric software that researchers use to predict software defects. NASA MDP datasets contain unbalanced classes and high dimensional data, so they will affect the classification evaluation results to be low. In this research, data with unbalanced classes will be solved by the AdaCost method and high dimensional data will be handled with the Average Weight Information Gain (AWEIG) method, while the classification method that will be used is the Naïve Bayes algorithm. The proposed method is named AWEIG + AdaCost Bayesian. In this experiment, the AWEIG + AdaCost Bayesian algorithm is compared to the Naïve Bayesian algorithm. The results showed the mean of Area Under the Curve (AUC) algorithm AWEIG + AdaCost Bayesian yields better than just a Naïve Bayes algorithm with respectively mean of AUC values are 0.752 and 0.696.