Claim Missing Document
Check
Articles

Found 21 Documents
Search

IMPELEMENTASI K-NEAREST NEIGHBORS, DECISION TREE DAN SUPPORT VECTOR MECHINE PADA DATA DIABETES Irfan, Miftahul; Dewi, Wardhani Utami; Nisa, Khoirin; Usman, Mustofa
Jurnal Mahasiswa Ilmu Komputer Vol. 4 No. 2 (2023): Jurnal Mahasiswa Ilmu Komputer October 2023
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/ilmukomputer.v4i2.4007

Abstract

Diabetes merupakan salah satu penyakit yang menjadi penyebab kematian terbesar didunia. Kasus kematiannya pun tercatat lebih dari 4 juta pada tahun 2019. Diabetes juga dapat menyebabkan timbulnya penyakit lainnya. Bahaya diabetes ini menjadi perhatian khusus WHO. Seiring dengan perkembangan teknologi ini, banyak sekali kolaborasi antara bidang kesehatan, statistic dan computer untuk menanggulangi berbagai macam penyakit. Algortima machine learning menjadi popular dalam proses klasifikasi data dan sudah banyak diterapkan pada data kesehatan. Dengan begitu pada artikel ini akan dilakukan perbandingan algoritma machine learning KNN, Decision Tree, dan SVM untuk melihat algortima mana yang paling cocok untuk klasifikasi data diabetes. Hasil menunjukkan bahwa KNN dan SVM memiliki akurasi yang cukup besar yaitu 81,13%. Sehingga kedua algortima tersebut dapat menjadi rekomendasi proses klasifikasi data diabetes sehingga dapat membantu dokter dalam menanggulangi penyakit diabetes. Hasil ini juga menunjukkan bahwa 8 variabel yang digunakan berpengaruh terhadap resiko diabetes
Sampling Survey Design Presidential Election Quick Count Sumatera Island Dewi, Wardhani Utami; Warsono, Warsono; Nisa, Khoirin
Sciencestatistics: Journal of Statistics, Probability, and Its Application Vol. 1 No. 1 (2023): JANUARY
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/sciencestatistics.v1i1.3162

Abstract

The number of TPS on the island of Sumatra is very large, in order to save time and money in conducting surveys, a sampling survey design was created. The purpose of this study is to predict the results of the presidential election on the island of Sumatra. The TPS sample frame was obtained in four stages where each stage used a sampling technique, namely the first and second stages used stratified random sampling, the third stage used systematic random sampling, and the last used clusters. The results obtained are with different TPS sample sizes showing the same results. The victory in the presidential election on the island of Sumatra was won by candidate pair number two. Then compared with the overall TPS population in Sumatra. Based on the population, the second candidate pair is also superior. So it can be concluded that the use of a survey sampling design in this study is appropriate in predicting the results of the elected president election.
Penerapan Analisis Regresi Robust dalam Penentuan Faktor Dominan Cuaca Terhadap Penyebaran Covid-19 di Jawa Barat Pradana, Aditya Putra; Nisa, Khoirin
Sciencestatistics: Journal of Statistics, Probability, and Its Application Vol. 1 No. 1 (2023): JANUARY
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/sciencestatistics.v1i1.3181

Abstract

Penyebaran Corona Virus Disease-2019 (COVID-19) semakin mengkhawatirkan di dunia, khususnya di provinsi Jawa Barat, Indonesia. Selain penularan dari manusia ke manusia, parameter meteorologi dianggap menjadi faktor efektif dalam penyebaran virus tersebut. Parameter meteorologi tersebut diantaranya terkait dengan cuaca dan iklim di suatu daerah. Melalui kajian Badan Meterologi, Klimatologi, dan Geofisika (BMKG) Indonesia ditemukan bahwa cuaca dan iklim merupakan faktor pendukung terjadinya wabah COVID-19 sehingga sangat cocok apabila dilakukan penelitian dan analisis mengenai faktor yang paling berpengaruh terhadap penyebaran COVID-19. Pada penelitian ini, bertujuan untuk mengetahui faktor-faktor dominan apa saja yang mempengaruhi penyebaran COVID-19 di provinsi Jawa Barat. Metode analisis yang akan digunakan yaitu metode S-estimator yang merupakan salah satu metode analisis regresi robust, sebab terdapat data yang merupakan pencilan sehingga distribusi dari residu tidak normal. Data yang digunakan diambil dari situs resmi Badan Meteorologi, Klimatologi, dan Geofisika Indonesia dan situs Kawal COVID-19 dengan variabel bebas yaitu suhu, kelembaban udara, lama penyinaran matahari, kecepatan angin, dan curah hujan, serta variabel terikatnya yaitu jumlah penderita positif COVID-19. Software dalam analisis tersebut menggunakan software IBM SPSS Statistic versi 25dan software R 3.4.3. Berdasarkan hasil penelitiannya, terlihat bahwa nilai R-square (adjusted) dengan regresi robust S-estimator sebesar 56,79% dan variabel bebas suhu dan lamanya penyinaran matahari mempengaruhi variabel jumlah penderita positif COVID-19 sehingga dapat disimpulkan bahwa kedua variabel bebas tersebut merupakan faktor dominan yang mempengaruhi penyebaran COVID-19 di Jawa Barat.
Artificial Neural Network (ANN) Classification: Titanic Passenger Safety Juanda, Juanda; Nisa, Khoirin
Sciencestatistics: Journal of Statistics, Probability, and Its Application Vol. 1 No. 2 (2023): JULY
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/sciencestatistics.v1i2.5074

Abstract

Scientific and technological innovation has always been the main driver of economic growth and social progress. The rapid development of technology and advances in the internet have made it possible to disseminate information and interact more easily. With the rapid development of technology, a lot of information is shared every second, resulting in big data in terms of different, complex variables. ANN is the result of work in the computer field that is inspired by the capabilities of the human brain which consists of biological neural networks. In recent years, the use of artificial neural networks (ANN) has increased. The research carried out aims to analyze the survival capabilities of Titanic passengers who experienced an accident while sailing and sank. This research uses initial data of 1309 observations with 14 variables. From the research results, 2 hidden variables are the most accurate with an accuracy of 80.5%, compared to the number of hidden variables of 3 (79%) and 4 (79%). So it can be concluded that the number of hidden variables with the same number of hidden screens does not have a significant difference in accuracy
Penerapan Metode Geographically Weighted Panel Regression Pada Indeks Pembangunan Manusia di Indonesia Tahun 2017-2022 Deta Erviana; Mustofa Usman; Widiarti; Khoirin Nisa
Sciencestatistics: Journal of Statistics, Probability, and Its Application Vol. 2 No. 1 (2024): JANUARY
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/sciencestatistics.v2i1.5669

Abstract

Regresi linier merupakan metode statistik untuk memeriksa hubungan antara variabel respons dan satu atau lebih variabel prediktor. Dalam sebuah penelitian, satu unit observasi harus diteliti selama beberapa periode waktu, karena mempelajari satu unit dalam satu periode waktu tidaklah cukup. Oleh karena itu, sebuah pendekatan statistik yang disebut analisis regresi panel diciptakan untuk mengintegrasikan data cross-section dan data time series. Namun pada kenyataannya, perbedaan kondisi antar lokasi dipengaruhi oleh efek spasial yang menyebabkan terjadinya heterogenitas spasial. Dikembangkanlah metode Geographically Weighted Regression (GWR) untuk mengatasi masalah heterogenitas spasial. Berdasarkan kelebihan kedua metode tersebut maka berkembanglah suatu metode yang menggabungkan antara regresi data panel dan GWR yaitu Geographically Weighted Panel Regression (GWPR). Tujuan dari penelitian ini adalah untuk mengetahui faktor-faktor yang mempengaruhi indeks pembangunan manusia (IPM) di Indonesia tahun 2017-2022 dan menentukan model terbaik dengan membandingkan model regresi global dan GWPR. Model GWPR dengan pembobot adaptive bisquare merupakan model terbaik dengan nilai AIC terkecil dan R^2 terbesar. Secara keseluruhan semua variabel prediktor yang digunakan dalam penelitian berpengaruh signifikan terhadap IPM pada taraf signifikansi α=0,05. Persamaan model dan variabel yang berpengaruh signifikan yang dihasilkan dalam pemodelan GWPR berbeda untuk setiap provinsi. Berdasarkan kesamaan variabel yang mempengaruhi IPM di provinsi yang letaknya berdekatan membentuk 8 kelompok.
Perbandingan Pembobot Welsch dan Tukey Bisquare pada Regresi Robust S-estimator Nurhafifah, Fifi; Khoirin Nisa; Nusyirwan; Rizki Agung Wibowo
Sciencestatistics: Journal of Statistics, Probability, and Its Application Vol. 2 No. 2 (2024): JULY
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/sciencestatistics.v2i2.6156

Abstract

Regresi robust merupakan sebuah metode yang dikembangkan untuk memiliki kinerja yang baik ketika data yang dianalisis menyimpang dari asumsi yang mendasari, misalnya terdapat pencilan yang dapat menyebabkan galat menjadi tidak berdistribusi normal. Salah satu metode estimasi pada regresi robust adalah S-estimator, metode ini memiliki fungsi pembobot antara lain pembobot Welsch dan Tukey Bisquare. Pada penelitian ini, kami membandingkan bobot-bobot pada metode S-estimator pada data berukuran: 30, 60, 100 dan 200 yang diberikan kontaminasi pencilan sebesar: 5%, 10%, 15%, 20%, 25% dan 30%. Berdasarkan hasil simulasi diperoleh bahwa kedua pembobot menghasilkan nilai MSE (Mean Square Error) dan bias yang serupa. Sehingga dapat disimpulkan bahwa kedua pembobot memberikan hasil yang sesuai dan sama baiknya pada regresi S-estimator. Robust regression is a method developed to have good performance when the analyzed data deviates from the underlying assumptions, for example, there are outliers that can cause errors to be not normally distributed. One of the estimation methods in robust regression is the S-estimator, this method has weighting functions, including the Welsch and Tukey Bisquare weights. In this study, we compared the weights in the S-estimator method on data sizes: 30, 60, 100 and 200 which were given outlier contamination of: 5%, 10%, 15%, 20%, 25% and 30%. Based on the simulation results, it is found that the two weights produce similar MSE (Mean Square Error) and bias values. So it can be concluded that the two weights provide appropriate and equally good results in the S-estimator regression
PELATIHAN STATISTIKA DESKRIPTIF UNTUK DATA ADMINISTRATIF DI KECAMATAN TELUK BETUNG BARAT KOTA BANDAR LAMPUNG Herawati, Netti; Nisa, khoirin; saidi, subian; Sutrisno, Agus; Azis, Dorrah; Zakaria, La
BUGUH: JURNAL PENGABDIAN KEPADA MASYARAKAT Vol. 4 No. 1 (2024): Maret 2024
Publisher : Badan Pelaksana Kuliah Kerja Nyata Universitas Lampung

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.23960/buguh.v4n1.2299

Abstract

Data administratif merupakan kumpulan data yang memiliki sifat nyata tentang sesuatu yang dianggap penting dan disimpan secara sistematis dalam sebuah sistem untuk mendapatkan suatu informasi tentang suatu hal yang berhubungan dalam ruang lingkup tertentu. Catatan administrasi dijaga untuk mendisiplinkan arah barang dan informasi dan dapat digunakan untuk tujuan pengambilan keputusan tertentu, sehingga adanya satuan identitas yang memiliki kesesuaian dengan catatan tertentu sangat penting. Untuk itu, perlu dilakukan analisis terhadap data yang sudah diperoleh agar agar masyarakat dapat melihat gambaran jelas terkait data yang diperoleh dan juga memudahkan perangkat daerah untuk mengambil keputusan terkait kebijakan yang akan diambil. Oleh karena itu akan dilakukan pelatihan dan sosialisasi terkait pelatihan analisis data deskriptif bagi perangkat daerah di kecamatan teluk betung barat kota bandar lampung. Sehingga diharapkan kedepannya gambaran terkait data dapat dipublikasikan dalam bentuk yang mudah untuk dipahami yaitu dengan statistika deskriptif.
Enhancing Tuberculosis Diagnosis: Effective Naive Bayes Classification using SMOTE and Tomek Links for Imbalanced Data Faulina, Naflah; Nisa, Khoirin; Warsono, Warsono
InPrime: Indonesian Journal of Pure and Applied Mathematics Vol 6, No 2 (2024)
Publisher : Department of Mathematics, Faculty of Sciences and Technology, UIN Syarif Hidayatullah

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.15408/inprime.v6i2.41463

Abstract

Naive Bayes classification, grounded in Bayes' theorem, is a well-established probabilistic and statistical method. However, it often faces challenges when dealing with datasets that have skewed class distributions. A common issue with unbalanced data is that the classifier tends to predict the majority class more accurately, leading to high accuracy for the majority class but low accuracy for the minority class. Resampling techniques such as oversampling, undersampling, or a combination of both can be employed to address this. This research introduces a novel approach to balancing training data using a hybrid method that combines SMOTE (Synthetic Minority Oversampling Technique) and Tomek Links by applying this method to tuberculosis (TB) diagnosis data from Mayjend HM Ryacudu Kotabumi Hospital. We evaluate the Naive Bayes classifier's performance on the original and newly balanced data.  We used 826 patient data for training and 207 for testing out of 1,033. Of the 826 records in the training dataset, 306 patients had a TB diagnosis, whereas 520 patients did not. To achieve a better balance between the majority and minority classes, we oversampled 214 data in the minority class to match the number in the majority class. If necessary, we also reduce 214 data from the majority class. The results demonstrate that this hybrid approach significantly enhances the performance of the Naive Bayes model in terms of data balancing and overall accuracy. Specifically, the hybrid method achieves an average specificity of 96%, sensitivity of 88%, false positive fraction (FPF) of 4%, and false negative fraction (FNF) of 12%. These findings highlight the effectiveness of combining SMOTE and Tomek Links, providing a robust solution for improving classification performance in unbalanced datasets.Keywords: Naive Bayes classification; SMOTE; Tomek Links; SMOTE+Tomek Links; Tuberculosis. AbstrakKlasifikasi Naive Bayes, yang didasarkan pada Teorema Bayes, adalah metode probabilistik dan statistik yang sudah mapan. Namun, metode ini sering menghadapi tantangan ketika berhadapan dengan kumpulan data yang memiliki distribusi kelas yang miring (tidak seimbang). Masalah umum pada data yang tidak seimbang adalah bahwa pengklasifikasi cenderung memprediksi kelas mayoritas dengan lebih akurat, yang mengarah pada akurasi tinggi untuk kelas mayoritas namun menghasilkan akurasi rendah untuk kelas minoritas. Untuk mengatasi masalah ini, teknik resampling seperti oversampling, undersampling, atau kombinasi keduanya dapat digunakan. Penelitian ini memperkenalkan pendekatan baru untuk menyeimbangkan data pelatihan menggunakan metode hibrida yang menggabungkan SMOTE (Synthetic Minority Oversampling Technique) dan Tomek Links. Dengan menerapkan metode ini pada data diagnosis tuberculosis (TB) dari Rumah Sakit Mayjend HM Ryacudu Kotabumi. Kami mengevaluasi kinerja pengklasifikasi Naive Bayes pada data yang tidak seimbang asli dan data yang sudah seimbang. Kami menggunakan 826 data pasien untuk pelatihan dan 207 untuk pengujian dari total 1.033. Dari 826 catatan dalam dataset pelatihan, 306 pasien didiagnosis dengan TB, sedangkan 520 pasien tidak. Untuk mencapai keseimbangan yang lebih baik antara kelas mayoritas dan minoritas, kami melakukan oversampling sebanyak 214 data pada kelas minoritas agar jumlahnya seimbang dengan kelas mayoritas. Selain itu, kami juga mengurangi 214 data dari kelas mayoritas. Hasilnya menunjukkan bahwa pendekatan hibrida ini secara signifikan meningkatkan kinerja model Naive Bayes dalam hal keseimbangan data dan akurasi keseluruhan. Secara spesifik, metode hibrida ini mencapai spesifisitas rata-rata sebesar 96%, sensitivitas sebesar 88%, fraksi positif palsu (FPF) sebesar 4%, dan fraksi negatif palsu (FNF) sebesar 12%. Temuan ini menyoroti efektivitas penggabungan SMOTE dan Tomek Links, serta memberikan solusi yang tangguh untuk meningkatkan kinerja klasifikasi di tengah kumpulan data yang tidak seimbang.Kata Kunci: Klasifikasi Naive Bayes; SMOTE; Tomek Links; SMOTE+Tomek Links; Tuberkulosis. 2020MSC: 68T05, 62R07.
Robust Clustering of Open Access Journal Based on Scopus Journal Metrics Database Wibowo, Rizki Agung; Nisa, Khoirin; Samosir, Amril
Lentera Pustaka: Jurnal Kajian Ilmu Perpustakaan, Informasi dan Kearsipan Vol 10, No 2 (2024): December
Publisher : Library and Information Science Study Program, Faculty of Humanities, Univ. Diponegoro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.14710/lenpust.v10i2.68282

Abstract

Background: Open-access is free online access to articles, journal, conferences proceedings, book series and trade journal which provides unrestricted and permit the users to read, download, print, copy and link to the articles. Many articles that discuss the journal metrics using basic statistical methods to discribe the journal.Objective: This research groups journals based on numerical quality measures, identifying quality characteristics for each group. The findings provide a reference for researchers to select suitable journals and for journal owners to improve journal quality.Methods: There is another method to describe the open-access journal by grouping it into groups with the homogeneous characteristics based on five types of numerical quality measure that are analyzed simultaneously, namely cluster analysis. By using cluster analysis, the article’s owner can determine which journals he can choose to publish it in according to the desired journal quality. Based in the result, 5146 open-access journals can be divided into four clusters by using CLARA algorithm. Cluster 1, 2 and 3 have high characteristics in all numerical quality measure and cluster 4 have low characteristics in all numerical quality measure. So that researchers can choose journals in clusters 1, 2, and 3 as a place to publish their research by adjusting the journal's scope.Results: This study demonstrates that the CLARA algorithm successfully grouped 5146 open-access journals indexed by SCOPUS into four clusters based on quality characteristics. Cluster 1 consists of 39 journals with high values across all quality variables, Cluster 2 includes 50 journals with similarly high values, Cluster 3 contains 430 journals with comparable characteristics, and Cluster 4, comprising 4627 journals, exhibits low values in all quality variables. Furthermore, the majority of journals (89.914%) have numerical quality measures below the average.Conclusion: This study concludes that journals in Clusters 1, 2, and 3 can be recommended as suitable options for researchers to publish their work, considering the relevance of the journal's scope. Additionally, these findings can serve as a reference for journal owners to improve the quality of their journals to meet higher standards.
Estimasi Model Fixed Effect Pada Analisis Regresi Data Panel Dengan Metode Least Square Dummy Variable (LSDV) Junia Rahma Nur Imani; Khoirin Nisa; Dorrah Aziz; Nusyirwan
Sciencestatistics: Journal of Statistics, Probability, and Its Application Vol. 3 No. 1 (2025): JANUARY
Publisher : Universitas Muhammadiyah Metro

Show Abstract | Download Original | Original Source | Check in Google Scholar | DOI: 10.24127/sciencestatistics.v3i1.7525

Abstract

Data panel merupakan gabungan antara data cross section dan data time series. Salah satu model analisis regresi data panel adalah model fixed effect. Model fixed effect mempunyai asumsi bahw intersep berbeda untuk setiap individu, tetapi koefisien slope konstan. Estimasi dilakukan dengan menggunakan variabel dummy untuk menjelaskan adanya perbedaan intersep antar individu. Penelitian ini bertujuan untuk mengestimasi model fixed effect pada analisis regresi data panel dengan metode least square dummy variable dan menerapkannya pada data upah minimum provinsi di Indonesia tahun 2014-2017. Berdasarkan hasil penelitian yang telah dilakukan dengan menggunakan estimasi parameter = untuk model fixed effect pada analisis regresi data panel upah minimum provinsi di Indonesia diperoleh model sebagai berikut, = 5.248452+ + 0.007415 + 0.002882 + 1.63E-07dengan, = upah minimum provinsi, = indeks harga konsumen, = tingkat partisipasi angkatan kerja, = produk domestik regional bruto dan = variabel dummy, k = 1,2, ...,33 (provinsi). Panel data is a combination of cross section data and time series data. One of panel data regression analysis model is the fixed effect model. The fixed effect model has the assumption that intercepts are different for each individual, but the slope coefficient is constant. Estimation is done by using dummy variables to explain the existence of intercept differences between individuals. This study aims to estimate the fixed effect model in panel data regression analysis using the least square dummy variable method and apply it to the provincial minimum wage data in Indonesia in 2014-2017. Based on the results of the research that has been done by using paremeter estimator = for fixed effect model in the panel regression analysis on provincial minimum wage data in Indonesia, we obtained as follows, = 5.248452+ + 0.007415 + 0.002882 + 1.63E-07 with, = provincial minimum wage, = consumer price index, = labor force participation rate, = regional gross domestic product, = dummy variable , k = 1,2, ...,33 (province).