Claim Missing Document
Check
Articles

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Ridok, Achmad; Latifah, Retnani
Proceedings Konferensi Nasional Sistem dan Informatika (KNS&I) 2015
Publisher : Proceedings Konferensi Nasional Sistem dan Informatika (KNS&I)

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (604.819 KB)

Abstract

Pada umumnya pengklasifikasian teks mengasusumsikan data latih terdistribusikan sama rata pada setiap kategori. Padahal pada kenyataannya kumpulan data yang tidak seimbang sering kali muncul. Penelitian ini mencoba menerapkan algoritma Neighbor Weighted K-Nearest Neighbor (NWKNN) untuk mengklasifikasikan dokumen teks berbahasa Indonesia dengan corpus yang tidak seimbang. Algoritma ini memberikan bobot yang kecil untuk tetangga – tetangga yang berasal dari kategori yang besar dan memberikan bobot yang besar pada tetangga – tetangga yang berasal dari kategori yang kecil. Hasil uji coba sistem pada 785 dokumen dari 8 kategori dengan rasio dokumen latih 75% dan dokumen uji 25% serta exponent = 2 dan threshold document frequency = 5, menunjukkan nilai rata - rata precision, recall dan F1 measure masing-masing sebesar 84.2%, 86.7% dan 84.3%. Hasil perbandingan dengan algoritma KNN menunjukkan nilai recall dan F1 measure NWKNN masing-masing lebih tinggi sebesar 6.9% dan 2.6% daripada nilai recall dan F1 measure KNN.
Implementasi Algoritma Caverphone 2.0 Untuk Pencarian Kata Berdasarkan Kemiripan Pengucapan Pada Aplikasi Kamus Inggris- Indonesia Achmad Ridok, Andreas Tommy Christiawan, Arief Andy Soebroto,
SMATIKA Vol 3, No 1 (2013)
Publisher : SMATIKA

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pronounciation atau pengucapan dianggap sulit oleh sebagian orang karena ada beberapa bunyi yang tidak ada dalam bahasa Indonesia. Untuk mencari kata bahasa Inggris yang memiliki kemiripan pengucapan dapat  digunakan beberapa  algoritma  salah  satunya  adalah  algoritma  Caverphone 2.0. Algoritma Caverphone 2.0 mengubah setiap kata menjadi kode fonetis sehingga dapat diketahui kata bahasa Inggris apa saja yang memiliki kemiripan pengucapan. Implementasi algoritma Caverphone 2.0 dalam kamus Inggris-Indonesia dapat membantu seseorang untuk mengasah kemampuan pronounciation berbahasa Inggris. Analisis kebutuhan dilakukan dengan menganalisis Use Case Diagram. Implementasi perancangan menggunakan bahasa pemrograman Java. Pengujian fungsionalitas terhadap 6 tindakan dalam use case diagram dengan metode black-box testing menunjukkan bahwa Aplikasi Kamus Inggris- Indonesia dengan algoritma Caverphone 2.0 ini telah memenuhi kebutuhan yang telah dijabarkan pada tahap analisis kebutuhan.Hasil pengujian ini menunjukkan bahwa kualitas hasil keluaran Aplikasi kamus Inggris- Indonesia menggunakan algoritma Caverphone adalah 69.60% untuk awal kata,  53.50% untuk tengah kata, dan 65.34% untuk akhir kata.
Pengklasifikasian Dokumen Berbahasa Indonesia Dengan Pengindeksan Berbasis LSI Ridok, Achmad; ., Indriati
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 2, No 2 (2015)
Publisher : Fakultas Ilmu Komputer

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (911.531 KB)

Abstract

AbstrakKlasifikasi dokumen teks bertujuan untuk menentukan kategori suatu dokumen berdasarkan kesamaannya dengan kumpulan dokumen yang telah berlabel sebelumnya. Namun demikian kebanyakan metode klasifikasi yang ada saat ini dilakukan berdasarkan kata-kata kunci atau kata-kata yang dianggap penting dengan mengasumsikan masing-masing merepresentasikan konsep yang unik. Padahal pada kenyataanya beberapa kata yang mempunyai makna atau semantik sama seharusnya diwakili satu kata unik. Pada penelitian ini pendekatan berbasis LSI (Latent Semantic Indexing) digunakan pada KNN untuk mengklasifikasi dokumen berbahasa Indonesia. Pembobotan term dari dokumen-dokumen latih maupun uji menggunakan tf-idf,  yang direpresentasikan masing-masing dalam matrik term-dokumen A dan B. Selanjutnya matrik A didekomposisi menggunakan SVD untuk mendapatkan matrik U dan V yang tereduksi dengan k-rank. Kedua matrik U dan V digunakan untuk mereduksi B sebagai representasi dokumen uji.  Evaluasi kinerja sistem terbaik berdasarkan hasil  diperoleh pada klasifikasi KNN berbasis LSI tanpa stemming dengan threshould 2. Akan tetapi evaluasi kinerja terbaik berdasarkan waktu dicapai ketika KNN LSI dengan stemming pada threshould 5. Kinerja KNN berbasis LSI secara signifikan jauh lebih baik dibandingkan dengan KNN biasa baik dari sisi hasil maupun waktu.Kata kunci: KNN, LSI, K-Rank, SVD, Klasifikasi dokumen AbstractClassification of text documents aimed to determine the category of a document based on its similarity to set of documents which have been previously labeled. However, most existing methods of classification were conducted based on key words or words that are considered important by assuming each representing a unique concept. Whereas in fact some of the words that have the same meaning or semantics should be represented as a unique word. In this research LSI -based approach  used on KNN to classify documents in Indonesian language. Weighting the terms of the training documents or testing using tf-idf, which represented respectively in term-document matrix A and B. Furthermore, the matrix A is decomposed using SVD to obtain matrices U and V are reduced by k-rank. Both matrices U and V are used to reduce B as a representation of test documents. The best system performance evaluation based on the results obtained LSI-based in the KNN classification without stemming with threshould 2. However, the best performance evaluation based on the time achieved when KNN LSI with stemming the KNN with threshould 5. Performance-based LSI is significantly much better than the tradisional KNN in term both the outcome and timing.Keywords: KNN, LSI, K-Rank, SVD, Documents classification
Peringkasan Dokumen Bahasa Indonesia Berbasis Non-Negative Matrix Factorization (NMF) Ridok, Achmad
Jurnal Teknologi Informasi dan Ilmu Komputer Vol 1, No 1 (2014)
Publisher : Fakultas Ilmu Komputer

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (669.594 KB)

Abstract

Abstrak Peningkatan teknologi informasi telah memicu peningkatan dokumen teks digital secara massif termasuk dokumen berbahasa Indonesia. Penggalian informasi dari dokumen berupa ringkasan secara otomatis sangat dibutuhkan. Pada penelitian ini  peringkasan otomatis  menggunakan Nonnegatif Matrix Factorization (NMF) telah dikembangkan. Sistem dievaluasi dengan membandingkan  ringkasan sistem dengan  ringkasan dari  3 orang pakar   terhadap 100 dokumen bahasa Indonesia . Hasil evaluasi menunjukkan ringkasan  sistem  mempunyai rata-rata presisi dan recall   masing-masing 0.19724 dan 0.34085. Sedangkan  evaluasi ringkasan antar pakar  mempunyai rata-rata presisi dan recall masing-masing 0.68667 dan 0.70642..   Kata kunci: peringkasan dokumen, NMF Abstract Improvement of information technology has led to increased massively digital text documents, including documents of Indonesian language. Extracting information from documents such as automatic summary  is needed. In this study peringkasan automatically using non-negative Matrix Factorization (NMF) has been developed. The system was evaluated by comparing summary of system with summary of of three experts on 100 Indonesian documents. The evaluation shows summary of the system has an average precision and recall respectively 0.19724 and 0.34085. While the summary of an expert evaluation had an average precision and recall respectively 0.68667 and 0.70642. Keywords: text summarization, NMF
PEMBUATAN JUDUL OTOMATIS DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN METODE KNN Achmad Ridok
Seminar Nasional Aplikasi Teknologi Informasi (SNATI) 2012
Publisher : Jurusan Teknik Informatika, Fakultas Teknologi Industri, Universitas Islam Indonesia

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Pembuatan judul otomatis adalah proses untuk menghasilkan judul dari suatu artikel dokumen secara otomatis. Dengan dibangkitkannya judul secara otomatis pembaca dapat menangkap ide utama dari sebuah dokumen tanpa harus membaca keseluruhan dokumen. Pada penelitian ini dilakukan penerapan metode K-Nearest Neighbor (KNN) untuk pembuatan judul otomatis dokumen berita berbahasa Indonesia. Hasil pengujian dan evaluasi menunjukkan bahwa sistem pembuatan judul ini menghasilkan kinerja terbaik pada katagori politik dengan nilai rata-rata pesisi sebesar 0.319, nilai rata-rata recall sebesar 0.321 dan nilai rata-rata F-measure sebesar 0.311. Sistem dengan metode KNN ini memiliki kelemahan, yaitu sangat bergantung pada data latih dan tidak dapat membuat judul baru, sehingga terdapat judul bentukan sistem yang kurang mencerminkan isi dari dokumen yang diujikan
SENTIMENT ANALYSIS FOR REVIEW MOBILE APPLICATIONS USING NEIGHBOR METHOD WEIGHTED K-NEAREST NEIGHBOR (NWKNN) Indriati Indriati; Achmad Ridok
Journal of Environmental Engineering and Sustainable Technology Vol 3, No 1 (2016)
Publisher : Lembaga Penelitian dan Pengabdian kepada Masyarakat Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (622.713 KB) | DOI: 10.21776/ub.jeest.2016.003.01.4

Abstract

Indonesia a potential market for business because of a large number of smartphone users, especially developers of mobile applications. Each application stores allow the user to provide a review of the application used. The review is not only beneficial for prospective users of the application but also beneficial for the application developer. Review of the applications that are influenced by emotion (sentiment) are grouped or classified to determine positive and negative polarization. Therefore, it is necessary to have an application that can perform sentiment analysis for the mobile app reviews using Neighbor-Weighted K-Nearest Neighbor (NWKNN) classification method with high accuracy results. NWKNN method is able to classify mobile application review documents on the balanced data with current value of k = 20 gives the best f-measure average value of 0.9 with ratio of training data and test data 80%: 20%. However, for the imbalanced data with value of k = 45 gives the best f-measure average value of 0.797 with a ratio of training data and test data 80%: 20%. Based on the results, the effect of imbalanced data to  the accuracy of the NWKNN methods by comparing NWKNN and KNN methods, it was found that the value of F-Measure NWKNN method is better than KNN method with gap of 0,27, due to the added weight on class minority overcome misclassification problem on minority class.
PENCARIAN PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA (KUHP) BERDASARKAN KASUS MENGGUNAKAN METODE COSINE SIMILARITY DAN LATENT SEMANTIC INDEXING (LSI) Setyoko Yudho Baskoro; Achmad Ridok; Muhammad Tanzil Furqon
Journal of Environmental Engineering and Sustainable Technology Vol 2, No 2 (2015)
Publisher : Lembaga Penelitian dan Pengabdian kepada Masyarakat Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar | Full PDF (760.427 KB) | DOI: 10.21776/ub.jeest.2015.002.02.4

Abstract

Indonesia is a country of law. As law states, Indonesian have regulations that govern the relationship between the communities, one of them is criminal law. Set of rules of criminal law is written in the Kitab Undang-undang Hukum Pidana (KUHP), which contains hundreds of clause which regulate the relationship between the community based on values, norms, and specific rules that focuses on the interests of the public. In this paper, information retrieval used to search the clause of the KUHP based on a description of the crime, using Latent Semantic Indexing (LSI). LSI adopts techniques in mathematical dimension reduction process Singular Value Decomposition (SVD). This system use 60 clause as training data, and 6 query or crime description as test data. In each of the data clause of the KUHP contained data such as clause number, clause, and the clause contents. The system will calculate and determine the relevant clause is based on  query or  description of the crimes that has been entered. Cosine similarity used to calculate the similarity or proximity clause KUHP with query. The performance of the system is shown by the test results of Mean Average Precision (MAP) value at each k-rank is 5, 10, 20, 30, 40, 50, and 59, with the highest performance is in k-rank 40 with MAP 0.8944.
Klasifikasi Dokumen Berbahasa Indonesia Menggunakan Metode K-NN Achmad Ridok
Jurnal POINTER Vol 1, No 1 (2010): Jurnal Pointer - Ilmu Komputer
Publisher : Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Banyaknya dokomen digital sebagai konsekuensi pesatnya perkembangan teknologi informasi membutuhkan suatu cara pengorganisasian dokumen secara efisien. Efisiensi pengorganisasian dokumen tersebut dapat dilakukan dengan cara mengklasifikasikan dokumen berdasaran katagori tertentu. Pada penelitian ini telah dicoba mengembangkan sistem pengelompokan dokumen berbahasa Indonesia menggunakan metode KNN. Sistem yang dikembangkan telah berhasil melakukan pengelompokan dokumen bahasa Indonesia dengan presentase keberhasilan 71.58% pada nilai k=4 sebagai nilai k optimal.   Kata kunci:  Katagori, Pengelompokan Dokumen,  KNN   Abstact The number of digital document as consequence  of growth of information technology require a way to organize the documents efficiently. Organization of the document can be conducted by classification of document  based on certain label. This research have been tried to develop system of subdividing of document of Indonesian language use KNN method. System developed have made a success of subdividing of document of Indonesian by presentase efficacy 71.58% at value of k=4 as value of optimal k. Keywords : Category, classification of document,  KNN
Otomatisasi Pembentukan Judul Dokumen Bahasa Indonesia Menggunakan Metode NBL Pada Kumpulan Dokumen Terklasifikasi Dengan Metode KNN Achmad Ridok
Jurnal POINTER Vol 2, No 1 (2011): Jurnal Pointer - Ilmu Komputer
Publisher : Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

Abstrak Pada paper dipaparkan penerapan metode NBL dalam pembentukan judul dokumen bahasa Indonesia secara otomatis pada dokumen yang telah diklasifikasn dengan NBL. Sebelum dibangkitkan judulnya, dokumen uji diklasifikasikan menggunakan metode KNN. Hasil uji coba menunjukkan rata-rata F1 metrik untuk dokumen terkatagori mempunyai nilai lebih baik dari dokumen yang tidak terklasifikasi. Klasifikasi KNN yang digunakan mempunyai rata-rata F1 metrik di atas 0.8 pada k=10. Namun demikian representasi akhir dari kalimat judul belum sepenuhnya dapat dibaca disebabkan adanya anomali pada n-gram dalam menginterpretasikan kalimat bahasa Indonesia.   Kata-kata kunci : NBL, Metode KNN, Judul Otomatis, Ngram
Penerapan Algoritma Genetik Dua Populasi Pada Kasus Transportasi Dua Tahap (Pada Studi Kasus Distribusi Susu Fermentasi Pada Perusahaan XYZ di Pulau Jawa) Kusuma Ari Prabowo; Achmad Ridok; Nurul Hidayat
Jurnal POINTER Vol 2, No 2 (2011): Jurnal Pointer - Ilmu Komputer
Publisher : Ilmu Komputer, Universitas Brawijaya

Show Abstract | Download Original | Original Source | Check in Google Scholar

Abstract

ABSTRAK Algoritma genetik adalah suatu metode algoritma optimalisasi dan pencarian yang didasarkan pada prinsip genetika dan seleksi natural (Haupt. 2004). Pada penelitian ini, akan dibangun sebuah aplikasi optimasi pencarian rute pada transportasi dua tahap yang diterapkan pada studi kasus distribusi produk susu fermentasi pada perusahaan XYZ menggunakan algoritma genetik dua populasi. Algoritma genetik dua populasi, adalah suatu algoritma genetik yang membentuk dua populasi sebagai populasinya. Populasi tersebut dibagi dalam populasi elit dan umum, dimana individu yang terdapat pada populasi elit adalah suatu individu dengan nilai fitness tertinggi dan individu pada populasi umum dengan nilai fitness yang lebih rendah (Martikainen dan Ovaska, 2006). Seperti pada proses genetika, algoritma genetik memiliki operator genetik yang digunakan dalam proses regenetik.  Pada penelitian ini digunakan metode roulette wheel pada proses select parent nya, metode weight mapping cross over (WMX) untuk  proses cross over, dan swap mutation untuk proses mutasinya. Untuk mengukur sejauh mana pengaruh populasi elit terhadap fitness yang dihasilkan dilakukan uji perbandingan rata-rata hasil fitness pada 10 kali percobaan antara algoritma dua populasi dengan algoritma berpopulasi tunggal. Hasil ujicoba dan evaluasi menunjukkan bahwa metode algoritma genetik dengan dua populasi menghasilkan fitness 12 % lebih baik dari metode algoritma genetik berpopulasi tunggal.   ABSTRACT Genetic algorithm is an optimization method and search algorithms that are based on the principles of genetics and natural selection (Haupt. 2004). In this research we built a search optimization applications in the transportation routes applicable to the two-stage case study of the distribution of fermented milk products at XYZ company uses genetic algorithms two-populations. Two-population genetic algorithm, is a genetic algorithm that forms two populations as a population. The population is divided into elite and the general population, where individuals contained in the elite population is an individual with highest fitness value and individuals in the general population with lower fitness value (Martikainen and Ovaska, 2006). As in the genetic processes, genetic algorithms have the genetic operators used in the re-genetic  process. In this research, we use roulette wheel method for select parent process and weight mapping crossover (WMX) method for cross over process, then for mutation process we use swap mutation method. To measure the extent of the influence of the elite population of the fitness test yielded an average ratio of fitness results from 10 trials between two populations algorithm with single population algorithm. Testing and evaluation results show that the genetic algorithm method with two populations yield 12% better fitness than the single population genetic algorithm method.   Kata kunci : Algoritma genetic, genetic algorithm, dua populasi, two population, transportasi dua tahap, two step transportation.