Articles
Deteksi Bot Spammer pada Twitter Berbasis Sentiment Analysis dan Time Interval Entropy
Aditya, Christian Sri Kusuma;
Hani’ah, Mamluatul;
Fitrawan, Alif Akbar;
Arifin, Agus Zainal;
Purwitasari, Diana
Jurnal Buana Informatika Vol 7, No 3 (2016): Jurnal Buana Informatika Volume 7 Nomor 3 Juli 2016
Publisher : Universitas Atma Jaya Yogyakarta
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (456.068 KB)
|
DOI: 10.24002/jbi.v7i3.656
Abstract. Spam is an abuse of messaging undesired by recipients. Those who send spam are called spammers. Popularity of Twitter has attracted spammers to use it as a means to disseminate spam messages. The spams are characterized by a neutral emotional sentiment or no particular users’ preference perspective. In addition, the regularity of tweeting behavior periodically shows automation performed by bot. This study proposes a new method to differentiate between bot spammer and legitimate user accounts by integrating the sentiment analysis (SA) based on emotions and time interval entropy (TIE). The combination of knowledge-based and machine learning-based were used to classify tweets with positive, negative and neutral sentiments. Furthermore, the collection of timestamp is used to calculate the time interval entropy of each account. The results show that the precision and recall of the proposed method reach up to 83% and 91%. This proves that the merging SA and TIE can optimize overall system performance in detecting Bot Spammer.Keywords: bot spammer, twitter, sentiment analysis, polarity, entropy Abstrak. Spam merupakan penyalahgunaan pengiriman pesan tanpa dikehendaki oleh penerimanya, orang yang mengirimkan spam disebut spammer. Ketenaran Twitter mengundang spammer untuk menggunakannya sebagai sarana menyebarluaskan pesan spam. Karakteristik dari tweet yang dikategorikan spam memiliki sentimen emosi netral atau tidak ada preferensi tertentu terhadap suatu perspektif dari user yang memposting tweet. Selain itu keteraturan waktu perilaku saat memposting tweet secara periodik menunjukkan otomatisasi yang dilakukan bot. Pada penelitian ini diusulkan metode baru untuk mendeteksi antara bot spammer dan legitimate user dengan mengintegrasikan sentimen analysis berdasarkan emosi dan time interval entropy. Pendekatan gabungan knowledge-based dan machine learning-based digunakan untuk mengklasifikasi tweet yang memiliki sentimen positif, negatif dan tweet netral. Selanjutnya kumpulan timestamp digunakan untuk menghitung time interval entropy dari tiap akun. Hasil percobaan menunjukan bahwa precision dan recall dari metode yang diusulkan mencapai 83% dan 91%. Hal ini membuktikan penggabungan Sentiment Analysis (SA) dan Time Interval Entropy (TIE) dapat mengoptimalkan performa sistem secara keseluruhan dalam mendeteksi Bot Spammer.Kata Kunci: bot spammer, twitter, sentiment analysis, polarity, entropy
Peringkasan Dokumen Berbahasa Inggris Menggunakan Sebaran Local Sentence
Wahib, Aminul;
Arifin, Agus Zainal;
Purwitasari, Diana
Jurnal Buana Informatika Vol 7, No 1 (2016): Jurnal Buana Informatika Volume 7 Nomor 1 Januari 2016
Publisher : Universitas Atma Jaya Yogyakarta
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (353.749 KB)
|
DOI: 10.24002/jbi.v7i1.482
Abstract. The number of digital documents grows very rapidly causing time waste in searching and reading the information. To overcome these problems, many document summary methods are developed to find important or key sentences from the source document. This study proposes a new strategy in summarizing English document by using local sentence distribution method to find and dig up hidden important sentence from the source document in an effort to improve quality of the summaries. Experiments are conducted on dataset DUC 2004 task 2. Measurement ROUGE-1 and ROUGE-2 are employed as a performance evaluation of the proposed method with sentence information density and sentence cluster keyword (SIDeKiCK). The experiment shows that the proposed method has better performance with an average achievement ROUGE-1 0.398, an increase of 1.5% compared to SIDeKiCK method and ROUGE-2 0.12, an increase 13% compared to SIDeKiCK method.Keywords: Summarize Document, Important Sentences, Distribution of Local Sentence, ROUGE. Abstrak. Jumlah dokumen digital yang berkembang sangat pesat menyebabkan banyaknya waktu terbuang dalam mencari dan membaca informasi. Untuk mengatasi permasalahan tersebut banyak dikembangkan metode peringkasan dokumen yang diharapkan mampu menemukan kalimat-kalimat penting dari dokumen sumber. Penelitian ini mengajukan strategi baru peringkasan dokumen berbahasa inggris menggunakan metode sebaran local sentence untuk mencari dan menggali kalimat penting yang tersembunyi dalam dokumen sumber sebagai upaya untuk meningkatkan kualitas hasil ringkasan. Uji coba dilakukan terhadap dataset task 2 DUC 2004. Pengukuran ROUGE-1 dan ROUGE-2 digunakan sebagai evaluasi performa metode yang diusulkan dengan metode lain yaitu metode sentence information density dan kata kunci cluster kalimat (SIDeKiCK). Hasil ujicoba didapatkan bahwa metode yang diusulkan memiliki performa lebih baik dengan capaian rata-rata ROUGE-1 0,398, meningkat 1,5% dibanding metode SIDeKiCK dan ROUGE-2 0,12 meningkat 13% dibanding metode SIDeKiCK.Kata Kunci: Peringkasan Dokumen, Kalimat Penting, Sebaran Local Sentence, ROUGE.
HIERARCHICAL MULTI-VIEWPOINT SELF ORGANIZING MAP PADA PENGELOMPOKAN PENGGUNA UNTUK MENGETAHUI PROFIL UNDUH DI LINGKUNGAN KAMPUS
Putri, Tesa Eranti;
Fatichah, Chastine;
Purwitasari, Diana
SCAN - Jurnal Teknologi Informasi dan Komunikasi Vol 9, No 3 (2014)
Publisher : Universitas Pembangunan Nasional "Veteran" Jawa Timur
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.33005/scan.v9i3.860
Abstrak. Fasilitas internet kampus terkadang disalahgunakan untuk mengunduh data yang tidakterkait akademis, sehingga mengganggu pengguna yang memerlukan internet untuk kepentinganakademis. Guna memonitor pengunduhan di kampus, diperlukan profil unduh. Profil dapat dibentukdari pengelompokan pengguna. Penelitian ini mengajukan pemodelan untuk pengelompokanpengguna berupa Self Organizing Map hierarchical multi-viewpoint. Pengelompokan dilakukanberdasarkan jumlah transaksinya, dilihat dari banyak viewpoint. Setiap viewpoint membentuk petatersendiri, disusun berjenjang (hierarchical), kemudian dilatih menggunakan gabungan fiturviewpoint sekarang dengan viewpoint di bawahnya. Pengujian dilakukan dengan analisis manualhasil pengelompokan. Dari pengujian, diperoleh fitur viewpoint yang memberikan gambaran profilunduh yang paling jelas dan lengkap adalah domain email.Kata kunci. profil unduh, pengelompokan pengguna, web usage mining, Self Organizing MapHierarchical Multi-viewpoint
Identifying Degree-of-Concern on COVID-19 topics with text classification of Twitters
Hasanah, Novrindah Alvi;
Suciati, Nanik;
Purwitasari, Diana
Register: Jurnal Ilmiah Teknologi Sistem Informasi Vol 7, No 1 (2021): January
Publisher : Information Systems - Universitas Pesantren Tinggi Darul Ulum
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.26594/register.v7i1.2234
The COVID-19 pandemic has various impacts on changing people’s behavior socially and individually. This study identifies the Degree-of-Concern topic of COVID-19 through citizen conversations on Twitter. It aims to help related parties make policies for developing appropriate emergency response strategies in dealing with changes in people’s behavior due to the pandemic. The object of research is 12,000 data from verified Twitter accounts in Surabaya. The varied nature of Twitter needs to be classified to address specific COVID-19 topics. The first stage of classification is to separate Twitter data into COVID-19 and non-COVID-19. The second stage is to classify the COVID-19 data into seven classes: warnings and suggestions, notification of information, donations, emotional support, seeking help, criticism, and hoaxes. Classification is carried out using a combination of word embedding (Word2Vec and fastText) and deep learning methods (CNN, RNN, and LSTM). The trial was carried out with three scenarios with different numbers of train data for each scenario. The classification results show the highest accuracy is 97.3% and 99.4% for the first and second stage classification obtained from the combination of fastText and LSTM. The results show that the classification of the COVID-19 topic can be used to identify Degree-of-Concern properly. The results of the Degree-of-Concern identification based on the classification can be used as a basis for related parties in making policies to formulate appropriate emergency response strategies in dealing with changes in public behavior due to a pandemic.
Deteksi User Berpengaruh Berdasarkan Kombinasi Fitur Popularitas User Dan Topik Monomorphism Pada Data Twitter untuk Promosi Produk
Wijoyo, Satrio Hadi;
Fatichah, Chastine;
Purwitasari, Diana
Inspiration: Jurnal Teknologi Informasi dan Komunikasi Vol 6, No 1 (2016): Jurnal Inspiration Volume 6 Issue 1
Publisher : STMIK AKBA
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.35585/inspir.v6i1.87
User berpengaruh merupakan sebuah user yang biasanya populer di twitter dengan ditandai memiliki banyak follower, isi tweet atau pendapatnya sering dikutip atau diikuti oleh akun lainnya dengan ditandai tweet yang sering di retweet, dan namanya sering disebut atau di-mention. Akan tetapi, ketertarikan tweet user berpengaruh tidak dapat dilihat hanya dari fitur retweet dan mention saja, melainkan dapat dilihat dari fitur topik monomorphism.Berdasarkan permasalahan tersebut, suatu metode diusulkan kombinasi fitur popularitas user dan topik monomorphism untuk mendeteksi user berpengaruh pada data twitter untuk promosi produk. Berdasarkan hasil ujicoba, nilai rata-rata akurasi algoritma fuzzy inference system dari produk Iphone sebesar 75,75%, produk Samsung sebesar 79,25%, dan produk Apple sebesar 74,5%. Hasil ini menunjukkan bahwa deteksi user berpengaruh berdasarkan kombinasi fitur popularitas user dan topik monomorphism menghasilkan keluaran cukup baik.
IMPLEMENTASI PURWARUPA WEB PORTAL BERBASIS ONTOLOGI UNTUK KOLABORASI MATERI DARI BEBERAPA SISTEM MOODLE
Umi Laili Yuhana;
Lailatul Hidayah;
Diana Purwitasari
Semantik Vol 1, No 1 (2011): Prosiding Semantik 2011
Publisher : Semantik
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (490.858 KB)
Pemanfaatan teknologi untuk kepentingan pendidikan bukan merupakan isu baru. Salah satunya yaitu Learning Management System(LMS). LMS ini telah banyak diterapkan di Indonesia. Selain sebagai manajemen perkuliahan, forum pengajar dan pelajar, LMS juga digunakan sebagai sumber referensi materi pembelajaran. Berbagai fasilitas dan kemudahan ditawarkan oleh LMS. Moodle, sebagai salah satu jenis LMS mempunyai penyimpanan materi kuliah yang dapat ditemukan oleh mesin pencari seperti Google. Hasil pencarian seringkali tidak dapat dibuka karena keterbatasan hak akses, hanya penggunayang terdaftar yang dapat membuka berkas yang diunggah dalam LMS perguruan tinggi. Pencarian yang ada di suatu LMS hanya dapat digunakan untuk menemukan koleksi materi yang ada di LMS tersebut, koleksi yang ada di LMS lain tersimpan secara terpisah dan dapat ditemukan di LMS yang lain. Untukmembaca materi yang ada di beberapa situs LMS, pengguna harus membuka semua situs LMS yang dimaksud. Melalui makalah ini, penulis memaparkan proses pembuatan aplikasi berbasis web yang dapat menyajikan materi dari beberapa sistem berbasis Moodle dengan bantuan web service. Dengan sistem ini, pengguna cukup mengunjungi satu situs ini untuk dapat mengakses materi-materi dalam beberapa situselearning. Materi tersebut dikelompokkan berdasarkan standar klasifikasi tertentu agar memberi kemudahan kepadapengguna dalam pencarian. Sistem kolaborasi memanfaatkan plug-in web service dari Moodle yaitu OKTech Web Service Untuk uji coba digunakan standar klasifikasi dalam domain rekayasa perangkat lunak yaitu Software Engineering Body of Knowledge (SWEBOK). Mesin pencariannya dirancang dengan model sistem pencarian berbasis konteks dengan bantuan ontologi. Uji coba dilakukan dengan tiga server e-learning berbasis Moodle di lingkungan intranet Teknik Informatika, Institut Teknologi Sepuluh Nopember. Sistem yang diberi nama eduPortal ini telah dapat mengambil data dari beberapa e-learning dengan menggunakan teknologi web service sehingga dengan sistem ini seorang pengguna akan dapat melihat materi dari beberapa e-learning. Dengan ontologi, aplikasi ini terbukti dapat memodelkan manajemen dokumen sesuai dengan SWEBOK dan mewujudkan sistem pencarian berbasis konteks.Kata kunci: Kolaborasi Moodle, Web Semantik, SWEBOK
PEMBELAJARAN BERTINGKAT PADA ARSITEKTUR JARINGAN SARAF FUNGSI RADIAL BASIS
Diana Purwitasari
Semantik Vol 1, No 1 (2011): Prosiding Semantik 2011
Publisher : Semantik
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (599.112 KB)
Jaringan  saraf  tiruan  (JST)  adalah  jaringan  yang  cara kerjanya  meniru  jaringan  saraf  manusia  ditandai dengan sebuah  set  masukan  dan  sebuah  set  keluaran.  Proses pembelajaran  dalam  jaringan  akan mengekstraksi informasi  dari  berbagai  macam  input  yang  diberikan. Diantara  masukan  dan  keluaran terdapat  layer  untuk memproses  input  yang  dinamakan unit  tersembunyi (hidden  layer).  Salah  satu  model JST  adalah  jaringan saraf  fungsi  radial  basis  (Radial  Basis  Function  Neural Network  =  RBFNN)  yaitu model jaringan saraf dengan satu unit dalam lapisan tersembunyi. Jumlah layer tunggal pada hidden layer menyebabkan  permasalahan  pembelajaran  di RBFNN  dapat  dianggap  sebagai  suatu  sistem  linear. Pada RBFNN  fungsi  aktivasi  yang  digunakan  adalah  fungsi basis  (Gaussian)  dengan  fungsi  linear  di  lapisan output. Dikarenakan  RBFNN  adalah  sistem  linear  sehingga  teknik Orthogonal  Least  Squares  (OLS)  yang menerapkan konsep  basis  orthogonal  dengan  pendekatan  terdekat  ke  solusi sebenarnya  dapat  menjadi salah satu algoritmapembelajaran pada RBFNN. Makalah ini membahas pembelajaran bertingkat sebagai cara  optimasi pembelajaran  pada  RBFNN  yang  menggabungkan  teknik  linear  yaitu Regularized Orthogonal  Least  Sqaures  (ROLS)  dan  non linear  yaitu  algoritma  genetik.  Hasil  ujicoba menunjukkan untuk  semua  data  dengan  persentase pembelajaran  dan  parameter  algoritma  genetik  yang berbeda-beda mempunyai akurasi yang bervariasi pula. Akan tetapi rata-rata hasil ujicoba menghasilkan akurasi di atas 90% dan bahkan untuk beberapa percobaan akurasi bisa mencapai 100%
PEMBELAJARAN BERTINGKAT PADA ARSITEKTUR JARINGAN SARAF FUNGSI RADIAL BASIS
Diana Purwitasari;
Glory Intani Pusposari;
Rully Sulaiman
Semantik Vol 1, No 1 (2011): Prosiding Semantik 2011
Publisher : Semantik
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
Full PDF (599.112 KB)
Jaringan saraf tiruan (JST) adalah jaringan yang cara kerjanya meniru jaringan saraf manusia ditandai dengan sebuah set masukan dan sebuah set keluaran. Proses pembelajaran dalam jaringan akan mengekstraksi informasi dari berbagai macam input yang diberikan. Diantara masukan dan keluaran terdapat layer untuk memproses input yang dinamakan unit tersembunyi (hidden layer). Salah satu model JST adalah jaringan saraf fungsi radial basis (Radial Basis Function Neural Network = RBFNN) yaitu model jaringan saraf dengan satu unit dalam lapisan tersembunyi. Jumlah layer tunggal pada hidden layermenyebabkan permasalahan pembelajaran di RBFNN dapat dianggap sebagai suatu sistem linear. Pada RBFNN fungsi aktivasi yang digunakan adalah fungsi basis (Gaussian) dengan fungsi linear di lapisan output. Dikarenakan RBFNN adalah sistem linear sehingga teknik Orthogonal Least Squares (OLS) yang menerapkan konsep basis orthogonal dengan pendekatan terdekat ke solusi sebenarnya dapat menjadi salah satu algoritma pembelajaran pada RBFNN. Makalah ini membahas pembelajaran bertingkat sebagai cara optimasi pembelajaran pada RBFNN yang menggabungkan teknik linear yaitu Regularized Orthogonal Least Sqaures (ROLS) dan non linear yaitu algoritma genetik. Hasil ujicoba menunjukkan untuk semua data dengan persentase pembelajaran dan parameter algoritma genetik yang berbeda-beda mempunyai akurasi yang bervariasi pula. Akan tetapi rata-rata hasil ujicoba menghasilkan akurasi diatas 90% dan bahkan untuk beberapa percobaan akurasi bisa mencapai 100%.Kata kunci : jaringan saraf fungsi radial basis, optimasi pembelajaran, regularized orthogonal least sqaures,algoritma genetik
Prediksi Akumulasi Kasus Terkonfirmasi Covid-19 Di Indonesia Menggunakan Support Vector Regression
Agus Budi Raharjo;
Zahrul Zizki Dinanto;
Dwi Sunaryono;
Diana Purwitasari
Techno.Com Vol 20, No 3 (2021): Agustus 2021
Publisher : LPPM Universitas Dian Nuswantoro
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.33633/tc.v20i3.5062
Indonesia merupakan salah satu negara di dunia yang terdampak parah oleh gelombang kedua COVID-19. Salah satu cara untuk meningkatkan kesadaran masyarakat terhadap wabah penyebaran virus adalah dengan memberikan informasi tentang prediksi kasus baru. Memprediksi akumulasi kasus dalam beberapa hari ke depan juga sangat penting untuk memperkirakan kebutuhan rumah sakit dan membantu pemerintah dalam membuat kebijakan. Di sisi lain, pola kasus gelombang kedua sulit untuk disimulasikan dengan pendekatan regresi tradisional. Penelitian ini berfokus pada pembuatan sistem informasi yang memberikan visualisasi prediksi akumulasi kasus COVID-19 di Indonesia dengan menggunakan Support Vector Regression (SVR). Algoritma pembelajaran ini dipilih karena kinerjanya yang sangat baik untuk menangani prediksi deret waktu. Hasil eksperimen menunjukkan bahwa SVR dapat memprediksi jumlah akumulasi kasus selama 30 hari ke depan dengan akurasi di atas 80%. Model prediksi tersebut kemudian dipasang pada aplikasi berbasis web, dan hasilnya divisualisasikan sesuai dengan data terbaru.
Ekstraksi Fitur Produktivitas Dinamis berdasarkan Topik Artikel Ilmiah untuk Klasterisasi Peneliti
Addien Haniefardy;
Diana Purwitasari;
Chastine Fatichah
Techno.Com Vol 20, No 2 (2021): Mei 2021
Publisher : LPPM Universitas Dian Nuswantoro
Show Abstract
|
Download Original
|
Original Source
|
Check in Google Scholar
|
DOI: 10.33633/tc.v20i2.4512
Pengelompokkan peneliti seringkali menggunakan informasi tekstual yang terdapat pada artikel ilmiah peneliti, contohnya judul, abstrak, dan kata kunci sehingga menghasilkan kelompok peneliti dengan kemiripan informasi tekstual pada artikel ilmiah mereka. Pengelompokkan peneliti juga seringkali menggunakan jumlah publikasi dan sitasi sehingga menghasilkan kelompok peneliti yang memiliki jumlah publikasi dan sitasi yang cenderung sama. Berdasarkaan kedua metode di atas, penelitian ini mencoba untuk menganalisis penggunaan topik artikel ilmiah pada proses ekstraksi fitur produktivitas. Fitur ini merupakan fitur yang didapatkan melalui penghitungan kinerja peneliti berdasarkan jumlah publikasi dan sitasi. Hasil ekstraksi fitur akan digunakan untuk klasterisasi peneliti menggunakan metode K-Means++. Sebelum data peneliti diklasterisasi, terlebih dahulu data peneliti dianalisis untuk menghilangkan kemungkinan adanya outlier. Evaluasi hasil klaster dilakukan dengan mempertimbangkan nilai Sum Squared Error dan Silhouette. Hasilnya, klaster optimal didapatkan dengan nilai K sama dengan 8 dan nilai silhouette sama dengan 0.15396. Kemudian, hasil klaster dianalisis untuk dapat memberikan label terhadap masing-masing klaster dengan mempertimbangkan topik artikel ilmiah, jumlah publikasi dan jumlah sitasi.