Penelitian ini bertujuan untuk menganalisis sentimen penggunaan aplikasi Mypertamina dalam pembelian bahan bakar minyak (BBM) bersubsidi menggunakan algoritma Naive Bayes. Penelitian ini melibatkan tahap pre-processing data, seperti full preprocessing dan penghilangan stopword, serta pengujian akurasi dengan variasi pembagian data latih dan data uji. Hasil penelitian menunjukkan bahwa dengan melakukan full preprocessing pada data dan menggunakan 70 persen data latih, model klasifikasi mencapai akurasi sebesar 85%. Penggunaan 80 persen data latih meningkatkan akurasi menjadi 87 persen, sedangkan penggunaan 90 persen data latih menghasilkan akurasi sebesar 89 persen. Hal ini menunjukkan bahwa semakin banyak data latih yang digunakan, semakin baik performa model klasifikasi. Penghilangan stopword juga berdampak signifikan terhadap akurasi model. Tanpa penghilangan stopword, akurasi model dengan pembagian data 70 persen, 80 persen, dan 90 persen adalah 80 persen, 82 persen, dan 84 persen secara berturut-turut. Meskipun akurasi lebih rendah dibandingkan dengan full preprocessing, model tetap memberikan prediksi yang cukup baik. Berdasarkan hasil pengujian tersebut, dapat disimpulkan bahwa penerapan full preprocessing dengan lebih banyak data latih cenderung menghasilkan kinerja model yang lebih baik. Namun, penghilangan stopword juga memberikan kontribusi signifikan dalam meningkatkan akurasi. Oleh karena itu, dalam pengembangan model klasifikasi teks, pre-processing yang komprehensif dan penghilangan stopword yang tepat perlu dipertimbangkan sesuai dengan karakteristik data dan kebutuhan analisis. Dalam pengujian klasifikasi menggunakan metode Naïve Bayes Classifier, pembagian data latih dan data uji juga berpengaruh. Penggunaan 70 persen data latih menghasilkan akurasi 85 persen, sedangkan penggunaan 80 persen dan 90 persen data latih menghasilkan akurasi 87 persen dan 89 persen secara berturut-turut. Semakin banyak data latih yang digunakan, semakin baik performa model klasifikasi Naïve Bayes Classifier. Dalam kesimpulan akhir, proporsi 90% data latih memberikan performa terbaik dalam mengklasifikasikan data uji dengan akurasi tertinggi. Namun, penggunaan data uji yang lebih kecil dapat menyebabkan variasi hasil yang lebih tinggi. Oleh karena itu, metode validasi silang atau pengujian dengan lebih banyak fold dapat memberikan informasi yang lebih komprehensif tentang performa model klasifikasi.