The Directorate General of Taxes (DGT) faces challenges in managing and utilizing external data on the internet, such as news from online news portals to explore the potential of Taxpayers' taxes. This study produces an information system that automatically classifies news titles, based on their relevance to tax potential using machine learning algorithms. The algorithm chosen for this study is the CRISP-DM technique, which includes understanding business processes, collecting and exploring news data, text processing, and developing classification models using the BERT and distilBERT models. The results of the model evaluation matrix test show that the distilBERT model obtained an accuracy of 0.8763, precision 0.8776, Recall 0.8763, and F1-Score 0.8768. While the results for the confusion matrix obtained the highest accuracy, recall, precision, and F1-Score values with a value of 0.78. It is concluded that this model is the best, with balanced performance and higher metrics especially for the "Potential" class. The information system built is web-based by implementing the waterfall method, and using Python software.Keywords: Information System; Machine learning Algorithms; News Classification; Tax Potential Analysis; Directorate General of Taxes. AbstrakDirektorat Jenderal Pajak (DJP) menghadapi tantangan dalam pengelolaan, dan pemanfaatan data eksternal yang ada di internet, seperti berita dari portal berita daring untuk penggalian potensi pajak Wajib Pajak. Penelitian ini menghasilkan sistem informasi yang secara otomatis mengklasifikasikan judul berita, berdasarkan relevansinya dengan potensi pajak menggunakan algoritma machine learning. Algoritma yang dipilih untuk penelitian ini adalah teknik CRISP-DM, yang meliputi pemahaman proses bisnis, pengumpulan dan eksplorasi data berita, pemrosesan teks, dan pengembangan model klasifikasi menggunakan model BERT dan distilBERT. Hasil pengujian matriks evaluasi model menunjukan model distilBERT didapat hasil accuracy 0,8763, precision 0,8776, Recall 0,8763, dan F1-Score 0,8768. Sedangkan hasil untuk confusion matrix didapat nilai accuracy, recall, precision, dan F1-Score tertinggi dengan nilai 0.78. Disimpulkan bahwa model ini adalah yang terbaik, dengan performa yang seimbang dan metrik yang lebih tinggi terutama untuk kelas "Potensi". Sistem informasi yang dibangun berbasis web dengan menerapkan metode waterfall, dan menggunakan software Python. Â