Impor di Indonesia dilakukan untuk memenuhi kebutuhan dalam negeri dan memastikan kelancaran produksi serta distribusi. Namun sering terjadi under invoicing, yaitu harga barang yang diimpor dilaporkan lebih rendah dari nilai sebenarnya, yang mengakibatkan kerugian penerimaan negara. Penelitian ini bertujuan untuk memprediksi harga barang impor yang sebenarnya guna mengurangi kerugian tersebut. Data yang digunakan diperoleh dari dataset barang impor yang tersedia di platform Kaggle, yang disediakan oleh Data Analytics Community (Mof-DAC) dari Kementerian Keuangan Indonesia. Metode yang diusulkan meliputi beberapa langkah, dimulai dengan ekstraksi fitur menggunakan Large Language Model (LLM) dan Regular Expression (Regex), diikuti oleh optimasi hyperparameter XGBoost menggunakan Particle Swarm Optimization (PSO). Hasil penelitian menunjukkan bahwa model dengan ekstraksi fitur menggunakan metode Regex mengungguli LLM berdasarkan nilai Mean Squared Error (MSE), Root Mean Squared Error (RMSE), dan Mean Absolute Percentage Error (MAPE). Kombinasi ekstraksi fitur menggunakan Regex dan TFIDF memberikan hasil yang optimal dalam hal waktu pemrosesan dan akurasi prediksi. Hyperparameter terbaik untuk XGBoost ditemukan dengan max-depth 51,49, subsample 0,89, dan min_child_weight 0,65, yang meningkatkan akurasi MAPE menjadi 14,6%. Meskipun model Random Forest memiliki akurasi prediksi sedikit lebih baik dengan MAPE sebesar 12,8%, namun waktu pemrosesannya sangat lama sekitar 3 jam membuatnya kurang efisien. Sebaliknya, XGBoost dengan waktu pemrosesan hanya 51,49 detik dan MAPE 14,6% dipilih sebagai model terbaik karena akurasi yang cukup baik dengan waktu komputasi yang cepat.   Abstact Imports in Indonesia fulfill domestic needs and sustain manufacturing and distribution. Under invoicing, where imported products are purposely underpriced, reduces state revenue. This study predicts imported goods prices to reduce financial losses. The Data Analytics Community (Mof-DAC) of the Indonesian Ministry of Finance provided the Kaggle imported products dataset. The Large Language Model (LLM) and Regular Expression are used to extract features in the suggested method. XGBoost hyperparameters are then optimized using Particle Swarm Optimization. Research shows that the Regex-extracted feature model outperforms the LLM model in MSE, RMSE, and MAPE. Regex feature extraction and TFIDF produce the best processing time and prediction accuracy. The ideal XGBoost hyperparameters were a maximum depth of 51.49, a subsample value of 0.89, and a minimum child weight of 0.65. These hyperparameters increased MAPE accuracy to 14.6%. The Random Forest model has a Better Prediction Accuracy (MAPE) of 12.8%, but its processing time is 3 hours, lowering its efficiency. XGBoost was chosen as the best model due to its 51.49-second processing time and 14.6% MAPE. High accuracy and efficient computing make this model effective.