Skip to content

PDFalse: A Malware Detection Tool for PDF Files

Halaman utama

Aplikasi berbasis desktop untuk mendeteksi adanya malware pada dokumen PDF menggunakan algoritma Machine Learning.

Dalam era digital saat ini, tantangan dalam mengklasifikasikan malware, khususnya yang disematkan dalam berkas PDF semakin meningkat. Berkas PDF telah menjadi standar dalam pertukaran informasi digital, membuatnya menjadi target utama bagi para peretas untuk menyebarkan malware. Salah satu jenis malware yang paling sulit untuk dideteksi adalah evasive malicious PDF. Malware jenis ini dirancang sedemikian rupa sehingga menyerupai aplikasi yang tidak berbahaya, sehingga dapat lolos dari deteksi oleh sistem keamanan konvensional. Meski permasalahan ini semakin serius, penelitian tentang evasive malicious PDF masih sangat terbatas. Kondisi ini menunjukkan bahwa ada celah pengetahuan yang signifikan yang perlu diisi untuk meningkatkan keamanan informasi digital. Penelitian ini bertujuan untuk mengeksplorasi dan menentukan model pengklasifikasi terbaik untuk evasive malicious PDF. Penelitian ini membandingkan berbagai model machine learning dan deep learning dengan berbagai usaha hyperparameter tuning, dengan tujuan menemukan pendekatan yang paling efektif dalam mendeteksi dan mengklasifikasikan evasive malicious PDF. Algoritma machine learning yang diujikan pada penelitian ini salah satunya adalah Deep Learning, Gradient Boost, MLP, dan XGBoost. Didapatkan hasil yang sangat signifikan dari algoritma gradient boost dengan nilai F1-score sebesar 99.67% dan akurasi sebesar 99.62%. Selanjutnya, model terbaik yang terpilih akan diimplementasikan ke dalam sebuah aplikasi berbasis windows yang dapat mengidentifikasi PDF evasive malware dengan nama PDFalse.

Judul penelitian

PDFalse : Aplikasi Deteksi Evasive Malicious Portable Document Format Berbasis Machine Learning.

Implementasi

Aplikasi PDFalse ini adalah perantara antara pengguna yang akan membaca berkas PDF dan aplikasi PDF reader. Sebelum berkas dibaca oleh aplikasi PDF reader, diharapkan aplikasi ini dapat melakukan prediksi terlebih dahulu sehingga pengguna mengetahui apakah berkas tersebut bersifat malicious atau aman. Pembangunan PDFalse dibagi menjadi dua bagian, menggunakan python framework dan .NET framework. Python framework digunakan untuk membangun fungsi feature extractor dan model, sedangkan .NET framework digunakan untuk membangun tampilan antarmuka pada aplikasi berbasis desktop. Proses kerja dari aplikasi ini telah digambarkan pada gambar di bawah ini.

Skema sistem

Rancangan berupa diagram sequence dapat dilihat pada gambar di bawah ini.

Sequence diagram

Algoritma terbaik dalam mengklasifikasikan evasive malicious PDF pada penelitian ini adalah gradient boosting dengan nilai F1-score sebesar 99.67% dan akurasi sebesar 99.62%. Berdasarkan penelitian yang telah dilakukan, jenis hyperparameter tuning yang dilakukan pada model terbaik gradient boosting adalah penyesuaian terhadap parameter n_estimator dengan nilai 0.25, learning_rate dengan nilai 200 dan max_depth dengan nilai 3.Hasil implementasi dan pengujian menunjukan bahwa model terbaik dari proses model training yakni gradient boosting, dapat diimplementasikan pada aplikasi berbasis desktop dengan menggunakan framework .NET sebagai antar muka, dan python sebagai feature extractor dan model prediction.

Tangkapan Layar

  1. Tampilan apabila malware terdeteksi di dokumen PDF
    Malware terdeteksi

  2. Tampilan apabila PDF tidak mengandung malware
    Benign PDF

Peneliti

  • Gusti Agung Ngurah Gde Kaba Teguh Darmawangsa

Supervisor

  • Girinoto
  • Nurul Qomariasih
  • Hermawan Setiawan

Publikasi

A. N. G. K. T. D. Gusti and Girinoto, "PDFalse: Evasive Malicious PDF Machine Learning Classifier," 2023 IEEE International Conference on Cryptography, Informatics, and Cybersecurity (ICoCICs), Bogor, Indonesia, 2023, pp. 9-14, doi: 10.1109/ICoCICs58778.2023.10277336.