Skip to content

Proctor: A Protective URL Detector

Halaman utama

Aplikasi berbasis web untuk mendeteksi website phising menggunakan algoritma Deep Learning. Pengembangan dari Proctor 2022.

Phishing merupakan serangan untuk mendapatkan informasi kredensial seseorang, salah satunya dilakukan dengan membuat website palsu. Laporan Anti-Phishing Working Group (APWG) menyebutkan adanya kenaikan empat kali lipat serangan phishing sejak tahun 2020, serangan pada kuartal 2 tahun 2022 merupakan serangan dengan catatan terburuk. Badan Siber dan Sandi Negara melalui Pusat Pengkajian dan Pengembangan Teknologi Keamanan Siber dan Sandi melakukan kajian deteksi phishing yang masih berfokus berdasarkan Uniform Resource Locator (URL). Pada penelitian serupa yang telah dilakukan, metode deteksi phishing dapat dilakukan berdasarkan URL, dokumen HTML, gambar hasil tangkapan layar website, maupun gabungan dari metode tersebut. Penelitian lain juga menyatakan bahwa penggabungan fitur teks dan gambar dapat meningkatkan performa model. Penelitian ini melakukan penggabungan fitur teks dan gambar pada algoritma deep learning sebagai validasi bahwa penambahan gambar mampu meningkatkan performa model dalam memprediksi phishing serta melakukan evaluasi terhadap dataset baru yang dikumpulkan. Vectorization dan feature extraction dilakukan untuk mengolah URL dengan LSTM dan GRU, character dan word embedding untuk megolah dokumen HTML dengan CNN, dan transfer learning InceptionV3 untuk mengolah gambar. Hasil penelitian ini menghasilkan bahwa gabungan fitur URL dan gambar mencapai akurasi 98.4% yang belum mengungguli fitur URL saja dengan akurasi 98.8%, serta gabungan fitur dokumen HTML dan gambar mencapai akurasi 92.5% yang belum mengungguli fitur dokumen HTML saja dengan akurasi 92.7%. Dataset baru pada penelitian ini mampu meningkatkan nilai akurasi dan ROC-AUC dibandingkan penelitian sebelumnya. Model yang dihasilkan diimplementasikan kedalam bentuk aplikasi berbasis website yang dibangun dengan framework flask dan memenuhi semua kriteria pada skema black-box testing.

Judul penelitian

Implementasi Deep Learning Menggunakan Kombinasi Fitur Teks dan Gambar untuk Mendeteksi Website Phishing.

Implementasi

Data penelitian yang digunakan untuk modeling pada penelitian ini terbagi dalam dua sumber. Sumber data tersebut didapatkan dari lokus Puskajibang Tekkamsisan BSSN dan sumber terbuka dari penelitian milik E. S. Aung et al. Data yang digunakan merupakan sampel URL website legitimate dan URL website phishing. Data dari dua sumber yang diperoleh kemudian diolah untuk dijadikan satu. Data URL akan disaring untuk mendapatkan URL yang masih aktif saja berdasarkan request dari server dan client pada jaringan website. Pemilahan URL yang masih aktif dilakukan dengan memanfaatkan library urllib. Penggunaan library Selenium Webdriver dilakukan untuk mendapatkan dokumen HTML hasil inspect halaman website serta gambar tangkapan layar halaman website. URL yang tidak aktif atau tidak dapat mendapatkan dokumen HTML serta gambar tangkapan layar halaman website tidak akan dimasukkan ke dalam dataset.

Model akan diimplementasikan melalui website dengan framework Flask. Flask merupakan framework dalam membangun aplikasi website yang disusun menggunakan bahasa pemrograman python. Pemilihan framework Flask bertujuan untuk mempermudah deteksi URL karena model yang telah disusun juga dibuat menggunakan bahasa pemrograman python. Implementasi berbasis web akan dilakukan perancangan sistem dengan alur kerja sebagai berikut.

Skema sistem

Evaluasi model yang dilakukan dengan membandingkan model pada penelitian milik Opera C et al dan tiga buah model yang dibangun pada penelitian ini dengan rincian sebagai berikut:

Evaluasi

Gambaran umum aplikasi ditunjukkan pada gambar di bawah ini:

Gambaran umum

Tangkapan Layar

  1. Halaman Prediksi Terindikasi Aman Oleh Virustotal
    Benign URL

  2. Halaman Prediksi oleh Model dengan Nilai Probabilitas
    Prediksi

  3. Halaman Riwayat prediksi
    Riwayat

Peneliti

  • Olga Geby Nabila

Supervisor

  • Ray Novita Yasa
  • Girinoto
  • Herman Kabetta

Publikasi

O. G. Nabila, H. R. Wicaksono, Girinoto, R. N. Yasa and H. Setiawan, "Benchmarking Model URL Features and Image Based for Phishing URL Detection," 2023 International Conference on Informatics, Multimedia, Cyber and Informations System (ICIMCIS), Jakarta Selatan, Indonesia, 2023, pp. 177-182, doi: 10.1109/ICIMCIS60089.2023.10349059.