Skip to content

Sentiment Analysis of Public-opinion

Cover

Analisis sentimen opini publik terhadap layanan BSSN dengan menggunakan model BERT beserta implementasinya menjadi sebuah aplikasi yang dikembangkan dengan bahasa pemrograman Python.

Badan Siber dan Sandi Negara atau BSSN merupakan merupakan instansi pelayanan siber dan sandi di Indonesia yang memiliki tanggung jawab meliputi keamanan di bidang siber dan persandian. Adapun layanan yang diberikan BSSN beberapa diantaranya layanan kerjasama sertifikat elektronik, Aplikasi Password Manager Satria dan Aplikasi BeSign. Untuk mengetahui opini publik sekaligus sebagai timbal balik dari masyarakat terkait layanan BSSN, penelitian ini telah dilakukan analisis sentimen pada media sosial twitter. Teks yang diunggah pada media sosial twitter tidak memiliki aturan khusus dalam penulisannya sehingga menimbulkan ragam variasi bahasa tidak baku (slangword) sehingga pada penelitian ini akan menerapkan penanganan slangword pada teks sebelum diproses dalam pemodelan. Digunakan dua buah model analisis sentimen yang dapat menangani analisis teks berbahasa Indonesia, yakni BERT Multilingual Model dan IndoBERT Model. Kedua model tersebut dibandingkan dan hasilnya IndoBERT Model lebih baik dibandingkan dengan BERT Multilingual Model. Model terbaik IndoBERT Model memiliki akurasi sebesar 0,70 yang kemudian model ini diimplementasikan dalam bentuk dashboard menggunakan framework Flask Python.

Judul penelitian

Analisis Sentimen Opini Publik terhadap Layanan BSSN dengan Menggunakan BERT Model.

Implementasi

Pengambilan data dilakukan dengan proses khusus menggunakan Twitter Application Programming Interface (API) dan library Python google play scrapper. Data yang digunakan dalam penelitian ini berupa komentar masyarakat pada media sosial twitter yang berkaitan dengan BSSN. Selain itu juga menggunakan data ulasan pada google play store yang dikhususkan untuk Aplikasi Satria. Data-data tersebut berbahasa Indonesia.

Data komentar pada Twitter diambil setiap 1-2 minggu sekali dalam rentang waktu bulan November 2021 sampai dengan Januari 2022. Hal ini dikarenakan keterbatasan pengambilan data yang diterapkan oleh Twitter API. Dengan melakukan pengambilan data dalam kurun waktu yang cukup lama, data yang didapatkan akan lebih banyak dan data yang diolah pun akan lebih bervariasi. Sedangkan untuk pengambilan data ulasan Aplikasi Satria hanya dilakukan satu kali. Hal ini karena tidak ada batasan waktu untuk pengambilan data pada google play store. Selain itu, Aplikasi Satria yang rilis pada tanggal 2 November 2021 dan Aplikasi BeSign yang rilis pada tanggal 23 November 2021 menjadikan pengambilan data dimulai pada bulan November.

Berdasarkan crawling dan pengolahan data, diperoleh kata yang sering muncul adalah yang berkaitan dengan layanan BSSN, peretasan situs BSSN, dan kebijakan yang dilaksanakan BSSN. Hal yang berkaitan dengan layanan BSSN berupa adanya kata “aplikasi” yang ditujukan untuk layanan Aplikasi Satria dan BeSign BSrE. Hal yang berkaitan dengan peretasan situs BSSN dinyatakan pada kata “bocor”. Kata tersebut mengacu pada situs website Pusat Malware Nasional (Pusmanas) yang diretas oleh hacker pada saat kurun waktu pengambilan data. Hal yang berkaitan dengan kebijakan yang dilaksanakan BSSN diantaranya ditunjukkan pada kata “kolam”, “renang”, “pakai” dan “m”. Kata-kata tersebut mengacu pada pembangunan kolam renang yang direncanakan dilaksanakan di Kantor BSSN Sentul dengan anggaran miliaran.

Data kemudian dilakukan pemodelan analisis sentimen menggunakan BERT-Base Multilingual Model dan IndoBERT Model serta hasil analisis sentimen Berdasarkan hasil perhitungan, dapat diketahui bahwa terdapat perbedaan akurasi secara signifikan antara kedua model, dengan IndoBERT-base Model lebih baik dibandingkan dengan BERT-base Multilingual Model. Hal ini didasarkan pada penentuan hipotesis, dimana nilai akurasi IndoBERT-base model dikurangi dengan nilai akurasi BERT-base Multilingual Model. Sehingga jika dihasilkan nilai 𝑡ℎ𝑖𝑡𝑢𝑛𝑔 positif, maka akurasi IndoBERT-base Model lebih besar sehingga model tersebut lebih baik. Sedangkan jika dihasilkan nilai 𝑡ℎ𝑖𝑡𝑢𝑛𝑔 negatif, maka akurasi BERT- base Multilingual Model lebih besar sehingga lebih baik. Pada hasil perhitungan 𝑡ℎ𝑖𝑡𝑢𝑛𝑔, nilai yang didapatkan positif, dapat disimpulkan jika IndoBERT-base Model memiliki nilai akurasi yang lebih besar, sehingga lebih baik dibandingkan BERT-base Multilingual Model.

Dengan selang kepercayaan sebesar 95%, confidence interval antara BERT-base Multilingual Model dan IndoBERT-base Model tanpa menerapkan slangword handling berkisar antara 0,074 hingga 0,115. Sedangkan confidence interval antara BERT-base Multilingual Model dan IndoBERT-base Model dengan menerapkan slangword handling berkisar antara 0,051 hingga 0,077.

Setelah model diperoleh, kemudian dilakukan implementasi program untuk analisis sentiment. Implementasi model dilakukan dalam bentuk dashboard menggunakan framework Flask. Flask adalah kerangka kerja (framework) aplikasi web yang ditulis dalam bahasa pemrograman Python. Penelitian ini menggunakan alat pendukung untuk menjalankan proses implementasi, yaitu perangkat keras dan perangkat lunak.

Berdasarkan hasil analisis sentimen yang telah dilakukan, didapatkan hasil persentase sentimen sebagai berikut.

Analisis sentimen

Dari tabel di atas, diketahui bahwa sentimen positif sebesar 28% dari keseluruhan data, sentimen netral sebesar 32% dari keseluruhan data, serta sentimen negatif sebesar 40% dari keseluruhan data. Hal ini menunjukkan bahwa dalam kurun waktu November 2021 sampai Januari 2022, sentimen negativ mendominasi opini publik terkait layanan BSSN.

Berdasarkan penelitian yang telah dilakukan, maka diperoleh beberapa kesimpulan seperti berikut.

  1. Berdasarkan tahapan Exploratory Data Analysis (EDA), kondisi sentimen yang didapatkan dari dataset yang dikumpulkan berdasarkan kata kunci yang berkaitan dengan layanan BSSN adalah sentiment negatif mendominasi dengan persentase sebesar 40%, sedangkan untuk persentase sentiment positif sebesar 28% dan persentase sentiment netral sebesar 32%.

  2. Penerapan slangword handling pada BERTbase Multilingual Model dan IndoBERT Model tidak berpengaruh secara signifikan pada nilai akurasi model.

  3. Terdapat perbedaan akurasi secara signifikan antara kedua model, dengan IndoBERTbase Model lebih baik dibandingkan dengan BERT-base Multilingual Model. Perbedaan selisih akurasi antara BERTbase Multilingual Model dan IndoBERT Model tanpa menerapkan slangword handling adalah 0,02. Sedangkan selisih akurasi antara BERTbase Multilingual Model dan IndoBERT Model dengan menerapkan slangword handling adalah 0,013.

  4. Model terbaik yang didapatkan dalam penelitian ini memiliki akurasi sebesar 0,70 dengan rincian IndoBERTbase Model dengan tidak menerapkan slangword handling. Pelabelan dataset yang tidak akurat mempengaruhi besar akurasi tersebut. Walaupun akurasi tersebut masih bisa ditingkatkan kembali, namun sudah cukup baik untuk melakukan analisis sentimen.

Tangkapan Layar

  1. Halaman dashboard analisis sentimen
    Dashboard

  2. Hasil sentimen negatif
    negatif

  3. halaman live analysis
    Live analysis

Peneliti

  • Atika Nurliana

Supervisor

  • Girinoto
  • Herman Kabetta
  • R. Budiarto Hadiprakoso