Klasifikasi Myers-Briggs Type Indicator Pengguna Twitter Menggunakan Support Vector Machine dan Augmentasi Data
Abstract
Kepribadian merupakan aspek yang melekat pada seseorang, salah satu cara menentukannya yaitu dengan Myers-Briggs Type Indicator (MBTI). Beberapa penelitian terdahulu sudah melakukan klasifikasi MBTI menggunakan beberapa metode data mining. Salah satunya merupakan Support Vector Machine (SVM). Karena akurasi penelitian ini saat eksperimen kecil, maka digunakannya metode tambahan untuk meningkatkan performa model SVM yaitu dengan menggunakan augmentasi data. Proses klasifikasi diawali dengan preprocessing data, yaitu data cleaning dan text preprocessing. Lalu data dibobotkan menggunakan Term-Frequency Inverse Document Frequency. Data yang sudah dibersihkan berjumlah 154.813 record. Kemudian membagi menjadi data latih dan uji dengan volume 70:30 untuk menghindari overfitting. Data latih dilatih dengan SVM dan dievaluasi, lalu data latih yang sudah melalui preprocessing diaugmentasi dengan synonym replacement sebanyak lima iterasi. Proses ini menghasilkan 1.083.658 record untuk data latih. Data hasil augmentasi diekstraksi dan klasifikasi SVM kembali. Kemudian model dengan data latih asli dan hasil augmentasi digunakan untuk klasifikasi data uji dan berhasil meningkatkan 6% performa model SVM untuk klasifikasi dimensi MBTI.
References
[2] L. Brewer, “General Psychology: Required Reading,” Personal. Trait., hal. 1–324, 2019, [Daring].
[3] D. Hanbury, Anthropomorphism: Understanding Personality and Individual Differences in Nonhuman Animals. 2016.
[4] M. N. Sahono et al., “Extrovert and Introvert Classification based on Myers-Briggs Type Indicator(MBTI) using Support Vector Machine (SVM),” Proc. - 2020 Int. Semin. Appl. Technol. Inf. Commun. IT Challenges Sustain. Scalability, Secur. Age Digit. Disruption, iSemantic 2020, hal. 572–577, 2020, doi: 10.1109/iSemantic50169.2020.9234288.
[5] S. Ontoum dan J. Chan, Personality Type Based on Myers-Briggs Type Indicator with Text Posting Style by using Traditional and Deep Learning. 2022.
[6] R. N. Harahap dan K. Muslim, “Peningkatan Akurasi pada Prediksi Kepribadian Mbti Pengguna Twitter Menggunakan Augmentasi Data,” J. Teknol. Inf. dan Ilmu Komput., vol. 7, no. 4, hal. 815, 2020, doi: 10.25126/jtiik.2020743622.
[7] D. A. Pisner dan D. M. Schnyer, “Support vector machine,” Mach. Learn. Methods Appl. to Brain Disord., hal. 101–121, 2019, doi: 10.1016/B978-0-12-815739-8.00006-7.
[8] J. Wei dan K. Zou, “EDA: Easy data augmentation techniques for boosting performance on text classification tasks,” EMNLP-IJCNLP 2019 - 2019 Conf. Empir. Methods Nat. Lang. Process. 9th Int. Jt. Conf. Nat. Lang. Process. Proc. Conf., hal. 6382–6388, 2019, doi: 10.18653/v1/d19-1670.
[9] M. N. R, J dan P. R, “Performance Analysis of Text Classification Algorithms using Confusion Matrix,” Int. J. Eng. Tech. Res., vol. 0869, no. 4, hal. 75–78, 2016, [Daring].
[10] M. A. Rofiqi, A. C. Fauzan, A. P. Agustin, dan A. A. Saputra, “Implementasi Term-Frequency Inverse Document Frequency (TF-IDF) Untuk Mencari Relevansi Dokumen Berdasarkan Query,” Ilk. J. Comput. Sci. Appl. Informatics, vol. 1, no. 2, hal. 58–64, 2019, doi: 10.28926/ilkomnika.v1i2.18.