Analisis Pembangunan Korpus Berpasangan Untuk Pembangkitan Parafrasa Pada Makalah Ilmiah

Ridwan Ilyas; Dwi Hendratmo Widyantoro; Masayu Leylia Khodra

doi:10.26874/jumanji.v2i1.44

Ridwan Ilyas
Dwi Hendratmo Widyantoro
Masayu Leylia Khodra

DOI: https://doi.org/10.26874/jumanji.v2i1.44

Abstract

Pembangunan mesin yang dapat membangkitkan kalimat baru dengan tingkat semantik yang tinggi namun secara penulisan berbeda (parafrasa) membutuhkan sumberdaya bahasa berupa korpus parallel. Proses pembangunan korpus memerlukan analisis awal sesuai dengan domain dari mesin yang akan dibuat. Pada penelitian ini dilakukan analis dalam pembangunan korpus berpasangan pada makalah ilmiah. Kalimat-kalimat pada makalah ilmiah memiliki karakteristik yang berbeda dengan domain lain seperti berita atau media sosial. Dari hasil proses ekstraksi awal didapatkan 590.402 kalimat isi dan 23.584 kalimat abstrak. Hasil dari penelitian ini dapat menjadi kandidat korpus yang dilakukan dengan proses terkomputerisasi.

References

[1] C. M. L. Lisa, “Merging Corpus Linguistics and Collaborative Knowledge,” English, no. September, 2009.
[2] A. Barrom-Cedeno, M. Vila, dan A. Marti, “Plagiarism Meets Paraphrasing: Insights for the Next Generation in Automatic Plagiarism Detection,” Assoc. Comput. Linguist., no. November 2012, 2013.
[3] R. Kittredge, “Paraphrasing for condensation in journal abstracting,” J. Biomed. Inform., vol. 35, no. 4, hal. 265–277, 2002.
[4] L. Shi, “Rewriting and paraphrasing source texts in second language writing,” J. Second Lang. Writ., vol. 21, no. 2, hal. 134–148, 2012.
[5] S. Teufel, “Do ‘ Future Work ’ sections have a purpose ? Citation links and entailment for global scientometric questions,” in Proceedings of the 2nd Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries, 2017.
[6] E. Pavlick, P. Rastogi, J. Ganitkevitch, B. Van Durme, dan C. Callison-Burch, “PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word embeddings, and style classification,” Proc. 53rd Annu. Meet. Assoc. Comput. Linguist. 7th Int. Jt. Conf. Nat. Lang. Process. (Short Pap. Beijing, China, July 26-31, 2015, hal. 425–430, 2015.
[7] K. Filippova, M. Mieskes, dan V. Nastase, “Cascaded Filtering for Topic-Driven Multi-Document Summarization,” Proc. Doc. Underst. Conf., hal. 30–35, 2007.
[8] W. B. Dolan dan C. Brockett, “Automatically Constructing a Corpus of Sentential Paraphrases,” in Proceedings of the Third International Workshop on Paraphrasing, 2005, hal. 9–16.
[9] W. Xu, A. Ritter, C. Callison-burch, W. B. Dolan, dan Y. Ji, “Extracting Lexically Divergent Paraphrases from Twitter,” Trans. Assoc. Comput. Linguist. 2 (NAACL 2014), vol. 2, hal. 435–448, 2014.