Analisis Pembangunan Korpus Berpasangan Untuk Pembangkitan Parafrasa Pada Makalah Ilmiah

  • Ridwan Ilyas
  • Dwi Hendratmo Widyantoro
  • Masayu Leylia Khodra

Abstract

Pembangunan mesin yang dapat membangkitkan kalimat baru dengan tingkat semantik yang tinggi namun secara penulisan berbeda (parafrasa) membutuhkan sumberdaya bahasa berupa korpus parallel. Proses pembangunan korpus memerlukan analisis awal sesuai dengan domain dari mesin yang akan dibuat. Pada penelitian ini dilakukan analis dalam pembangunan korpus berpasangan pada makalah ilmiah. Kalimat-kalimat pada makalah ilmiah memiliki karakteristik yang berbeda dengan domain lain seperti berita atau media sosial. Dari hasil proses ekstraksi awal didapatkan 590.402 kalimat isi  dan 23.584 kalimat abstrak. Hasil dari penelitian ini dapat menjadi kandidat korpus yang dilakukan dengan proses terkomputerisasi.

References

[1] C. M. L. Lisa, “Merging Corpus Linguistics and Collaborative Knowledge,” English, no. September, 2009.
[2] A. Barrom-Cedeno, M. Vila, dan A. Marti, “Plagiarism Meets Paraphrasing: Insights for the Next Generation in Automatic Plagiarism Detection,” Assoc. Comput. Linguist., no. November 2012, 2013.
[3] R. Kittredge, “Paraphrasing for condensation in journal abstracting,” J. Biomed. Inform., vol. 35, no. 4, hal. 265–277, 2002.
[4] L. Shi, “Rewriting and paraphrasing source texts in second language writing,” J. Second Lang. Writ., vol. 21, no. 2, hal. 134–148, 2012.
[5] S. Teufel, “Do ‘ Future Work ’ sections have a purpose ? Citation links and entailment for global scientometric questions,” in Proceedings of the 2nd Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries, 2017.
[6] E. Pavlick, P. Rastogi, J. Ganitkevitch, B. Van Durme, dan C. Callison-Burch, “PPDB 2.0: Better paraphrase ranking, fine-grained entailment relations, word embeddings, and style classification,” Proc. 53rd Annu. Meet. Assoc. Comput. Linguist. 7th Int. Jt. Conf. Nat. Lang. Process. (Short Pap. Beijing, China, July 26-31, 2015, hal. 425–430, 2015.
[7] K. Filippova, M. Mieskes, dan V. Nastase, “Cascaded Filtering for Topic-Driven Multi-Document Summarization,” Proc. Doc. Underst. Conf., hal. 30–35, 2007.
[8] W. B. Dolan dan C. Brockett, “Automatically Constructing a Corpus of Sentential Paraphrases,” in Proceedings of the Third International Workshop on Paraphrasing, 2005, hal. 9–16.
[9] W. Xu, A. Ritter, C. Callison-burch, W. B. Dolan, dan Y. Ji, “Extracting Lexically Divergent Paraphrases from Twitter,” Trans. Assoc. Comput. Linguist. 2 (NAACL 2014), vol. 2, hal. 435–448, 2014.
Published
2018-06-22
How to Cite
ILYAS, Ridwan; WIDYANTORO, Dwi Hendratmo; KHODRA, Masayu Leylia. Analisis Pembangunan Korpus Berpasangan Untuk Pembangkitan Parafrasa Pada Makalah Ilmiah. JUMANJI (Jurnal Masyarakat Informatika Unjani), [S.l.], v. 2, n. 1, p. 81-88, june 2018. ISSN 2598-8069. Available at: <http://jumanji.unjani.ac.id/index.php/jumanji/article/view/44>. Date accessed: 21 nov. 2019.