Amini, Fauziyah (2022) Deteksi Plagiarisme berbasis parafrase pada teks Bahasa Indonesia. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
200605210002.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) | Preview |
Abstract
ABSTRAK
Plagiarisme dipandang sebagai pelanggaran ilmiah yang serius, pencurian terhadap ide-ide intelektual. Salah satu bentuk plagiarisme yang sering ditemukan saat ini adalah menjiplak ide orang lain dan menuliskannya dengan kata-kata yang berbeda atau yang biasa kita sebut dengan parafrase kalimat. Maka diperlukan sistem yang mampu melakukan klasifikasi terhadap dokumen parafrase dan non parafrase. Dalam penelitian ini klasifikasi dilakukan menggunakan metode K-Nearest Neighbor dan Support Vector Machine. Pada pengujian algoritma KNN dilakukan percobaan nilai K terhadap 1 sampai dengan 15 menggunakan elbow method. Hasil dari elbow method menunjukan bahwa nilai K yang paling optimal pada dataset penelitian ini adalah K=4. Hal ini terbukti dengan hasil akurasi dari nilai K=4 menghasilkan akurasi yang paling tertinggi yaitu sebesar 88%. Pada uji coba algoritma KNN juga dilakukan pengukuran kedekatan jarak antar obyek dengan 4 metode, yaitu Manhattan Distance, Euclidean Distance, Minkowsky, Distance, dan Chebyshev Distance. Hasil menunjukan bahwa hasil perhitungan dari ke empat metode yang di uji coba menghasilkan jarak yang sama dalam setiap perhitungan jarak setiap pasangan kalimat. Maka dapat disimpulkan bahwa pada penelitian ini pemilihan pengukuran jarak tidak memberikan pengaruh yang signifikan terhadap performa algoritma knn dan menghasilkan performa yang sama pada setiap metode pengukuran jarak. Berdasarkan hasil uji coba pada penelitian ini algoritma KNN menghasilkan nilai akurasi 88%, precision 100% , recall 70%, dan f-measure 82%. Selanjutnya, pada uji coba yang telah dilakukan pada algoritma support vector machine dengan kernel linear menghasilkan performa klasifikasi yang lebih rendah dari hasil performa klasifikasi algoritma KNN dengan nilai akurasi SVM sebesar 83%, precision 82% , recall 82%, dan f-measure 82%.
ABSTRACT
Plagiarism is seen as a serious scientific violation, theft of intellectual ideas. One form of plagiarism that is often found today is plagiarizing other people's ideas and writing them in different words or what we usually call paraphrasing sentences. So we need a system that is able to classify paraphrased and non-paraphrased documents. In this study the classification was carried out using the K-Nearest Neighbor method and the Support Vector Machine. In testing the KNN algorithm, an experiment was carried out on the K value of 1 to 15 using the elbow method. The results of the elbow method show that the most optimal K value in this research dataset is K=4. This is proven by the results of the accuracy of the value of K = 4 resulting in the highest accuracy of 88%. In testing the KNN algorithm, the closeness of the distance between objects was also measured using 4 methods, namely Manhattan Distance, Euclidean Distance, Minkowsky Distance, and Chebyshev Distance. The results show that the calculation results of the four methods tested produce the same distance in each calculation of the distance for each pair of sentences. So it can be concluded that in this study the choice of distance measurement does not have a significant effect on the performance of the KNN algorithm and produces the same performance for each distance measurement method. Based on the test results in this study, the KNN algorithm produces an accuracy of 88%, precision of 100%, recall of 70%, and f-measure of 82%. Furthermore, in trials that have been carried out on the support vector machine algorithm with a linear kernel, the classification performance is lower than the results of the classification performance of the KNN algorithm with SVM accuracy values of 83%, 82% precision, 82% recall, and 82% f-measure.
مستخلص البحث
ينظر إلى الانتحال على أنه جريمة علمية خطيرة، وسرقة الأفكار الفكرية. أحد أشكال الانتحال التي غالبا ما توجد اليوم هو سرقة أفكار الآخرين وكتابتها بكلمات مختلفة أو ما نسميه عادة إعادة صياغة الجملة. لذلك هناك حاجة إلى نظام قادر على تصنيف المستندات المعاد صياغتها وغير المعاد صياغتها. في هذه الدراسة، تم إجراء التصنيف باستخدام خوارزمية K-Nearest Neighbor و Support Vector Machine. في اختبار خوارزمية KNN، تم إجراء تجربة لقيمة ك مقابل ١ إلى ١٥ باستخدام طريقة الكوع. أشارت نتائج طريقة الكوع إلى قيمة K المثلى في مجموعة بيانات البحث هذه هي ك = ٤. تم إثبات ذلك من خلال دقة قيمة ك = ٤ مما أدى إلى أعلى دقة بنسبة ٨٨%. في تجربة خوارزمية KNN، تم قياس قرب المسافات بين الكائنات أيضا بواسطة ٤ طرق؛ وهي مسافة مانهاتن، وايوكليديان، ومينكوفسكي، و جيبيشيف. أظهرت النتائج أن نتائج حساب الطرق الأربع التي تم اختبارها أنتجت نفس المسافة في كل حساب مسافة لكل من الجمل المقابلة. لذلك، يمكن الاستنتاج منها أن اختيار قياسات المسافة لا يؤثر تأثيرا كبيرا على أداء خوارزمية KNN وأنتجت نفس الأداء في كل طريقة قياس المسافة. بناء على نتائج التجارب في هذه الدراسة، أنتجت خوارزمية KNN قيمة ثبات تبلغ ٨٨%، ودقة ١٠٠%، واسترجاع ٧٠%، وف-قياس ٨٢%. علاوة على ذلك، أسفرت التجارب التي أجريت على خوارزمية آلة المتجهات الداعمة باستخدام نواة خطية عن أداء تصنيف أقل من نتائج أداء تصنيف خوارزمية KNN مع قيمة ثبات SVM تبلغ ٨٣%، ودقة ٨٢%، والاسترجاع ٨٢%، وف-قياس ٨٢%.
Item Type: | Thesis (Masters) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Crysdian, Cahyo and Hariyadi, M. Amin | |||||||||
Contributors: |
|
|||||||||
Keywords: | Klasifikasi; K-Nearest Neighbor; Parafrase; Support Vector Machine | |||||||||
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing 08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080309 Software Engineering |
|||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika | |||||||||
Depositing User: | Fauziyah Amini | |||||||||
Date Deposited: | 02 Jan 2023 13:38 | |||||||||
Last Modified: | 05 Jun 2023 14:51 | |||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/43331 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |