Hidayat, La Ode Abd. El Hafizh (2020) Automatic Text Summarization Using Sentence Scoring and Random Forest Algorithm. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
15650059.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (5MB) | Preview |
Abstract
مستخلص البحث
يتسبب تحول الوسائط الرقمية في كمية وفيرة من المعلومات. وبالتالي ، فإن الغرض من هذه الدراسة هو بناء نظام تلخيص يمكنه تحديد أهم المعلومات تلقائيًا من النص. تهدف طريقة تسجيل الجمل (Sentence Scoring) إلى إجراء تمثيل أولي حتى يتمكن النظام من تحديد تفرد كل جملة واردة فيه. يمكن الإشارة إلى هذا النهج لتلخيص النص الاستخراجي كمقاربات قائمة إحصائيًا. لا يعتمد هذا النهج على لغة معينة (لغة مستقلة) بحيث لا تتطلب العملية معرفة لغوية إضافية إضافية. بعد ذلك ، ستصبح كل ميزة في تسجيل الجمل مجموعة بيانات أولية لخوارزميات الغابة العشوائية (Random Forest) التي ستجد في العملية أنماطًا أو معرفة من البيانات. باستخدام اختبار مجموعة البيانات من (Indosum) ، تحصل نتائج تقييم النظام باستخدام ROUGE على متوسط الدقة واستدعاء نقطة الصفر الأربعة.
ABSTRACT
The transformation of digital-based media causes an abundant amount of information. Hence the purpose of this study is to build a summarization system that can automatically select the most important information from a text. The sentence scoring method aims to make an initial representation so that the system can identify the uniqueness of each sentence. This approach to extractive text summarization can be referred to as statistically based approaches. This approach does not depend on a particular language (language independent) so that the process does not require additional specific linguistic knowledge. Then, each feature in sentence scoring will become an initial dataset for random forest algorithms which in the process will find patterns or knowledge from the data. By using dataset testing from the Indosum, the results of system evaluation using ROUGE get an average precision and recall of 0.4.
ABSTRAK
Transformasi media informasi berbasis digital menyebabkan melimpahnya jumlah informasi. Oleh karena itu tujuan dari penelitian ini adalah untuk membangun sistem peringkasan yang secara otomatis dapat memilah informasi terpenting dari sebuah teks. Sentence scoring berusaha memberikan bobot pada tiap kalimatnya agar sistem dapat mengenali keunikan tiap kalimat-kalimat yang terdapat pada teks. Pendekatan ini pada extractive text summarization dapat dirujuk sebagai statistical based approaches. Pendekatan ini tidak bergantung pada bahasa tertentu (language independent), sehingga dalam prosesnya tidak memerlukan tambahan pengetahuan lingustik secara spesifik. Kemudian, tiap fitur-fitur pada Sentence Scoring akan menjadi data latih bagi algoritma Random Forest yang dalam proses pembelajarannya akan menemukan pola atau pengetahuan dari data tersebut. Dengan menggunakan dataset testing dari dataset Indosum, hasil evaluasi sistem menggunakan ROUGE mendapatkan hasil rata-rata precision dan recall sebesar 0.4.
Item Type: | Thesis (Undergraduate) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Crysdian, Cahyo and Mardhiyah, Ainatul | |||||||||
Contributors: |
|
|||||||||
Keywords: | Automatic Text Summarization; Sentence Scoring; Random Forest; IndoSum; Peringkasan Teks secara Otomatis; Sentence Scoring; Random For-est; Indosum | |||||||||
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing | |||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika | |||||||||
Depositing User: | La Ode Abd. El Hafizh Hidayat | |||||||||
Date Deposited: | 03 Aug 2020 09:53 | |||||||||
Last Modified: | 03 Aug 2020 09:53 | |||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/20933 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |