Responsive Banner

Term Weighting berdasarkan Class Distinguishing Power menggunakan metode TF.IGM untuk perangkingan dokumen Al-Quran

Aini, Ruri Nur (2018) Term Weighting berdasarkan Class Distinguishing Power menggunakan metode TF.IGM untuk perangkingan dokumen Al-Quran. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
12650022.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

مستخلص البحث

يصير الكبير من البيانات الرقمية اليوم تحديًا في استرجاع المعلومات. سيخفف وجود نظام استرجاع المعلومات من الباحثين لإعادة اكتشاف البيانات أو الوثيقة المطلوبة. أحد المناقشات هي ترتيب الوثائق. يستخدم التمثيل لترقيم الوثائق عاميا نموذج الفضاء نافلات (VSM) مستنادًا إلى ترجيح TF.IDF. لا يعتبر ترجيح TF.IDF فعالا كاملا لأنه يهتم ترجيح الكلمات مستنادًا إلى الوثيقة فقط. استخدم في هذا البحث النهج ترجيح الكلمات مستنادًا إلى فهرس الصف إلى المطبق في مجموعة بيانات القرآن باللغة العربية مقسما إلى ١٤ فهرس الصف موافقا لكتاب فتح الرحمان للشيخ Iعلمي زاده فؤاد عبد الباقي. يقيس ترجيح TF.IGM بدقة الصف ممييز الطاقة (القدرة على تمييز الطبقات) في المصطلح. يظهر مصطلح ذو فصل خاص أحيانًا في فصل آخر، غالبًا ما يحدث هذا في فئة واحدة حتى عدة الفصول. يمكن استخدام هذا المصطلح في فصل خاص لتمييز النص بين الصفوف المختلفة وأعطي وزن أكبر. بشكل العام، المصطلح الأكثر تركيزًا في توزيع الصفوف تميل إلى امتلاك القوة على التمييز بين الطبقات. ستمر مجموعة البيانات من خلال المعالجة المسبوقة، الترجيح، قياس التشابه بتشابه الجيب ويقيم باستخدام MAP. تتكون بيانات الاختبار من كل فهرس الصف ويصنف في سؤال قصير وسؤال طويل. أظهرت نتائج البحث أن الطريقة المقترحة أنتجت أعلى القيمة MAP هي ٪٨٤٬٢٤ من سؤال طويل

ABSTRACT

The large amount of digital data today is a challenge in information retrieval. The Information Retrieval System make it easy the users to rediscover the data or documents needed. One of the discussions is ranking documents. Document ranking representation generally uses Vector Space Model (VSM) based on TF.IDF weighting method. The TF.IDF is not fully considered effective because it only focused into the weighting of the document-based words. In this study, the class index based weighting approach was applied to the Arabic-language Al-Quran dataset which was divided into 14 classes index according to the Fahturrahman book by Shaykh Ilmi Zadeh Fu'ad Abd Al Baqiy. TF.IGM weighting precisely measures the class distinguishing power on the term. Term with special class sometimes appears in other classes, this often happens in one or even several classes. The terms in this special class can be used to distinguish text between different classes and given greater weight. In general, terms that are more concentrated in class distribution tend to have the power to distinguish classes. The dataset will be through preprocessing, weighting, measurement of similarity with cosine similarity and evaluated using MAP. The test data consists of each class index and is categorized in short queries and long queries. The results showed that the proposed method produced the highest MAP value of 84.24% of long queries

ABSTRAK

Besarnya jumlah data digital saat ini, menjadi tantangan dalam pencarian informasi. Adanya sistem temu kembali informasi akan meringankan para pencari untuk menemukan kembali data atau dokumen yang dibutuhkan. Salah satu pembahasannya yaitu perangkingan dokumen. Representasi perangkingan dokumen pada umumnya menggunakan Vector Space Model (VSM) berbasis pada pembobotan TF.IDF. Pembobotan TF.IDF tidak sepenuhnya dianggap efektif karena hanya memperhatikan pembobotan kata berbasis dokumen. Pada penelitian ini menggunakan pendekatan pembobotan kata berbasis indeks kelas yang diterapkan pada dataset Al-Quran berbahasa Arab yang telah terbagi dalam 14 indeks kelas sesuai pada kitab Fahturrahman oleh Syaikh Ilmi Zadeh Fu'ad Abd Al Baqiy. Pembobotan TF.IGM secara tepat mengukur class distinguishing power (kekuatan membedakan kelas) pada term. Term dengan kelas khusus kadang-kadang muncul dalam kelas lain, hal ini sangat sering terjadi dalam satu bahkan beberapa kelas. Term dalam kelas khusus ini dapat digunakan untuk membedakan teks antar kelas yang berbeda dan diberikan bobot yang lebih besar. Secara umum, term yang lebih terkonsentrasi distribusi kelas cenderung memiliki kekuatan membedakan kelas. Dataset akan melalui preprocessing, pembobotan, pengukuran kemiripan dengan cosine similarity dan dievaluasi dengan menggunakan MAP. Data uji terdiri dari masing-masing indeks kelas dan diketagorikan dalam query pendek dan query panjang. Hasil penelitian menunjukkan bahwa metode yang diusulkan menghasilkan nilai MAP tertinggi yaitu 84.24% dari query panjang

Item Type: Thesis (Undergraduate)
Supervisor: Crysdian, Cahyo and Holle, Khadijah Fahmi Hayati
Contributors:
ContributionNameEmail
UNSPECIFIEDCrysdian, CahyoUNSPECIFIED
UNSPECIFIEDHolle, Khadijah Fahmi H.UNSPECIFIED
Keywords: ترتيب الوثائق; فهرس الصف; ترجيح الكلمات; Document ranking; class index; term weighting; TF.IGM; Perangkingan dokumen; indeks kelas; pembobotan kata; TF.IGM
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Mohammad Syahriel Ar
Date Deposited: 26 Apr 2019 15:34
Last Modified: 26 Apr 2019 15:34
URI: http://etheses.uin-malang.ac.id/id/eprint/13960

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item