Hasan, Muhammad Ismail (2018) Information Retrieval System artikel kesehatan menggunakan pembobotan tf.idf dan Latent Semantic Indexing. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
13650047.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (4MB) | Preview |
Abstract
مستخلص البحث
اليوم، نمو التكنولوجيا الرقمية بسرعة كبيرة مما أدى إلى زيادة البيانات والمعلومات المنتشرة على شبكة الإنترنت. يطلب نظام استرجاع المعلومات لتسهيل البحث البيانات ذات الأبعاد الكبيرة. يستخدم أحد استخدام نظام استرجاع المعلومات للبحث الشكاوى الصحية المختلفة التي تتعرض لمستخدمو الإنترنت. واحدة من شعبيات كبيرة هي تصنيف الوثائق باستخدام نموذج فضاء المتجه على أساس القيمة المرجحة لـTF.IDF . تقوم الطريقة فقط بإجراء عملية ترجيح استنادًا إلى تكرار حدوث الكلمات في المستند بغض النظر عن تفضيلات المستخدم. يجب أن ان يعتبر العلاقة الدلالية بين الكلمات لتحسين ملاءمة نتائج البحث. فهرسة الدلالة الكامنة هي واحدة من طرائق الفهرسة في نظام استرجاع المعلومات التي تعتبر العلاقة الدلالية بين الكلمات. تطور هذه الطريقة بترجيح TF.IDF بإضافة فهرسة الدلالة الكامنة. البيانات المستخدمة هي مجموعة من وثائق المقالات الصحية التى أخذت من العديد من الانترنيت التي اختارتها للباحث. ظهرت نتائج الاختبار أن أسلوب الترجيح TF.IDF.LSI حصلت قيمة متوسط الدقة (Mean Average Precision ) (MAP) أعلى من الأسلوب TF.IDF في قيم MAP متسلسلة من أسلوب الترجيح TF.IDF.LSI في رتبة-ك 10 و 15 هو 86٪ و 82.4٪. هذه القيمة هي أعلى من طريقة ترجيح TF.IDF التي حصلت قيمة MAP في رتبة-ك 10 و 15 يعنى 82.8٪ و 79٪.
ABSTRACT
Recently, the growth of digital technology so rapidly that result in greater data and information spread on the internet. The Information Retrieval System is required to make it easier to search the large dimensioned data. One of the utilization of information retrieval system is used to search the various health complaints experienced by internet users. One of the most popular methods is document ranking using the vector space model based on the weighted value of TF.IDF. The method only performs weighting based on the frequency of occurrence of term in the document regardless of user preferences. The term weighting method based on user preferences needs to consider the semantic relation between term to improve the relevance of search results. Latent Semantic Indexing is one of the indexing methods in the information retrieval system that considers the semantic relation between term. This research develops the method of weighting TF.IDF by adding Latent Semantic Indexing. The data used is a collection of health article documents taken from some website selected by researchers. The results show that the TF.IDF.LSI produces a higher Mean Mean Precision (MAP) value than the TF.IDF. In sequential MAP values of TF.IDF.LSI at rank-k 10 and 15 are 86% and 82.4%. This value is higher than the TF.IDF that result MAP values at rank k-10 and 15 are 82.8% and 79%.
ABSTRAK
Dewasa ini, pertumbungan teknologi digital begitu pesat yang mengakibatkan semakin besar data dan informasi yang tersebar di internet. Information Retrieval System diperlukan agar mempermudah dalam melakukan pencarian data berdimensi yang besar tersebut. Salah satu pemanfaatan information retrieval system adalah digunakan untuk melakukan pencarian terhadap berbagai keluhan kesehatan yang dialami para pengguna internet. Salah satu metode yang sangat populer adalah perangkingan dokumen menggunakan vector space model berbasis pada nilai pembobotan TF.IDF. Motode tersebut hanya melakukan pembobotan berdasarkan frekuensi kemunculan kata dalam dokumen tanpa memerhatikan preferensi yang diinginkan pengguna. Metode pembobotan kata berdasarkan preferensi pengguna perlu mempertimbangkan hubungan semantik antar kata untuk meningkatkan relevansi hasil pencarian. Latent Semantic Indexing merupakan salah satu metode indexing dalam information retrieval system yang mempertimbangkan hubungan semantik antar kata. Penelitian ini mengembangkan metode pembobotan TF.IDF dengan menambahkan Latent Semantic Indexing. Data yang digunakan adalah kumpulan dokumen artikel kesehatan yang diambil dari beberepa website yang dipilih oleh peneliti. Hasil pengujian menunjukkan bahwa metode pembobotan TF.IDF.LSI menghasilkan nilai Mean Average Precision (MAP) yang lebih tinggi daripada metode TF.IDF. Secara berurut nilai MAP metode pembobotan TF.IDF.LSI pada rank-k 10 dan 15 adalah 86% dan 82.4%. Nilai tersebut lebih tinggi dari metode pembobotan TF.IDF yang menghasilkan nilai MAP pada rank-k 10 dan 15 adalah 82.8% dan 79%.
Item Type: | Thesis (Undergraduate) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Nurhayati, Hani and Holle, Khadijah Fahmi Hayati | |||||||||
Contributors: |
|
|||||||||
Keywords: | تعدين النص; نظام استرجاع المعلومات; ترجيح الألفاظ; Text Mining; Information Retrievel System; Term Weighting; Text Mining | |||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika | |||||||||
Depositing User: | Mohammad Syahriel Ar | |||||||||
Date Deposited: | 15 Nov 2018 10:19 | |||||||||
Last Modified: | 15 Nov 2018 10:19 | |||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/12546 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |