Responsive Banner

Pengukuran kemiripan semantik pada pencarian buku di perpustakaan digital menggunakan metode Wu Palmer

Daffa, M. Royhan (2025) Pengukuran kemiripan semantik pada pencarian buku di perpustakaan digital menggunakan metode Wu Palmer. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
200605110104.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(3MB)

Abstract

INDONESIA:

Perpustakaan digital menyediakan akses terhadap informasinya, namun pengguna seringkali kesulitan menemukan buku yang relevan. Penelitian ini bertujuan untuk meningkatkan relevansi hasil pencarian buku di perpustakaan digital dengan menerapkan kemiripan semantik Wu Palmer dengan pembobotan TF-IDF. Penelitian ini melewati beberapa tahapan, yaitu preprocessing, pembobotan kata kunci penting dengan TF-IDF, dan perhitungan kemiripan semantik antara query dengan kata kunci buku dengan Wu Palmer berbasis WordNet. Pengujian dilakukan menggunakan 25 query dengan panjang bervariasi (1 hingga 5 kata lebih) dengan lima skenario berbeda : (1) Wu Palmer dengan 3 term TF-IDF, (2) Wu Palmer dengan 5 term TF-IDF, (3) Wu Palmer dengan 10 term TF-IDF, (4) Wu Palmer tanpa TF-IDF, dan (5) pencarian non-semantik sebagai basis perbandingan. Hasil penelitian menunjukkan bahwa skenario 1 (Wu Palmer dengan 3 term TF-IDF teratas) memberikan tingkat relevansi semantik tertinggi, terutama query pendek, dengan rata-rata kemiripan mencapai 87,52% untuk query satu kata. Meskipun skenario 5 (pencarian non-semantik) mencapai 100% kecocokan untuk query 1 dan 2 kata, ini adalah kecocokan literal, bukan pemahaman semantik. Pendekatan skenario 1 secara signifikan lebih baik memahami konsep dibandingkan pencarian non-semantik, dan juga unggul dari skenario semantik lainnya yang menggunakan lebih banyak term TF-IDF atau tanpa pembobotan TF-IDF. Secara umum, relevansi cenderung menurun dan standar deviasi meningkat seiring bertambahnya panjang dan kompleksitas query, yang menandakan hasil kurang stabil. Dari segi runtime, skenario 5 yang tercepat, sementara skenario 4 yang terlambat karena beban komputasi yang tinggi karena tidak ada pembobotan. Kombinasi Wu Palmer dan 3 term TF-IDF terbukti paling efektif dalam meningkatkan relevansi pencarian, yang optimal antara kualitas relevansi semantik dan efisiensi. Penelitian ini diharapkan dapat berkontribusi pada pengembangan sistem pencarian buku yang lebih baik di perpustakaan digital, sehingga membantu pengguna menemukan buku yang relevan secara lebih efisien dan akurat.

ENGLISH:

Digital libraries provide access to their information, but users often have difficulty finding relevant books. This study aims to improve the relevance of book search results in digital libraries by applying Wu Palmer semantic similarity with TF-IDF weighting. This study goes through several stages: preprocessing, weighting important keywords with TF-IDF, and calculating semantic similarity between queries and book keywords with Wu Palmer based on WordNet. Testing was carried out using 25 queries with varying lengths (1 to 5 words or more) with five different scenarios: (1) Wu Palmer with 3 TF-IDF terms, (2) Wu Palmer with 5 TF-IDF terms, (3) Wu Palmer with 10 TF-IDF terms, (4) Wu Palmer without TF-IDF, and (5) non-semantic search as a basis for comparison. The results show that scenario 1 (Wu Palmer with top 3 TF-IDF terms) provides the highest semantic relevance, especially for short queries, with an average similarity of 87.52% for one-word queries. Although scenario 5 (non-semantic search) achieves 100% match for 1- and 2-word queries, this is a literal match, not semantic understanding. The scenario one approach significantly better understands concepts than non-semantic search, and also outperforms other semantic scenarios that use more TF-IDF terms or no TF-IDF weighting. In general, relevance tends to decrease and standard deviation increases with increasing query length and complexity, indicating less stable results. Scenario 5 is the fastest runtime, while scenario 4 is the slowest due to the high computational burden and lack of weighting. The combination of Wu Palmer and 3 TF-IDF terms is proven to be the most effective in improving the relevance of book searches in digital libraries, which is optimal between the quality of semantic relevance and efficiency. This research is expected to contribute to developing better book search systems in digital libraries, thereby helping users find relevant books more efficiently and accurately.

ARABIC:

توفر المكتبات الرقمية إمكانية الوصول إلى المعلومات، ولكن المستخدمين غالبًا ما يواجهون صعوبة في العثور على الكتب ذات الصلة. تهدف هذه الدراسة إلى تحسين صلة نتائج البحث عن الكتب في المكتبات الرقمية من خلال تطبيق التشابه الدلالي لـ Wu Palmer مع ترجيح TF-IDF. لقد مر هذا البحث بعدة مراحل وهي: المعالجة المسبقة، وترجيح الكلمات المفتاحية المهمة باستخدام TF-IDF، وحساب التشابه الدلالي بين الاستعلامات وكلمات الكتاب المفتاحية باستخدام Wu Palmer استنادًا إلى WordNet. تم إجراء الاختبار باستخدام 25 استعلامًا بأطوال مختلفة (من 1 إلى 5 كلمات أو أكثر) مع خمسة سيناريوهات مختلفة: (1) Wu Palmer مع 3 مصطلحات TF-IDF، (2) Wu Palmer مع 5 مصطلحات TF-IDF، (3) Wu Palmer مع 10 مصطلحات TF-IDF، (4) Wu Palmer بدون TF-IDF، و(5) البحث غير الدلالي كأساس للمقارنة. تظهر النتائج أن السيناريو 1 (Wu Palmer مع أفضل 3 مصطلحات TF-IDF) يوفر أعلى مستوى من الصلة الدلالية، وخاصة للاستعلامات القصيرة، مع متوسط تشابه يصل إلى 87.52% للاستعلامات المكونة من كلمة واحدة. على الرغم من أن السيناريو 5 (البحث غير الدلالي) يحقق تطابقات بنسبة 100% للاستعلامات المكونة من كلمة واحدة أو كلمتين، إلا أن هذه تطابقات حرفية، وليست فهمًا دلاليًا. يتفوق السيناريو 1 بشكل كبير على نهج البحث غير الدلالي، ويتفوق أيضًا على السيناريوهات الدلالية الأخرى التي تستخدم المزيد من مصطلحات TF-IDF أو لا تستخدم ترجيح TF-IDF. بشكل عام، تميل الصلة إلى الانخفاض ويزداد الانحراف المعياري مع زيادة طول الاستعلام وتعقيده، مما يشير إلى نتائج أقل استقرارًا. من حيث وقت التشغيل، فإن السيناريو 5 هو الأسرع، في حين أن السيناريو 4 هو الأبطأ بسبب الحمل الحسابي العالي الناتج عن عدم وجود الترجيح. لقد ثبت أن الجمع بين Wu Palmer وثلاثة مصطلحات TF-IDF هو الأكثر فعالية في تحسين صلة البحث، حيث يمثل توازنًا مثاليًا بين جودة الصلة الدلالية والكفاءة. ومن المتوقع أن يساهم هذا البحث في تطوير أنظمة أفضل للبحث عن الكتب في المكتبات الرقمية، مما يساعد المستخدمين على العثور على الكتب ذات الصلة بكفاءة ودقة أكبر.

Item Type: Thesis (Undergraduate)
Supervisor: Yaqin, M. Ainul and Syauqi, A’la
Keywords: Kemiripan Semantik; Wu Palmer; TF-IDF; Perpustakaan Digital; Pencarian Buku; WordNet; Semantic Similarity; Wu-Palmer; TF-IDF; Digital Library; Book Search; WordNet; التشابه الدلالي; Wu Palmer; TF-IDF; المكتبة الرقمية; البحث عن الكتب; WordNet
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Muhammad Royhan Daffa
Date Deposited: 30 Jul 2025 09:25
Last Modified: 30 Jul 2025 09:25
URI: http://etheses.uin-malang.ac.id/id/eprint/77851

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item