Fake Review Detection terhadap ulasan aplikasi Marketplace menggunakan Bert Embedding dan Long Short Term Memory

Udin, Muhammad (2026) Fake Review Detection terhadap ulasan aplikasi Marketplace menggunakan Bert Embedding dan Long Short Term Memory. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

Preview

Text (Fulltext)
240605220001.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.
(3MB) | Preview

Abstract

INDONESIA :

Ulasan palsu (fake review) pada platform marketplace dapat menyesatkan konsumen dan menurunkan tingkat kepercayaan terhadap sistem penilaian produk. Keberadaan ulasan palsu juga berdampak pada pengambilan keputusan pembelian yang tidak objektif serta merugikan pihak marketplace dan konsumen. Penelitian ini bertujuan untuk mengembangkan model deteksi fake review pada ulasan aplikasi marketplace menggunakan kombinasi representasi teks IndoBERT dan Word2Vec dengan algoritma Long Short-Term Memory (LSTM), serta menganalisis pengaruh teknik oversampling SMOTE dan ADASYN dalam mengatasi ketidakseimbangan data. Dataset yang digunakan berupa ulasan pengguna aplikasi Tokopedia berbahasa Indonesia yang telah melalui tahapan preprocessing meliputi case folding, punctuation removal, word normalization, dan stemming. Selanjutnya dilakukan proses feature extraction menggunakan IndoBERT dan Word2Vec, kemudian diklasifikasikan menggunakan LSTM. Evaluasi model dilakukan menggunakan metode K-Fold Cross Validation dengan metrik accuracy, precision, recall, dan F1-Score. Hasil penelitian menunjukkan bahwa teknik oversampling memberikan pengaruh yang berbeda pada setiap representasi fitur. Pada pendekatan IndoBERT, kombinasi IndoBERT + SMOTE + LSTM menghasilkan performa terbaik dengan accuracy sebesar 88,57%, precision 92,42%, recall 84,72%, dan F1-Score 88,40%. Sementara itu, pada pendekatan Word2Vec, kombinasi Word2Vec + ADASYN + LSTM memperoleh performa tertinggi dengan accuracy 92,42%, precision 86,61%, recall 99,19%, dan F1-Score 92,47%. Hasil tersebut menunjukkan bahwa Word2Vec lebih optimal dibandingkan IndoBERT pada dataset penelitian ini, sedangkan penerapan teknik oversampling terbukti mampu meningkatkan kinerja model dalam mendeteksi ulasan palsu. Penelitian ini diharapkan dapat berkontribusi dalam pengembangan sistem deteksi fake review berbahasa Indonesia yang lebih akurat untuk mendukung terciptanya ekosistem marketplace yang lebih terpercaya.

ENGLISH :

Fake reviews on marketplace platforms can mislead consumers and reduce trust in product rating systems. The presence of fake reviews also affects purchasing decisions, making them less objective and causing losses for both marketplaces and consumers. This study aims to develop a fake review detection model for marketplace application reviews by combining IndoBERT and Word2Vec text representations with the Long Short-Term Memory (LSTM) algorithm, as well as to analyze the impact of SMOTE and ADASYN oversampling techniques in addressing data imbalance issues. The dataset used consists of Indonesian-language user reviews from the Tokopedia application, which underwent several preprocessing stages, including case folding, punctuation removal, word normalization, and stemming. Feature extraction was then performed using IndoBERT and Word2Vec, followed by classification using LSTM. Model evaluation was conducted using the K-Fold Cross Validation method with accuracy, precision, recall, and F1-score as performance metrics. The results indicate that oversampling techniques have different effects on each feature representation approach. For the IndoBERT-based approach, the combination of IndoBERT + SMOTE + LSTM achieved the best performance, with an accuracy of 88.57%, precision of 92.42%, recall of 84.72%, and F1-score of 88.40%. Meanwhile, for the Word2Vec-based approach, the combination of Word2Vec + ADASYN + LSTM produced the highest performance, achieving an accuracy of 92.42%, precision of 86.61%, recall of 99.19%, and F1-score of 92.47%. These findings demonstrate that Word2Vec performed better than IndoBERT on the dataset used in this study, while the application of oversampling techniques effectively improved the model's ability to detect fake reviews. This research is expected to contribute to the development of more accurate Indonesian-language fake review detection systems and support the creation of a more trustworthy marketplace ecosystem.

ARABIC :

تُعَدُّ المراجعات المزيَّفة في منصات الأسواق الإلكترونية من المشكلات التي قد تؤدي إلى تضليل المستهلكين وتقليل مستوى الثقة في أنظمة تقييم المنتجات. كما تؤثر هذه المراجعات في قرارات الشراء، مما يجعلها أقل موضوعية، ويتسبب في أضرار لكل من منصات التجارة الإلكترونية والمستهلكين. تهدف هذه الدراسة إلى تطوير نموذج للكشف عن المراجعات المزيَّفة في مراجعات تطبيقات الأسواق الإلكترونية من خلال دمج تمثيل النصوص باستخدام نموذج إندوبرت ونموذج وورد تو فيك مع خوارزمية الذاكرة الطويلة قصيرة المدى، بالإضافة إلى تحليل تأثير تقنيتي سموت وأداسين لمعالجة مشكلة عدم توازن البيانات. تتكون مجموعة البيانات المستخدمة من مراجعات مستخدمي تطبيق توكوبيديا المكتوبة باللغة الإندونيسية، والتي خضعت لعدة مراحل من المعالجة المسبقة للنصوص، تشمل توحيد الأحرف، وإزالة علامات الترقيم، وتطبيع الكلمات، واستخراج الجذور الصرفية. بعد ذلك، تم تنفيذ عملية استخراج السمات باستخدام نموذج إندوبرت ونموذج وورد تو فيك، ثم تصنيف البيانات باستخدام نموذج الذاكرة الطويلة قصيرة المدى. وتم تقييم أداء النموذج باستخدام أسلوب التحقق المتقاطع متعدد الطيات بالاعتماد على مقاييس الدقة، والدقة الإيجابية، والاسترجاع، والدرجة التوافقية. أظهرت النتائج أن تقنيات زيادة العينات الاصطناعية كان لها تأثيرات مختلفة تبعًا لطريقة تمثيل السمات المستخدمة. ففي نهج إندوبرت، حقق نموذج إندوبرت + سموت + الذاكرة الطويلة قصيرة المدى أفضل أداء، حيث بلغت الدقة ٨٨٫٥٧٪، والدقة الإيجابية ٩٢٫٤٢٪، والاسترجاع ٨٤٫٧٢٪، والدرجة التوافقية ٨٨٫٤٠٪. أما في نهج وورد تو فيك، فقد حقق نموذج وورد تو فيك + أداسين + الذاكرة الطويلة قصيرة المدى أعلى أداء، حيث بلغت الدقة ٩٢٫٤٢٪، والدقة الإيجابية ٨٦٫٦١٪، والاسترجاع ٩٩٫١٩٪، والدرجة التوافقية ٩٢٫٤٧٪. تشير هذه النتائج إلى أن نموذج وورد تو فيك كان أكثر كفاءة من نموذج إندوبرت على مجموعة البيانات المستخدمة في هذه الدراسة، كما أثبتت تقنيات زيادة العينات الاصطناعية فعاليتها في تحسين أداء النموذج في الكشف عن المراجعات المزيَّفة. ومن المتوقع أن تسهم هذه الدراسة في تطوير أنظمة أكثر دقة للكشف عن المراجعات المزيَّفة باللغة الإندونيسية، بما يدعم بناء بيئة تجارة إلكترونية أكثر موثوقية.

Item Type:	Thesis (Masters)
Supervisor:	Crysdian, Cahyo and Imamudin, Mochamad
Keywords:	Fake review; IndoBERT; LSTM; Fake review; IndoBERT; LSTM; المراجعات الزائفة، إندوبيرت، وورد تو فيك
Subjects:	08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080309 Software Engineering
Departement:	Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User:	Muhammad Udin
Date Deposited:	02 Jul 2026 14:04
Last Modified:	02 Jul 2026 14:04
URI:	http://etheses.uin-malang.ac.id/id/eprint/88538

Downloads

Downloads per month over past year

Actions (login required)

View Item

Link Terkait

Media Sosial

Alamat

Gedung Abdurrahman Wahid

Jl. Gajayana No.50, Dinoyo, Lowokwaru, Malang,

Jawa Timur 65149, Indonesia

Email: csc@uin-malang.ac.id