Responsive Banner

Ekstraksi informasi pada teks berita game berbahasa Indonesia dengan Indobert

Wibowo, Firmansyah Rekso (2025) Ekstraksi informasi pada teks berita game berbahasa Indonesia dengan Indobert. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
230605210004.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(6MB)

Abstract

ABSTRAK

Industri game Indonesia yang berkembang pesat menghasilkan volume besar teks berita daring yang tidak terstruktur, namun pemanfaatannya sebagai sumber informasi strategis masih terbatas akibat ketiadaan sumber daya Natural Language Processing (NLP) khusus domain serta rendahnya kemampuan model eksisting dalam menangani terminologi teknis dan fenomena bahasa campuran (code-switching). Penelitian ini membangun GameNER-ID, dataset Named Entity Recognition (NER) pertama untuk domain industri game berbahasa Indonesia, serta mengevaluasi efektivitas model Transformer dalam melakukan ekstraksi informasi dari teks tersebut. Proses konstruksi dataset mencakup pengumpulan artikel berita, standardisasi format, kurasi manual, dan anotasi 3.351 kalimat menggunakan sepuluh tipe entitas domain-spesifik dengan skema IOB2, sehingga menghasilkan korpus terstruktur yang representatif dan layak digunakan sebagai tolok ukur pengembangan NLP pada sektor game. Evaluasi performa model dilakukan melalui fine-tuning beberapa rsitektur Transformer dan pengukuran metrik Precision, Recall, serta F1-Score. Hasil eksperimen menunjukkan bahwa IndoBERT mengekstraksi informasi dengan baik melalui F1-Score 0.8175. Analisis komparatif menunjukkan bahwa model multilingual XLM-RoBERTa-large mencapai kinerja lebih tinggi dengan F1-Score 0.8386. Temuan ini menegaskan bahwa pendekatan lintas-bahasa lebih efektif dalam menangani karakteristik linguistik teks game di Indonesia, termasuk loanwords dan code-switching, sehingga memberikan kemampuan ekstraksi informasi yang lebih akurat. Kontribusi ini menunjukkan bahwa pemanfaatan teks berita online dapat dioptimalkan melalui penyediaan dataset terstandar dan penerapan model multilingual sebagai baseline yang andal untuk tugas ekstraksi informasi menggunakan NER pada domain industri game.

ABSTRACT

Indonesia’s rapidly growing game industry produces a large volume of unstructured online news text, yet its use as a strategic information source remains limited due to the absence of domain-specific Natural Language Processing (NLP) resources and the insufficient capability of existing models to handle technical terminology and code-switching phenomena. This study constructs GameNER-ID, the first Named Entity Recognition (NER) dataset for the Indonesian game industry, and evaluates the effectiveness of Transformer-based models in extracting information from such texts. The dataset construction process involves collecting news articles, standardizing formats, conducting manual curation, and annotating 3,351 sentences using ten domain-specific entity types with the IOB2 scheme, resulting in a structured and representative corpus suitable as a benchmark for NLP development in the game sector. Model performance is assessed through fine-tuning several Transformer architectures and measuring Precision, Recall, and F1-Score. Experimental results show that IndoBERT performs well in extracting information, achieving an F1-Score of 0.8175. Comparative analysis reveals that the multilingual XLM-RoBERTa-large model attains higher performance with an F1-Score of 0.8386. These findings highlight that cross-lingual approaches are more effective in handling the linguistic characteristics of Indonesian game-related texts, including loanwords and code-switching, thereby providing more accurate information extraction. This contribution demonstrates that the utilization of online news text can be optimized through the provision of standardized datasets and the application of multilingual models as reliable baselines for NER-based information extraction in the game industry domain.

مستخلص البحث

تنتج صناعة الألعاب في إندونيسيا، التي تشهد نمواً سريعاً، حجمًا كبيرًا من نصوص الأخبار على الإنترنت غير المنظمة، ومع ذلك لا يزال استخدام هذه النصوص كمصدر للمعلومات الاستراتيجية محدودًا بسبب نقص الموارد الخاصة بمعالجة اللغة الطبيعية (NLP) لمجال محدد، بالإضافة إلى ضعف قدرة النماذج الحالية على التعامل مع المصطلحات التقنية والظواهر اللغوية المختلطة (تبديل الشيفرة). تهدف هذه الرسالة إلى بناء GameNER-ID، أول مجموعة بيانات للتعرف على الكيانات المسماة (NER) في مجال صناعة الألعاب باللغة الإندونيسية، وكذلك تقييم فعالية نماذج Transformer في استخراج المعلومات من هذه النصوص. تشمل عملية بناء مجموعة البيانات جمع مقالات الأخبار، وتوحيد الصياغة، والمراجعة اليدوية، وتعليم 3,351 جملة باستخدام عشرة أنواع من الكيانات الخاصة بالمجال وفق مخطط IOB2، مما يؤدي إلى إنشاء مجموعة بيانات منظمة تمثل النموذج ومناسبة للاستخدام كمقياس لتطوير معالجة اللغة الطبيعية في قطاع الألعاب. تم تقييم أداء النموذج من خلال ضبط دقيق لعدة هياكل Transformer وقياس مقاييس الدقة (Precision) والاسترجاع (Recall) وكذلك معدل ف1. أظهرت نتائج التجارب أن نموذج IndoBERT يستخرج المعلومات بشكل جيد حيث حقق معدل F1 ف1 بمقدار 0.8175. أظهر التحليل المقارن أن نموذج XLM-RoBERTa-large متعدد اللغات يحقق أداءً أعلى بمعدل ف1يبلغ 0.8386. أكدت هذه النتائج أن منهج متعدد اللغات أكثر فعالية في التعامل مع الخصائص اللغوية لنصوص الألعاب في إندونيسيا، بما في ذلك الكلمات المستعارة وتبديل الرموز (code-switching)، مما يوفر قدرة أعلى على استخراج المعلومات بدقة. يوضح هذا الإسهام أن الاستفادة من نصوص الأخبار عبر الإنترنت يمكن تحسينها من خلال توفير مجموعة بيانات معيارية وتطبيق نموذج متعدد اللغات كأساس موثوق لمهمة استخراج المعلومات باستخدام NER في مجال صناعة الألعاب.

Item Type: Thesis (Masters)
Supervisor: Abidin, Zainal and Kusumawati, Ririen
Keywords: Information Extraction; Named Entity Recognition (NER); Natural Language Processing (NLP); Transformer; IndoBERT; Berita Game; GameNER-ID
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Firmansyah Resko Wibowo
Date Deposited: 28 Jan 2026 13:42
Last Modified: 28 Jan 2026 13:42
URI: http://etheses.uin-malang.ac.id/id/eprint/82848

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item