Responsive Banner

Implementasi metode jaringan saraf tiruan backpropagation pada pengenalan suara manusia

Prayugo, Mohammad Bagus Dimas (2023) Implementasi metode jaringan saraf tiruan backpropagation pada pengenalan suara manusia. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Fulltext)
19610001.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (11MB) | Preview

Abstract

INDONESIA:

Pengenalan suara merupakan suatu proses identifikasi suara dengan menggunakan parameter tertentu yang diambil oleh penangkap suara. Perkembangan teknologi memunculkan suatu peristiwa yang membutuhkan model perhitungan dalam pengenalan suara yang berguna dalam ilmu pengetahuan. Model perhitungan didapatkan dengan bantuan sistem komputer. Salah satu dari sistem komputer adalah Jaringan Saraf Tiruan (JST). Sistem jaringan saraf tiruan meniru cara kerja biologis jaringan saraf. Salah satu metode jaringan saraf tiruan yang paling umum digunakan ialah Backpropagation. Penelitian ini dilakukan dengan menerapkan metode jaringan saraf tiruan Backpropagation untuk pengenalan suara manusia. Penelitian ini bertujuan untuk mengetahui model arsitektur dan tingkat akurasi yang didapatkan. Pada penelitian ini mengambil pengenalan suara dikarenakan suara memiliki pola yang cukup lengkap dan unik sehingga proses identifikasi sinyal suara dibantu dengan perhitungan yang dapat mengekstraksi ciri atau fitur suara. Suara dilakukan filter untuk menghilangkan noise. Digunakan Linear Predictive Coding (LPC) untuk ekstraksi fitur suara. Selanjutnya ekstraksi fitur suara dalam bentuk domain waktu ditransformasi menjadi bentuk domain frekuensi menggunakan Fast Fourier Transform (FFT). Data suara dibagi 80% sebagai data training dan 20% sebagai data testing. Pelatihan menggunakan data training untuk mendapatkan model arsitektur jaringan saraf tiruan yang sesuai dari beberapa model parameter yang berbeda. Pelatihan dilakukan dengan menghitung nilai optimal bobot dan bias jaringan agar dapat mengenali pola suara dengan baik. Didapatkan model terbaik arsitektur jaringan saraf tiruan 64-15-1-1. Model arsitektur jaringan yang didapat diuji dengan data testing untuk menguji arsitektur dalam mengenali pola suara. Perhitungan evaluasi menggunakan K-Fold Cross Validation untuk mengetahui tingkat akurasi model arsitektur jaringan. Didapatkan nilai akurasi sebesar 0,95 terhadap data training dan 0,088886 terhadap data testing. Model arsitektur jaringan saraf tiruan sangat baik dalam mengenali suara terhadap data training dan kurang baik dalam data testing. Diharapkan metode ini dapat membantu pada proses penelitian terkait pengenalan.

ENGLISH:

Speech recognition is a process of voice identification using specific parameters taken by the sound catcher. The technology development gave rise to a problem that requires a calculation model in speech recognition to be useful in science. The calculation model is obtained by using a computer system. One of the computer systems is the Artificial Neural Network (ANN). Artificial neural network systems are imitate the biological workings of neural networks. One of the most generally used artificial neural network methods is Backpropagation. This research was performed by applying the Backpropagation artificial neural network method for human voice recognition. In this research, voice recognition is used because the voice has a sufficient complete and unique pattern so that the process of identifying voice signals is assisted by calculations which can extract the characteristics or features of the voice. The voice is filtered to remove noise. Linear Predictive Coding (LPC) is used for voice feature extraction. Then, the extracted voice features in the time domain are transformed into the frequency domain by fast Fourier transform (FFT). Voice data is divided 80% as training data and 20% as testing data. Training uses training data to get the suitable artificial neural network architecture model from a few different parameter models. Training performed by calculating the optimal value of the weight and bias of the network to recognize sound patterns well. The best model of artificial neural network architecture 64-15-1-1 is obtained. The network architecture model obtained was tested with testing data to test the architecture in recognizing voice patterns. The evaluation calculation is using K-Fold Cross Validation to determine the accuracy of the network architecture model. An accuracy value of 0.95 was obtained for the training data and 0.088886 for the testing data. The artificial neural network architecture model is best at recognizing voices on training data and poorly on testing data. Hopefully, this method can help in the research process related to recognition.

ARABIC:

التعرف على الصوت هو عملية تعريف الصوت باستخدام المعيار المعينة يتخذها ماسك الصوت. أدى تطور التكنولوجيا إلى ظهور حدث الدي يتطلب نموذجا حسابيا في التعرف على الكلام يكون مفيدا في العلوم. يتم الحصول على نموذج الحساب بمساعدة نظام الكمبيوتر. أحد أنظمة الكمبيوتر هو الشبكة العصبية الاصطناعية (JST). يحاكي نظام الشبكة العصبية الاصطناعية الأعمال البيولوجية للشبكات العصبية. واحدة من أكثر طرق الشبكات العصبية الاصطناعية شيوعا هي الانتشار العكسي. تم إجراء هذا البحث من خلال تطبيق طريقة الشبكة العصبية الاصطناعية الانتشار العكسي للتعرف على الكلام البشري. في هذه الدراسة، يتم أخذ التعرف على الصوت لأن الصوت له نمط كامل وفريد إلى حد ما بحيث يتم مساعدة عملية تحديد الإشارات الصوتية من خلال الحسابات التي يمكن أن تستخرج خصائص أو ميزات الصوت. تمت تصفية الصوت لإزالة الضوضاء. يستخدم الترميز التنبئي الخطي (LPC) لاستخراج ميزات الصوت. علاوة على ذلك، يتم تحويل استخراج ميزات الصوت في شكل مجالات زمنية إلى شكل مجالات تردد باستخدام تحويل فورييه السريع (FFT). يتم تقسيم البيانات الصوتية بنسبة 80٪ كبيانات تدريب و20٪ كبيانات اختبار. يستخدم التدريب بيانات التدريب للحصول على نموذج بنية الشبكة العصبية الاصطناعية المقابلة من عدة نماذج معلمات مختلفة. يتم التدريب عن طريق حساب القيمة المثلى لوزن الشبكة والتحيز من أجل التعرف على أنماط الصوت بشكل جيد. تم الحصول على أفضل نموذج لبنية الشبكة العصبية الاصطناعية 64-15-1-1. يتم اختبار نموذج بنية الشبكة الذي تم الحصول عليه من خلال اختبار البيانات لاختبار البنية في التعرف على أنماط الصوت. يستخدم حساب التقييم ك أضعاف التحقق المتقاطع لتحديد مستوى دقة نموذج بنية الشبكة. تم الحصول على قيمة دقة 0.95 لبيانات التدريب و 0.088886 لبيانات الاختبار. نموذج بنية الشبكة العصبية الاصطناعية جيد جدا في التعرف على الصوت مقابل بيانات التدريب وأقل جودة في اختبار البيانات. من المأمول أن تساعد هذه الطريقة في عملية البحث المتعلقة بالتعرف.

Item Type: Thesis (Undergraduate)
Supervisor: Fahmi, Hisyam and Nashichuddin, Achmad
Keywords: Backpropagation; Fast Fourier Transform; Jaringan Saraf Tiruan; Linear Predictive Coding; Pengenalan Suara; Backpropagation; Fast Fourier Transform; Neural Network; Linear Predictive Coding; Speech Recognition; الانتشار العكسي ;التحويل السريع لفورييه ;الشبكة العصبية ;التشفير التنبؤي الخطي ;التعرف على الصوت
Departement: Fakultas Sains dan Teknologi > Jurusan Matematika
Depositing User: Mohammad Bagus Dimas Prayugo
Date Deposited: 03 Jul 2023 12:00
Last Modified: 03 Jul 2023 12:00
URI: http://etheses.uin-malang.ac.id/id/eprint/51794

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item