Prasetyo, Heni (2013) Membangun topical crawler dengan menggabungkan Web crawler dan Naïve Bayesian classification. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
09650185.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) | Preview |
Abstract
INDONESIA:
Web crawler adalah bot internet yang secara otomatis menelusuri halaman situs yang biasanya bertujuan untuk pengindeksan situs dan klasifikasi adalah proses pengelompokkan beberapa objek menjadi sebuah grup berdasarkan ciri-ciri dari objek tersebut.
Penelitian ini membahas mengenai pengunduhan dan pengklasifikasian halaman web berdasarkan isi (content) menggunakan metode naïve bayesian classification. Tujuan yang ingin dicapai adalah mengklasifikasikan hamalan web secara otomatis sesuai dengan kategorinya untuk keperluan data mining serta mempermudah pencarian informasi. Aplikasi dibangun menggunakan bahasa pemrograman java dan middlework JADE sebagai sistem terdistribusi berbasis agent. Uji coba dilakukan dengan meng-crawl 100 URL dari 1 web dan menggunakan 12 kategori dan dari masing-masing kategori menggunakan 10 dokumen untuk data training yang diambil secara manual dari www.tempo.co
Dari hasil uji coba, didapatkan bahwa proses crawl menghasilkan 100 dokumen web. Dari 100 dokumen tersebut didapatkan 35 dokumen berita dan 65 halaman navigasi. Dan dari 35 dokumen berita, 30 dokumen memiliki kategori yang sesuai dengan kategori dari situs aslinya
ENGLISH:
Web crawler is a bot that automatically browses the web page of the site which is usually aimed at indexing the site and classification is the process of grouping several objects into a group based on the characteristics of the object.
This study discusses about downloading and classifying Web pages based on the content using naïve Bayesian classification method. Objectives is to classify web hamalan automatically according to their category for the purposes of data mining and information retrieval easier. Applications built using the Java programming language and middlework JADE as agent-based distributed systems. The test is done by crawling 100 URLs from 1 website and use of the 12 categories and each category using 10 documents for training data were taken manually from www.tempo.co
From the test results, it was found that the process of crawl the web generating 100 documents. Of the 100 documents obtained 35 news and 65 pages document navigation. And the news of 35 documents, 30 documents have the appropriate category to the category of the original site
Item Type: | Thesis (Undergraduate) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Abidin, Zainal and Kusumawati, Ririen | |||||||||
Contributors: |
|
|||||||||
Keywords: | Web Crawler; Klasifikasi; Halaman Web; Naïve Bayesian Classification; Data Mining, Agent; Web Crawler; Klasifikasi; Halaman Web; Naïve Bayesian Classification; Data Minin; Agent | |||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika | |||||||||
Depositing User: | Sri Widiyanah | |||||||||
Date Deposited: | 04 Aug 2017 15:38 | |||||||||
Last Modified: | 04 Aug 2017 15:38 | |||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/7626 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |