Ini merupakan postingan pertama saya seputar Teknik Informatika....
Langsung aja disimak yoooo..
PENGERTIAN DATA MINING
Data mining adalah sebuah proses
percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data
berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge
discovery (mining) in databases (KDD), knowledge extraction, data/pattern
analysis, data archeology, data dredging, information harvesting, dan business
intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran
besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua
pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh,
pencarian record individual menggunakan database management system atau
pencarian halaman we tertentu melalui kueri ke
semua
search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan
information retrieval. Teknik-teknik data mining dapat digunakan untuk meningkatkan
kemampuan sistem-sistem information retrieval.
Data mining adalah bagian integral dari
knowledge discovery in databases (KDD). Data
input dapat disimpan dalam berbagai format seperti flat file, spreadsheet, atau
tabel-tabel relasional, dan dapat menempati tempat penyimpanan data terpusat
atau terdistribusi pada banyak tempat. Tujuan dari preprocessing adalah
mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis
selanjutnya. Langkah-langkah yang terlibat dalam preprocessing data meliputi
mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk
membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang
relevan untuk pekerjaan data mining. Karena terdapat banyak cara mengumpulkan
dan menyimpan data, tahapan preprocessing data merupakan langkat yang banyak
menghabiskan waktu dalam KDD. Hasil dari data mining sering kali diintegrasikan
dengan decision support system (DSS). Sebagai contoh, dalam aplikasi bisnis
informasi yang dihasilkan oleh data mining dapat diintegrasikan dengan tool
manajemen kampanye produk sehingga promosi pemasaran yang efektif yang
dilaksanakan dan dapat diuji. Integrasi demikian memerlukan langkah
postprocessing yang menjamin bahwa hanya hasil yang valid dan berguna yang akan
digabungkan dengan DSS. Salah satu pekerjaan dan postprocessing adalah
visualisasi yang memungkinkan analyst untuk mengeksplor data dan hasil data
mining dari berbagai sudur pandang. Ukuran-ukuran statistik dan metode
pengujian hipotesis dapat digunakan selama postprocessing untuk membuang hasil
data mining yang palsu. Secara khusus, data mining menggunakan ide-ide seperti
(1) pengambilan contoh, estimasi, dan pengujian hipotesis, dari statistika dan
(2) algoritme pencarian, teknik pemodelan, dan teori pembelajaran dari
kecerdasan buatan, pengenalan pola, dan machine learning. Data mining juga
telah mengadopsi ide- ide dari area lain meliputi optimisasi, evolutionary
computing, teori informasi, pemrosesan sinyal, visualisasi dan information
retrieval. Sejumlah area lain juga memberikan peran pendukung dalam data
mining, seperti sistem basis data yang dibutuhkan untuk menyediakan tempat
penyimpanan yang efisien, indexing dan pemrosesan kueri.
Data mining merupakan proses pencarian
pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis
data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian
arsitektur sistem data mining memiliki komponen-komponen utama yaitu:
-
Basis data, data
warehouse atau tempat penyimpanan informasi lainnya.
-
Basis data dan data
warehouse server. Komponen ini bertanggung jawab dalam pengambilan relevant
data, berdasarkan permintaan pengguna.
-
Basis pengetahuan.
Komponen
ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau
mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki
konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke
dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa
kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan
kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah
threshold dan metadata yang menjelaskan data dari berbagai sumber yang
heterogen.
Data
mining engine merupakan komponen penting dalam arsitektur sistem data mining.
Komponen ini terdiri modul-modul fungsional data mining seperti karakterisasi,
asosiasi, klasifikasi, dan analisis cluster. Modul evaluasi pola. Komponen ini
menggunakan ukuran-ukuran kemenarikan dan berinteraksi dengan modul data mining
dalam pencarian pola-pola menarik. Modul evaluasi pola dapat menggunakan
threshold kemenaikan untuk mem-filter pola-pola yang diperoleh. Antarmuka
pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem data
mining. Melalui modul ini, pengguna berinteraksi dengan sistem mengan
menentukan kueri atau task data mining. Antarmuka juga menyediakan informasi untuk
memfokuskan pencarian dan melakukan eksplorasi data mining berdasarkan hasil
data mining antara. Komponen ini juga memungkinkan pengguna untuk mencari
(browse) basis data dan skema data warehouse atau struktur data, evaluasi pola
yang diperoleh dan visualisasi pola dalam berbagai bentuk. Data mining dapat
diaplikasikan pada berbagai jenis penyimpanan data seperti basis data
relational, data warehouse, transactional database, object- oriented and
object-relational databases, spatial databases, time-series data and temporal
data, text databases and multimedia databases, heterogeneous and legacy databases
dan WWW.
Basis data Relasional
Basis data relasional merupakan koleksi
dari table. Setiap table berisi atribut (field) dan biasanya menyimpan sejumlah
besar tuple (record). Setiap tuple dalam table relasional merepesentasikan
sebuah objek yang diidentifikasikan oleh kunci unik dan dideskripsikan oleh
sekumpulan nilai atribut. Data relasional dapat diakses oleh kueri basis data
yang ditulis dalam bahasa kueri relasional seperti SQL atau dengan bantuan
antarmuka pengguna grafis.
Data warehouse
Data warehouse merupakan tempat
penyimpanan informasi yang dikumpulkan dari berbagai sumber, disimpan dalam
skema yang dipersatukan (unified schema) dan biasanya bertempat pada tempat
penyimpanan tunggal. Data warehouse dikonstruksi melalui sebuah proses data
cleaning, data transformation, data integration, data loading dan periodic data
refreshing. Untuk memfasilitasi proses pembuatan keputusan, data dalam data warehouse
diorganisasikan ke dalam subjek utama seperti customer, item, supplier atau aktivitas.
Data disimpan untuk menyediakan informasi dari perspektif sejarah (seperti 5-10
tahun yang lalu) dan biasanya data tersebut diringkas (summarized). Sebagai
contoh, daripada menyimpan data rinci dari transaksi penjualan, data warehouse
dapat menyimpan ringkasan dari transaksi per tipe item untuk setiap toko atau
diringkas dalam level yang lebih tinggi seperti daerah pemasaran. Data
warehouse biasanya dimodelkan oleh struktur basis data multidimensional, dimana
setiap dimensi berkaitan dengan sebuah atribut atau sekumpulan atribut dalam
skema, dan setiap sel menyimpan nilai dari ukuran agregasi seperti count dan
sales_amount. Struktur fisik dari data warehouse dapat berupa penyimpanan basis
data relasional atau sebuah kubus data multidimensional.
Basis data
Transaksional
Secara
umum, basis data transaksional terdiri dari sebuah file dimana setiap record
merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan
identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang membuat
transaksi (seperti item yang dibeli dalam sebuah took). Basis data transaksi
dapat memiliki tabel tambahan, yang mengandung informasi lain berkaitan dengan
penjualan seperti tanggal transaksi, customer ID number, ID number dari sales
person dan dari kantor cabang (branch) dimana penjualan terjadi.
Tidak ada komentar:
Posting Komentar