Ada
kemajuan luar biasa dalam teknologi jaringan, penyimpanan, dan prosesor, serta
peningkatan berbagi data antarorganisasi. Akibatnya, ada pertumbuhan eksplosif
dalam volume data digital, di antaranya sebagian besar dikumpulkan oleh organisasi
untuk tujuan keamanan.
Ini
memerlukan penggunaan keamanan data mining untuk menganalisis data digital
untuk menemukan pengetahuan yang dapat ditindaklanjuti. Yang dimaksud dapat
ditindaklanjuti adalah pengetahuan baru ini meningkatkan indikator kinerja
utama organisasi, memungkinkan pengambilan keputusan yang lebih baik untuk
manajer organisasi, dan memberikan hasil yang terukur dan nyata. Alih-alih
penambangan data berbasis data teoretis murni, berbasis domain yang lebih
praktis data mining diperlukan untuk menemukan pengetahuan yang dapat
ditindaklanjuti.
Tujuan
sebagai makalah survei yaitu untuk menentukan domain keamanan data mining oleh
organisasi menggunakan studi kasus yang diterbitkan dari berbagai keamanan
lingkungan. Meskipun setiap keamanan lingkungan mungkin memiliki persyaratan uniknya
sendiri, pada bab ini berbagi prinsip yang sama untuk beroperasi dengan baik.
Kontribusi
utama berfokus pada cara-cara untuk merekayasa resistensi gangguan untuk
aplikasi keamanan data mining algoritma matematika di program komputer yang
melakukan keamanan data mining. Dengan ketahanan terhadap kerusakan, organisasi
menerapkan keamanan data mining dapat mencapai akurasi yang lebih baik untuk
organisasi, privasi untuk individu dalam data, dan kerahasiaan antara
organisasi yang bagikan hasilnya.
Bab ini ditulis untuk khalayak umum
yang memiliki sedikit latar belakang teoritis dalam data mining, tetapi
tertarik pada aspek praktik keamanan data mining berasumsi bahwa pembaca
mengetahui atau pada akhirnya akan membaca tentang proses data mining yang
melibatkan langkah-langkah yang teratur dan saling bergantung. Langkah-langkah
tersebut terdiri dari pra-pemrosesan, integrasi, seleksi, dan transformasi
data; penggunaan umum data mining algoritma (seperti klasifikasi, pengelompokan, dan
aturan asosiasi); hasil pengukuran dan interpretasi.
1.1 Keamanan Data Mining
Keamanan adalah kondisi terlindung dari bahaya atau kerugian.
Tapi lebih tepatnya Definisi keamanan dalam bab ini adalah penggunaan tindakan
pencegahan untuk mencegah tindakan yang disengaja dan perilaku musuh yang tidak
beralasan.
Keamanan data mining adalah suatu
bentuk penanggulangan dalam penggunaan data skala besar analitik untuk secara
dinamis mendeteksi sejumlah kecil musuh yang terus-menerus berubah. Ini
mencakup pengamanan terkait data dan hasil. Penambangan data keamanan relevan
di berbagai domain seperti keuangan, asuransi, kesehatan, perpajakan, jaminan
sosial, e-commerce, hanya untuk beberapa nama. Ini adalah istilah kolektif
untuk deteksi penipuan, kejahatan, terorisme, kejahatan keuangan, spam, dan
intrusi jaringan. Selain itu, ada bentuk lain dari aktivitas permusuhan seperti
deteksi online game, pelanggaran data, phishing, dan plagiarisme. Perbedaan
antara keamanan data mining dan penipuan data mining yang pertama
berkonsentrasi pada musuh dalam jangka panjang, bukan untuk keuntungan jangka
pendek.
1.2 Masalah Khusus
Konsep masalah khusus untuk keamanan data mining, yaitu:
a. Ketahanan
dalam sistem keamanan adalah kemampuan untuk menurunkan dengan anggun saat di
bawah serangan paling nyata. Sistem keamanan membutuhkan "pertahanan
mendalam" dengan banyak, sekuensial, dan lapisan pertahanan independen untuk
menutupi berbagai jenis serangan, dan untuk menghilangkan contoh yang
jelas-jelas sah.
Sistem
keamanan merupakan kombinasi dari pendekatan manual dan pendekatan otomatis termasuk
pencocokan daftar hitam dan keamanan data mining algoritma. Dasar pendekatan
otomatis mencakup aturan kode keras seperti pencocokan nama dan alamat pribadi,
dan menetapkan batas harga dan jumlah.
Salah
satu pendekatan otomatis yang umum dikenal adalah pencocokan penipuan. Penipuan
yang diketahui biasanya dicatat dalam daftar hitam yang diperbarui secara
berkala. Selanjutnya saat ini klaim/aplikasi/transaksi/akun/urutan dicocokkan Daftar
hitam. Ini memiliki manfaat dan kejelasan dari belakang karena pola sering ulangi
sendiri. Namun, ada dua masalah utama yang diketahui dalam penipuan. Pertama,
mereka tidak tepat waktu karena penundaan waktu yang lama yang memberikan peluang
bagi para penipu. Kedua, pencatatan fraud terlalu manual.
b. Adaptasi untuk
keamanan data mining algoritma, akun untuk perilaku penipuan morphing sebagai
upaya untuk mengamati penipuan mengubah perilakunya. Dalam praktiknya, untuk
deteksi penipuan yang ditumpangkan telekomunikasi, ada aturan penipuan dari
data dan aturan berlabel setiap akun telepon yang dikloning pilihan untuk
menutupi sebagian besar akun. Untuk deteksi kelainan, setiap penipuan yang
dipilih aturan diterapkan dalam bentuk monitor (jumlah dan durasi panggilan) ke
harian penggunaan yang sah dari setiap akun. StackGuard adalah penyusun
sederhana yang hampir menghilangkan serangan buffer overflow hanya dengan penalti
kecepatan sedang. Untuk memberikan respons adaptif terhadap instrusi,
StackGuard beralih antara versi MemGuard yang lebih efektif dan versi Canary
yang lebih efisien.
Secara teori, dalam deteksi spam, musuh belajar bagaimana
menghasilkan lebih banyak kesalahan negatif dari pengetahuan sebelumnya,
observasi, dan eksperimen. Permainan teori diadaptasi untuk secara otomatis
mempelajari kembali algoritme yang diawasi yang sensitif terhadap biaya mengingat
strategi optimal musuh yang sensitif terhadap biaya. Ini mendefinisikan musuh dan
pengklasifikasi strategi optimal dengan membuat beberapa asumsi yang valid.
c. Kualitas data sangat
penting untuk keamanan data mining algoritma melalui penghapusan kesalahan
data. HESPERUS memfilter duplikat yang telah dimasukkan kembali karena
kesalahan manusia atau karena alasan lain. Ini juga menghilangkan redundan atribut
yang memiliki banyak nilai yang hilang, dan masalah lainnya. Pra-pemrosesan
data untuk deteksi penipuan sekuritas termasuk konsolidasi yang diketahui dan teknik
pembentukan tautan untuk menghubungkan orang dengan lokasi kantor, menyimpulkan
asosiasi berdasarkan riwayat pekerjaan, dan teknik normalisasi berdasarkan
ruang dan waktu untuk membuat label kelas yang sesuai.
1.3 Masalah Umum
Konsep masalah umum untuk keamanan
data mining, yaitu:
a. Data pribadi versus data perilaku
Data pribadi berkaitan dengan orang alami yang teridentifikasi.
Di sisi lain, data perilaku yang berkaitan dengan perilaku orang dalam keadaan
tertentu. Data di sini mengacu dalam bentuk teks, karena data gambar dan video
berada di luar jangkauan. Sebagian besar aplikasi menggunakan data perilaku
tetapi beberapa, seperti HESPERUS menggunakan data pribadi. HESPERUS menemukan
pola penipuan aplikasi kartu kredit. Mendeteksi tiba-tiba dan lonjakan tajam
duplikat dalam waktu yang singkat, perilaku relatif normal.
b. Data tidak terstruktur versus data
terstruktur
Data tidak terstruktur yaitu tidak dalam format tabel atau
dibatasi, sementara data terstruktur tersegmentasi ke dalam atribut di mana
masing-masing memiliki format yang ditetapkan. Dalam bab ini aplikasi
berikutnya, sebagian besar menggunakan data terstruktur tetapi beberapa,
seperti dalam perangkat lunak plagarisme menggunakan data tidak terstruktur. Data
tidak terstruktur diubah menjadi sidik jari - kgram yang dipilih dan di-hash (menggunakan
0 mod p atau menampi) dengan informasi posisi - untuk mendeteksi salinan
perangkat lunak. Beberapa masalah yang dibahas dalam makalah ini termasuk
dukungan untuk berbagai format input, filter kode yang tidak perlu, dan
presentasi hasil.
c. Aplikasi real-time versus
retrospektif
Aplikasi real-time memproses peristiwa saat terjadi dan perlu
ditingkatkan pertumbuhan data. Sebaliknya, proses aplikasi retrospektif peristiwa
setelah terjadi dan sering digunakan untuk melakukan audit dan tes stres.
Aplikasi deteksi kejahatan keuangan waktu nyata – Sekuritas Observasi, Analisis
Berita, dan Regulasi (SONAR), dan retrospektif aplikasi deteksi penipuan
manajerial – SHERLOCK.
Secara real-time, SONAR memantau pasar saham utama untuk perdagangan
dengan menggunakan informasi yang bersifat material, dan penipuan representasi
yang salah oleh pengarang berita. SONAR menambang untuk hubungan eksplisit dan
implisit di antara entitas dan peristiwa, menggunakan teks mining, regresi
statistik, inferensi berbasis aturan, ketidakpastian.
Dalam retrospeksi, SHERLOCK menganalisis buku besar - daftar formal dari akun jurnal dalam bisnis yang digunakan untuk persiapan laporan keuangan dan pajak pengajuan - untuk penyimpangan yang berguna untuk auditor dan penyidik. SHERLOCK mengekstrak beberapa lusin atribut penting untuk deteksi dan klasifikasi outlier. Beberapa keterbatasan yang dinyatakan dalam makalah termasuk data yang sulit untuk pra-proses, memiliki satu set kecil buku besar penipuan yang diketahui sementara sebagian besar tidak berlabel, dan hasilnya sulit untuk ditafsirkan.
d. Aplikasi tanpa pengawasan versus
aplikasi yang diawasi
Aplikasi yang tidak diawasi tidak
menggunakan label kelas biasanya penugasan dari catatan ke kategori tertentu dan
lebih cocok untuk penggunaan waktu yang sebenarnya. Sebuah diawasi aplikasi
menggunakan label kelas dan biasanya untuk penggunaan retrospektif. Deteksi
penipuan klik dan deteksi penipuan manajemen aplikasi menggunakan perilaku,
data terstruktur. Menggunakan data klik pengguna pada iklan web menganalisis
permintaan menggunakan analisis berpasangan tanpa pengawasan dengan aturan
asosiasi. Menggunakan perusahaan publik data akun, gunakan pohon keputusan yang
diawasi untuk mengklasifikasikan waktu dan atribut rekan, dan menerapkan
regresi logistik terawasi untuk setiap deret waktu daun.
e. Maksimum versus tidak ada interaksi
pengguna
Interaksi pengguna maksimum
diperlukan jika konsekuensinya untuk pelanggaran keamanan. Interaksi pengguna
mengacu pada kemampuan untuk mudah membubuhi keterangan, menambahkan atribut,
atau mengubah bobot atribut atau untuk memungkinkan lebih baik pemahaman dan
penggunaan skor (atau aturan). Tidak ada interaksi pengguna yang mengacu pada
sepenuhnya aplikasi otomatis. Deteksi penipuan telekomunikasi visual menggabungkan
deteksi pengguna denganprogram komputer. Ini secara fleksibel mengkodekan data
menggunakan warna, posisi, ukuran dan karakteristik visual lainnya dengan
beberapa tampilan dan level yang berbeda.
2.1 Ketahanan terhadap Kerusakan
Gambar memberikan penjelasan visual tentang solusi ketahanan
terhadap kerusakan dalam keamanan data mining. Masalah datang dari data
adversaries, internal adversaries, dan external musuh dalam bentuk organisasi
lain yang berbagi data atau hasil. Solusinya dapat diringkas sebagai ketahanan
terhadap kerusahan yang menangani sebagian besar jenis musuh dan membuatnya
lebih banyak sulit bagi musuh untuk memanipulasi atau menghindari keamanan data
mining. Rekomendasi data yang andal sebagai input, algoritme deteksi kelainan
sebagai proses privasi dan kerahasiaan menjaga hasil sebagai output untuk
meningkatkan ketahanan kerusakan.
2.2 Data yang dapat diandalkan
Data
yang dapat diandalkan bukan hanya data yang berkualitas tapi juga bisa dipercaya
dan memberikan hasil yang sama, bahkan dengan manipulasi musuh.
•
Data
yang tidak dapat dipalsukan dapat dilihat sebagai atribut yang dihasilkan
secara tidak sadar yang didasarkan pada pengaturan waktu informasi username dan
password. Sebagai faktor otentikasi, berbasis ritme pola pengetikan murah,
mudah diterima oleh sebagian besar pengguna dan dapat digunakan di luar
keyboard. Namun, ada masalah kebijakan dan privasi.
•
Data
yang stabil mencakup hubungan komunikasi antara musuh di mana tautan tersebut
berada sudah tersedia. Dengan menautkan akun ponsel menggunakan jumlah dan
durasi panggilan untuk membentuk Community Of Interest (COI), dua karakteristik
yang berbeda penipu dapat ditentukan. Akun telepon palsu ditautkan sebagai
penipu menelepon satu sama lain atau nomor telepon yang sama, dan perilaku
panggilan penipuan dari penipuan yang diketahui tercermin dalam beberapa akun
telepon baru. Data yang stabil dapat berasal dari ekstraksi atribut di mana
atribut tidak langsung tersedia atau ketika ada terlalu banyak atribut. Untuk
menemukan yang baru, sebelumnya executable berbahaya yang tidak terlihat dan
membedakannya dari program yang tidak berbahaya, ada ekstraksi atribut dari
berbagai informasi seperti Dynamically Linked Panggilan perpustakaan, string
yang dapat dicetak berurutan, dan urutan byte.
•
Data
yang tidak jelas mengacu pada atribut dengan distribusi karakteristik. Untuk
intrusi deteksi, atribut ini menggambarkan lalu lintas jaringan, seperti
riwayat rata-rata alamat Internet Protocol (IP) sumber dan tujuan, nomor port
sumber dan tujuan, jenis protokol, jumlah byte per langkah, dan waktu yang
berlalu antar paket. Selain itu, lebih banyak atribut seperti itu berasal dari
data router, seperti Central Processing Unit (CPU), penggunaan memori, dan
volume lalu lintas.
Dalam pencurian identitas online, setiap serangan phishing
memiliki beberapa tahapan mulai dari: pengiriman serangan hingga akhir
penerimaan uang. Intinya di sini adalah untuk mengumpulkan dan data mining yang
tidak jelas dari tahap yang paling tidak diharapkan oleh musuh.
Perkembangan teknologi informasi saat ini memungkinkan
penyimpanan data dalam skala yang sangat besar. Perkembangan ini telah merambah
ke berbagai bidang, termasuk perbankan, sehingga pemanfaatan teknologi
informasi di lembaga keuangan sudah tidak asing lagi di kalangan masyarakat
luas. Data mining merupakan kegiatan yang meliputi pengumpulan dan pemakaian
data historis untuk menemukan keteraturan, pola, atau hubungan dalam data
berukuran besar. Dengan memanfaatkan data nasabah dan data pinjaman, data mining
dapat membantu keputusan strategis dalam memprediksi kelayakan pinjaman untuk
nasabah di sebuah lembaga keuangan. Algoritma yang digunakan untuk membangun
decision tree yaitu algoritma ID3 (Iterative Dichotomizer 3). Algoritma ID3
digunakan untuk mengkategorikan data menjadi beberapa kelas. Dari hasil
percobaan dengan 20 data baru dihasilkan akurasi sebesar 85%. Hasil yang
diperoleh dapat digunakan sebagai bahan masukan bagi instansi terkait dalam uji
kelayakan pinjaman dari nasabahnya
Pada
era sekarang data mining sudah menjadi suatu hal yang penting bagi para
perusahaan,pemerintahan,dll.
Dalam
bidang keuangan,data mining sangat penting untuk para pemerintah dan
perusahaan-perusahaan yang mengatur data yang jumlahnya sangat besar.tidak
heran apabila data-data yang masuk ada data yang tidak berguna dan data-data
yang mungkin saja dimanipulasi tanpa diketahui jejaknya.Tak heran banyak
kecurangan-kecurangan seperti koruptor dan penjahat yang memanipulasi laporan
data keuangan perusahaan-perusahaan besar untuk keuntungan mereka sendiri.
Data
Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan
buatan, machine learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database
besar (Turban dkk. 2005) .
Data mining dapat dijadikan priortias utama
dalam analisis. Effort utama adalah mengumpulkan data,membersihkan (cleaning)
dan organize dengan banyak teknik dan malukan intepretasi dan mendapatkan
informasi yang terkandung. Banyak sekali teknik yang dapat digunakan seperti
decision tree sebuah teknik dalam data mining untuk klasifikasi, regresi untuk
mengukur dan mengetahui hubungan antara variabel atau masalah, klaster untuk
mengelompokkan data yang memiliki karakteristik yang sama, association rule mining atau juga disebut basket
analysis yang digunakan pada industry retail untuk melihat asosiasi dari data
dan paling utama adalah melakukan visualisasi dari data untuk melihat
kesimpulan dri permasalahan. Banyak sekali ribuan kemungkinan yang mampu
digunakan pada data mining dan melakukan analisis prediktif.
Dalam konteks utilitas bisnis dari hasil dari sebuah analisis
dapat diapplikasikan dengan baik. Oleh karena itu yang membedakan data mining
dari analisis statistik tidak begitu banyak jumlah data yang kita gunakan dalam
menganalisis atau metode yang kita gunakan tetapi kita bahwa mengintegrasikan
apa yang kita ketahui tentang database, sarana analisis dan pengetahuan bisnis.
Untuk menerapkan metodologi data mining berarti menyusul terpadu proses
metodologis yang melibatkan menerjemahkan kebutuhan bisnis ke dalam masalah
yang harus dianalisis, mengambil database yang diperlukan untuk melaksanakan
analisis, dan menerapkan teknik statistik diimplementasikan dalam algoritma komputer
dengan tujuan akhir dari pencapaian hasil penting berguna untuk mengambil
keputusan strategis. Keputusan strategis tersebut akan sendiri dibuat guna
memenuhi kebutuhan pengukuran baru dan akibatnya pada kebutuhan bisnis. Data
mining tidak hanya tentang penggunaan algoritma komputer atau statistik. Teknik
tersebut juga sebuah proses intelijen bisnis yang dapat digunakan
bersama-sama denganapa yang disediakan oleh teknologi informasi untuk mendukung
keputusan perusahaan.Data mining juga bukan hanya analisis dari sebuah data.
Namun juga sebuah integrase dari hasil untuk mendukung pada keputusan bisnis
dalam perusahaan. Dalam pengetahuan bisnis. Melakukan ekstraksi dari
permasalahan kepada keputusan bisnis kita dituntut untuk dapat membuat sebuah
analisis yang tajam dan dapat menghasilkan keputusan yang baik. Model yang
telah didapat dari sebuah analsis dari dataset tersebut juga diharapkan
mampu meningkatkan profit perusahaan.Melihat dari manfaat yang bisa didapat
dari data mining. Sangat krusial untuk melakukan implementasi proses dengan
benar. Inklusi dari proses data mining terhadap permasalahan perusahaan
harus dilakukan dengan baik, juga memperhatikan realitas dari sebuah metode
untuk menyelesaikan permasalahan tersebut.
1. PEMBANGUNAN APLIKASI PENDETEKSIAN FRAUD PADA PAJAK
MENGGUNAKAN DECISION TREE
Pajak merupakan kontribusi wajib kepada negara yang terutang oleh orang pribadi atau badan yang bersifat memaksa berdasarkan Undang-Undang, dengan tidak mendapatkan imbalan secara langsung dan digunakan untuk keperluan negara bagi sebesar-besarnya kemakmuran rakyat.Dalam konsep Data Mining, fraud merupakan sebuah kejadian yang ditemukan pada anomali data dan pattern. Dari keseluruhan dataset normal, jumlah fraud lebih sedikit dari keseluruhan total dataset normal, hal ini menjadi kendala tersendiri dalam pendeteksian, yang menyebabkan fraud sulit untuk dideteksi sehingga menyebabkan kerugian cukup besar. Dengan semakin berkembangnya dunia teknologi informasi maka fraud semakin berkembang luas sehingga menyebabkan kerugian finansial yang sangat besar. Maka diperlukan fraud detection. Adapun teknik-teknik yang digunakan untuk fraud detection adalah teknik statistik, kecerdasan buatan(artificial intelligent) maupun teknik Data Mining.Salah satu metode atau teknik Data Mining dalam melakukan fraud detection yang digunakan adalah Decision Tree.
Decision Tree merupakan salah satu model prediksi yang mana
bisa mempresentasikan baik model klasifikasi maupun regresi.Decision Tree
memiliki beberapa kelebihan yaitu, membutuhkan sedikit persiapan data, mampu
mengolah data numerik maupun kategorikal, menggunakan mode whitebox,
memungkinkan untuk memvalidasi model dengan menggunakan uji statistik, dan
menghasilkan performansi yang baik jika menggunakan dataset yang besar.
Berdasarkan hasil pengujian yang dilakukan bisa disimpulkan
bahwa :
a. Metode Decision Tree dengan menggunakan algoritma C4.5 dapat diimplementasikan dalam pembangunan aplikasi klasifikasi fraud detection yang mana menghasilkan rata-rata persentase akurasi yaitu 99,51% dari skenario pengujian yang dilakukan menggunakan dataset yang telah disiapkan.
b. Data
mentah dari pembayaran pajak restoran maupun rumah makan yang direkap tidak
dapat digunakan secara langsung untuk melakukan fraud detection, dikarenakan
tipe data pajak yang bersifat continous dan acak, serta tidak cocok untuk studi
kasus yang dijabarkan, sehingga diperlukan preprocessing data terlebih dahulu
agar data dapat digunakan dalam proses data mining.
2. MENDETEKSI KECURANGAN PADA TRANSAKSI KARTU KREDIT UNTUK
VERIFIKASI TRANSAKSI MENGGUNAKAN METODE SVM
Kartu kredit
merupakan salah satu metode pembayaran yang sangat populer dan banyak digunakan
pada transaksi online. Sejalan dengan banyaknya pengguna kartu kredit dan
bahkan menjadi metode pembyaran sehari-hari, keamanan dalam mem-verifikasi
setiap transaksi juga sangat penting untuk ditingkatkan.Metode keamanan pada
transaksi kartu kredit terus dikembangkan guna mengurangi kecurangan dan
penipuan yang terjadi. Metode data mining merupakan salah satu yang dapat
membantu dalam pendeteksian kecurangan yang terjadi dengan mengenali pola
tranksaksi (pattern).Salah satu metode data mining yang populer adalah support
vector machine (SVM) yang masuk dalam metode klasifikasi.
SVM adalah metode yang berakar dari teori pembelajaran
statistik. Cara kerja SVM adalah mencari hyperplane terbaik yang berfungsi
sebagai pemisah dua buah kelas data pada input space. Berdasarkan hasil
pengujian yang bisa disimpulkan bahwa :
Hasil uji coba pada desain SPPK yang diusulkan, sistem dapat
mendeteksi data outlier yang dijadikan sebagai kecurangan (fraud). Hasil
deteksi tersebut yang akan menjadi data yang akan dikirimkan pada pihak
perbankan sebagai notifikasi kecurangan. Data training yang masih relatif
sedikit kurang bisa mengambarkan tingakatan akurasi dan kecepatan.
Itulah implementasi data mining keuangan dengan menggunakan
fraud detection.masing-masing menggunakan metode dan tools yang sesuai dengan
kebutuhan dari data mining tergantung dari masalah dan perusahaannya.
Sumber Referensi:
http://rezzyekocaraka.com/2017/02/24/data-mining-untuk-permasalahan-bisnis-dan-keuangan/