ArticlePDF Available

Klasifikasi Kanker Payudara Menggunakan Algoritma SVM dengan Kernel RBF, Linier, dan Sigmoid

Authors:

Abstract

Breast cancer ranks first in both the gender category and the death rate. Late treatment is often found in cases of breast cancer which causes an increase in the risk factors for this cancer. For this reason, early detection of breast cancer is needed, so that treatment can be done in a timely manner, so that the death rate due to breast cancer can be reduced. For this reason, this article offers early detection of breast cancer using classification. The dataset in this study used the Wisconsin breast cancer dataset taken from Kaggle. Initially the dataset has a missing value, besides that the categorical data is not yet in numerical form, so it is necessary to do preprocessing with the missing value imputing technique and encoding to convert categorical data into numeric data. The dataset is divided into two proportions, namely 80% as training data and 20% as testing data. In the classification process, datasets that have been preprocessed are classified using SVM with three different kernels, namely the linear kernel, the RBF kernel, and the Sigmoid kernel. Based on the research results that have been obtained, the linear kernel shows the best classification results when applied to the SVM classification, namely with an accuracy value of up to 99%, followed by RBF kernel performance with an accuracy rate of 92%, and finally the sigmoid kernel with an accuracy value of 41%
JUSTIFY: Jurnal Sistem Informasi Ibrahimy
Vol. 2, No. 1, Juli 2023, hal. 74~80
E-ISSN: 2962-3642 | P-ISSN: 2962-3871
DOI: 10.35316/justify.v2i1.3370
.
74
Klasifikasi Kanker Payudara Menggunakan Algoritma SVM dengan
Kernel RBF, Linier, dan Sigmoid
Ginanjar Abdurraman1
1 Teknik Informatika, Teknik, Universitas Muhammadiyah Jember, Indonesia
Info Artikel ABSTRAK
Riwayat Artikel:
Diterima : 24-April-2023
Direvisi : 16-Juni-2023
Disetujui : 18-Juli-2023
Kanker payudara menjadi peringkat pertama baik dari kategori jenis kelamin
maupun tingkat kematian. Penanganan yang terlambat sering ditemukan pada
kasus kanker payudara yang menyebabkan meningkatnya faktor resiko kanker ini.
Untuk itulah, diperlukan deteksi dini kanker payudara, sehingga penanganan
dapat dilakukan tepat waktu, sehingga tangkat kematian karena kanker payudara
dapat ditekan. Untuk itulah, dalam artikel ini ditawarkan deteksi dini kanker
payudara menggunakan klasifikasi. Dataset pada penelitian ini menggunakan
dataset kanker payudara wisconsin yang diambil dari Kaggle. Pada awalnya
dataset memiliki missing value, selain itu data kategorikal belum dalam bentuk
numerik, sehiingga perlu dilakukan preprocessing dengan teknik imputing missing
value dan encoding untuk mengubah data kategorikal menjadi data numerik.
Dataset dibagi menjadi dua proporsi, yakni 80% sebagai data training dan 20%
sebagai data testing. Pada proses klasifikasi, dataset yang telah dilakukan
preprocessing dilakukan klasifikasi menggunakan SVM dengan tiga kernel yang
berbeda, yakni kernel linier, kernel RBF, dan kernel Sigmoid. Berdasarkan hasil
penelitian yang telah diperoleh, kernel linier menunjukkan hasil kasifikasi terbaik
jika diterapkan pada klasifikasi SVM, yakni dengan nilai akurasi mencapai 99%,
dilanjutkan dengan performa kernel RBF dengan tingkat akurasi sebesar 92%, dan
yang terakhir adalah kernel sigmoid dengan nilai akurasi 41%.
Kata Kunci:
Kanker,
Support Vector Machine,
Kernel Linier,
Kernel RBF,
Kernel Sigmoid
Keywords: ABSTRACT
Cancer,
Support Vector Machine,
Linear Kernel,
RBF Kernel,
Sigmoid Kernel
Breast cancer ranks first in both the gender category and the death rate. Late
treatment is often found in cases of breast cancer which causes an increase in the
risk factors for this cancer. For this reason, early detection of breast cancer is
needed, so that treatment can be done in a timely manner, so that the death rate
due to breast cancer can be reduced. For this reason, this article offers early
detection of breast cancer using classification. The dataset in this study used the
Wisconsin breast cancer dataset taken from Kaggle. Initially the dataset has a
missing value, besides that the categorical data is not yet in numerical form, so it is
necessary to do preprocessing with the missing value imputing technique and
encoding to convert categorical data into numeric data. The dataset is divided into
two proportions, namely 80% as training data and 20% as testing data. In the
classification process, datasets that have been preprocessed are classified using
SVM with three different kernels, namely the linear kernel, the RBF kernel, and the
Sigmoid kernel. Based on the research results that have been obtained, the linear
kernel shows the best classification results when applied to the SVM classification,
namely with an accuracy value of up to 99%, followed by RBF kernel performance
with an accuracy rate of 92%, and finally the sigmoid kernel with an accuracy value
of 41%.
Penulis Korespondensi:
Ginanjar Abdurrahman
Program Studi Teknik Informatika
Universitas Muhammadiyah Jember
Email: abdurrahmanginanjar@unmuhjember.ac.id
JUSTIFY
:
Jurnal
Sistem Informasi Ibrahimy
Vol.
2
No.
1
Juli
2023
75
1. PENDAHULUAN
Berdasarkan [1] jumlah kasus baru untuk kanker di Indonesia pada tahun 2020 untuk semua jenis
kelamin, semua umur mencapai total 396.914 kasus dengan rincian 25.943 kasus (14.1%) merupakan
kanker paru-paru, 21.764 kasus (11,9%) kanker kolorektum, 16.412 kasus (9%) kanker liver, 15.427 kasus
(8,4%) merupakan kanker nasopharynx, 13.563 kasus (7,4%) kanker prostat, dan sebanyak 90.259 (49,2%)
merupakan kanker jenis lain. Sedangkan untuk laki-laki semua umur, jumlah kasus baru kanker mencapai
183.368, dengan rincian kanker paru-paru sebanyak 25.943 (14,1%), kanker kolorektum sebanyak 21.764
(11,9%), kanker liver sebanyak 16.412 (9%), kanker nasopharynx sebanyak 15.427 (8,4%), kanker prostat
sebanyak 13.563 (8,4%), dan kanker jenis lain sebanyak 90.259 (49,2%). Adapun pada wanita semua umur,
kanker payudara mencapai 65.858 (30,8%), kanker serviks sebanyak 36.63 (17,2%), kanker ovarium
sebanyak 14.896 (7%), kanker kolorektum sebanyak 12.425 (5,8%), kanker tiroid sebanyak 9.053 (4,2%),
dan kanker jenis lain sebanyak 74.681 (35%).
Masih menurut [1] juga menyebutkan bahwa kanker 10 besar berdasarkan jenis kelamin, yakni kanker
payudara, kanker paru-paru, kanker kolorektum, kanker serviks uteri, kanker liver, kanker nasopharynx,
kanker prostat, kanker non-hodgkin lymphoma, leukaemia, dan kanker ovarium. Untuk lebih jelasnya,
sebaran kanker berdasarkan jenis kelamin dapat dilihat pada Gambar 1.
Gambar 1. data kanker 10 besar teratas berdasarkan jenis kelamin
Adapun data terkait data 10 besar kejadian kanker berdasarkan tingkat kematiannya [1], yakni: kanker
payudara, kanker serviks uteri, kanker paru-paru, kanker kolorektum, kanker prostat, kanker ovarium, kanker
liver, kanker nasopharynx, kanker non-hodgkin lymphoma, serta leukaemia. Selengkapnya, data sebaran
kanker berdasarkan kejadian dan tingkat kematiannya dapat dilihat pada Gambar 2.
Gambar 2. Data 10 besar kejadian kanker berdasarkan tingkat kematian.
Berdasarkan data pada Gambar 1 dan Gambar 2, dapat dilihat bahwa kanker payudara menjadi
peringkat pertama baik dari kategori jenis kelamin maupun tingkat kematian. Menurut [2] penanganan yang
terlambat sering ditemukan pada kasus kanker payudara yang menyebabkan meningkatnya faktor resiko
kanker ini. Untuk itulah, diperlukan deteksi dini kanker payudara, sehingga penanganan dapat dilakukan
tepat waktu, sehingga tangkat kematian karena kanker payudara dapat ditekan. Untuk itulah, dalam artikel
ini ditawarkan deteksi dini kanker payudara menggunakan klasifikasi.
JUSTIFY
:
Jurnal
Sistem Informasi Ibrahimy
Vol.
2
No.
1
Juli
2023
76
Klasifikasi merupakan salah satu algoritma supervised machine learning untuk mengkategorikan kelas
data [3]. Proses klasifiksi diartikan sebagai proses memperoleh model untuk mengidentifikasi kelas data,
apabila model telah diperoleh, model tersebut dapat digunakan untuk klasifikasi kelas data baru [4]. Support
Vector Machine (SVM) merupakan salah satu algoritma klasifikasi (supervised learning) yang dapat
menangani data berdimensi tinggi, selain itu algoritma ini juga dapat menangani klasifikasi untuk data-data
non-linier yang tidak dapat dipisahkan secara linier [5]. Algoritma SVM sangat baik digunakan untuk
klasifikasi biner, yakni klasifikasi dengan dua kelas keputusan. Hal ini disampaikan oleh [6].
2. METODE PENELITIAN
Alur penelitian dapat dilihat pada Gambar 3.
Identifikasi
masalah
Studi
Literatur Dataset
Preprocessing:
Missing Value
Preprocessing:
Encoding
Preprocessed
Dataset
SVM Kernel
RBF
SVM Kernel
Linier
SVM
Kernel
Sigmoid
Akurasi
Gambar 3. Bagan Penelitian
3. HASIL DAN ANALISIS
Pada bagian ini dijelaskan hasil penelitian berdasarkan alur penelitian yang telah digambarkan pada
Gambar 3, yakni: preprocessing dan Klasifikasi SVM. Pada bagian preprocessing, dataset dilakukan
imputing missing data dan encoding data kategorikal menjadi data numerik. Kemudian, pada bagian
klasifikasi SVM, dataset yang sudah dilakukan preprocessing diklasiifikasikan menggunakan algoritma SVM
dengan tiga kernel yang berbeda, yakni kernel linier, kernel RBF, serta kernel Sigmoid.
3.1 Studi Literatur
Ada beberapa penelitian yang relevan yang telah dilakukan sebagai dasar dalam penelitian ini,
diantaranya, penelitian yang telah dilakukan oleh [7] yang berjudul Klasifikasi Kanker Menggunakan
Algoritma NNGE, Random Forest, dan Random Committee. Penelitian ini menggunakan data pasien yang
menjalani 4 jenis tes laboratorium. Pada tahap preprocessing dilakukan penanganan data ambigu dan data
outlier. Selanjutnya data yang sudah dilakukan preprocessing dilanjutkan pada tahap klasifikasi
menggunakan 3 metode, yakni NNGE, Random Forest, dan Random Committee, sehingga menghasilkan
nilai akurasi untuk masing-masing metode, yakni akurasi untuk NNGE sebesar 100 %, akurasi untuk
Random Forest sebesar 93,38%, dan akurasi untuk Random Committee sebesar 100%.
JUSTIFY
:
Jurnal
Sistem Informasi Ibrahimy
Vol.
2
No.
1
Juli
2023
77
Penelitian selanjutnya dilakukan oleh [8] yang berjudul Komparasi Fungsi Kernel Metode Support
Vector Machine untuk Analisis Sentimen Instagram dan Twitter (Studi kasus: Komisi Pemberantasan
Korupsi). Dataset yang digunakan pada penelitian ini adalah data komentar dari twitter dan Instagram yang
nantinya dipetakan menjadi sentiment positif, negatif atau netral. Penelitian ini bertujuan untuk
membandingkan kinerja Support Vector Machine dalam klasifikasi sentiment berdasarkan nilai kernel SVM,
yakni kernel linier, kernel polynomial, serta kernel sigmoid. Dari hasil penelitian, diketahui nilai akurasi dari
implementasi kernel linier adalah 89.70%, sedangkan nilai akurasi dari implementasi kernel polynomial
sebesar 81,45%, dan kinerja kernel sigmoid membuat nilai akurasi model sebesar 79,83%.
Adapun penelitian yang telah dilakukan oleh [9] yang berjudul Penerapan Metode Support Vector
Machine (SVM) untuk mendeteksi Penyalahgunaan Narkoba, metode SVM digunakan untuk deteksi jenis
narkotika pemakai, yang didasarkaan pada gejala yang dialami. Dataset pada penelitian ini adalah pasien
rawat jalan BNN Provinsi Maluku yang berjumlah 101 pasien, dengan 23 macam gejala serta jenis narkoba
yang digunakan. Jenis narkotika yang digunakan adalah Sabu, Ganja, Lem dan Sintesis. Splitting dataset
yang digunakan untuk pencarian nilai akurasi adalah 60%:40%, 70%:30%, serta 80%:20%. Penelitian ini
menggunakan Pada penerapannya, ada 2 metode yang digunakan, yakni SVM linier dan SVM Non-Linier.
Untuk SVM Linier, nilai akurasi untuk dataset 60%:40% adalah 77,5%, untuk dataset 70%:30% adalah
83,3%, serta untuk dataset 80%:20% adalah 80%. Sedangkan untuk implementasi SVM Non-Linier, pada
setiap splitting dataset, dibagi menjadi 8 parameter kernel untuk dua jenis kernel yang berbeda. Dalam hal
ini kernel polynomial dan kernel RBF. Hasil dari kernel polynomial, pada data splitting 60%:40% diperoleh
nilai akurasi terbaik sebesar 77,5%, pada data splitting 70%:30% diperoleh nilai akurasi terbaik sebesar
83,3%, sedangkan pada data splitting 80%:20% diperoleh akurasi terbaik sebesar 95%. Selanjutnya dari
kernel RBF, pada data splitting 60%:40% diperoleh nilai akurasi terbaik sebesar 80%, pada data splitting
70%:30% diperoleh nilai akurasi terbaik sebesar 83,3%, dan pada data splitting 80%:20% diperoleh nilai
akurasi terbaik sebesar 90%.
Penelitian yang dilakukan oleh [10], melakukan klasifikasi terhadap 22.335 data tweet mengenai
kebijakan PSBB menggunakan algioritma Support Vector Machine untuk analisis sentiment. Pada penelitian
ini, digunakan 4 model SVM berdasarkan kernel Linier, RBF, Polinomoial, serta Sigmoid. Kinerja algoritma
SVM diuji menggunakan k-fold cross validation untuk memperoleh nilai akurasi model. Hasil klasifikasi
model menggunakan kernel RBF merupakan model terbaik yang diperoleh, dengan nilai akurasi sebesar
95,94%.
3.2 Dataset
Dataset yang digunakan merupakan dataset public kanker payudara Wisconsin yang diambil dari
Kaggle. Dataset ini terdiri dari 570 sel kanker dengan 30 fitur untuk menentukan apakah sel kanker jinak
(Malignant) atau kanker ganas (Benign).
3.3 Preprocessing
Pada tahap ini, dilakukan dua proses, yakni imputing missing data dan encoding data kategorikal. Hal
ini dikarenakan, pada dataset masih terdapat beberapa missing value dan data kategorikal pada kelas
keputusan belum dalam bentuk numerik, sehingga untuk penanganan data pada preprocessing perlu
dilakukan imputing dan encoding.
3.3.1 Imputing Missing Data
Dalam penanganan missing data, missing data perlu diidentifikasi terlebih dahulu pada setiap fiturnya.
Dalam dataset, missing data dituliskan dengan nilai 0, hanya saja python menganggap nilai 0 sebagai nilai
data, bukan sebagai keberadaan missing data. Sehingga perlu diubah sebagai entitas NaN terlebih dahulu
dengan menggunakan perintah replace nol menjadi NaN. Setelah diubah menjadi NaN, banyaknya missing
data dari setiap fitur, teridentifikasi seperti terlihat pada Tabel 1.
Setelah missing data teridentifikasi, Langkah selanutnya adalah dengan mengubah nilai-nilai missing
data tersebut menggunakan Teknik imputing. Teknik imputing yang dipilih adalah imputing mengunakan nilai
rata-rata (mean) dengan perintah fillna pada python.
Tabel 1. Identifikasi banyaknya missing data pada dataset
F
itur
Banyaknya
missing data
radius_mean 0
JUSTIFY
:
Jurnal
Sistem Informasi Ibrahimy
Vol.
2
No.
1
Juli
2023
78
texture_mean 0
perimeter_mean 0
area_mean 0
smoothness_mean 0
compactness_mean 0
concavity_mean 13
concave points_mean 13
symmetry_mean 0
fractal_dimension_mean 0
radius_se 0
texture_se 0
perimeter_se 0
area_se 0
smoothness_se 0
compactness_se 0
concavity_se 13
concave points_se 13
symmetry_se 0
fractal_dimension_se 0
radius_worst 0
texture_worst 0
perimeter_worst 0
area_worst 0
smoothness_worst 0
compactness_worst 0
concavity_worst 13
concave points_worst 13
symmetry_worst 0
fractal_dimension_worst
0
3.3.2 Encoding Data Kategorikal
Data-data kategorikal terdapat pada kelas keputusan, dalam hal ini kelas keputusan Benign (Kanker
Jinak) dan kelas keputusan Malignant (Kanker Ganas). Data kategorikal ini perlu diubah terlebih dahulu
menjadi data numerik, sehingga dapat dibaca oleh python. Metode yang digunakan untuk mengubah data
kategorikal menjadi data numerik, digunakan teknik encoding menggunakan label encoder. Sehingga
diperoleh untuk kanker jinak dikategorikan dengan 0, dan kanker ganas dikategorikan dengan 1.
3.4 Klasifikasi SVM
Data yang telah dilakukan preprocessing, selanjutnya diklasifikasikan menggunakan algoritma SVM
dengan diujicoba menggunakan 3 kernel yang berbeda, yakni kernel Linier, Kernel RBF, dan Kernel
Sigmoid.
3.4.1 Klasifikasi SVM Menggunakan Kernel Linier
Hasil klasifikasi menggunakan SVM dengan kernel linier, diperoleh nilai True Positif sebesar 89, True
Negatif sebesar 52, False Positif sebesar 0 dan False Negatif sebesar 2 Sehingga diperoleh nilai Akurasi
Model sebesar 99 %.Visualisasi confusion matriks dapat dilihat pada Gambar 4.
JUSTIFY
:
Jurnal
Sistem Informasi Ibrahimy
Vol.
2
No.
1
Juli
2023
79
Gambar 4 Visualisasi confusion matriks untuk SVM kernel linier
3.4.2 Klasifikasi SVM Menggunakan Kernel RBF
Hasil klasifikasi menggunakan SVM dengan kernel linier, diperoleh nilai True Positif sebesar 89, True
Negatif sebesar 43, False Positif sebesar 0 dan False Negatif sebesar 11. Sehingga diperoleh nilai Akurasi
Model sebesar 92 %.Visualisasi confusion matriks dapat dilihat pada Gambar 5.
Gambar 5. Visualisasi confusion matriks untuk SVM Kernel RBF
3.4.3 Klasifikasi SVM Menggunakan Kernel Sigmoid
Hasil klasifikasi menggunakan SVM dengan kernel linier, diperoleh nilai True Positif sebesar 51, True
Negatif sebesar 8 False Positif sebesar 38 dan False Negatif sebesar 46. Sehingga diperoleh nilai Akurasi
Model sebesar 41 %.Visualisasi confusion matriks dapat dilihat pada Gambar 6.
Gambar 6. Visualisasi confusion matriks untuk SVM Kernel Sigmoid
4. KESIMPULAN
Berdasarkan hasil penelitian yang telah diperoleh, kernel liner menunjukkan hasil kasifikasi terbaik jika
diterapkan pada klasifikasi SVM, yakni dengan nilai akurasi mencapai 99%, dilanjutkan dengan performa
kernel RBF dengan tingkat akurasi sebesar 92%, dan yang terakhir adalah kernel sigmoid dengan nilai
akurasi 41%.
JUSTIFY
:
Jurnal
Sistem Informasi Ibrahimy
Vol.
2
No.
1
Juli
2023
80
REFERENSI
[1] A. I. Sutnick and S. Gunawan, “Cancer in Indonesia,” JAMA J. Am. Med. Assoc., vol. 247, no. 22, pp.
3087–3088, 2021, doi: 10.1001/jama.247.22.3087.
[2] A. ; Nurrohmah, A. Aprianti, and S. Hartutik, “Risk factors of breast cancer in burma,” Gaster J. Heal.
Sci., vol. 21, no. 4, pp. 432–437, 2022, doi: https://doi.org/10.30787/gaster.v20i1.777.
[3] P. Bimo, N. Setio, D. Retno, S. Saputro, and B. Winarno, “Klasifikasi dengan Pohon Keputusan
Berbasis Algoritme C4.5,” Prism. Pros. Semin. Nas. Mat., vol. 3, pp. 64–71, 2020.
[4] R. Nanda, E. Haerani, S. K. Gusti, and S. Ramadhani, “Klasifikasi Berita Menggunakan Metode
Support Vector Machine,” vol. 5, no. 2, pp. 269–278, 2022.
[5] I. Mahendro and D. Abimanto, “Analisa Kepuasan Mahasiswa Terhadap E-Learning Menggunakan
Algoritma Support Vector Machine,” J. Sains Dan Teknol. Marit., vol. 23, no. 1, p. 97, 2022, doi:
10.33556/jstm.v23i1.333.
[6] G. N. Kurniawati, “Algoritma Machine Learning yang Harus Kamu Pelajari di Tahun 2021,” 2021.
https://www.dqlab.id/algoritma-machine-learning-yang-perlu-dipelajari (accessed Feb. 05, 2022).
[7] M. N. U. R. Akbar, “KLASIFIKASI KANKER MENGGUNAKAN ALGORITMA NNGE , RANDOM
FOREST , DAN RANDOM COMMITEE,” vol. 5, pp. 289–298, 2020.
[8] A. Zaiem and N. Charibaldi, “Komparasi Fungsi Kernel Metode Support Vector Machine untuk
Analisis Sentimen Instagram dan Twitter ( Studi Kasus : Komisi Pemberantasan Korupsi ),” vol. 9, no.
2, pp. 33–42, 2021.
[9] P. Metode, S. Vector, and M. Svm, “PENERAPAN METODE SUPPORT VECTOR MACHINE (SVM)
UNTUK MENDETEKSI PENYALAHGUNAAN NARKOBA Application of Support Vector Machine
(SVM) Method to Detect Drug Abuse,” vol. 01, no. 02, pp. 111–122, 2022.
[10] A. Fahrurozi and H. Parasian, “IMPLEMENTASI ALGORITMA KLASIFIKASI SUPPORT VECTOR
MACHINE UNTUK ANALISA SENTIMEN PENGGUNA,” pp. 149–162, 2021.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Background: Ca mamae is a cancer with the highest incidence and mortality of women in Indonesia and the world. Infodatin (2019) found that in the Dharmais Hospital in 2018 breast cancer occupied 19.18%. At Dr. Moewardi Hospital, it was shown that during 2018 Ca mamae had the highest incidence of cancer. Objective: to determine the risk factors for Ca mamae in Dr. Moewardi Hospital. Methods: This study is a descriptive with a cross sectional approach with checklist instrument. Sampling with purposive sampling with as many as 82 people as subjects. Results: The study showed that 75 (91.5%) of 82 people suffering from Ca mamae factor were ≥ 40 years old, 61 (74.4%) had a family history of suffering from Ca mamae, consuming alcohol as much as 43 (52.4%). ), were obese by 46 (56.1%), and experienced exposure to cigarette smoke as much as 65 (79.3%). Conclusion: Most of Ca mamae patients aged ≥ 40 years, have a family history of Ca mamae, consume alcohol, are obese and experience exposure to cigarette smoke. Suggestion: The importance of providing health education to women, so that they can find out the characteristics of Ca mamae patients so that prevention can be done.
Article
Full-text available
Kinerja Komisi Pemberantasan Korupsi (KPK) yang bertugas memberantas korupsi di negeri pertiwi ini, tak jarang mendapat sorotan komentar dari berbagai kalangan masyarakat. Komentar positif, negatif maupun netral menghiasi kolom komentar di twitter maupun di instagram. Karena kolom komentar di twitter dan instagram tidak dapat mengelompokkan komentar berdasarkan jenis sentimennya (positif, negatif, atau netral) maka diperlukan sebuah sistem analisis sentimen yang dapat mengolompokkan komentar berdasarkan sentimennya. Penelitian sebelumnya yang dilakukan oleh Nooraeni, dkk (2020) tentang analisis sentimen data twitter mengenai isu RUU KPK dengan metode Support Vector Machine menggunakan kernel RBF menghasilkan akurasi sebesar 81.32%, presisi sebesar 71.47%, dan recall sebesar 87.64%. Tujuan dari penelitian ini yaitu menerapkan dengan membandingkan kernel linier, kernel polinomial dan kernel sigmoid pada metode Support Vector Machine untuk klasifikasi analisis sentimen serta menghitung tingkat akurasi, presisi, dan recall pada tiga jenis kernel (kernel linier, kernel polinomial dan kernel sigmoid) untuk klasifikasi analisis sentimen. Penelitian ini menggunakan metode Support Vector Machine sebagai algoritma untuk menganalisis sentimen dengan membandingkan kinerja tiga jenis kernel (kernel linier, kernel polinomial dan kernel sigmoid) sebagai salah satu parameter yang dapat digunakan untuk meningkatkan akurasi metode Support Vector Machine. Hasil penelitian ini didapatkan bahwa kernel linier memiliki akurasi tertinggi sebesar 83.06%, presisi sebesar 91.04%, dan recall sebesar 89.70%, untuk kernel polinomial memiliki akurasi sebesar 81.45%, presisi sebesar 88.57%, dan recall sebesar 91.17% sedangkan kernel sigmoid memiliki akurasi sebesar 79.83%, presisi sebesar 91.93%, dan recall sebesar 83.82%.
Article
Kegiatan pembelajaran pada umumnya yang sudah dilakukan yaitu pembelajaran dengan tatap muka, akan tetapi dikarenakan di Indonesia terjadi pandemi covid-19 maka kegiatan pembelajaran mengalami perubahan. Kegiatan pembelajaran yang awalnya dilakukan dengan tatap muka, digantikan dengan pembelajaran e-learning. Hal ini tentunya membuat mahasiswa menanggapi dengan berbagai respon. Perguruan tinggi harus bisa menangkap respon mahasiswa dengan baik, apakah mahasiswa sudah merasa puas atau belum dengan pembelajaran e-learning. Pengumpulan data yang digunakan dengan penyebaran kuesioner kepada mahasiswa. Jenis data yang digunakan dalam penelitian ini adalah data primer. Sedangkan untuk mengetahui dapat menganalisa kepuasan mahasiswa pada penelitian ini akan menggunakan algoritma Support Vector Machine (SVM). Hasil dari analisa menggunakan SVM nilai accuracy sebesar 98,23% artinya metode algoritma SVM dapat memprediksi responden yang puas dan yang tidak puas dengan benar 98,23% dari keseluruhan data. Precission merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan hasil yang diprediksi positif jadi algoritma SVM ini memprediksi responden yang benar puas sebesar 95,65% dibandingkan dengan hasil keseluruhan yang diprediksi puas. Recall merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan data yang benar positif. Algoritma svm menghasilkan nilai recall sebesar 95,65% artinya algoritma svm ini memprediksi responden yang diprediksi akan puas dibandingkan dengan keseluruhan responden yang sebenarnya merasa puas.
Article
Abstrak - Berita adalah sebuah informasi mengenai peristiwa yang terjadi di suatu lokasi yang bisa disajikan dalam bentuk teks maupun visual. Berita bisa ditemukan di berbagai portal berita dan media cetak. Umumnya setiap berita dikelompokan berdasarkan kategori umum seperti ekonomi, politik, olahraga, dll. Permasalahan yang muncul adalah bagaimana cara untuk melakukan pengelompokan pada data berita yang biasanya berjumlah hingga ribuan karakter kedalam kategori yang lebih spesifik. Permasalah ini dapat diselesaikan dengan cara menerapkan text mining dengan memanfatakan algoritma klasifikasi untuk mendapatkan sebuah model fungsi yang merepresentasikan tiap kategori berita. Salah satu algoritma klasifikasi yang cukup tangguh untuk melakukan proses klasifikasi teks adalah Support Vector Machine. Penelitian ini menggunakan 510 data berita dengan batasan klasifikasi 3 kategori berita. Algoritma SVM mendapatkan hasil akurasi tertinggi di 88% untuk nilai parameter C =1, kernel Linear dengan pembagian data uji dan data latih sebesar 90% dan 10 %.Kata kunci : Berita, Klasifikasi, Support Vector Machine, Text Mining Abstract - News is information about events that occur in a location that can be presented in text or visual form. News can be found on various news portals and print media.Generally each news is grouped by general categories such as economics, politics, sports, etc. The problem is how to group news data into more specific categories.This problem can be solved by applying text mining using the classification algorithm to obtain a function model that represents each news category. One of the classification algorithms that is strong enough to do the text classification process is the Support Vector Machine. This study uses 510 news sample with a classification limit of 3 news categories. The SVM algorithm gets the highest accuracy at 88% for the parameter value C = 1, and Linear kernel with the distribution of test data and training data is 90% and 10%.Keywords : Classification, News, Support Vector Machine, Text Mining
Klasifikasi dengan Pohon Keputusan Berbasis Algoritme C4.5
  • P Bimo
  • N Setio
  • D Retno
  • S Saputro
  • B Winarno
P. Bimo, N. Setio, D. Retno, S. Saputro, and B. Winarno, "Klasifikasi dengan Pohon Keputusan Berbasis Algoritme C4.5," Prism. Pros. Semin. Nas. Mat., vol. 3, pp. 64-71, 2020.
Algoritma Machine Learning yang Harus Kamu Pelajari di Tahun 2021
  • G N Kurniawati
G. N. Kurniawati, "Algoritma Machine Learning yang Harus Kamu Pelajari di Tahun 2021," 2021. https://www.dqlab.id/algoritma-machine-learning-yang-perlu-dipelajari (accessed Feb. 05, 2022).
PENERAPAN METODE SUPPORT VECTOR MACHINE (SVM) UNTUK MENDETEKSI PENYALAHGUNAAN NARKOBA Application of Support Vector Machine (SVM) Method to Detect Drug Abuse
  • P Metode
  • S Vector
  • M Svm
P. Metode, S. Vector, and M. Svm, "PENERAPAN METODE SUPPORT VECTOR MACHINE (SVM) UNTUK MENDETEKSI PENYALAHGUNAAN NARKOBA Application of Support Vector Machine (SVM) Method to Detect Drug Abuse," vol. 01, no. 02, pp. 111-122, 2022.