Conference PaperPDF Available

Rekomendasi Anime dengan Latent Semantic Indexing Berbasis Sinopsis Genre

Authors:

Abstract

Animes fans are sometimes hard to find suitable animes that match their needs since information about animes is very limited. In this research, a Latent Semantic Indexing (LSI)-based animes recommendation system is proposed. LSI is chosen since it has the ability to index shared words between various documents. Since users preferences are usually based on genre's information, it is used for creating the connection between existing animes synopsis. The experiment results show that the usage of LSI based on genre information gives better accuracy than the traditional information retrieval method, i.e. the vector space model (VSM) with TF/IDF weighting. I. PENDAHULUAN Anime adalah istilah untuk film animasi atau kartun khas Jepang [1]. Anime tidak hanya digemari di Jepang saja, tetapi juga di berbagai belajan dunia. Saat ini jumlah anime yang beredar sangatlah banyak, sehingga para penikmat anime terkadang kesukaran untuk mencari anime yang cocok dengan selera mereka. Salah satu penyebabnya adalah terbatasnya deskripsi dan review yang diterjemahkan darim bahasa Jepang ke dalam bahasa lainnya. Berdasarkan pada masalah tersebut, maka dalam penelitian ini diusulkan sebuah sistem untuk memberi saran kepada para penggemar anime mengenai genre dan judul yang sekiranya cocok untuk mereka. Teknik temu balik informasi digunakan sebagai inti dari sistem rekomendasi yang dikembangkan [2]-[4]. Berbeda dari banyak sistem rekomendasi anime yang didasarkan pada judul dan hasil review dari pengguna lainnya (berbasis komunitas), sistem yang dikembangkan mencoba untuk mengaitkan antara informasi genre dengan kemunculan kata-kata dalam sinopsis. Selain itu, dalam penelitian akan diteliti juga faktor-faktor lain yang menentukan ketepatan penemuan anime, seperti: statistik pengguna, rating pengguna, dan urutan hasil temu balik dengan memanfaatkan informasi yang tersedia dalam komunitas anime. Dengan adanya sistem rekomendasi ini diharapkan bahwa pengguna akan dapat memperoleh rekomendasi genre beserta judul yang lebih obyektif dibandingkan dengan hasil mesin temu balik anime seperti dalam www.anime-planet.com yang berbasis pada review dalam komunitas dan 'exact match' pada judul.
Rekomendasi Anime dengan Latent Semantic
Indexing Berbasis Sinopsis Genre
Rudy Aditya Abarja1, Hapnes Toba2
1Jurusan S1 Teknik Informatika
2Program Studi D3 Teknik Informatika
Fakultas Teknologi Informasi Universitas Kristen Maranatha
Jalan Suria Sumantri No. 65, Bandung, Indonesia
1rudotz@gmail.com
2hapnestoba@it.maranatha.edu
Abstract Animes fans are sometimes hard to find suitable
animes that match their needs since information about animes is
very limited. In this research, a Latent Semantic Indexing (LSI)-
based animes recommendation system is proposed. LSI is chosen
since it has the ability to index shared words between various
documents. Since users preferences are usually based on genre’s
information, it is used for creating the connection between
existing animes synopsis. The experiment results show that the
usage of LSI based on genre information gives better accuracy
than the traditional information retrieval method, i.e. the vector
space model (VSM) with TF/IDF weighting.
Keywords information retrieval, latent semantic indexing,
recommendation system, word co-occurences, anime
I. PENDAHULUAN
Anime adalah istilah untuk film animasi atau kartun khas
Jepang [1]. Anime tidak hanya digemari di Jepang saja,
tetapi juga di berbagai belajan dunia. Saat ini jumlah anime
yang beredar sangatlah banyak, sehingga para penikmat
anime terkadang kesukaran untuk mencari anime yang
cocok dengan selera mereka. Salah satu penyebabnya adalah
terbatasnya deskripsi dan review yang diterjemahkan darim
bahasa Jepang ke dalam bahasa lainnya.
Berdasarkan pada masalah tersebut, maka dalam
penelitian ini diusulkan sebuah sistem untuk memberi saran
kepada para penggemar anime mengenai genre dan judul
yang sekiranya cocok untuk mereka. Teknik temu balik
informasi digunakan sebagai inti dari sistem rekomendasi
yang dikembangkan [2]-[4]. Berbeda dari banyak sistem
rekomendasi anime yang didasarkan pada judul dan hasil
review dari pengguna lainnya (berbasis komunitas), sistem
yang dikembangkan mencoba untuk mengaitkan antara
informasi genre dengan kemunculan kata-kata dalam
sinopsis.
Selain itu, dalam penelitian akan diteliti juga faktor-
faktor lain yang menentukan ketepatan penemuan anime,
seperti: statistik pengguna, rating pengguna, dan urutan
hasil temu balik dengan memanfaatkan informasi yang
tersedia dalam komunitas anime. Dengan adanya sistem
rekomendasi ini diharapkan bahwa pengguna akan dapat
memperoleh rekomendasi genre beserta judul yang lebih
obyektif dibandingkan dengan hasil mesin temu balik anime
seperti dalam www.anime-planet.com yang berbasis pada
review dalam komunitas dan 'exact match' pada judul.
II. KAJIAN PUSTAKA
Dalam bagian ini akan diberikan beberapa tinjauan
pustaka terkait dengan metode yang digunakan dalam
penelitian.
A. Temu Balik Informasi dengan LSI
LSI adalah metode indexing yang berbasis Singular
Value Decomposition (SVD) dari matriks term (word)-
document [5]. SVD adalah prosedur matematis untuk
mengubah matriks term-document sedemikian rupa
sehingga pola asosiatif intrinsik utama dalam koleksi
terungkap. Pola-pola minor yang dianggap tidak penting
dapat diabaikan untuk mengidentifikasi relasi global utama,
melalui reduksi dimensi (dalam Gambar 1 ditunjukkan
dengan parameter k) [6], [7].
Gambar 1. Dekomposisi matriks term-document LSI [8]
Dalam konteks temu balik informasi, LSI membangun
relasi berdasarkan kemunculan kata-kata secara bersamaan
di dalam beberapa dokumen. Relasi pokok ini disebut latent
semanctic structure di dalam koleksi dokumen. Keuntungan
dari LSI dibandingkan metode indeksasi lainnya adalah LSI
tidak bergantung pada kata-kata secara individu untuk
menentukan kedekatan antar dokumen, tetapi menggunakan
kedekatan konsep atau topik untuk mengetahui lokasi
dokumen yang relevan.
LSI mencocokkan kata-kata kunci temu balik
berdasarkan topik atau konsep. Konsep atau topik di sini
adalah kumpulan kata yang secara kolektif mendeskripsikan
suatu entitas yang sama, misalnya genre atau subyek suatu
dokumen. Ketika pengguna memasukkan kueri, maka kueri
itu diubah ke ruang vektor LSI dan dibandingkan dengan
entitas lainnya di dalam ruang vektor yang sama. Hasil temu
balik akan dinyatakan sebagai kemiripan (similaritas)
berdasarkan kedekatan kata-kata kunci dalam kueri dengan
entitas lainnya dalam ruang vektor yang sama.
Dengan mengacu pada sifat dan keunggulan LSI di atas,
maka sistem yang dikembangkan menerapkan kata-kata
dalam sinopsis/deskripsi anime untuk setiap genre sebagai
ruang vektor dokumen. Melalui terbentuknya ruang vektor
tersebut diharapkan terdapat kaitan genre sehingga setiap
kemunculan kata akan dapat memberikan genre yang
spesifik (beserta judul-judul anime di dalamnya), sebagai
hasil rekomendasi.
B. Anime dan Mesin Temu Balik Anime
Anime-Planet
1
adalah salah satu situs terlengkap
berbahasa Inggris yang berisi informasi mengenai anime
dan manga. Anime-Planet merupakan semacam katalog di
mana pengguna dapat mengakses informasi yang ada dan
melakukan interaksi dengan informasi tersebut, seperti:
memasukkan anime ke dalam daftar tonton dan memberikan
review dan rating. Anime-Planet juga menyediakan forum
untuk melakukan diskusi. Informasi mengenai anime dan
manga dalam selalu di-update untuk memberikan informasi
yang relevan.
Gambar 2. Antar muka temu balik Anime- Planet
Kekurangan utama dalam Anime-Planet adalah fitur temu
balik yang hanya memberikan hasil terhadap penelusuran
yang terbatas pada judul (Gambar 2). Kelemahan lainnya
adalah pada saat pemberian rekomendasi, hasilnya diambil
melalui informasi yang diberikan oleh komunitas dan tag
topik, tanpa proses analisis tekstual. Di sisi lain, Anime-
Planet memiliki kekayaan informasi statistik berdasarkan
1
http://www.anime-planet.com/
masukan dari komunitas penggunanya, seperti: jumlah akses,
rating, dsb (Gambar 3).
Gambar 3. Antar muka rekomendasi dan statistik dari komunitas dalam
Anime-Planet
Dengan memperhatikan keterbatasan dan kelebihan di
atas, diharapkan sistem rekomendasi yang dikembangkan
akan dapat berperan secara otomatis melalui analisis
tekstual. Hasil analisis tekstual diharapkan memiliki
kemampuan yang mirip dengan informasi dari komunitas,
sehingga hasil temu balik maupun rekomendasi akan dapat
dilakukan tanpa harus melibatkan pengguna, dengan catatan
sebuah anime memiliki informasi tekstual, seperti: sinopsis.
III. PENGEMBANGAN SISTEM
Dalam bagian ini disampaikan langkah-langkah
pengembangan sistem dan eksperimentasi dalam penelitian.
A. Pengolahan Data
Sumber data anime yang dipakai semua berasal dari situs
www.anime-planet.com. Pengambilan data dilakukan oleh
aplikasi web crawler yang dibuat oleh pihak ketiga, yaitu.
HTTrack (versi 3.48-3). Pengambilan data dari situs
www.anime-planet.com dilakukan sebanyak dua kali. Proses
pertama dilakukan pada tanggal 1 April 2014 sampai
dengan 7 April 2014, dan kedua dilakukan pada tanggal 1
Mei 2014 sampai dengan 5 Mei 2014.
Jumlah file html setelah pengumpuan data berjumlah
18492 halaman (= jumlah anime), dengan ukuran totalnya
1,82 GB. Pengambilan data kedua bertujuan untuk
mengambil data anime yang tayang pada periode musim
dingin 2014 di Jepang. Anime-anime musim dingin ini
selesai tayang pada pertengahan sampai akhir mulai April.
Dengan demikian anime-anime ini sudah memiliki
rekomendasi dari pengguna web site dan memiliki data yang
akurat.
B. Penyaringan Data
Setelah data berhasil didapatkan, file-file html tersebut
melalui proses parsing. File html yang diambil adalah
halaman yang berisi data anime, halaman yang berisi
rekomendasi anime tersebut, dan halaman yang berisi semua
genre anime yang ada di situs tersebut. Setiap anime
memiliki sebuah halaman web tersendiri yang berisi semua
info mengenai anime tersebut. Untuk proses penyaringan
data dilakukan oleh aplikasi yang dibuat library jsoup.
Semua data anime yang berhasil diambil diubah menjadi
bentuk class anime dan disimpan dalam bentuk object file
untuk Java. Halaman-halaman yang berisi rekomendasi dan
genre juga diubah menjadi bentuk class dan disimpan dalam
bentuk object file untuk Java.
Setelah semua file html yang dibutuhkan berhasil diambil
dan dibuat menjadi object file, proses penyaringan data
dimulai [11]. Anime yang tayang dari tahun 1960-an sampai
sebelum musim dingin 2014 di Jepang digunakan sebagai
data sampel. Sedangkan anime yang mulai tayang pada
musim dingin 2014 digunakan sebagai data tester. Terdapat
dua jenis genre yang ada pada situs ini, yaitu general genre
dan specific genre. Genre yang digunakan adalah general
genre karena tidak semua anime memiliki specific genre
dan hampir semua anime memiliki general genre. Anime
tester harus memiliki sinopsis dan minimal sebuah general
genre. Jika tidak, maka anime tersebut tidak dijadikan tester.
Setelah proses penyaringan, maka didapat 2511 anime yang
bisa dijadikan sampel dan 32 anime yang bisa dijadikan
tester.
Data rekomendasi yang diambil adalah rekomendasi
untuk anime tester saja, data ini dipakai untuk pembanding
hasil pencarian pada proses penelitian. Rekomendasi untuk
sebuah anime terdiri dari judul anime tersebut dan beberapa
anime yang direkomendasikan oleh pengguna situs Anime-
Planet. Setiap anime yang direkomendasikan memiliki
beberapa komentar yang diberikan oleh beberapa pengguna
situs Anime-Planet. Rekomendasi untuk setiap anime
dibatasi hanya lima judul teratas saja. Karena anime tester
merupakan anime yang baru selesai tayang sehingga belum
memiliki banyak rekomendasi. Anime yang tidak memiliki
rekomendasi tidak bisa dijadikan sebagai data tester. Setelah
proses penyaringan terdapat 29 anime yang dapat digunakan
untuk perbandingan rekomendasi.
Koleksi term diambil dari kata-kata yang ada di dalam
sinopsis semua anime sampel. Kata-kata yang telah
diperoleh mengalami tahap pre-processing, yang terdiri dari
stemming dan stopping. Setelah melalui tahap pre-
processing kata-kata tersebut disimpan dalam bentuk object
file. Setelah proses parsing, data judul anime tester, term,
dan genre dimasukkan ke dalam basis data. Hal ini
bertujuan untuk memudahkan proses indeksasi. Term yang
didapatkan setelah tahap pre-processing adalah sebanyak
12717 kata, yang kemudian diindeksasi dengan metode
LSI
2
.
C. Metode Scoring
Ada delapan metode scoring yang digunakan dalam
aplikasi ini untuk menentukan skor setiap anime yang
menjadi rekomendasi. Skor dihitung dengan melakukan
kombinasi antara teknik temu balik informasi dan
rekomendasi dari komunitas anime.
Berikut ini adalah komponen-komponen penghitungan
skor yang digunakan dalam eksperimen:
1. Similarity
2
Indeksasi LSI dengan menggunakan implementasi dalam
pustaka LingPipe (alias-i.com/lingpipe/)
a. Untuk LSI, similarity didapat dari skor berdasarkan
skor cosine similarity genre hasil LSI dikali dengan
10000.
b. Untuk VSM, similarity didapat dari skor
berdasarkan skor cosine similarity genre hasil VSM
TF/IDF dikali dengan 10000.
Skor similarity dikalikan dengan faktor 10000 agar
memberi nilai yang berimbang dengan komponen skor
lainnya. Skor similaritas bernilai antara 0 dan 1, sedangkan
skor dari komunitas bernilai antara 0 sampai tak berhingga.
Similarity = cosine similarity * 10000
2. Ranking
Skor ranking merupakan skor yang diambil dari ranking
yang diberikan www.anime-planet.com kepada sebuah
anime. Skor ranking diberikan dengan perhitungan 5557
dikurangi dengan ranking dari anime. Jika anime tidak
memiliki ranking maka skor ranking dianggap 0. Nilai 5557
adalah ranking terbawah dari anime yang ada di
www.anime-planet.com.
3. Rating
Skor rating diperoleh dari rating yang diberikan
pengguna www.anime-planet.com kepada suatu anime. Skor
rating didapat dari rating anime dibagi 5 lalu dikalikan
10000. Rating dikalikan 10000 agar memberi nilai yang
berimbang dengan komponen skor lainnya karena rating
bernilai 1 5.
Rating = (rating / 5) * 10000
4. User Statistics
Skor user statistics diperoleh dari statistik pengguna
terhadap suatu anime. User statistics terdiri dari:
a. Watched = jumlah yang sudah menonton
sampai tamat.
b. Watching = jumlah yang sedang menonton.
c. Want to watch = jumlah yang menonton.
d. Dropped = jumlah yang berhenti menonton
dan tidak berniat menonton sampai tamat.
e. Stalled = jumlah yang menunda menonton
sampai tamat.
f. Won’t watch = jumlah yang sama sekali tidak
berniat menonton.
User statistics = (watched dropped) +
(watching stalled) + (want watch
won’t watch)
Berikut adalah rancangan metode scoring yang dipakai
dalam pemberian rekomendasi:
1. Metode 1 = similarity
2. Metode 2 = similarity + ranking
3. Metode 3 = similarity + rating
4. Metode 4 = similarity + user statistics
5. Metode 5 = similarity + ranking + rating
6. Metode 6 = similarity + ranking + user statistics
7. Metode 7 = similarity + rating + user statistics
8. Metode 8 = similarity + ranking + rating + user
statistics
Kedelapan metode penghitungan skor di atas dilakukan
untuk melihat pengaruh dari teknik temu balik atau
kontribusi komunitas yang memiliki peran lebih tinggi
dalam penelusuran judul anime.
IV. EKSPERIMENTASI DAN HASIL
Dalam bagian ini diberikan rancangan eksperimentasi dan
hasil terkait usulan metode skor yang dipakai serta evaluasi
dan perbandingan dengan metode umum dalam temu balik
informasi.
A. Rancangan Eksperimen
Pengujian dilakukan untuk semua data anime tester.
Untuk ekperimen hasil pemberian genre, data pembanding
diambil dari halaman anime tester dari situs Anime-Planet.
Setiap hasil pemberian genre untuk anime tester melalui
aplikasi dibandingkan dengan genre yang diberikan oleh
situs Anime-Planet. Pemberian genre hanya dilakukan
dengan metode LSI saja, tetapi konfigurasi untuk k (jumlah
dimensi pada LSI), diujicoba dengan angka sebagai berikut:
2, 5, 10, 15, 20, dan 22 (yaitu: mulai dari 2, naik dengan
kelipatan 5 sampai maksimum sejumlah genre). Jika hasil
pemberian genre sama dengan salah satu dari genre yang
berasal dari situs Anime-Planet, maka hasil rekomendasi
untuk anime tersebut dianggap benar.
Untuk eksperimen hasil temu balik judul anime, data
pembanding diambil dari rekomendasi untuk setiap anime
tester yang didapatkan dari situs Anime-Planet. Setiap
anime tester hasil temu balik melalui aplikasi dibandingkan
dengan hasil rekomendasi pengguna/komunitas situs Anime-
Planet.
Pencarian rekomendasi melalui aplikasi dicoba dengan
melakukan metode scoring dari metode 1 sampai 8 pada
urutan judul top-5, top-10, top-15, top-20 dan top-25. Jika
hasil rekomendasi sama dengan salah satu dari rekomendasi
yang berasal dari situs Anime-Planet, maka hasil
rekomendasi judul untuk anime tersebut dianggap benar.
Untuk menevaluasi keberhasilan digunakan pengukuran
tingkat akurasi (dalam persentase). Sebagai pembanding
digunakan temu balik dengan menggunakan similaritas VSM
melalui pembobotan TF/IDF [8]-[10].
B. Hasil Eksperimen
Dalam bagian ini disampaikan hasil eksperimen untuk
melihat pengaruh jumlah dimensi (k) dan hasil temu balik
untuk judul anime yang rekomendasi.
1) Pengaruh Jumlah Dimensi
Gambar 4 memperlihatkan nilai sensitivitas nilai dimensi
LSI terhadap akurasi temu balik genre. Tujuan dari
eksperimen ini adalah untuk melihat pengaruh nilai dimensi
kata (reduksi term) yang dianggap akan mewakili kebutuhan
saat temu balik.
Terlihat dalam Gambar 4 bahwa secara konsisten
kenaikan jumlah temu balik genre (top-n) berbanding lurus
dengan kenaikan jumlah dimensi. Hal ini menunjukkan
bahwa dalam LSI semakin besar jumlah dimensi akan
semakin besar pula similaritas yang akan didapatkan
terhadap hasil temu balik. Hasil eksperimen ini
menunjukkan bahwa dengan jumlah k=22 dan menghasilkan
rata-rata akurasi 83.33%, metode LSI berhasil melakukan
reduksi jumlah term yang sangat signifikan dibandingkan
keadaan awal, yaitu 12717 kata. Hal lain yang dapat dilihat
melalui Gambar 4 adalah kecenderungan ketepatan hasil
temu balik yaitu pada urutan tiga besar (top-3), yang tidak
berbeda jauh dengan top-5. Fakta ini dapat dimanfaatkan
untuk membatasi jumlah evaluasi temu balik untuk
rekomendasi judul, yaitu dengan membatasi judul-judul
pada top-3 dari hasil temu balik genre.
Gambar 4. Sensivitas jumlah dimensi terhadap akurasi
2) Hasil Temu Balik Rekomendasi Judul
Untuk temu balik rekomendasi judul, delapan skenario
scoring sebagaimana dituliskan pada bagian terdahulu
diujicobakan. Similaritas dokumen dihitung berdasarkan
kesamaan kosinus (cosine similarity) antara vektor kata
sinopsis pada sebuah anime dengan vektor kata sinopsi
semua anime dalam ketiga genre hasil dari eksperimen butir
1 di atas.
Gambar 5 memperlihatkan akurasi judul anime yang
direkomendasikan dengan menggunakakan metode scoring
1-8 (lihat subbab III.C), pada urutan 5, 10, 15, 20 dan 25.
Diberikan juga nilai rerata akurasi dari keseluruhan urutan.
Tujuan dari nilai rerata ini adalah untuk menunjukkan
perbandingan secara keseluruhan hasil temu balik LSI
terhadap metode pembanding VSM.
Dalam eksperimen, akurasi rekomendasi dengan
menggunakan metode 1-8, tidak ada yang melebihi nilai
50%, baik itu pada konfigurasi pemberian genre top-3
ataupun top-5. Rerata akurasi keseluruhan adalah 20.09%.
Rata-rata akurasi tertinggi adalah 21.38%, rata-rata akurasi
terendah adalah 19.31%, nilai akurasi tertinggi yang muncul
adalah 31.03%, dan nilai akurasi terendah yang muncul
adalah 6.90%.
Metode yang memiliki akurasi terbaik adalah metode 1
dengan rata-rata akurasi 21.38%. Dari hasil metode 1 yang
paling baik dapat disimpulkan bahwa komponen genre
similarity yang berasal dari LSI memiliki pengaruh yang
besar dalam hasil pencarian. Hal ini dapat dilihat dari
akurasi metode lainnya yang bersesuaian dengan metode 1.
Analisis lebih dalam menunjukkan bahwa selain komponen
similarity, nilai rating dan ranking memiliki peran yang
cukup besar pada hasil rekomendasi.
Berdasarkan pengamatan penulis, salah satu penyebab
rendahnya nilai akurasi adalah sifat dari data rekomendasi
anime yang sangat subjektif (berbasis penilaian komunitas).
Selera dan pemikiran tiap orang bisa saja berbeda, dan oleh
karena itu tingkat akurasi terhadap judul menjadi rendah.
Selain itu anime yang diambil sebagai tester dapat dibilang
masih baru, sehingga belum banyak orang yang mengetahui
atau menonton dan memberikan rekomendasi.
Gambar 5. Perbandingan akurasi temu balik LSI dan VSM TF/IDF dengan
kombinasi skor (1-8) pada subbab III.C.
Walaupun rekomendasi mesin bisa dibilang sangat
objektif dan rekomendasi manusia sangat subjektif, hasil uji
coba menunjukkan adanya keterkaitan antara komentar
pengguna dan sinopsis anime yang dikomentari. Hal ini
misalnya dapat dilihat dari hasil percobaan saat pencarian
menggunakan top-5 dilakukan, pada Gambar 5. Terdapat
dua judul anime hasil rekomendasi aplikasi yang cocok
dengan rekomendasi pengguna, dengan adanya beberapa
kata di dalam deskripsi genre yang saling beririsan.
Dari kumpulan dari sinopsis anime tersebut dan
kumpulan term dari komentar pengguna, terdapat delapan
buah term yang beririsan.Hal ini menunjukkan bahwa
komentar manusia yang subjektif ternyata masih memiliki
unsur objektivitas yang dapat ditelusuri dengan mesin temu
balik.
Berdasarkan hasil eksperimen, akurasi untuk pencarian
dengan mengunakan VSM TF/IDF bisa dibilang buruk.
Rerata akurasi keseluruhan adalah 12.33%. Rata-rata
akurasi tertinggi adalah 14.48%, rata-rata akurasi terendah
adalah 3.45%, nilai akurasi tertinggi yang muncul adalah
27.59%, dan nilai akurasi terendah yang muncul adalah
3.45%.
Metode yang memiliki akurasi terbaik adalah metode 3
dengan rata-rata akurasi 14.48%. Metode 3 merupakan
perpaduan dari similarity dan rating anime. Hal ini
menunjukkan bahwa komponen rating memiliki peran yang
cukup besar pada hasil rekomendasi. Dari hasil percobaan
dapat dilihat pula bahwa metode 1 memiliki tingkat akurasi
yang sangat buruk, dari hasil top-5 sampai top-25 hanya ada
satu judul rekomendasi yang tepat. Hal ini menunjukkan
bahwa nilai similaritas dari VSM tidak memiliki kontribusi
yang cukup berarti.
Gambar 6. Contoh hasil percobaan hasil temu balik
Rerata akurasi hasil rekomendasi dengan VSM TF/IDF
jauh lebih rendah dibandingkan dengan rerata akurasi hasil
rekomendasi dengan LSI. Hasil ini menunjukkan bahwa
genre yang dihasilkan dari LSI berpengaruh terhadap hasil
pencarian. Hal ini dapat dilihat dari rata-rata akurasi metode
1 pada rekomendasi dengan LSI dan pada rekomendasi
dengan VSM. Pencarian rekomendasi dengan menggunakan
genre memiliki akurasi yang jauh lebih baik dibandingkan
dengan pencarian rekomendasi yang berdasarkan kemiripan
antar sinopsis saja. Dengan demikian dapat disimpulkan
pencarian dengan melibatkan genre akan lebih akurat
dibandingkan hanya berdasarkan kemiripan term antar
anime.
V. KESIMPULAN DAN PENGEMBANGAN
Beberapa butir kesimpulan penting yang didapat dari
hasil analisis, pembuatan aplikasi, dan eksperimentasi
adalah sebagai berikut:
1. Untuk membangun aplikasi mesin rekomendasi anime,
dibutuhkan data-data anime yang lengkap. Data-data
berupa judul, sinopsis, dan genre dibutuhkan untuk
menciptakan hubungan antar anime dalam pembuatan
indeks. Data tersebut dapat diambil dari situs tentang
anime, seperti www.anime-planet.com.
2. Hasil pemberian genre dengan menggunakan LSI lebih
menjanjikan karena dapat memberikan rekomendasi
genre yang cocok dengan query anime. Genre memiliki
peran yang sangat penting dalam menciptakan
hubungan (relasi domain) antar anime, hal ini dapat
dilihat dari hasil pengujian. Akurasi pencarian
rekomendasi LSI dengan menggunakan genre lebih baik
dibandingkan hasil pencarian VSM TF/IDF yang hanya
melihat hubungan term dan tidak melibatkan genre.
3. Hasil rekomendasi mesin dengan menggunakan LSI
masih belum dapat mendekati rekomendasi manusia
yang bersifat sangat subjektif. Hal ini bisa dilihat dari
hasil pengujian, rata-rata akurasi pencarian
rekomendasi tidak ada yang mencapai 50%. Meskipun
demikian, hasil penelitian menunjukkan bahwa
rekomendasi 'hanya' dengan menggunakan nilai
similaritas, metode LSI memiliki kemampuan yang
lebih baik atau setara dengan informasi yang berasal
dari komunitas.
4. Hasil eksperimen menunjukkan bahwa informasi rating
dari komunitas memiliki faktor yang lebih menentukan
dibandingkan faktor komunitas lainnya, seperti ranking
ataupun user statistics.
5. Rekomendasi dari manusia (komunitas) meskipun
berdasarkan pada pendapat subyektif, masih tetap
memiliki unsur objektivitas, sehingga ada kemungkinan
rekomendasi mesin dapat sesuai dengan rekomendasi
manusia. Hal tersebut dapat dilihat dari adanya kata-
kata yang beririsan antara sinopsis anime yang
direkomendasikan dan komentar dari pengguna.
Beberapa arah pengembangan yang dapat diusulkan
terkait dengan hasil penelitian adalah:
1. Melakukan pembelajaran untuk menilai kualitas
rekomendasi berbasis komunitas. Hal ini dapat
bermanfaat untuk mengaitkan keterkaitan antara
subyektivitas dari penggunan dan pengaruhnya
terhadap pemberian rekomendasi.
2. Membuat proses indeksasi secara lebih up-to-date,
yaitu dengan membentuk indeks melalui teknik
incremental [11], sehingga perubahan-perubahan yang
ada dalam sumber data dapat langsung ditangani.
DAFTAR PUSTAKA
[1] R. E. Brenner. Understanding manga and anime. Greenwood
Publishing Group, 2007.
[2] P. Lops, M. De Gemmis, & G. Semeraro. "Content-based
recommender systems: State of the art and trends." Recommender
systems handbook . Springer US, 2011. 73-105.
[3] S. Kangas. "Collaborative filtering and recommendation
systems." VTT information technology (2002).
[4] M.J. Pazzani & D. Billsus. "Content-based recommendation
systems." The adaptive web. Springer Berlin Heidelberg, 2007. 325-
341.
[5] S. Dumais, et al. "Latent semantic indexing." Proceedings of the
Text Retrieval Conference . 1995.
[6] T.K. Landauer. "Latent semantic analysis." Encyclopedia of
Cognitive Science (2006).
[7] S.C. D eerwester, et al. "Indexing by latent semantic
analysis." JAsIs 41.6 (1990): 391-407.
[8] C.D. Manning, P. Raghavan, & H. Schütze. Introduction to
information retrieval. Vol. 1. Cambridge: Cambridge university
press, 2008.
[9] G. Salton, A. Wong, & C-S Yang. "A vector space model for
automatic indexing." Communications of the ACM 18.11 (1975):
613-620.
[10] T. Mikolov, et al. "Efficient estimation of word representations in
vector space." arXiv preprint arXiv:1301.3781 (2013).
[11] R. Delbru, S. Campinas, & G. Tummarello. "Searching web data: An
entity retrieval and high-performance indexing model." Web
Semantics: Science, Services and Agents on the World Wide Web 10
(2012): 33-58.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.
Chapter
Recommendation system is the tool to user preferences over a given set of items. It takes help of the previous auxiliary information in terms of feedback or ratings. The main purpose of a recommender system is to engage users and enhance their experience over the Internet. Presently, recommender systems are widely used over e-commerce and social networking sites. The different applications require specialised recommendation system for them as e-commerce sites recommendation systems are different from social networking sites. So, recommendation system’s biggest challenge is the diversity as one cannot generate an accurate prediction using the same technique for different applications. This paper is an effort to illustrate one of the popular recommendation techniques, collaborative filtering based on classes, memory based and model based on two popular data sets (Movie lens and Jester). Further, it represents a comparative analysis of how results diverge from application to application and provides a way to optimise results of existing algorithm to get most out of them. The purpose is to present an exposure and open door to use more sophisticated data mining and machine learning techniques to enhance the overall efficiency of recommendation system.
Article
Collaborative filtering is a technique widely used in online recommendation systems nowadays. However, it is vulnerable from manipulation by malicious users who often create some fake account (or shilling) profiles to influence the results of recommender systems. To identify the fake users, existing algorithms usually utilize certain characteristics of shilling profiles, of which the drawbacks are the low precision and the requirement of a large size of training set. In this paper, we develop a clustering based method to find the shilling attackers by incorporating the information of user ratings and the attribute of user profiles. The users are firstly self-organizedly clustered into several groups based on the integrated information of the rating features and the attributes of user profile, then the malicious user group is identified through the GRDMA (Group Rating Deviation from Mean Agreement) values of user group. Instead of identifying attacker one by one, the proposed algorithm finds the malicious users at the collective level, which provids a novel way to analyse and detect shilling attack. The experimental results performed on MovieLens dataset demonstrate that the proposed algorithm is effective and robust in three typical kinds of shilling attack models, especially when the attack size and the filler size are sufficiently high.
Conference Paper
We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.
Chapter
This chapter discusses content-based recommendation systems, i.e., systems that recommend an item to a user based upon a description of the item and a profile of the user's interests. Content-based recommendation systems may be used in a variety of domains ranging from recommending web pages, news articles, restaurants, television programs, and items for sale. Although the details of various systems differ, content-based recommendation systems share in common a means for describing the items that may be recommended, a means for creating a profile of the user that describes the types of items the user likes, and a means of comparing items to the user profile to determine what to re commend. The profile is often created and updated automatically in response to feedback on the desirability of items that have been presented to the user.
Article
More and more (semi) structured information is becoming available on the Web in the form of documents embedding metadata (e.g., RDF, RDFa, Microformats and others). There are already hundreds of millions of such documents accessible and their number is growing rapidly. This calls for large scale systems providing effective means of search-ing and retrieving this semi-structured information with the ultimate goal of making it exploitable by humans and machines alike. This article examines the shift from the traditional web document model to a web data object (entity) model and studies the challenges faced in implementing a scalable and high performance system for searching semi-structured data objects over a large heterogeneous and decentralised infrastructure. Towards this goal, we define an entity re-trieval model, develop novel methodologies for supporting this model and show how to achieve a high-performance entity retrieval system. We introduce an indexing methodology for semi-structured data which offers a good com-promise between query expressiveness, query processing and index maintenance compared to other approaches. We address high-performance by optimisation of the index data structure using appropriate compression techniques. Fi-nally, we demonstrate that the resulting system can index billions of data objects and provides keyword-based as well as more advanced search interfaces for retrieving relevant data objects in sub-second time. This work has been part of the Sindice search engine project at the Digital Enterprise Research Institute (DERI), NUI Galway. The Sindice system currently maintains more than 200 million pages downloaded from the Web and is being used actively by many researchers within and outside of DERI.