Conference PaperPDF Available

Rekomendasi Anime dengan Latent Semantic Indexing Berbasis Sinopsis Genre

April 2015

April 2015

Conference: The 3rd Seminar Teknik Informatika dan Sistem Informasi (SETISI)
At: Bandung

Authors:

Universitas Kristen Maranatha

Animes fans are sometimes hard to find suitable animes that match their needs since information about animes is very limited. In this research, a Latent Semantic Indexing (LSI)-based animes recommendation system is proposed. LSI is chosen since it has the ability to index shared words between various documents. Since users preferences are usually based on genre's information, it is used for creating the connection between existing animes synopsis. The experiment results show that the usage of LSI based on genre information gives better accuracy than the traditional information retrieval method, i.e. the vector space model (VSM) with TF/IDF weighting. I. PENDAHULUAN Anime adalah istilah untuk film animasi atau kartun khas Jepang [1]. Anime tidak hanya digemari di Jepang saja, tetapi juga di berbagai belajan dunia. Saat ini jumlah anime yang beredar sangatlah banyak, sehingga para penikmat anime terkadang kesukaran untuk mencari anime yang cocok dengan selera mereka. Salah satu penyebabnya adalah terbatasnya deskripsi dan review yang diterjemahkan darim bahasa Jepang ke dalam bahasa lainnya. Berdasarkan pada masalah tersebut, maka dalam penelitian ini diusulkan sebuah sistem untuk memberi saran kepada para penggemar anime mengenai genre dan judul yang sekiranya cocok untuk mereka. Teknik temu balik informasi digunakan sebagai inti dari sistem rekomendasi yang dikembangkan [2]-[4]. Berbeda dari banyak sistem rekomendasi anime yang didasarkan pada judul dan hasil review dari pengguna lainnya (berbasis komunitas), sistem yang dikembangkan mencoba untuk mengaitkan antara informasi genre dengan kemunculan kata-kata dalam sinopsis. Selain itu, dalam penelitian akan diteliti juga faktor-faktor lain yang menentukan ketepatan penemuan anime, seperti: statistik pengguna, rating pengguna, dan urutan hasil temu balik dengan memanfaatkan informasi yang tersedia dalam komunitas anime. Dengan adanya sistem rekomendasi ini diharapkan bahwa pengguna akan dapat memperoleh rekomendasi genre beserta judul yang lebih obyektif dibandingkan dengan hasil mesin temu balik anime seperti dalam www.anime-planet.com yang berbasis pada review dalam komunitas dan 'exact match' pada judul.

Content uploaded by Hapnes Toba

Content may be subject to copyright.

Rekomendasi Anime dengan Latent Semantic

Indexing Berbasis Sinopsis Genre

Rudy Aditya Abarja1, Hapnes Toba2

1Jurusan S1 Teknik Informatika

2Program Studi D3 Teknik Informatika

Fakultas Teknologi Informasi Universitas Kristen Maranatha

Jalan Suria Sumantri No. 65, Bandung, Indonesia

1rudotz@gmail.com

2hapnestoba@it.maranatha.edu

Abstract — Animes fans are sometimes hard to find suitable

animes that match their needs since information about animes is

very limited. In this research, a Latent Semantic Indexing (LSI)-

based animes recommendation system is proposed. LSI is chosen

since it has the ability to index shared words between various

documents. Since users preferences are usually based on genre’s

information, it is used for creating the connection between

existing animes synopsis. The experiment results show that the

usage of LSI based on genre information gives better accuracy

than the traditional information retrieval method, i.e. the vector

space model (VSM) with TF/IDF weighting.

Keywords — information retrieval, latent semantic indexing,

recommendation system, word co-occurences, anime

I. PENDAHULUAN

Anime adalah istilah untuk film animasi atau kartun khas

Jepang [1]. Anime tidak hanya digemari di Jepang saja,

tetapi juga di berbagai belajan dunia. Saat ini jumlah anime

yang beredar sangatlah banyak, sehingga para penikmat

anime terkadang kesukaran untuk mencari anime yang

cocok dengan selera mereka. Salah satu penyebabnya adalah

terbatasnya deskripsi dan review yang diterjemahkan darim

bahasa Jepang ke dalam bahasa lainnya.

Berdasarkan pada masalah tersebut, maka dalam

penelitian ini diusulkan sebuah sistem untuk memberi saran

kepada para penggemar anime mengenai genre dan judul

yang sekiranya cocok untuk mereka. Teknik temu balik

informasi digunakan sebagai inti dari sistem rekomendasi

yang dikembangkan [2]-[4]. Berbeda dari banyak sistem

rekomendasi anime yang didasarkan pada judul dan hasil

review dari pengguna lainnya (berbasis komunitas), sistem

yang dikembangkan mencoba untuk mengaitkan antara

informasi genre dengan kemunculan kata-kata dalam

sinopsis.

Selain itu, dalam penelitian akan diteliti juga faktor-

faktor lain yang menentukan ketepatan penemuan anime,

seperti: statistik pengguna, rating pengguna, dan urutan

hasil temu balik dengan memanfaatkan informasi yang

tersedia dalam komunitas anime. Dengan adanya sistem

rekomendasi ini diharapkan bahwa pengguna akan dapat

memperoleh rekomendasi genre beserta judul yang lebih

obyektif dibandingkan dengan hasil mesin temu balik anime

seperti dalam www.anime-planet.com yang berbasis pada

review dalam komunitas dan 'exact match' pada judul.

II. KAJIAN PUSTAKA

Dalam bagian ini akan diberikan beberapa tinjauan

pustaka terkait dengan metode yang digunakan dalam

penelitian.

A. Temu Balik Informasi dengan LSI

LSI adalah metode indexing yang berbasis Singular

Value Decomposition (SVD) dari matriks term (word)-

document [5]. SVD adalah prosedur matematis untuk

mengubah matriks term-document sedemikian rupa

sehingga pola asosiatif intrinsik utama dalam koleksi

terungkap. Pola-pola minor yang dianggap tidak penting

dapat diabaikan untuk mengidentifikasi relasi global utama,

melalui reduksi dimensi (dalam Gambar 1 ditunjukkan

dengan parameter k) [6], [7].

Gambar 1. Dekomposisi matriks term-document LSI [8]

Dalam konteks temu balik informasi, LSI membangun

relasi berdasarkan kemunculan kata-kata secara bersamaan

di dalam beberapa dokumen. Relasi pokok ini disebut latent

semanctic structure di dalam koleksi dokumen. Keuntungan

dari LSI dibandingkan metode indeksasi lainnya adalah LSI

tidak bergantung pada kata-kata secara individu untuk

menentukan kedekatan antar dokumen, tetapi menggunakan

kedekatan konsep atau topik untuk mengetahui lokasi

dokumen yang relevan.

LSI mencocokkan kata-kata kunci temu balik

berdasarkan topik atau konsep. Konsep atau topik di sini

adalah kumpulan kata yang secara kolektif mendeskripsikan

suatu entitas yang sama, misalnya genre atau subyek suatu

dokumen. Ketika pengguna memasukkan kueri, maka kueri

itu diubah ke ruang vektor LSI dan dibandingkan dengan

entitas lainnya di dalam ruang vektor yang sama. Hasil temu

balik akan dinyatakan sebagai kemiripan (similaritas)

berdasarkan kedekatan kata-kata kunci dalam kueri dengan

entitas lainnya dalam ruang vektor yang sama.

Dengan mengacu pada sifat dan keunggulan LSI di atas,

maka sistem yang dikembangkan menerapkan kata-kata

dalam sinopsis/deskripsi anime untuk setiap genre sebagai

ruang vektor dokumen. Melalui terbentuknya ruang vektor

tersebut diharapkan terdapat kaitan genre sehingga setiap

kemunculan kata akan dapat memberikan genre yang

spesifik (beserta judul-judul anime di dalamnya), sebagai

hasil rekomendasi.

B. Anime dan Mesin Temu Balik Anime

Anime-Planet

adalah salah satu situs terlengkap

berbahasa Inggris yang berisi informasi mengenai anime

dan manga. Anime-Planet merupakan semacam katalog di

mana pengguna dapat mengakses informasi yang ada dan

melakukan interaksi dengan informasi tersebut, seperti:

memasukkan anime ke dalam daftar tonton dan memberikan

review dan rating. Anime-Planet juga menyediakan forum

untuk melakukan diskusi. Informasi mengenai anime dan

manga dalam selalu di-update untuk memberikan informasi

yang relevan.

Gambar 2. Antar muka temu balik Anime- Planet

Kekurangan utama dalam Anime-Planet adalah fitur temu

balik yang hanya memberikan hasil terhadap penelusuran

yang terbatas pada judul (Gambar 2). Kelemahan lainnya

adalah pada saat pemberian rekomendasi, hasilnya diambil

melalui informasi yang diberikan oleh komunitas dan tag

topik, tanpa proses analisis tekstual. Di sisi lain, Anime-

Planet memiliki kekayaan informasi statistik berdasarkan

http://www.anime-planet.com/

masukan dari komunitas penggunanya, seperti: jumlah akses,

rating, dsb (Gambar 3).

Gambar 3. Antar muka rekomendasi dan statistik dari komunitas dalam

Anime-Planet

Dengan memperhatikan keterbatasan dan kelebihan di

atas, diharapkan sistem rekomendasi yang dikembangkan

akan dapat berperan secara otomatis melalui analisis

tekstual. Hasil analisis tekstual diharapkan memiliki

kemampuan yang mirip dengan informasi dari komunitas,

sehingga hasil temu balik maupun rekomendasi akan dapat

dilakukan tanpa harus melibatkan pengguna, dengan catatan

sebuah anime memiliki informasi tekstual, seperti: sinopsis.

III. PENGEMBANGAN SISTEM

Dalam bagian ini disampaikan langkah-langkah

pengembangan sistem dan eksperimentasi dalam penelitian.

A. Pengolahan Data

Sumber data anime yang dipakai semua berasal dari situs

www.anime-planet.com. Pengambilan data dilakukan oleh

aplikasi web crawler yang dibuat oleh pihak ketiga, yaitu.

HTTrack (versi 3.48-3). Pengambilan data dari situs

www.anime-planet.com dilakukan sebanyak dua kali. Proses

pertama dilakukan pada tanggal 1 April 2014 sampai

dengan 7 April 2014, dan kedua dilakukan pada tanggal 1

Mei 2014 sampai dengan 5 Mei 2014.

Jumlah file html setelah pengumpuan data berjumlah

18492 halaman (= jumlah anime), dengan ukuran totalnya

1,82 GB. Pengambilan data kedua bertujuan untuk

mengambil data anime yang tayang pada periode musim

dingin 2014 di Jepang. Anime-anime musim dingin ini

selesai tayang pada pertengahan sampai akhir mulai April.

Dengan demikian anime-anime ini sudah memiliki

rekomendasi dari pengguna web site dan memiliki data yang

akurat.

B. Penyaringan Data

Setelah data berhasil didapatkan, file-file html tersebut

melalui proses parsing. File html yang diambil adalah

halaman yang berisi data anime, halaman yang berisi

rekomendasi anime tersebut, dan halaman yang berisi semua

genre anime yang ada di situs tersebut. Setiap anime

memiliki sebuah halaman web tersendiri yang berisi semua

info mengenai anime tersebut. Untuk proses penyaringan

data dilakukan oleh aplikasi yang dibuat library jsoup.

Semua data anime yang berhasil diambil diubah menjadi

bentuk class anime dan disimpan dalam bentuk object file

untuk Java. Halaman-halaman yang berisi rekomendasi dan

genre juga diubah menjadi bentuk class dan disimpan dalam

bentuk object file untuk Java.

Setelah semua file html yang dibutuhkan berhasil diambil

dan dibuat menjadi object file, proses penyaringan data

dimulai [11]. Anime yang tayang dari tahun 1960-an sampai

sebelum musim dingin 2014 di Jepang digunakan sebagai

data sampel. Sedangkan anime yang mulai tayang pada

musim dingin 2014 digunakan sebagai data tester. Terdapat

dua jenis genre yang ada pada situs ini, yaitu general genre

dan specific genre. Genre yang digunakan adalah general

genre karena tidak semua anime memiliki specific genre

dan hampir semua anime memiliki general genre. Anime

tester harus memiliki sinopsis dan minimal sebuah general

genre. Jika tidak, maka anime tersebut tidak dijadikan tester.

Setelah proses penyaringan, maka didapat 2511 anime yang

bisa dijadikan sampel dan 32 anime yang bisa dijadikan

tester.

Data rekomendasi yang diambil adalah rekomendasi

untuk anime tester saja, data ini dipakai untuk pembanding

hasil pencarian pada proses penelitian. Rekomendasi untuk

sebuah anime terdiri dari judul anime tersebut dan beberapa

anime yang direkomendasikan oleh pengguna situs Anime-

Planet. Setiap anime yang direkomendasikan memiliki

beberapa komentar yang diberikan oleh beberapa pengguna

situs Anime-Planet. Rekomendasi untuk setiap anime

dibatasi hanya lima judul teratas saja. Karena anime tester

merupakan anime yang baru selesai tayang sehingga belum

memiliki banyak rekomendasi. Anime yang tidak memiliki

rekomendasi tidak bisa dijadikan sebagai data tester. Setelah

proses penyaringan terdapat 29 anime yang dapat digunakan

untuk perbandingan rekomendasi.

Koleksi term diambil dari kata-kata yang ada di dalam

sinopsis semua anime sampel. Kata-kata yang telah

diperoleh mengalami tahap pre-processing, yang terdiri dari

stemming dan stopping. Setelah melalui tahap pre-

processing kata-kata tersebut disimpan dalam bentuk object

file. Setelah proses parsing, data judul anime tester, term,

dan genre dimasukkan ke dalam basis data. Hal ini

bertujuan untuk memudahkan proses indeksasi. Term yang

didapatkan setelah tahap pre-processing adalah sebanyak

12717 kata, yang kemudian diindeksasi dengan metode

LSI

C. Metode Scoring

Ada delapan metode scoring yang digunakan dalam

aplikasi ini untuk menentukan skor setiap anime yang

menjadi rekomendasi. Skor dihitung dengan melakukan

kombinasi antara teknik temu balik informasi dan

rekomendasi dari komunitas anime.

Berikut ini adalah komponen-komponen penghitungan

skor yang digunakan dalam eksperimen:

1. Similarity

Indeksasi LSI dengan menggunakan implementasi dalam

pustaka LingPipe (alias-i.com/lingpipe/)

a. Untuk LSI, similarity didapat dari skor berdasarkan

skor cosine similarity genre hasil LSI dikali dengan

10000.

b. Untuk VSM, similarity didapat dari skor

berdasarkan skor cosine similarity genre hasil VSM

TF/IDF dikali dengan 10000.

Skor similarity dikalikan dengan faktor 10000 agar

memberi nilai yang berimbang dengan komponen skor

lainnya. Skor similaritas bernilai antara 0 dan 1, sedangkan

skor dari komunitas bernilai antara 0 sampai tak berhingga.

Similarity = cosine similarity * 10000

2. Ranking

Skor ranking merupakan skor yang diambil dari ranking

yang diberikan www.anime-planet.com kepada sebuah

anime. Skor ranking diberikan dengan perhitungan 5557

dikurangi dengan ranking dari anime. Jika anime tidak

memiliki ranking maka skor ranking dianggap 0. Nilai 5557

adalah ranking terbawah dari anime yang ada di

www.anime-planet.com.

3. Rating

Skor rating diperoleh dari rating yang diberikan

pengguna www.anime-planet.com kepada suatu anime. Skor

rating didapat dari rating anime dibagi 5 lalu dikalikan

10000. Rating dikalikan 10000 agar memberi nilai yang

berimbang dengan komponen skor lainnya karena rating

bernilai 1 – 5.

Rating = (rating / 5) * 10000

4. User Statistics

Skor user statistics diperoleh dari statistik pengguna

terhadap suatu anime. User statistics terdiri dari:

a. Watched = jumlah yang sudah menonton

sampai tamat.

b. Watching = jumlah yang sedang menonton.

c. Want to watch = jumlah yang menonton.

d. Dropped = jumlah yang berhenti menonton

dan tidak berniat menonton sampai tamat.

e. Stalled = jumlah yang menunda menonton

sampai tamat.

f. Won’t watch = jumlah yang sama sekali tidak

berniat menonton.

User statistics = (watched – dropped) +

(watching – stalled) + (want watch –

won’t watch)

Berikut adalah rancangan metode scoring yang dipakai

dalam pemberian rekomendasi:

1. Metode 1 = similarity

2. Metode 2 = similarity + ranking

3. Metode 3 = similarity + rating

4. Metode 4 = similarity + user statistics

5. Metode 5 = similarity + ranking + rating

6. Metode 6 = similarity + ranking + user statistics

7. Metode 7 = similarity + rating + user statistics

8. Metode 8 = similarity + ranking + rating + user

statistics

Kedelapan metode penghitungan skor di atas dilakukan

untuk melihat pengaruh dari teknik temu balik atau

kontribusi komunitas yang memiliki peran lebih tinggi

dalam penelusuran judul anime.

IV. EKSPERIMENTASI DAN HASIL

Dalam bagian ini diberikan rancangan eksperimentasi dan

hasil terkait usulan metode skor yang dipakai serta evaluasi

dan perbandingan dengan metode umum dalam temu balik

informasi.

A. Rancangan Eksperimen

Pengujian dilakukan untuk semua data anime tester.

Untuk ekperimen hasil pemberian genre, data pembanding

diambil dari halaman anime tester dari situs Anime-Planet.

Setiap hasil pemberian genre untuk anime tester melalui

aplikasi dibandingkan dengan genre yang diberikan oleh

situs Anime-Planet. Pemberian genre hanya dilakukan

dengan metode LSI saja, tetapi konfigurasi untuk k (jumlah

dimensi pada LSI), diujicoba dengan angka sebagai berikut:

2, 5, 10, 15, 20, dan 22 (yaitu: mulai dari 2, naik dengan

kelipatan 5 sampai maksimum sejumlah genre). Jika hasil

pemberian genre sama dengan salah satu dari genre yang

berasal dari situs Anime-Planet, maka hasil rekomendasi

untuk anime tersebut dianggap benar.

Untuk eksperimen hasil temu balik judul anime, data

pembanding diambil dari rekomendasi untuk setiap anime

tester yang didapatkan dari situs Anime-Planet. Setiap

anime tester hasil temu balik melalui aplikasi dibandingkan

dengan hasil rekomendasi pengguna/komunitas situs Anime-

Planet.

Pencarian rekomendasi melalui aplikasi dicoba dengan

melakukan metode scoring dari metode 1 sampai 8 pada

urutan judul top-5, top-10, top-15, top-20 dan top-25. Jika

hasil rekomendasi sama dengan salah satu dari rekomendasi

yang berasal dari situs Anime-Planet, maka hasil

rekomendasi judul untuk anime tersebut dianggap benar.

Untuk menevaluasi keberhasilan digunakan pengukuran

tingkat akurasi (dalam persentase). Sebagai pembanding

digunakan temu balik dengan menggunakan similaritas VSM

melalui pembobotan TF/IDF [8]-[10].

B. Hasil Eksperimen

Dalam bagian ini disampaikan hasil eksperimen untuk

melihat pengaruh jumlah dimensi (k) dan hasil temu balik

untuk judul anime yang rekomendasi.

1) Pengaruh Jumlah Dimensi

Gambar 4 memperlihatkan nilai sensitivitas nilai dimensi

LSI terhadap akurasi temu balik genre. Tujuan dari

eksperimen ini adalah untuk melihat pengaruh nilai dimensi

kata (reduksi term) yang dianggap akan mewakili kebutuhan

saat temu balik.

Terlihat dalam Gambar 4 bahwa secara konsisten

kenaikan jumlah temu balik genre (top-n) berbanding lurus

dengan kenaikan jumlah dimensi. Hal ini menunjukkan

bahwa dalam LSI semakin besar jumlah dimensi akan

semakin besar pula similaritas yang akan didapatkan

terhadap hasil temu balik. Hasil eksperimen ini

menunjukkan bahwa dengan jumlah k=22 dan menghasilkan

rata-rata akurasi 83.33%, metode LSI berhasil melakukan

reduksi jumlah term yang sangat signifikan dibandingkan

keadaan awal, yaitu 12717 kata. Hal lain yang dapat dilihat

melalui Gambar 4 adalah kecenderungan ketepatan hasil

temu balik yaitu pada urutan tiga besar (top-3), yang tidak

berbeda jauh dengan top-5. Fakta ini dapat dimanfaatkan

untuk membatasi jumlah evaluasi temu balik untuk

rekomendasi judul, yaitu dengan membatasi judul-judul

pada top-3 dari hasil temu balik genre.

Gambar 4. Sensivitas jumlah dimensi terhadap akurasi

2) Hasil Temu Balik Rekomendasi Judul

Untuk temu balik rekomendasi judul, delapan skenario

scoring sebagaimana dituliskan pada bagian terdahulu

diujicobakan. Similaritas dokumen dihitung berdasarkan

kesamaan kosinus (cosine similarity) antara vektor kata

sinopsis pada sebuah anime dengan vektor kata sinopsi

semua anime dalam ketiga genre hasil dari eksperimen butir

1 di atas.

Gambar 5 memperlihatkan akurasi judul anime yang

direkomendasikan dengan menggunakakan metode scoring

1-8 (lihat subbab III.C), pada urutan 5, 10, 15, 20 dan 25.

Diberikan juga nilai rerata akurasi dari keseluruhan urutan.

Tujuan dari nilai rerata ini adalah untuk menunjukkan

perbandingan secara keseluruhan hasil temu balik LSI

terhadap metode pembanding VSM.

Dalam eksperimen, akurasi rekomendasi dengan

menggunakan metode 1-8, tidak ada yang melebihi nilai

50%, baik itu pada konfigurasi pemberian genre top-3

ataupun top-5. Rerata akurasi keseluruhan adalah 20.09%.

Rata-rata akurasi tertinggi adalah 21.38%, rata-rata akurasi

terendah adalah 19.31%, nilai akurasi tertinggi yang muncul

adalah 31.03%, dan nilai akurasi terendah yang muncul

adalah 6.90%.

Metode yang memiliki akurasi terbaik adalah metode 1

dengan rata-rata akurasi 21.38%. Dari hasil metode 1 yang

paling baik dapat disimpulkan bahwa komponen genre

similarity yang berasal dari LSI memiliki pengaruh yang

besar dalam hasil pencarian. Hal ini dapat dilihat dari

akurasi metode lainnya yang bersesuaian dengan metode 1.

Analisis lebih dalam menunjukkan bahwa selain komponen

similarity, nilai rating dan ranking memiliki peran yang

cukup besar pada hasil rekomendasi.

Berdasarkan pengamatan penulis, salah satu penyebab

rendahnya nilai akurasi adalah sifat dari data rekomendasi

anime yang sangat subjektif (berbasis penilaian komunitas).

Selera dan pemikiran tiap orang bisa saja berbeda, dan oleh

karena itu tingkat akurasi terhadap judul menjadi rendah.

Selain itu anime yang diambil sebagai tester dapat dibilang

masih baru, sehingga belum banyak orang yang mengetahui

atau menonton dan memberikan rekomendasi.

Gambar 5. Perbandingan akurasi temu balik LSI dan VSM TF/IDF dengan

kombinasi skor (1-8) pada subbab III.C.

Walaupun rekomendasi mesin bisa dibilang sangat

objektif dan rekomendasi manusia sangat subjektif, hasil uji

coba menunjukkan adanya keterkaitan antara komentar

pengguna dan sinopsis anime yang dikomentari. Hal ini

misalnya dapat dilihat dari hasil percobaan saat pencarian

menggunakan top-5 dilakukan, pada Gambar 5. Terdapat

dua judul anime hasil rekomendasi aplikasi yang cocok

dengan rekomendasi pengguna, dengan adanya beberapa

kata di dalam deskripsi genre yang saling beririsan.

Dari kumpulan dari sinopsis anime tersebut dan

kumpulan term dari komentar pengguna, terdapat delapan

buah term yang beririsan.Hal ini menunjukkan bahwa

komentar manusia yang subjektif ternyata masih memiliki

unsur objektivitas yang dapat ditelusuri dengan mesin temu

balik.

Berdasarkan hasil eksperimen, akurasi untuk pencarian

dengan mengunakan VSM TF/IDF bisa dibilang buruk.

Rerata akurasi keseluruhan adalah 12.33%. Rata-rata

akurasi tertinggi adalah 14.48%, rata-rata akurasi terendah

adalah 3.45%, nilai akurasi tertinggi yang muncul adalah

27.59%, dan nilai akurasi terendah yang muncul adalah

3.45%.

Metode yang memiliki akurasi terbaik adalah metode 3

dengan rata-rata akurasi 14.48%. Metode 3 merupakan

perpaduan dari similarity dan rating anime. Hal ini

menunjukkan bahwa komponen rating memiliki peran yang

cukup besar pada hasil rekomendasi. Dari hasil percobaan

dapat dilihat pula bahwa metode 1 memiliki tingkat akurasi

yang sangat buruk, dari hasil top-5 sampai top-25 hanya ada

satu judul rekomendasi yang tepat. Hal ini menunjukkan

bahwa nilai similaritas dari VSM tidak memiliki kontribusi

yang cukup berarti.

Gambar 6. Contoh hasil percobaan hasil temu balik

Rerata akurasi hasil rekomendasi dengan VSM TF/IDF

jauh lebih rendah dibandingkan dengan rerata akurasi hasil

rekomendasi dengan LSI. Hasil ini menunjukkan bahwa

genre yang dihasilkan dari LSI berpengaruh terhadap hasil

pencarian. Hal ini dapat dilihat dari rata-rata akurasi metode

1 pada rekomendasi dengan LSI dan pada rekomendasi

dengan VSM. Pencarian rekomendasi dengan menggunakan

genre memiliki akurasi yang jauh lebih baik dibandingkan

dengan pencarian rekomendasi yang berdasarkan kemiripan

antar sinopsis saja. Dengan demikian dapat disimpulkan

pencarian dengan melibatkan genre akan lebih akurat

dibandingkan hanya berdasarkan kemiripan term antar

anime.

V. KESIMPULAN DAN PENGEMBANGAN

Beberapa butir kesimpulan penting yang didapat dari

hasil analisis, pembuatan aplikasi, dan eksperimentasi

adalah sebagai berikut:

1. Untuk membangun aplikasi mesin rekomendasi anime,

dibutuhkan data-data anime yang lengkap. Data-data

berupa judul, sinopsis, dan genre dibutuhkan untuk

menciptakan hubungan antar anime dalam pembuatan

indeks. Data tersebut dapat diambil dari situs tentang

anime, seperti www.anime-planet.com.

2. Hasil pemberian genre dengan menggunakan LSI lebih

menjanjikan karena dapat memberikan rekomendasi

genre yang cocok dengan query anime. Genre memiliki

peran yang sangat penting dalam menciptakan

hubungan (relasi domain) antar anime, hal ini dapat

dilihat dari hasil pengujian. Akurasi pencarian

rekomendasi LSI dengan menggunakan genre lebih baik

dibandingkan hasil pencarian VSM TF/IDF yang hanya

melihat hubungan term dan tidak melibatkan genre.

3. Hasil rekomendasi mesin dengan menggunakan LSI

masih belum dapat mendekati rekomendasi manusia

yang bersifat sangat subjektif. Hal ini bisa dilihat dari

hasil pengujian, rata-rata akurasi pencarian

rekomendasi tidak ada yang mencapai 50%. Meskipun

demikian, hasil penelitian menunjukkan bahwa

rekomendasi 'hanya' dengan menggunakan nilai

similaritas, metode LSI memiliki kemampuan yang

lebih baik atau setara dengan informasi yang berasal

dari komunitas.

4. Hasil eksperimen menunjukkan bahwa informasi rating

dari komunitas memiliki faktor yang lebih menentukan

dibandingkan faktor komunitas lainnya, seperti ranking

ataupun user statistics.

5. Rekomendasi dari manusia (komunitas) meskipun

berdasarkan pada pendapat subyektif, masih tetap

memiliki unsur objektivitas, sehingga ada kemungkinan

rekomendasi mesin dapat sesuai dengan rekomendasi

manusia. Hal tersebut dapat dilihat dari adanya kata-

kata yang beririsan antara sinopsis anime yang

direkomendasikan dan komentar dari pengguna.

Beberapa arah pengembangan yang dapat diusulkan

terkait dengan hasil penelitian adalah:

1. Melakukan pembelajaran untuk menilai kualitas

rekomendasi berbasis komunitas. Hal ini dapat

bermanfaat untuk mengaitkan keterkaitan antara

subyektivitas dari penggunan dan pengaruhnya

terhadap pemberian rekomendasi.

2. Membuat proses indeksasi secara lebih up-to-date,

yaitu dengan membentuk indeks melalui teknik

incremental [11], sehingga perubahan-perubahan yang

ada dalam sumber data dapat langsung ditangani.

DAFTAR PUSTAKA

[1] R. E. Brenner. Understanding manga and anime. Greenwood

Publishing Group, 2007.

[2] P. Lops, M. De Gemmis, & G. Semeraro. "Content-based

recommender systems: State of the art and trends." Recommender

systems handbook . Springer US, 2011. 73-105.

[3] S. Kangas. "Collaborative filtering and recommendation

systems." VTT information technology (2002).

[4] M.J. Pazzani & D. Billsus. "Content-based recommendation

systems." The adaptive web. Springer Berlin Heidelberg, 2007. 325-

341.

[5] S. Dumais, et al. "Latent semantic indexing." Proceedings of the

Text Retrieval Conference . 1995.

[6] T.K. Landauer. "Latent semantic analysis." Encyclopedia of

Cognitive Science (2006).

[7] S.C. D eerwester, et al. "Indexing by latent semantic

analysis." JAsIs 41.6 (1990): 391-407.

[8] C.D. Manning, P. Raghavan, & H. Schütze. Introduction to

information retrieval. Vol. 1. Cambridge: Cambridge university

press, 2008.

[9] G. Salton, A. Wong, & C-S Yang. "A vector space model for

automatic indexing." Communications of the ACM 18.11 (1975):

613-620.

[10] T. Mikolov, et al. "Efficient estimation of word representations in

vector space." arXiv preprint arXiv:1301.3781 (2013).

[11] R. Delbru, S. Campinas, & G. Tummarello. "Searching web data: An

entity retrieval and high-performance indexing model." Web

Semantics: Science, Services and Agents on the World Wide Web 10

(2012): 33-58.

ResearchGate has not been able to resolve any citations for this publication.

Efficient Estimation of Word Representations in Vector Space

Article

Full-text available

Jan 2013

We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.

Collaborative Filtering Techniques in Recommendation Systems

Chapter

Jan 2019

Recommendation system is the tool to user preferences over a given set of items. It takes help of the previous auxiliary information in terms of feedback or ratings. The main purpose of a recommender system is to engage users and enhance their experience over the Internet. Presently, recommender systems are widely used over e-commerce and social networking sites. The different applications require specialised recommendation system for them as e-commerce sites recommendation systems are different from social networking sites. So, recommendation system’s biggest challenge is the diversity as one cannot generate an accurate prediction using the same technique for different applications. This paper is an effort to illustrate one of the popular recommendation techniques, collaborative filtering based on classes, memory based and model based on two popular data sets (Movie lens and Jester). Further, it represents a comparative analysis of how results diverge from application to application and provides a way to optimise results of existing algorithm to get most out of them. The purpose is to present an exposure and open door to use more sophisticated data mining and machine learning techniques to enhance the overall efficiency of recommendation system.

Searching Web Data: An Entity Retrieval and High-Performance Indexing Model

Article

Jan 2012

An AP-based shilling attack detector for collaborative filtering recommendation systems

Article

Jan 2017

Collaborative filtering is a technique widely used in online recommendation systems nowadays. However, it is vulnerable from manipulation by malicious users who often create some fake account (or shilling) profiles to influence the results of recommender systems. To identify the fake users, existing algorithms usually utilize certain characteristics of shilling profiles, of which the drawbacks are the low precision and the requirement of a large size of training set. In this paper, we develop a clustering based method to find the shilling attackers by incorporating the information of user ratings and the attribute of user profiles. The users are firstly self-organizedly clustered into several groups based on the integrated information of the rating features and the attributes of user profile, then the malicious user group is identified through the GRDMA (Group Rating Deviation from Mean Agreement) values of user group. Instead of identifying attacker one by one, the proposed algorithm finds the malicious users at the collective level, which provids a novel way to analyse and detect shilling attack. The experimental results performed on MovieLens dataset demonstrate that the proposed algorithm is effective and robust in three typical kinds of shilling attack models, especially when the attack size and the filler size are sufficiently high.

Efficient Estimation of Word Representations in Vector Space

Conference Paper

Jan 2013

Introduction to information retrieval, chapt

Article

Jan 2008

Indexing by Latent Semantic Analysis

Article

Jan 1990

Content-Based Recommendation Systems

Chapter

Jan 2007

This chapter discusses content-based recommendation systems, i.e., systems that recommend an item to a user based upon a description of the item and a profile of the user's interests. Content-based recommendation systems may be used in a variety of domains ranging from recommending web pages, news articles, restaurants, television programs, and items for sale. Although the details of various systems differ, content-based recommendation systems share in common a means for describing the items that may be recommended, a means for creating a profile of the user that describes the types of items the user likes, and a means of comparing items to the user profile to determine what to re commend. The profile is often created and updated automatically in response to feedback on the desirability of items that have been presented to the user.

Understanding Manga and Anime

Article

Robin E Brenner

Searching Web Data: an Entity Retrieval and High-Performance Indexing Model

Article

Jan 2012
J WEB SEMANT

More and more (semi) structured information is becoming available on the Web in the form of documents embedding metadata (e.g., RDF, RDFa, Microformats and others). There are already hundreds of millions of such documents accessible and their number is growing rapidly. This calls for large scale systems providing effective means of search-ing and retrieving this semi-structured information with the ultimate goal of making it exploitable by humans and machines alike. This article examines the shift from the traditional web document model to a web data object (entity) model and studies the challenges faced in implementing a scalable and high performance system for searching semi-structured data objects over a large heterogeneous and decentralised infrastructure. Towards this goal, we define an entity re-trieval model, develop novel methodologies for supporting this model and show how to achieve a high-performance entity retrieval system. We introduce an indexing methodology for semi-structured data which offers a good com-promise between query expressiveness, query processing and index maintenance compared to other approaches. We address high-performance by optimisation of the index data structure using appropriate compression techniques. Fi-nally, we demonstrate that the resulting system can index billions of data objects and provides keyword-based as well as more advanced search interfaces for retrieving relevant data objects in sub-second time. This work has been part of the Sindice search engine project at the Digital Enterprise Research Institute (DERI), NUI Galway. The Sindice system currently maintains more than 200 million pages downloaded from the Web and is being used actively by many researchers within and outside of DERI.

Rekomendasi Anime dengan Latent Semantic Indexing Berbasis Sinopsis Genre

Abstract

Recommended publications

Towards to Vector Plain Model

Recommendation Systems Based on Textual Document Analysis

Triple Indexing: An Efficient Technique for Fast Phrase Query Evaluation

Data structures for information retrieval

Applying Multi-Armed Bandit on top of content similarity recommendation engine