Content uploaded by Hapnes Toba
Author content
All content in this area was uploaded by Hapnes Toba on Apr 10, 2015
Content may be subject to copyright.
Rekomendasi Anime dengan Latent Semantic
Indexing Berbasis Sinopsis Genre
Rudy Aditya Abarja1, Hapnes Toba2
1Jurusan S1 Teknik Informatika
2Program Studi D3 Teknik Informatika
Fakultas Teknologi Informasi Universitas Kristen Maranatha
Jalan Suria Sumantri No. 65, Bandung, Indonesia
1rudotz@gmail.com
2hapnestoba@it.maranatha.edu
Abstract — Animes fans are sometimes hard to find suitable
animes that match their needs since information about animes is
very limited. In this research, a Latent Semantic Indexing (LSI)-
based animes recommendation system is proposed. LSI is chosen
since it has the ability to index shared words between various
documents. Since users preferences are usually based on genre’s
information, it is used for creating the connection between
existing animes synopsis. The experiment results show that the
usage of LSI based on genre information gives better accuracy
than the traditional information retrieval method, i.e. the vector
space model (VSM) with TF/IDF weighting.
Keywords — information retrieval, latent semantic indexing,
recommendation system, word co-occurences, anime
I. PENDAHULUAN
Anime adalah istilah untuk film animasi atau kartun khas
Jepang [1]. Anime tidak hanya digemari di Jepang saja,
tetapi juga di berbagai belajan dunia. Saat ini jumlah anime
yang beredar sangatlah banyak, sehingga para penikmat
anime terkadang kesukaran untuk mencari anime yang
cocok dengan selera mereka. Salah satu penyebabnya adalah
terbatasnya deskripsi dan review yang diterjemahkan darim
bahasa Jepang ke dalam bahasa lainnya.
Berdasarkan pada masalah tersebut, maka dalam
penelitian ini diusulkan sebuah sistem untuk memberi saran
kepada para penggemar anime mengenai genre dan judul
yang sekiranya cocok untuk mereka. Teknik temu balik
informasi digunakan sebagai inti dari sistem rekomendasi
yang dikembangkan [2]-[4]. Berbeda dari banyak sistem
rekomendasi anime yang didasarkan pada judul dan hasil
review dari pengguna lainnya (berbasis komunitas), sistem
yang dikembangkan mencoba untuk mengaitkan antara
informasi genre dengan kemunculan kata-kata dalam
sinopsis.
Selain itu, dalam penelitian akan diteliti juga faktor-
faktor lain yang menentukan ketepatan penemuan anime,
seperti: statistik pengguna, rating pengguna, dan urutan
hasil temu balik dengan memanfaatkan informasi yang
tersedia dalam komunitas anime. Dengan adanya sistem
rekomendasi ini diharapkan bahwa pengguna akan dapat
memperoleh rekomendasi genre beserta judul yang lebih
obyektif dibandingkan dengan hasil mesin temu balik anime
seperti dalam www.anime-planet.com yang berbasis pada
review dalam komunitas dan 'exact match' pada judul.
II. KAJIAN PUSTAKA
Dalam bagian ini akan diberikan beberapa tinjauan
pustaka terkait dengan metode yang digunakan dalam
penelitian.
A. Temu Balik Informasi dengan LSI
LSI adalah metode indexing yang berbasis Singular
Value Decomposition (SVD) dari matriks term (word)-
document [5]. SVD adalah prosedur matematis untuk
mengubah matriks term-document sedemikian rupa
sehingga pola asosiatif intrinsik utama dalam koleksi
terungkap. Pola-pola minor yang dianggap tidak penting
dapat diabaikan untuk mengidentifikasi relasi global utama,
melalui reduksi dimensi (dalam Gambar 1 ditunjukkan
dengan parameter k) [6], [7].
Gambar 1. Dekomposisi matriks term-document LSI [8]
Dalam konteks temu balik informasi, LSI membangun
relasi berdasarkan kemunculan kata-kata secara bersamaan
di dalam beberapa dokumen. Relasi pokok ini disebut latent
semanctic structure di dalam koleksi dokumen. Keuntungan
dari LSI dibandingkan metode indeksasi lainnya adalah LSI
tidak bergantung pada kata-kata secara individu untuk
menentukan kedekatan antar dokumen, tetapi menggunakan
kedekatan konsep atau topik untuk mengetahui lokasi
dokumen yang relevan.
LSI mencocokkan kata-kata kunci temu balik
berdasarkan topik atau konsep. Konsep atau topik di sini
adalah kumpulan kata yang secara kolektif mendeskripsikan
suatu entitas yang sama, misalnya genre atau subyek suatu
dokumen. Ketika pengguna memasukkan kueri, maka kueri
itu diubah ke ruang vektor LSI dan dibandingkan dengan
entitas lainnya di dalam ruang vektor yang sama. Hasil temu
balik akan dinyatakan sebagai kemiripan (similaritas)
berdasarkan kedekatan kata-kata kunci dalam kueri dengan
entitas lainnya dalam ruang vektor yang sama.
Dengan mengacu pada sifat dan keunggulan LSI di atas,
maka sistem yang dikembangkan menerapkan kata-kata
dalam sinopsis/deskripsi anime untuk setiap genre sebagai
ruang vektor dokumen. Melalui terbentuknya ruang vektor
tersebut diharapkan terdapat kaitan genre sehingga setiap
kemunculan kata akan dapat memberikan genre yang
spesifik (beserta judul-judul anime di dalamnya), sebagai
hasil rekomendasi.
B. Anime dan Mesin Temu Balik Anime
Anime-Planet
1
adalah salah satu situs terlengkap
berbahasa Inggris yang berisi informasi mengenai anime
dan manga. Anime-Planet merupakan semacam katalog di
mana pengguna dapat mengakses informasi yang ada dan
melakukan interaksi dengan informasi tersebut, seperti:
memasukkan anime ke dalam daftar tonton dan memberikan
review dan rating. Anime-Planet juga menyediakan forum
untuk melakukan diskusi. Informasi mengenai anime dan
manga dalam selalu di-update untuk memberikan informasi
yang relevan.
Gambar 2. Antar muka temu balik Anime- Planet
Kekurangan utama dalam Anime-Planet adalah fitur temu
balik yang hanya memberikan hasil terhadap penelusuran
yang terbatas pada judul (Gambar 2). Kelemahan lainnya
adalah pada saat pemberian rekomendasi, hasilnya diambil
melalui informasi yang diberikan oleh komunitas dan tag
topik, tanpa proses analisis tekstual. Di sisi lain, Anime-
Planet memiliki kekayaan informasi statistik berdasarkan
1
http://www.anime-planet.com/
masukan dari komunitas penggunanya, seperti: jumlah akses,
rating, dsb (Gambar 3).
Gambar 3. Antar muka rekomendasi dan statistik dari komunitas dalam
Anime-Planet
Dengan memperhatikan keterbatasan dan kelebihan di
atas, diharapkan sistem rekomendasi yang dikembangkan
akan dapat berperan secara otomatis melalui analisis
tekstual. Hasil analisis tekstual diharapkan memiliki
kemampuan yang mirip dengan informasi dari komunitas,
sehingga hasil temu balik maupun rekomendasi akan dapat
dilakukan tanpa harus melibatkan pengguna, dengan catatan
sebuah anime memiliki informasi tekstual, seperti: sinopsis.
III. PENGEMBANGAN SISTEM
Dalam bagian ini disampaikan langkah-langkah
pengembangan sistem dan eksperimentasi dalam penelitian.
A. Pengolahan Data
Sumber data anime yang dipakai semua berasal dari situs
www.anime-planet.com. Pengambilan data dilakukan oleh
aplikasi web crawler yang dibuat oleh pihak ketiga, yaitu.
HTTrack (versi 3.48-3). Pengambilan data dari situs
www.anime-planet.com dilakukan sebanyak dua kali. Proses
pertama dilakukan pada tanggal 1 April 2014 sampai
dengan 7 April 2014, dan kedua dilakukan pada tanggal 1
Mei 2014 sampai dengan 5 Mei 2014.
Jumlah file html setelah pengumpuan data berjumlah
18492 halaman (= jumlah anime), dengan ukuran totalnya
1,82 GB. Pengambilan data kedua bertujuan untuk
mengambil data anime yang tayang pada periode musim
dingin 2014 di Jepang. Anime-anime musim dingin ini
selesai tayang pada pertengahan sampai akhir mulai April.
Dengan demikian anime-anime ini sudah memiliki
rekomendasi dari pengguna web site dan memiliki data yang
akurat.
B. Penyaringan Data
Setelah data berhasil didapatkan, file-file html tersebut
melalui proses parsing. File html yang diambil adalah
halaman yang berisi data anime, halaman yang berisi
rekomendasi anime tersebut, dan halaman yang berisi semua
genre anime yang ada di situs tersebut. Setiap anime
memiliki sebuah halaman web tersendiri yang berisi semua
info mengenai anime tersebut. Untuk proses penyaringan
data dilakukan oleh aplikasi yang dibuat library jsoup.
Semua data anime yang berhasil diambil diubah menjadi
bentuk class anime dan disimpan dalam bentuk object file
untuk Java. Halaman-halaman yang berisi rekomendasi dan
genre juga diubah menjadi bentuk class dan disimpan dalam
bentuk object file untuk Java.
Setelah semua file html yang dibutuhkan berhasil diambil
dan dibuat menjadi object file, proses penyaringan data
dimulai [11]. Anime yang tayang dari tahun 1960-an sampai
sebelum musim dingin 2014 di Jepang digunakan sebagai
data sampel. Sedangkan anime yang mulai tayang pada
musim dingin 2014 digunakan sebagai data tester. Terdapat
dua jenis genre yang ada pada situs ini, yaitu general genre
dan specific genre. Genre yang digunakan adalah general
genre karena tidak semua anime memiliki specific genre
dan hampir semua anime memiliki general genre. Anime
tester harus memiliki sinopsis dan minimal sebuah general
genre. Jika tidak, maka anime tersebut tidak dijadikan tester.
Setelah proses penyaringan, maka didapat 2511 anime yang
bisa dijadikan sampel dan 32 anime yang bisa dijadikan
tester.
Data rekomendasi yang diambil adalah rekomendasi
untuk anime tester saja, data ini dipakai untuk pembanding
hasil pencarian pada proses penelitian. Rekomendasi untuk
sebuah anime terdiri dari judul anime tersebut dan beberapa
anime yang direkomendasikan oleh pengguna situs Anime-
Planet. Setiap anime yang direkomendasikan memiliki
beberapa komentar yang diberikan oleh beberapa pengguna
situs Anime-Planet. Rekomendasi untuk setiap anime
dibatasi hanya lima judul teratas saja. Karena anime tester
merupakan anime yang baru selesai tayang sehingga belum
memiliki banyak rekomendasi. Anime yang tidak memiliki
rekomendasi tidak bisa dijadikan sebagai data tester. Setelah
proses penyaringan terdapat 29 anime yang dapat digunakan
untuk perbandingan rekomendasi.
Koleksi term diambil dari kata-kata yang ada di dalam
sinopsis semua anime sampel. Kata-kata yang telah
diperoleh mengalami tahap pre-processing, yang terdiri dari
stemming dan stopping. Setelah melalui tahap pre-
processing kata-kata tersebut disimpan dalam bentuk object
file. Setelah proses parsing, data judul anime tester, term,
dan genre dimasukkan ke dalam basis data. Hal ini
bertujuan untuk memudahkan proses indeksasi. Term yang
didapatkan setelah tahap pre-processing adalah sebanyak
12717 kata, yang kemudian diindeksasi dengan metode
LSI
2
.
C. Metode Scoring
Ada delapan metode scoring yang digunakan dalam
aplikasi ini untuk menentukan skor setiap anime yang
menjadi rekomendasi. Skor dihitung dengan melakukan
kombinasi antara teknik temu balik informasi dan
rekomendasi dari komunitas anime.
Berikut ini adalah komponen-komponen penghitungan
skor yang digunakan dalam eksperimen:
1. Similarity
2
Indeksasi LSI dengan menggunakan implementasi dalam
pustaka LingPipe (alias-i.com/lingpipe/)
a. Untuk LSI, similarity didapat dari skor berdasarkan
skor cosine similarity genre hasil LSI dikali dengan
10000.
b. Untuk VSM, similarity didapat dari skor
berdasarkan skor cosine similarity genre hasil VSM
TF/IDF dikali dengan 10000.
Skor similarity dikalikan dengan faktor 10000 agar
memberi nilai yang berimbang dengan komponen skor
lainnya. Skor similaritas bernilai antara 0 dan 1, sedangkan
skor dari komunitas bernilai antara 0 sampai tak berhingga.
Similarity = cosine similarity * 10000
2. Ranking
Skor ranking merupakan skor yang diambil dari ranking
yang diberikan www.anime-planet.com kepada sebuah
anime. Skor ranking diberikan dengan perhitungan 5557
dikurangi dengan ranking dari anime. Jika anime tidak
memiliki ranking maka skor ranking dianggap 0. Nilai 5557
adalah ranking terbawah dari anime yang ada di
www.anime-planet.com.
3. Rating
Skor rating diperoleh dari rating yang diberikan
pengguna www.anime-planet.com kepada suatu anime. Skor
rating didapat dari rating anime dibagi 5 lalu dikalikan
10000. Rating dikalikan 10000 agar memberi nilai yang
berimbang dengan komponen skor lainnya karena rating
bernilai 1 – 5.
Rating = (rating / 5) * 10000
4. User Statistics
Skor user statistics diperoleh dari statistik pengguna
terhadap suatu anime. User statistics terdiri dari:
a. Watched = jumlah yang sudah menonton
sampai tamat.
b. Watching = jumlah yang sedang menonton.
c. Want to watch = jumlah yang menonton.
d. Dropped = jumlah yang berhenti menonton
dan tidak berniat menonton sampai tamat.
e. Stalled = jumlah yang menunda menonton
sampai tamat.
f. Won’t watch = jumlah yang sama sekali tidak
berniat menonton.
User statistics = (watched – dropped) +
(watching – stalled) + (want watch –
won’t watch)
Berikut adalah rancangan metode scoring yang dipakai
dalam pemberian rekomendasi:
1. Metode 1 = similarity
2. Metode 2 = similarity + ranking
3. Metode 3 = similarity + rating
4. Metode 4 = similarity + user statistics
5. Metode 5 = similarity + ranking + rating
6. Metode 6 = similarity + ranking + user statistics
7. Metode 7 = similarity + rating + user statistics
8. Metode 8 = similarity + ranking + rating + user
statistics
Kedelapan metode penghitungan skor di atas dilakukan
untuk melihat pengaruh dari teknik temu balik atau
kontribusi komunitas yang memiliki peran lebih tinggi
dalam penelusuran judul anime.
IV. EKSPERIMENTASI DAN HASIL
Dalam bagian ini diberikan rancangan eksperimentasi dan
hasil terkait usulan metode skor yang dipakai serta evaluasi
dan perbandingan dengan metode umum dalam temu balik
informasi.
A. Rancangan Eksperimen
Pengujian dilakukan untuk semua data anime tester.
Untuk ekperimen hasil pemberian genre, data pembanding
diambil dari halaman anime tester dari situs Anime-Planet.
Setiap hasil pemberian genre untuk anime tester melalui
aplikasi dibandingkan dengan genre yang diberikan oleh
situs Anime-Planet. Pemberian genre hanya dilakukan
dengan metode LSI saja, tetapi konfigurasi untuk k (jumlah
dimensi pada LSI), diujicoba dengan angka sebagai berikut:
2, 5, 10, 15, 20, dan 22 (yaitu: mulai dari 2, naik dengan
kelipatan 5 sampai maksimum sejumlah genre). Jika hasil
pemberian genre sama dengan salah satu dari genre yang
berasal dari situs Anime-Planet, maka hasil rekomendasi
untuk anime tersebut dianggap benar.
Untuk eksperimen hasil temu balik judul anime, data
pembanding diambil dari rekomendasi untuk setiap anime
tester yang didapatkan dari situs Anime-Planet. Setiap
anime tester hasil temu balik melalui aplikasi dibandingkan
dengan hasil rekomendasi pengguna/komunitas situs Anime-
Planet.
Pencarian rekomendasi melalui aplikasi dicoba dengan
melakukan metode scoring dari metode 1 sampai 8 pada
urutan judul top-5, top-10, top-15, top-20 dan top-25. Jika
hasil rekomendasi sama dengan salah satu dari rekomendasi
yang berasal dari situs Anime-Planet, maka hasil
rekomendasi judul untuk anime tersebut dianggap benar.
Untuk menevaluasi keberhasilan digunakan pengukuran
tingkat akurasi (dalam persentase). Sebagai pembanding
digunakan temu balik dengan menggunakan similaritas VSM
melalui pembobotan TF/IDF [8]-[10].
B. Hasil Eksperimen
Dalam bagian ini disampaikan hasil eksperimen untuk
melihat pengaruh jumlah dimensi (k) dan hasil temu balik
untuk judul anime yang rekomendasi.
1) Pengaruh Jumlah Dimensi
Gambar 4 memperlihatkan nilai sensitivitas nilai dimensi
LSI terhadap akurasi temu balik genre. Tujuan dari
eksperimen ini adalah untuk melihat pengaruh nilai dimensi
kata (reduksi term) yang dianggap akan mewakili kebutuhan
saat temu balik.
Terlihat dalam Gambar 4 bahwa secara konsisten
kenaikan jumlah temu balik genre (top-n) berbanding lurus
dengan kenaikan jumlah dimensi. Hal ini menunjukkan
bahwa dalam LSI semakin besar jumlah dimensi akan
semakin besar pula similaritas yang akan didapatkan
terhadap hasil temu balik. Hasil eksperimen ini
menunjukkan bahwa dengan jumlah k=22 dan menghasilkan
rata-rata akurasi 83.33%, metode LSI berhasil melakukan
reduksi jumlah term yang sangat signifikan dibandingkan
keadaan awal, yaitu 12717 kata. Hal lain yang dapat dilihat
melalui Gambar 4 adalah kecenderungan ketepatan hasil
temu balik yaitu pada urutan tiga besar (top-3), yang tidak
berbeda jauh dengan top-5. Fakta ini dapat dimanfaatkan
untuk membatasi jumlah evaluasi temu balik untuk
rekomendasi judul, yaitu dengan membatasi judul-judul
pada top-3 dari hasil temu balik genre.
Gambar 4. Sensivitas jumlah dimensi terhadap akurasi
2) Hasil Temu Balik Rekomendasi Judul
Untuk temu balik rekomendasi judul, delapan skenario
scoring sebagaimana dituliskan pada bagian terdahulu
diujicobakan. Similaritas dokumen dihitung berdasarkan
kesamaan kosinus (cosine similarity) antara vektor kata
sinopsis pada sebuah anime dengan vektor kata sinopsi
semua anime dalam ketiga genre hasil dari eksperimen butir
1 di atas.
Gambar 5 memperlihatkan akurasi judul anime yang
direkomendasikan dengan menggunakakan metode scoring
1-8 (lihat subbab III.C), pada urutan 5, 10, 15, 20 dan 25.
Diberikan juga nilai rerata akurasi dari keseluruhan urutan.
Tujuan dari nilai rerata ini adalah untuk menunjukkan
perbandingan secara keseluruhan hasil temu balik LSI
terhadap metode pembanding VSM.
Dalam eksperimen, akurasi rekomendasi dengan
menggunakan metode 1-8, tidak ada yang melebihi nilai
50%, baik itu pada konfigurasi pemberian genre top-3
ataupun top-5. Rerata akurasi keseluruhan adalah 20.09%.
Rata-rata akurasi tertinggi adalah 21.38%, rata-rata akurasi
terendah adalah 19.31%, nilai akurasi tertinggi yang muncul
adalah 31.03%, dan nilai akurasi terendah yang muncul
adalah 6.90%.
Metode yang memiliki akurasi terbaik adalah metode 1
dengan rata-rata akurasi 21.38%. Dari hasil metode 1 yang
paling baik dapat disimpulkan bahwa komponen genre
similarity yang berasal dari LSI memiliki pengaruh yang
besar dalam hasil pencarian. Hal ini dapat dilihat dari
akurasi metode lainnya yang bersesuaian dengan metode 1.
Analisis lebih dalam menunjukkan bahwa selain komponen
similarity, nilai rating dan ranking memiliki peran yang
cukup besar pada hasil rekomendasi.
Berdasarkan pengamatan penulis, salah satu penyebab
rendahnya nilai akurasi adalah sifat dari data rekomendasi
anime yang sangat subjektif (berbasis penilaian komunitas).
Selera dan pemikiran tiap orang bisa saja berbeda, dan oleh
karena itu tingkat akurasi terhadap judul menjadi rendah.
Selain itu anime yang diambil sebagai tester dapat dibilang
masih baru, sehingga belum banyak orang yang mengetahui
atau menonton dan memberikan rekomendasi.
Gambar 5. Perbandingan akurasi temu balik LSI dan VSM TF/IDF dengan
kombinasi skor (1-8) pada subbab III.C.
Walaupun rekomendasi mesin bisa dibilang sangat
objektif dan rekomendasi manusia sangat subjektif, hasil uji
coba menunjukkan adanya keterkaitan antara komentar
pengguna dan sinopsis anime yang dikomentari. Hal ini
misalnya dapat dilihat dari hasil percobaan saat pencarian
menggunakan top-5 dilakukan, pada Gambar 5. Terdapat
dua judul anime hasil rekomendasi aplikasi yang cocok
dengan rekomendasi pengguna, dengan adanya beberapa
kata di dalam deskripsi genre yang saling beririsan.
Dari kumpulan dari sinopsis anime tersebut dan
kumpulan term dari komentar pengguna, terdapat delapan
buah term yang beririsan.Hal ini menunjukkan bahwa
komentar manusia yang subjektif ternyata masih memiliki
unsur objektivitas yang dapat ditelusuri dengan mesin temu
balik.
Berdasarkan hasil eksperimen, akurasi untuk pencarian
dengan mengunakan VSM TF/IDF bisa dibilang buruk.
Rerata akurasi keseluruhan adalah 12.33%. Rata-rata
akurasi tertinggi adalah 14.48%, rata-rata akurasi terendah
adalah 3.45%, nilai akurasi tertinggi yang muncul adalah
27.59%, dan nilai akurasi terendah yang muncul adalah
3.45%.
Metode yang memiliki akurasi terbaik adalah metode 3
dengan rata-rata akurasi 14.48%. Metode 3 merupakan
perpaduan dari similarity dan rating anime. Hal ini
menunjukkan bahwa komponen rating memiliki peran yang
cukup besar pada hasil rekomendasi. Dari hasil percobaan
dapat dilihat pula bahwa metode 1 memiliki tingkat akurasi
yang sangat buruk, dari hasil top-5 sampai top-25 hanya ada
satu judul rekomendasi yang tepat. Hal ini menunjukkan
bahwa nilai similaritas dari VSM tidak memiliki kontribusi
yang cukup berarti.
Gambar 6. Contoh hasil percobaan hasil temu balik
Rerata akurasi hasil rekomendasi dengan VSM TF/IDF
jauh lebih rendah dibandingkan dengan rerata akurasi hasil
rekomendasi dengan LSI. Hasil ini menunjukkan bahwa
genre yang dihasilkan dari LSI berpengaruh terhadap hasil
pencarian. Hal ini dapat dilihat dari rata-rata akurasi metode
1 pada rekomendasi dengan LSI dan pada rekomendasi
dengan VSM. Pencarian rekomendasi dengan menggunakan
genre memiliki akurasi yang jauh lebih baik dibandingkan
dengan pencarian rekomendasi yang berdasarkan kemiripan
antar sinopsis saja. Dengan demikian dapat disimpulkan
pencarian dengan melibatkan genre akan lebih akurat
dibandingkan hanya berdasarkan kemiripan term antar
anime.
V. KESIMPULAN DAN PENGEMBANGAN
Beberapa butir kesimpulan penting yang didapat dari
hasil analisis, pembuatan aplikasi, dan eksperimentasi
adalah sebagai berikut:
1. Untuk membangun aplikasi mesin rekomendasi anime,
dibutuhkan data-data anime yang lengkap. Data-data
berupa judul, sinopsis, dan genre dibutuhkan untuk
menciptakan hubungan antar anime dalam pembuatan
indeks. Data tersebut dapat diambil dari situs tentang
anime, seperti www.anime-planet.com.
2. Hasil pemberian genre dengan menggunakan LSI lebih
menjanjikan karena dapat memberikan rekomendasi
genre yang cocok dengan query anime. Genre memiliki
peran yang sangat penting dalam menciptakan
hubungan (relasi domain) antar anime, hal ini dapat
dilihat dari hasil pengujian. Akurasi pencarian
rekomendasi LSI dengan menggunakan genre lebih baik
dibandingkan hasil pencarian VSM TF/IDF yang hanya
melihat hubungan term dan tidak melibatkan genre.
3. Hasil rekomendasi mesin dengan menggunakan LSI
masih belum dapat mendekati rekomendasi manusia
yang bersifat sangat subjektif. Hal ini bisa dilihat dari
hasil pengujian, rata-rata akurasi pencarian
rekomendasi tidak ada yang mencapai 50%. Meskipun
demikian, hasil penelitian menunjukkan bahwa
rekomendasi 'hanya' dengan menggunakan nilai
similaritas, metode LSI memiliki kemampuan yang
lebih baik atau setara dengan informasi yang berasal
dari komunitas.
4. Hasil eksperimen menunjukkan bahwa informasi rating
dari komunitas memiliki faktor yang lebih menentukan
dibandingkan faktor komunitas lainnya, seperti ranking
ataupun user statistics.
5. Rekomendasi dari manusia (komunitas) meskipun
berdasarkan pada pendapat subyektif, masih tetap
memiliki unsur objektivitas, sehingga ada kemungkinan
rekomendasi mesin dapat sesuai dengan rekomendasi
manusia. Hal tersebut dapat dilihat dari adanya kata-
kata yang beririsan antara sinopsis anime yang
direkomendasikan dan komentar dari pengguna.
Beberapa arah pengembangan yang dapat diusulkan
terkait dengan hasil penelitian adalah:
1. Melakukan pembelajaran untuk menilai kualitas
rekomendasi berbasis komunitas. Hal ini dapat
bermanfaat untuk mengaitkan keterkaitan antara
subyektivitas dari penggunan dan pengaruhnya
terhadap pemberian rekomendasi.
2. Membuat proses indeksasi secara lebih up-to-date,
yaitu dengan membentuk indeks melalui teknik
incremental [11], sehingga perubahan-perubahan yang
ada dalam sumber data dapat langsung ditangani.
DAFTAR PUSTAKA
[1] R. E. Brenner. Understanding manga and anime. Greenwood
Publishing Group, 2007.
[2] P. Lops, M. De Gemmis, & G. Semeraro. "Content-based
recommender systems: State of the art and trends." Recommender
systems handbook . Springer US, 2011. 73-105.
[3] S. Kangas. "Collaborative filtering and recommendation
systems." VTT information technology (2002).
[4] M.J. Pazzani & D. Billsus. "Content-based recommendation
systems." The adaptive web. Springer Berlin Heidelberg, 2007. 325-
341.
[5] S. Dumais, et al. "Latent semantic indexing." Proceedings of the
Text Retrieval Conference . 1995.
[6] T.K. Landauer. "Latent semantic analysis." Encyclopedia of
Cognitive Science (2006).
[7] S.C. D eerwester, et al. "Indexing by latent semantic
analysis." JAsIs 41.6 (1990): 391-407.
[8] C.D. Manning, P. Raghavan, & H. Schütze. Introduction to
information retrieval. Vol. 1. Cambridge: Cambridge university
press, 2008.
[9] G. Salton, A. Wong, & C-S Yang. "A vector space model for
automatic indexing." Communications of the ACM 18.11 (1975):
613-620.
[10] T. Mikolov, et al. "Efficient estimation of word representations in
vector space." arXiv preprint arXiv:1301.3781 (2013).
[11] R. Delbru, S. Campinas, & G. Tummarello. "Searching web data: An
entity retrieval and high-performance indexing model." Web
Semantics: Science, Services and Agents on the World Wide Web 10
(2012): 33-58.