KBBI versi StarDict
Thursday, May 21st, 2009 | Author:

StarDict adalah program kamus gratis yang tersedia di Linux, Windows, dan OS X. StarDict memiliki beberapa fitur menarik seperti fuzzy searching, scan selection, dsb. Telah ada ratusan hingga ribuan kamus untuk puluhan bahasa yang tersedia untuk StarDict, namun sayangnya untuk ekabahasa Indonesia ketika saya cek belum ada.

Sejak KBBI online setahun lebih lalu saya sebetulnya sudah ingin membuatkan kamus StarDict-nya. Alasannya sederhana saja: sepertiga hingga separuh waktu saya di depan komputer tetap masih offline tanpa akses Internet, jadi lebih nyaman jika ada versi offline dari situs KBBI ini. Selain itu, antarmuka situs KBBI buatan Pusat Bahasa terlalu simpel: hanya akar kata yang dijadikan lema (entri). Misalnya: kita dapat mencari “mata” tapi tidak dapat mencari “mata air”, “mata kaki”, dsb (semua digabung dalam satu entri). Lalu, ada kode Javascript yang menjengkelkan yang menyebabkan kita tidak dapat melakukan REST dengan memainkan URL. Singkat kata, KBBI jadi kurang berguna jika antarmukanya hanya situs yang disediakan Pusat Bahasa.

Beberapa minggu lalu akhirnya sempat juga mengkonversi KBBI online menjadi format StarDict. Langkah pertama, mengunduh semua halaman HTML KBBI online cukup mudah. Membersihkan kode ekses HTML dan menggabungkan semua entri menjadi 1 file juga cukup mudah, hanya dibutuhkan beberapa belas kode Perl saja. Tapi ternyata parsingnya yang cukup menantang, sehingga butuh waktu dari siang sampai sore dan beberapa ratus baris kode Perl. Skrip parsernya ada di sini buat yang penasaran. Not the best Perl code I wrote, so complain not. :-)

Penyebab sulitnya parsing terutama adalah karena titik koma (;) memiliki fungsi ganda, sebagai pemisah antar-subentri dan juga pemisah antarcontoh. Selain itu ada beberapa kesalahan/ketidakkonsistenan markup sehingga diperlukan penanganan ad hoc.

Hasilnya: stardict-kbbi-2.4.2.tar.bz2 (3,2MB)

Lisensi upstream (Pusat Bahasa): tidak ada yang resmi tertulis/tesertakan, tapi pernah ada konfirmasi via Facebook dari salah satu staf Pusat Bahasa bahwa boleh didistribusikan ulang selama ada kredit ke Pusat Bahasa. (lihat catatan di Update #1).

Lisensi untuk skrip maupun kamus versi Stardict: public domain + penyangkalan. Skrip dan kamus disediakan “apa adanya”, tidak ada jaminan apapun mengenai keakuratan dan kebenaran data.

Update #1: Sebelum membuat posting blog ini, saya sudah mencoba menghubungi dulu Pusat Bahasa untuk meminta izin redirestribusi, namun semua email saya mental atau tidak berbalas. Sementara tidak ada lisensi yang jelas tentang penggunaan naskah/data/situs KBBI. Karena itu saya memberanikan mendistribusikan saja KBBI format StarDict di sini. Jika Anda pihak berwenang di Pusat Bahasa, mohon sudi kiranya memberikan klarifikasi/konfirmasi. Update 22 Mei 12:24: Menurut pihak Pusat Bahasa, data boleh dipakai/diredistribusi asalkan sumber disebutkan. (Terima kasih untuk Ivan yang sudah mengklarifikasi kepada perwakilan Pusat Bahasa, Ibu Menur Hayati).

Update #2: Ivan Lanin juga ternyata baru-baru ini baru (dalam arti, kenapa tidak dari dulu? :-) memulai inisiatif Kateglo. Sudah saatnya ada kamus online gratis dan bebas untuk bahasa Indonesia! Moga-moga tesaurus, daftar akar & pemenggalan kata, dan algoritma-algoritma umum lainnya seperti Soundex, Gender Guessing, Stemming, dsb juga nanti segera berkembang untuk bahasa Indonesia. 200+ juta penutur tidak seharusnya semiskin ini resource dan tool bahasanya.

Update #3 (2010-02-24): Update kompilasi v0.03 (menangani penomoran arti dengan huruf dan penanganan alias dalam lema). Ada yang membuatkan paket .deb-nya: http://repo.ugm.ac.id/kuliax/pool/non-free/s/stardict-kbbi/stardict-kbbi_2.4.2-0kuliax1_all.deb (tapi masih kompilasi v0.02). Untuk Tesaurus Bahasa Indonesia dan Kamus Sunda/Indonesia/Sunda, silakan lihat di sini dan sini. Menambahkan lisensi.

Kalau ada koreksi, silakan kontak saya.