StarDict adalah program kamus gratis yang tersedia di Linux, Windows, dan OS X. StarDict memiliki beberapa fitur menarik seperti fuzzy searching, scan selection, dsb. Telah ada ratusan hingga ribuan kamus untuk puluhan bahasa yang tersedia untuk StarDict, namun sayangnya untuk ekabahasa Indonesia ketika saya cek belum ada.
Sejak KBBI online setahun lebih lalu saya sebetulnya sudah ingin membuatkan kamus StarDict-nya. Alasannya sederhana saja: sepertiga hingga separuh waktu saya di depan komputer tetap masih offline tanpa akses Internet, jadi lebih nyaman jika ada versi offline dari situs KBBI ini. Selain itu, antarmuka situs KBBI buatan Pusat Bahasa terlalu simpel: hanya akar kata yang dijadikan lema (entri). Misalnya: kita dapat mencari “mata” tapi tidak dapat mencari “mata air”, “mata kaki”, dsb (semua digabung dalam satu entri). Lalu, ada kode Javascript yang menjengkelkan yang menyebabkan kita tidak dapat melakukan REST dengan memainkan URL. Singkat kata, KBBI jadi kurang berguna jika antarmukanya hanya situs yang disediakan Pusat Bahasa.
Beberapa minggu lalu akhirnya sempat juga mengkonversi KBBI online menjadi format StarDict. Langkah pertama, mengunduh semua halaman HTML KBBI online cukup mudah. Membersihkan kode ekses HTML dan menggabungkan semua entri menjadi 1 file juga cukup mudah, hanya dibutuhkan beberapa belas kode Perl saja. Tapi ternyata parsingnya yang cukup menantang, sehingga butuh waktu dari siang sampai sore dan beberapa ratus baris kode Perl. Skrip parsernya ada di sini buat yang penasaran. Not the best Perl code I wrote, so complain not.
Penyebab sulitnya parsing terutama adalah karena titik koma (;) memiliki fungsi ganda, sebagai pemisah antar-subentri dan juga pemisah antarcontoh. Selain itu ada beberapa kesalahan/ketidakkonsistenan markup sehingga diperlukan penanganan ad hoc.
Hasilnya: stardict-kbbi-2.4.2.tar.bz2 (3,2MB)
Lisensi upstream (Pusat Bahasa): tidak ada yang resmi tertulis/tesertakan, tapi pernah ada konfirmasi via Facebook dari salah satu staf Pusat Bahasa bahwa boleh didistribusikan ulang selama ada kredit ke Pusat Bahasa. (lihat catatan di Update #1).
Lisensi untuk skrip maupun kamus versi Stardict: public domain + penyangkalan. Skrip dan kamus disediakan “apa adanya”, tidak ada jaminan apapun mengenai keakuratan dan kebenaran data.
Update #1: Sebelum membuat posting blog ini, saya sudah mencoba menghubungi dulu Pusat Bahasa untuk meminta izin redirestribusi, namun semua email saya mental atau tidak berbalas. Sementara tidak ada lisensi yang jelas tentang penggunaan naskah/data/situs KBBI. Karena itu saya memberanikan mendistribusikan saja KBBI format StarDict di sini. Jika Anda pihak berwenang di Pusat Bahasa, mohon sudi kiranya memberikan klarifikasi/konfirmasi. Update 22 Mei 12:24: Menurut pihak Pusat Bahasa, data boleh dipakai/diredistribusi asalkan sumber disebutkan. (Terima kasih untuk Ivan yang sudah mengklarifikasi kepada perwakilan Pusat Bahasa, Ibu Menur Hayati).
Update #2: Ivan Lanin juga ternyata baru-baru ini baru (dalam arti, kenapa tidak dari dulu?
memulai inisiatif Kateglo. Sudah saatnya ada kamus online gratis dan bebas untuk bahasa Indonesia! Moga-moga tesaurus, daftar akar & pemenggalan kata, dan algoritma-algoritma umum lainnya seperti Soundex, Gender Guessing, Stemming, dsb juga nanti segera berkembang untuk bahasa Indonesia. 200+ juta penutur tidak seharusnya semiskin ini resource dan tool bahasanya.
Update #3 (2010-02-24): Update kompilasi v0.03 (menangani penomoran arti dengan huruf dan penanganan alias dalam lema). Ada yang membuatkan paket .deb-nya: http://repo.ugm.ac.id/kuliax/pool/non-free/s/stardict-kbbi/stardict-kbbi_2.4.2-0kuliax1_all.deb (tapi masih kompilasi v0.02). Untuk Tesaurus Bahasa Indonesia dan Kamus Sunda/Indonesia/Sunda, silakan lihat di sini dan sini. Menambahkan lisensi.
Kalau ada koreksi, silakan kontak saya.


Kok saya ga bisa download filenya yah? Apa dari LN tidak bisa akses? Bisa minta dikirim ke email saya?
Terima kasih om Steven. Saya juga pernah melakukan hal yang serupa, yaitu mencoba menghubungi pihak KBBI Online, namun email saya tak pernah dibalas. Padahal waktu itu niat saya sama dengan yang om Steven buat sekarang ini, yaitu mau minta source data untuk dibuat versi stardict, kemudian kejelasan untuk distribusi setelah itu. Sayang memang, padahal banyak sekali orang yang mau memberi kontribusi untuk pengembangannya. Sekali lagi, terima kasih untuk usaha om Steven.
Nanya dikit
“Langkah pertama, mengunduh semua halaman HTML KBBI online cukup mudah.”
Bagaimanakah caranya? Saya tak menemukan daftar kata untuk diunduh.
Terima kasih pak. Sangat berguna buat kami para editor.
@nanda: Pesan kesalahannya apa ya? File tersebut saya host di server luar negeri kok, dan saya cek lagi barusan bisa dibuka. Anyway, sudah saya kirim ke email Anda. Akan saya submit juga ke StarDict.
Sudah bisa sekarang… mungkin tadi lagi down.
@SutanKato: search pakai kata kunci “a”, “b”, “c”, dst. Ini akan menampilkan semua kata yang diawali huruf tersebut (atau mungkin semua kata yang mengandung huruf tersebut, saya lupa). Lalu ada juga entri yang tidak diawali huruf. Ini jumlahnya sedikit, jadi bisa dicatat manual. Setelah itu semua entri yang diperoleh tinggal digabung, lalu halaman entrinya diambil satu-satu.
Iya, kenapa gak dari dulu
Steve, parser lo gw sontek dikit-dikit untuk bahan Kateglo ya. Lisensi code GPL kan?
@Ivan: sonteklah
lisensinya apa ya, public domain + disclaimer aja deh, alias terserah mau diapain juga boleh.
Btw, buat yang ingin data mentahnya (hasil download dari situs KBBI), kbbi3-mentah.tar.gz (5,7MB).
wow…seru…seru..
ehm mas steven klo mo minta KBBI yang 2005 bisa nggak..
untuk keperluan tugas akhir..menurut mas penggunaan algoritme fonetik (ex= soundex, phonix, metaphone) bisa untuk pencocokan string bahasa indonesia..soalnya TA saya membandingkan kinerja algoritm2 tersebut untuk bahasa indonesia…mohon pencerahan ^^..
bales di email saya saja..
@fahmi: Memang sudah yang edisi III (2005) nampaknya. Kalau nanti situs PB diperbarui, akan saya buat ulang kamus StarDict-nya.
Mengenai algoritma seperti soundex, banyak yang dibuat untuk bahasa Inggris saja, jadi perlu disesuaikan jika ingin efektif untuk bahasa kita.
trims mas steven, it really helps me
saya mau pakai kamus KBBInya ya, saya sedang melakukan penelitian tesis di bidang peringkasan teks dengan menggunakan knowledge graph
mas itu cara install dan extraxt file tar gz gimana?? saia bingung sebagai pemula linux??
@joko: file kamus tersebut bisa dipakai di semua StarDict kok, gak hanya yang Linux. Yang Windows (dan OS X juga seharusnya) bisa.
Cara pakainya sama seperti menginstal kamus lain.
Pertama download dan installah StarDict (di distro2x Linux banyak yang sudah menyertakan di repositorinya, jadi tinggal “apt-get install” atau “yum install” misalnya).
Setelah itu ekstrak stardict-kbbi-2.4.2.tar.bz2 ke direktori kamus (dic/). Restart StarDict dan “Kamus Besar Bahasa Indonesia” akan muncul dalam daftar kamus.
Btw, cara ekstrak tar.bz2 di Linux: tar xfj NAMAFILE.tar.bz2. Kalo di Windows kayaknya bisa pake WinRAR (atau program pengekstrak arsip lain, apa ya yg sekarang popular di Windows?)
Semoga jelas.
sudah saya unduh dan coba, berhasil/jalan dengan lancar.
makasih Om
mas cara install di windown gmana..kok gak ada .exe nya disana cuma ada 3 file
@Sandi: instal StarDict dulu.
Buat yang memerlukan, ini format Babylon hasil parsing skrip, sangat sederhana formatnya dan bisa Anda parsing untuk masukkan ke database, spreadsheet, dll: kbbi.babylon.bz2 (2,1MB).
Thank mas steven atas infony….saya akan coba dulu..semoga dibalas sama yang di atas…
Thanks file-nya pak Steven, saya coba dulu
thanks Pak Steven, ini keren
Sejak muncul KBBI daring ini saya coba mengumpulkan kata per kata. Maklum sering punya keinginan, tetapi takpunya kemampuan. Hasilnya satu per satu pula saya masukkan ke dalam spreadsheet. Setelah koneksi lemot, jadi tersendat. Nah, dengan adanya berkas KBBI dari Om Steven ini, saya tidak perlu melanjutkan lagi.
Terima kasih banyak. Semakin menambah daftar kata yang akan masuk ke dalam OpenOffice Dictionary.. hehehe.
Pak Steven, kapan diupdate dengan KBBI versi IV ? Kan yang online udah versi IV. Thanks
@Holistik: Ada referensi bahwa sudah edisi IV? Karena di halaman depannya masih: “Pangkalan data KBBI daring ini diambil dari KBBI edisi III. Pemutakhiran dan penyempurnaan isi KBBI sedang dilakukan dan akan diterbitkan dalam edisi IV tahun ini. Tampilan antarmuka KBBI daring sengaja didesain dalam bentuk sederhana agar pengguna tidak menemukan kesulitan dalam penggunaan kamus ini. … Jakarta, 4 Februari 2008″
Padahal sekarang sudah 2009? :p
Wah..keren..makasih banget, pastinya bermanfaat bagi kita semua…maju terus Indonesia…
terimakasih ya….
ini yg gua cari2….
makasih mas. soalnya saya juga pengguna stardict
terimakasih banget mas…
database yg mas bikin beguna banget..
mas steven,
terima kasih atas distribusi stardict KBBI versi offline.
Saat ini saya sedang mencari stardict Tesaurus Indonesia namun belum ketemu.
Dilihat dari kosakata, Tesaurus lebih banyak dari KBBI Daring.
namun dari arti katanya, KBBI Daring lebih baik dari Tesaurus.
Adapun link Tesaurus Indonesia yang pernah saya dapatkan.
1. http://www32.indowebster.com/b2cc273c6905bba922935ea41d4469a6.rar
2. http://www.indowebster.com/tesaurus_bhs_indonesia.html
contohnya:
versi KBBI
adibintang
(1) bintang lapangan; pemain andalan yg berbakat;
(2) bintang panggung yg sangat berbakat
versi Tesaurus Indonesia
adibintang
bintang lapangan, mahabintang, megabintang, superstar, diva,
primadona, sripanggung
dan masih banyak lagi.
kira-kira kapan mas steven membuat distribusi Stardict Tesaurus Indonesia.
Sebelumnya saya ucapkan terima kasih.
@rudhiwij: sudah saya unduh tesaurusnya. akan saya coba konversi nanti kalau sempat. trims.
thx berat ya pak.. udah lama cari kamus KBBI ga pernah ketemu. eh akhirnya…
sekali thx ya pak steven
gemana sih om cara downloadnya? trima kasih
#karso :download dlu software “stardict” di http://stardict.sourceforge.net/ lalu install..
download stardict-kbbi-2.4.2.tar.bz2, linkx di atas, kmudian extract di “C:\Program Files\StarDict\dic” dengan menggunakan software Winrar yang telah d install seblumnya…
#steven: sya bantu ngejelsin Y!! d comment klo salah
ya sebatas ingin balas budi anda saja, semoga sya tidak sok tau (^_~)
Mas, terima kasih banyak. Ijin unduh dan buat tulisan di blog, ya? silakan berkunjung ke http://maswits.blogspot.com
FYI,
paket Debian yang dapat langsung dipasang bisa diunduh di sini
@kuliax: rasanya di semua Debian (dan Ubuntu, dan semua turunan Debian lain) Stardict sudah ada kok: http://packages.debian.org/search?keywords=stardict
Saat ini saya pakai Mandriva, Stardict juga sudah tersedia.
itu paket Debian untuk (kamus) stardict-kbbi dari situs ini, bukan paket stardict-nya
kayaknya jawaban kecampur2 sama pertanyaan unduh-mengunduh ya
@kuliax: maaf, kurang teliti melihat nama filenya. terima kasih ya sudah membuatkan paket debiannya. btw ini di-submit ke debian gak? biar semua keluarga debian bisa memanfaatkan
dan sekarang ada juga tesaurus dan kamus indo/sunda, sunda/indo juga lho
http://steven.blogs.masterweb.net/2010/02/24/tesaurus-bahasa-indonesia-versi-stardict/
http://steven.blogs.masterweb.net/2010/02/24/kamus-sunda-indonesia-indonesia-sunda-versi-stardict/
Sudah ada kamus dengan stemming Indonesia di http://kamus.sabda.org
@benny: maksudnya mungkin hyphenation kali ya (pemenggalan antarsuku kata), karena setahu saya stemming itu artinya pencarian kata dasar (mis: memenggal -> penggal). di KBBI juga ada hyphenation. btw, kamus2x sabda ini apakah ada versi downloadnya?
mungkin belum diimplementasikan, maklum ini situs juga baru-baru lama. Tapi stemmernya setahu saya sedang dipersiapkan (di-”convert”) dari Java ke PHP. Mungkin itu yang menyebabkannya tertunda.
Stemmer yang jalan ada dan terintegrasi di alkitab.sabda.org, hanya saja kata-katanya terbatas yang bisa ditemukan di teks suci.
Versi downloadnya saya di internet juga tidak ada. nanti kalau saya dapet akan saya bagikan…
pinginnya sih di-submit ke Debian, hanya saja masih belum sempat, dan juga sepertinya akan terbentur masalah lisensi. sementara masih dipake di distro turunannya, Kuliax, itupun masuk kategori non-free
btw, taunya basis data kamus dimutakhirkan gimana ya om? baru lihat ada versi kompilasi 0.02 di update posting ini. apa ada fasilitas tracking-nya atau perlu cek terus ke *steven/files/?
info saja, daripada instal manual paketnya, lebih baik menggunakan baris ini di /etc/apt/sources.list di sistem Debian:
deb http://repo.ugm.ac.id/kuliax/ lumpia main non-free
kalau ingin memasang paket kamus tinggal `apt-get install stardict-kbbi` atau paket lainnya misal `apt-get install stardict-quick-eng-ind stardict-quick-ind-eng`
tesaurus, kamus indo/sunda dan sunda/indo sudah masuk daftar TODO pemaketan
@kuliax: dari Pusat Bahasa memang gak ada lisensi yang resmi tertulis/disertakan, kita hanya dapat pesan facebook (bener ya van?) dari salah seorang staf di PB. kalo skrip dan hasil kompilasi yang saya sendiri sudah saya tulis public domain.
utk liat versi terbaru, cek halaman blog ini aja, gak bakal sering2x kok, paling update 1-5 tahun sekali
kalo pas (gak ada kerjaan) nemu entri yang ngaco aja. kemaren juga gak sengaja liat entri “a”, “b” dsb yang ngaco dari screenshot blog orang lain
versi tersebut juga dicantumkan di dalam file *.ifo di dalem tarball-nya.
@benny: thx infonya. sekarang yang saya butuh tinggal kamus stardict ind/eng dan eng/ind, semua yang lain yang saya perlu sudah ada
no prob
sudah ditambahkan di WBI ya
@benny: yup, sekalian nambah lema baru utk yg tesaurus
Masterweb…
Mz Steven,ada pemikiran stardictKBBI di kompilasikan kedalam MS OFFICE?
Tujuan utamanya dimudahkan pencarian arti disaat mengetik dan juga dapat memperbaiki secara otomatis kata2 atau frase2 yang salah dalam bahasa Indonesia.
Terimakasih sebelumnya, programnya sangat berguna. Semoga putra Indonesia bisa bersaing dan terus berjuang diatas pesatnya IT global saat ini.
Om Steve, terima kasih untuk kamusnya. Tapi kok saya belum juga bisa mengesktraknya pakai WinRar meski sudah mengunduhnya berulang-ulang? Stardict juga sudah saya install. Desperate, file sempat ku-rename dengan menghilangkan ekstensi .Bz2. Tetep gagal, “No archives found…”
Btw, semoga content kamus ini identik dengan versi cetaknya (KBBI III).
@Denie: maaf, saat ini saya tidak mempunyai lisensi MS Office, jadi barangkali pemakai MS Office lain dapat melakukan konversi ini? Data mentahnya sudah saya sediakan dalam format sumber Babylon, amat sederhana untuk diparsing.
Jika ingin menyarankan perbaikan pada salah satu lema di KBBI atau Tesaurus Pusba, Anda bisa mencoba Kateglo, http://bahtera.org/kateglo/
@Nailil: pesan kesalahan apa yang dijumpai saat mengekstrak? Barangkali Anda dapat meminta teman Anda yang menggunakan Linux atau program konversi lain untuk membukakan .tar.bz2 tersebut. Saat ini belum ada komplain lain yang mengatakan tidak bisa membuka .tar.bz2.
Om Steve yang baik, akhirnya file .tar.bz2 bisa diekstrak dengan bantuan suami, secara online di web server yang berbasis linux. Mungkin kegagalan sebelumnya karena saya memakai OS Windows XP (bajakan pula, hehehe).
Yup, sekarang udah jalan baik. Terima kasih, Om.
mas steven link : stardict-kbbi-2.4.2.tar.bz2 (3,2MB)
gag ada stardictnya..
apakah dowload tersendiri..??
Sip Mas Steven.
Kombinasi KBBI dan Tesaurus bener-bener membantu buat nulis.
Hidup opensource!
Sekalian minta ijin untuk ngeblog pengalaman ini.
Terima kasih.
http://mailindra.cerbung.com/
@Mailindra: silakan.
Seru sekali blog ini. Sepertinya sangat banyak pihak yang tertarik dengan leksikon Bahasa Indonesia.
Saya sedang mencari data KBBI edisi keempat. Terakhir hanya sampai format PDF, dan ekststraksinya benar-benar menyiksa.
Semoga ada format yang lebih terstruktur, buat Tugas Akhir soalnya, hehehehehe.
@erick: Wah saya baru tahu sudah “beredar” PDF KBBI edisi IV (di situs pusba sendiri tidak ada keterangannya ya, nampaknya situs ini sudah tidak diupdate sejak 2008). Anyway, saya sudah download PDF-nya (dapat dari Google, 11MB, PDF dalam ZIP, di-password dengan password ‘kampungsunnah.org’). Sesegera mungkin akan saya buatkan edisi StarDict-nya, harap ditunggu
From Dudi: Blankon menyertakan kamus Stardict KBBI, Tesaurus Indonesia, dan juga kamus Sunda/Indonesia. http://mirror.unej.ac.id/blankon/pool/main/s/
klo bisa ada yang Indonesia – English juga dong bos steve
kan lumayan ke sekolah ga perlu nenteng-nenteng KBBI sama kamus Indonesia – English yang segede gaban
wah baru nemu nih saya..
thanks share-nya bang steve
saya unduh file mentahnya yaps, buat bahan penelitian stemming nih..
:sup2:
terima kasih banyak KBBI dan tesaurus-nya, mas… *sungkem*
pak steven, ternyata saya kurang teliti. Jawaban pertanyaan saya sebenernya sudah trrmuat di postingan di atas. Mohon maaf, saya juga minta tolong 2 komentar saya sblmnya san yg ini tidak ditampilkan. Terima kasih pak Steven…
Pak Steven & Pak Erick Pranata, bisa minta link download PDF KBBI ini?
saya juga pernah mendownload versi PDF namun hanya dengan ukuran sekitar 8Mb dan terdapat kekurangan untuk daftar lema dengan awalan huruf “J” pada file PDF yang saya download tersebut.
“@erick: … Anyway, saya sudah download PDF-nya (dapat dari Google, 11MB, PDF dalam ZIP, di-password dengan password ‘kampungsunnah.org’)”
Terima kasih mas udah kasih mentahannya, saya karbit dulu biar mateng.
Oh, ya mas ada niat di jadiin file xdxf nya ga?, biar mudah di edit!
@jerry: KBBI nya bisa didownload di laman:
http://mykampungsunnah.wordpress.com/2009/06/17/kamus-besar-bahasa-indonesia/
ato
http://www.mediafire.com/?agymvjxnqoi
Mas, kalau aku salin database nya aja gimana? pengen tek bikin program lain..
Silakan mas.
Dimana ya download kbbi untuk hp(java)?