Perangkat Lunak Karakter Optis Aksara Jawa untuk Wikisource 2019

Dari Wikimedia Indonesia
Loncat ke navigasi Loncat ke pencarian

Perangkat Lunak Karakter Optis Aksara Jawa untuk Wikisource 2019 Anggaran Laporan Dokumentasi Aktivitas Laporan Penggunaan Dana


Perangkat Lunak Karakter Optis Aksara Jawa untuk Wikisource 2019 merupakan salah satu program dari proyek APG19.

Logo TRAWACA 400.png

Latar Belakang

Transisi dari percetakan mekanik ke diseminasi informasi elektronik telah menjadi stimulus bagi sebuah kebangkitan digital, suatu era yang ditandai dengan kelahiran kembali sumber primer dan dokumen-dokumen sejarah dalam bentuk digital. Motivasi utama dalam digitalisasi dokumen-dokumen tersebut adalah untuk memelihara eksistensi, juga konten yang ada di dalamnya. Di samping itu, dokumen-dokumen tersebut dapat diberikan kepada generasi mendatang sebagai sumber referensi atas perkembangan budaya, tradisi, dan identitas negara selama periode tertentu.

Proses digitalisasi dokumen sejarah dan manuskrip tidak akan berhenti ketika mereka telah dipindai dan disimpan di dalam format gambar (jpg atau png). Kekurangan dari penyimpanan dokumen citra ada pada ukuran, yang membutuhkan ruang besar pada penyimpanan, dan akses yang tidak fleksibel. Masalah ini dapat dipecahkan dengan Pengenalan Karakter Optis (OCR) yang mengubah citra karakter menjadi teks yang dapat ditemukan kembali. Untuk alasan ini, proyek ini berfokus pada optimasi mesin OCR dari proyek tahun lalu dan mempersiapkan dasar untuk proses transliterasi.

Pada proyek APG18, kami telah melakukan prapemrosesan dengan melakukan segmentasi menggunakan metode Projection Profile yang telah dioptimasi. Kami juga telah melakukan proses pengenalan yang meliputi seleksi fitur, anotasi, ekstraksi fitur, pelatihan, dan klasifikasi menggunakan algoritma Nearest Centroid Classifier. Meski demikian, pengembangan masih dibutuhkan untuk dapat mencapai hasil yang memuaskan. Oleh karena itu, kami akan mengoptimasi kemampuan sistem dengan meningkatkan tahap pemrosesan menggunakan segmentasi clothesline, koreksi geometri, serta identifikasi teks dan objek. Dalam tahap pengenalan, kami juga ingin mengimplementasi SVM dengan kernel RBF untuk klasifier. Di tahun ini, kami juga berencana untuk mengembangan korpus yang akan digunakan pada tahap transliterasi tahun berikutnya.

Sasaran

Sasaran utama dari program ini adalah untuk membangun sebuah mesin OCR dan pengembangan proses transliterasi. Sasaran yang luas ini telah dibagi menjadi tiga bagian, di mana tiap bagian menandai implementasi proyek. Sasaran tahun pertama adalah untuk mengembangkan mesin OCR untuk karakter aksara Jawa, dan hal ini telah berhasil diakses melalui pranala https://trawaca.id/ocrjawa/. Dibandingkan dengan sasaran keseluruhan pada proposal tahun pertama, ada pergantian perencanaan pada proyek tahun kedua dan tahun ketiga. Kami memproyeksikan bahwa sasaran tahun kedua adalah untuk mengoptimasi kemampuan sistem OCR dengan meningkatkan tahap prapemrosesan dan tahap pengenalan. Ini berdasarkan pada ekspektasi pengguna ketika mereka menggunakan mesin OCR. Alasan lain adalah karena proses transliterasi lebih baik diimplementasikan pada suatu sistem OCR yang telah memiliki nilai pengenalan yang lebih baik. Oleh sebab itu, transliterasi akan diterapkan sebagai proyek tahun ketiga.

Capaian

  • sistem OCR yang telah dioptimasi untuk karakter aksara Jawa
  • integrasi prototipe mesin COR ke dalam antarmuka Wiki
  • manuskrip Serat Mangkunegara IV Djilid I yang sudah melalui proses OCR
  • artikel konferensi yang telah melalui proses diseminasi pada konferensi internasional
  • 1 program magang sarjana