Oleh WAN NORASIKIN WAN ISMAIL

Pendahuluan

Pada hari ini, kajian yang berasaskan korpus kian mendapat tempat. Namun jika dibandingkan dengan negara Barat kajian berasaskan korpus ini telah pun bermula pada era 1950-an lagi.  Justeru itu Dewan Bahasa dan Pustaka (DBP) yang telah dipertanggungjawabkan dalam membina dan memperkembangkan bahasa Melayu telah berusaha untuk menyediakan pelbagai kemudahan dan prasarana penyelidikan kepada penyelidik.  Pembinaan pangkalan data korpus yang dibina adalah untuk membantu para penyelidik membuat kajian dalam pelbagai bidang kebahasaan dan menyebarluaskan lagi hasil-hasil penyelidikan yang telah dibuat.

 Latar Belakang

Pangkalan Data Korpus (PDK) merupakan sebuah pangkalan data yang digunakan untuk menyimpan data korpus bahasa Melayu dalam bentuk digital. Ia terbahagi kepada dua iaitu sistem dan data korpus. Pada peringkat awal ia diberi nama Projek Analisis Teks Secara Berkomputer yang dibina melalui rangka kerjasama Universiti Sains Malaysia (USM). Kemudian ditukarkan namanya menjadi Korpus DBP dengan beberapa penambahbaikan dibuat mengikut keperluan pengguna semasa.

Pada asalnya data korpus adalah untuk kegunaan perkamusan untuk mencari kata-kata baru yang digunakan dalam teks bahasa Melayu dan juga ayat-ayat contoh yang boleh dimuatkan ke dalam kamus yang diusahakan oleh Dewan Bahasa dan Pustaka. Namun kini, data korpus DBP boleh digunakan oleh pelbagai pihak terutamanya pelajar-pelajar daripada beberapa universiti tempatan dari peringkat siswazah ijazah pertama sehinggalah peringkat doktor Falsafah. Tidak kurang juga penyelidik linguistik yang telah menggunakan korpus ini untuk melengkapkan kajian mereka. Sistem yang baru ini boleh dicapai melalui Internet dalam laman sesawang DBP pada alamat http://dbp.gov.my/lamandbp/ atau http://prpm.dbp.gov.my/.

Data korpus boleh bersumberkan bentuk lisan ataupun tulisan. Bentuk lisan pula ialah bahan ditranskripsikan seperti ucapan, wawancara, temu bual, perbualan dan sebagainya dalam pelbagai bentuk rakaman. Sehingga kini data korpus DBP mempunyai lebih kurang 137 juta perkataan yang terdapat dalam enam  subkorpus iaitu buku, majalah, akhbar, efemeral, teks tradisional dan kertas kerja.

CARTA PAI 1  Perbahanan korpus mengikut pecahan subkorpus

GAMBAR 1

Kandungan data korpus DBP telah terkumpul sebanyak 137 juta kata.  Perolehan dan penambahan data ini terus dilaksanakan setiap tahun. Daripada jadual dan carta di atas, kita dapati bahawa bahan akhbar merupakan komponen yang paling besar yang terdapat dalam data korpus. Bahan korpus akhbar ini termasuklah Berita Minggu, Metro Ahad, Pedoman rakyat, Harian metro, Berita Harian, Harakah dan Utusan Malaysia.

Data yang kedua banyak ialah data buku sastera dan buku umum. Selain daripada buku-buku terbitan DBP data korpus ini juga mengandungi bahan-bahan terbitan oleh penerbit luar termasuklah pelbagai jenis majalah. Majalah-majalah ini pula tidak terhad kepada majalah akademik dan ilmiah sahaja tetapi merangkumi pelbagai majalah termasuklah majalah terbitan daripada luar negara seperti Indonesia dan Brunei. Untuk kemudahan penyelidik membuat penyelidikan, DBP telah menyediakan pelbagai data korpus yang merangkumi pelbagai bidang. Terdapat 47 bidang antaranya bidang agama, fesyen, hiburan, permotoran dan sebagainya.

  GAMBAR 2

Gambar 2: Paparan sistem Korpus DBP

Pengguna perlu mendaftar masuk sebelum menggunakan data korpus. Selain itu pengguna juga perlu membaca dengan teliti syarat dan terma dalam Lesen “Pengguna Korpus”. Setelah maklumat yang diperlukan diisi paparan berikut akan keluar dan pengguna boleh menggunakan korpus DBP.

Sumbangan Data Korpus Dalam Bidang Penyelidikan  

Menyedari hakikat bahawa era kemajuan ICT yang kian berkembang pesat Dewan Bahasa dan Pustaka telah mengorak langkah dengan menyediakan prasarana pangkalan data korpus untuk para penyelidik  membuat penyelidikan. Hasil kajian ini akan disebarkan dalam bentuk laporan projek, makalah atau kertas kerja. Antara sumbangan data korpus dalam bidang penyelidikan ialah seperti bidang leksikologi, projek terjemahan, pengajaran dan pembelajaran dan sistem penyemakan teks berkomputer.

Bidang leksikografi

Leksikografi merupakan cabang linguistik terapan yang terdiri daripada pemerhatian, pengumpulan, pemilihan dan keterangan unit-unit dalam kumpulan perkataan dan ungkapan dalam satu atau lebih bahasa. Leksikografi memerlukan bantuan leksikologi.  Selain itu, di Dewan Bahasa dan Pustaka data korpus digunakan secara aktif oleh karyawan di Bahagian Perkamusan untuk mendraf beberapa jenis kamus contohnya Kamus Dewan dan Kamus Umum Bahasa Melayu. Penyusunan kamus merupakan agenda penting, kerana kamus mendokumenkan senario bahasa sebagai wahana pengucapan kebudayaan sesuatu bangsa. Bagi menghuraikan makna sejumlah kata yang banyak, dari segi takrifan dan contoh ayat data korpus penting untuk bukti leksikografi sesuatu kata.

 Projek penterjemahan

Data korpus boleh dimanfaatkan untuk tujuan Penterjemahan Berkomputer. Untuk proses terjemahan salah satu kaedah yang boleh digunakan adalah dengan menggunakan teks korpus selari. Namun sehingga kini belum ada lagi pihak-pihak yang berminat untuk mewujudkan mesin penterjemahan bahasa Melayu.

 Pengajaran dan Pembelajaran

Pengajaran dan pembelajaran bahasa Melayu berbantukan Komputer akan lebih berkesan dan menarik. Pengajaran dan pembelajaran bahasa berasaskan komputer ini telah lama diusahakan di negara kita. Melalui penggunaan data korpus barisan konkordans memaparkan penggunaan sesuatu perkataan dalam pelbagai bentuk dan situasi. Pelajar dapat melihat dan pola dan bentuk ayat serta dapat membuat kesimpulan sendiri tentang makna sesuatu perkataan itu cara menggunakannya.

 Sistem Penyemakan Teks Berkomputer

Penyemakan ejaan dan penyemak tatabahasa boleh dimanfaatkan dengan menggunakan data korpus berkomputer. Untuk tujuan penyemakan tatabahasa data korpus ini perlu dilengkapi dengan penandaan kelas kata untuk setiap kata. Melalui sistem ini ia mampu memberikan kelas kata kepada setiap kata yang terdapat dalam data korpus Dewan. Sistem penyemakan teks berkomputer ini sedang diusahakan oleh DBP.

Penyelidikan Berorientasikan Data Korpus

Sehingga kini, korpus DBP telah menjadi sumber utama untuk kajian bahasa dan linguistik Melayu. Pelbagai kajian telah dilakukan oleh penyelidik dari DBP ataupun penyelidik luar yang merangkumi pelbagai bidang kajian. Sesuai dengan matlamat pembinaan sistem korpus alah untuk dimanfaatkan dalam penyelidikan tatabahasa dan bentuk-bentuk kajian kebahasaan yang lain. Setakat ini kajian-kajian yang telah dibuat lebih tertumpu pada aspek tatabahasa, kajian leksikal dan semantik.

Selain dari kajian-kajian berdasarkan data korpus yang diterbitkan dalam bentuk kajian dan kertas kerja DBP telah menerbitkan dua buah buku yang berkaitan penyelidikan bahasa. Dua buah buku tersebut ialah Kata Ganda Bahasa Melayu: Tinjauan berdasarkan Data Korpus DBP dan Kata Majmuk Bahasa Melayu Bentuk Berdasarkan Data korpus.

                    Kata Ganda BM Kata Majmuk BM

Perancangan Dan Saranan

Penyelidikan korpus kian berkembang merangkumi pelbagai bidang yang berasaskan bahasa. Antaranya teknologi pengecaman suara, pemindahan suara kepada teks dan sebaliknya (korpus lisan), forensik jenayah dan menjadi bahan pengajaran dan pembelajaran dalam bahasa Melayu yang lebih berkesan. Data korpus yang mempunyai jumlah data yang besar dan terkini akan dapat membantu DBP untuk menyiapkan kamus dengan lebih cepat, istilah yang terkini dan tesaurus yang lengkap. Ini secara tidak langsung dapat pembantu para penyelidik untuk membuat penyelidik berkaitan dengan bahasa dan linguistik Melayu.

Di samping itu DBP boleh merancang  penambahbaikan kepada sistem yang sedia ada mengikut keperluan dan kehendak pengguna. Semakin ramai pengguna yang menggunakan sistem korpus ini akan bertambah hasil kajian yang dibuat. Ia secara tidak langsung akan menambah kepustakaan korpus kajian dalam bahasa Melayu. DBP juga boleh membuat kajian yang lebih mendalam tentang bidang popular yang menjadi kajian penyelidik.

Kesimpulan

Sebagai kesimpulannya, DBP akan terus berusaha untuk membuat penambahbaikan terhadap sistem yang sedia ada bagi memenuhi keperluan semasa penyelidik. Hal ini demikian, kerana kajian yang menggunakan bantuan komputer akan dapat membantu memudahkan serta mempercepatkan carian sesuatu perkataan. Selain itu, kemudahan pangkalan data korpus yang mantap dan mesra pengguna secara tidak langsung dapat memartabatkan bahasa Melayu di persada dunia kerana telah menggunakan sumber bukti daripada data korpus yang sama seperti data yang terdapat di negara-negara Eropah lainnya.

 

Sila Beri Pandangan

You must be logged in to post a comment.

  • Arkib

  • Statistik

    1044836
    Visit Today : 1257
    This Month : 27435
    Total Visit : 1044836
    Hits Today : 4613
    Total Hits : 4289586
    Who's Online : 10
  • Kategori