Banyak Konten Online Ternyata Hasil Terjemahan Mesin



TL;DR
  • Konten online banyak berasal dari terjemahan mesin dengan kualitas rendah.
  • Terjemahan mesin dominan dalam bahasa dengan sumber daya terbatas.
  • Bias dalam jenis konten terjemahan untuk tujuan iklan.
Banyak Konten Online Ternyata Hasil Terjemahan Mesin - photo origin: wizlancerindia - pibitek.biz - Web

photo origin: wizlancerindia


336-280

pibitek.biz - Peneliti di laboratorium AI Amazon Web Services (AWS) menemukan bahwa sejumlah besar konten online berasal dari sumber terjemahan mesin. Konten ini diterjemahkan dalam banyak bahasa yang berbeda dan seringkali memiliki kualitas rendah, yang menunjukkan perlunya kualitas data dan pertimbangan sumber saat melatih LLM. Para peneliti juga menemukan bahwa konten yang dihasilkan oleh mesin umumnya ditemukan dalam terjemahan untuk bahasa-bahasa yang memiliki sumber daya yang lebih sedikit, dan konten ini merupakan bagian signifikan dari semua konten di web.

Mereka tertarik pada topik ini setelah beberapa rekan yang bekerja dalam terjemahan mesin dan merupakan penutur asli bahasa dengan sumber daya yang terbatas mencatat bahwa sebagian besar internet dalam bahasa asli mereka terlihat dihasilkan oleh terjemahan mesin. Untuk memahami masalah ini dengan lebih baik dan melihat seberapa luas masalah ini, tim peneliti mengembangkan sumber daya yang sangat besar yang dikenal sebagai Multi-Way ccMatrix (MWccMatrix). Sumber daya ini berisi 6,4 miliar kalimat unik dalam 90 bahasa yang berbeda dan mencakup pasangan terjemahan, yaitu sekumpulan kalimat dalam berbagai bahasa yang merupakan terjemahan satu sama lain.

Penelitian ini menemukan bahwa sejumlah besar konten web sering diterjemahkan ke berbagai bahasa, terutama oleh terjemahan mesin. Konten ini tidak hanya umum dalam terjemahan bahasa dengan sumber daya yang lebih sedikit, tetapi juga merupakan bagian signifikan dari semua konten web dalam bahasa tersebut. Para peneliti juga melihat adanya bias dalam jenis konten yang diterjemahkan ke dalam banyak bahasa, mungkin untuk tujuan menghasilkan pendapatan iklan.

Studi ini menyimpulkan bahwa teknologi terjemahan mesin telah mengalami perkembangan yang cukup pesat dalam dekade terakhir, tetapi masih belum mencapai kualitas manusia. Konten terjemahan mesin telah ditambahkan ke web selama bertahun-tahun menggunakan sistem terjemahan mesin yang tersedia pada saat itu, sehingga sebagian besar terjemahan mesin di web kemungkinan memiliki kualitas yang rendah menurut standar modern. Hal ini dapat menghasilkan model LLM yang kurang lancar dengan lebih banyak kekeliruan, dan bias pemilihan menunjukkan bahwa data tersebut mungkin memiliki kualitas yang rendah, bahkan sebelum mempertimbangkan kesalahan terjemahan mesin.