Implementasi Long Short-Term Memory dalam Mendeteksi Kesalahan Pronunciation Bahasa Inggris Berbasis Audio
DOI:
https://doi.org/10.26740/jinacs.v6n03.p747-754Abstract
Perkembangan kecerdasan buatan membuka peluang dalam mendukung pembelajaran bahasa, khususnya dalam mendeteksi dan memperbaiki kesalahan pengucapan (pronunciation). Bahasa Inggris, sebagai bahasa internasional, sering kali menimbulkan tantangan dalam pengucapan yang dapat mengubah makna pesan jika ada kesalahan. Penelitian ini memanfaatkan model Long Short-Term Memory (LSTM) untuk mendeteksi kesalahan pengucapan bahasa Inggris berbasis audio. Data yang digunakan terdiri dari dataset TIMIT, yang mewakili penutur asli Amerika, dan Common Voice untuk penutur non-Amerika. Data diproses dengan resampling, padding zero, trimming berbasis energi, dan normalisasi untuk mengekstraksi fitur yang lebih fokus pada bagian audio yang signifikan. Pembagian data dilakukan menggunakan K-Fold Cross-Validation (k=10) dengan proporsi 80% untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. Eksperimen dilakukan dengan fokus pada optimizer Adam dengan berbagai kombinasi hyperparameter, seperti batch size (16, 32, 64), epoch (50, 75, 100), dan learning rate (0.001, 0.0001), dengan evaluasi menggunakan metrik akurasi, presisi, recall, dan F1-score. Kombinasi hyperparameter yang optimal ditemukan pada akurasi 94% dan F1-score 95% pada kombinasi batch size 32, epoch 100, dan learning rate . Penelitian ini mengidentifikasi kombinasi hyperparameter yang optimal untuk mencapai stabilitas model yang baik dan membuka peluang untuk pengembangan sistem yang dapat memberikan umpan balik korektif otomatis bagi pengguna.
Kata Kunci— Long Short-Term Memory (LSTM), Pengucapan Bahasa Inggris, Pemrosesan Audio, TIMIT, Common Voice, Hyperparameter Tuning.
Downloads

