Perbandingan Kinerja Infrastruktur Pararel Dalam Pemrosesan Data Dengan Menggunakan Apache Spark

  • Prayogi Kardani Universitas Negeri Surabaya
  • I Made Suartana Universitas Negeri Surabaya

Abstract

Abstrak

Pemrosesan yang efektif. Apache Spark, sebuah platform komputasi data, mampu memproses data besar melalui infrastruktur paralel. Evaluasi kinerja Spark diperlukan, mengacu pada penelitian sebelumnya yang menunjukkan peningkatan efisiensi. Studi ini membandingkan kinerja infrastruktur paralel Spark dalam pemrosesan data besar. Apache Spark diimplementasikan dalam cluster dengan 1 node master dan 2 node pekerja untuk memproses big data secara paralel. Penelitian ini mengevaluasi kinerja Apache dalam pemrosesan big data menggunakan cluster yang dikonfigurasi dengan 1 node Master dan 2 node pekerja. Eksperimen tersebut menghasilkan temuan bahwa pada tahap penghitungan, agregasi, dan pemfilteran, cluster dengan 2 node pekerja menunjukkan peningkatan efisiensi yang signifikan, dengan waktu eksekusi yang lebih cepat dibandingkan konfigurasi lainnya.
Analisis penggunaan CPU menjelaskan bahwa cluster dengan satu master dan dua klien menghasilkan penggunaan CPU yang lebih efisien, terutama pada node pekerja. Ditemukan bahwa penggunaan CPU pada node master tetap rendah, sedangkan Node pekerja, terutama dalam mode cluster dengan dua klien, dapat mengoptimalkan penggunaan CPU pada tingkat yang lebih tinggi.


Kata Kunci: Apache Spark, Infrastruktur Paralel, Big Data, Dataset, Perbandingan, Performa, Cluster, Master, Client, Pemrosesan Data

Published
2023-12-20
Section
Articles
Abstract Views: 23
PDF Downloads: 19