Studi Komparatif: Pembentukan Dataset & Perbandingan Algoritma
"Penelitian yang kuat membutuhkan data yang kredibel dan terstandardisasi. Dataset yang ideal adalah fondasi dari eksperimen yang dapat dipercaya dan direplikasi."
1️⃣ Metodologi Pembentukan Dataset Ideal
📌 Struktur Dataset Berdasarkan Graf Lengkap
Dataset yang digunakan dirancang secara sistematis sebagai koleksi graf lengkap tidak berarah. Untuk setiap ukuran simpul (n), dibentuk 30 instance graf yang masing-masing merepresentasikan sebuah graf lengkap dengan bobot sisi (edge) yang dihasilkan melalui distribusi acak terkontrol. Dataset disimpan dalam format tabular ('.csv'), di mana setiap kolom adalah satu instance graf.
Jumlah sisi (edge) untuk setiap graf lengkap dihitung menggunakan rumus kombinasi dua simpul, E = (n(n - 1))/2.
CONTOH DATASET NORM
https://drive.google.com/drive/folders/17drXA4T3gxwuRGxrZgKOkAeZS9Cml1Gx?usp=sharing
2️⃣ Analisis & Perbandingan Dataset
💡 Kelemahan Dataset Acak pada Umumnya
Analisis terhadap dataset acak menunjukkan beberapa keterbatasan signifikan yang berpotensi memengaruhi validitas eksperimen:
- Distribusi Bobot Tidak Terkendali: Nilai bobot antar instance sangat bervariasi, dengan beberapa instance memiliki nilai ekstrem.
- Kurangnya Dokumentasi: Metode pembangkitan data tidak dijelaskan, sehingga sulit untuk direplikasi.
- Variasi Statistik Tinggi: Nilai rata-rata dan standar deviasi antar instance sangat tidak konsisten, membuat perbandingan hasil algoritma menjadi bias.
✅ Karakteristik Dataset Ideal
Untuk mengatasi masalah tersebut, dataset ideal dirancang dengan pendekatan statistik yang terkontrol, didukung oleh tiga karakteristik utama:
- Distribusi Normal: Bobot sisi dibangkitkan menggunakan distribusi normal (Gaussian) untuk menciptakan penyebaran nilai yang simetris dan menghindari nilai ekstrem.
- Rentang Terkontrol: Nilai bobot dibatasi dengan rentang minimum dan maksimum yang proporsional dengan ukuran graf, menghindari anomali data.
- Konsistensi Antar Kolom: Setiap instance graf memiliki karakteristik statistik yang seragam, memastikan kondisi pengujian yang adil.
3️⃣ Implementasi dan Parameter Pembangkitan Data
Proses pembentukan dataset ideal diimplementasikan menggunakan Python, dengan pustaka seperti 'numpy' dan 'pandas'.
Parameter Distribusi Bobot:
| Ukuran Vertex |
Mean (μ) |
Std Dev (σ) |
Min Weight |
Max Weight |
| 10–50 |
50 |
10 |
10 |
100 |
| 60–100 |
100 |
20 |
20 |
200 |
| 150–300 |
200 |
40 |
50 |
400 |
| 350–500 |
300 |
60 |
100 |
500 |
Penggunaan parameter ini memastikan dataset dapat direproduksi dan konsisten secara statistik, mendukung validitas eksperimen.