Sebelumnya dalam tutorial kita telah belajar dengan sejumlah data skala kecil dalam contonya, hanya untuk memahami konsep yang berbeda.
Di dunia nyata, kumpulan data jauh lebih besar, tetapi mungkin sulit untuk mengumpulkan data dari aplikasi nyata, meskipun setidaknya hanya pada tahap awal proyek.
Section Artikel
Bagaimana Cara Mendapatkan Kumpulan Data Besar?
Untuk membuat kumpulan data besar pada pengujian, kita menggunakan modul Python NumPy, yang dilengkapi dengan sejumlah metode untuk membuat kumpulan data acak, dengan ukuran berapa pun.
Contoh:
Buat sebuah array yang berisi 250 float acak antara 0 dan 5
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogram
Untuk memvisualisasikan kumpulan data kita dapat menggambar histogram dengan data yang kita kumpulkan.
Kita akan menggunakan modul Python Matplotlib untuk menggambar histogram.
Pelajari tentang modul Matplotlib di Tutorial Matplotlib sebelumnya.
Contoh:
Gambar histogram
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Hasilnya:
Penjelasan Histogram
Kita menggunakan array dari contoh di atas untuk menggambar histogram dengan 5 bar.
Bar pertama menunjukkan berapa banyak nilai dalam array antara 0 dan 1.
Bar kedua menunjukkan berapa banyak nilai antara 1 dan 2.
Dan seterusnya
Yang memberi kita hasil ini:
- 52 nilai antara 0 dan 1
- 48 nilai berada di antara 1 dan 2
- 49 nilai antara 2 dan 3
- 51 nilai berada di antara 3 dan 4
- 50 nilai berada di antara 4 dan 5
Catatan: Nilai array adalah angka acak dan tidak akan menampilkan hasil yang sama persis pada komputer Anda.
Distribusi Big Data
Sebuah array yang berisi 250 nilai tidak dianggap terlalu besar, tapi sekarang kita tahu cara membuat kumpulan nilai acak, dan dengan mengubah parameter, kita dapat membuat kumpulan data sebesar yang diinginkan.
Contoh:
Buat array dengan 100000 nomor acak, dan tampilkan menggunakan histogram dengan 100 bar
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()