Home » python » Data Distribution Python

Data Distribution Python

by Catur Kurnia Sari
by Catur Kurnia Sari

Sebelumnya dalam tutorial kita telah belajar dengan sejumlah data skala kecil dalam contonya, hanya untuk memahami konsep yang berbeda.

Di dunia nyata, kumpulan data jauh lebih besar, tetapi mungkin sulit untuk mengumpulkan data dari aplikasi nyata, meskipun setidaknya hanya pada tahap awal proyek.

Bagaimana Cara Mendapatkan Kumpulan Data Besar?

Untuk membuat kumpulan data besar pada pengujian, kita menggunakan modul Python NumPy, yang dilengkapi dengan sejumlah metode untuk membuat kumpulan data acak, dengan ukuran berapa pun.

Contoh:
Buat sebuah array yang berisi 250 float acak antara 0 dan 5

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

Histogram

Untuk memvisualisasikan kumpulan data kita dapat menggambar histogram dengan data yang kita kumpulkan.

Kita akan menggunakan modul Python Matplotlib untuk menggambar histogram.

Pelajari tentang modul Matplotlib di Tutorial Matplotlib sebelumnya.

Contoh:
Gambar histogram

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Hasilnya:

Penjelasan Histogram

Kita menggunakan array dari contoh di atas untuk menggambar histogram dengan 5 bar.

Bar pertama menunjukkan berapa banyak nilai dalam array antara 0 dan 1.

Bar kedua menunjukkan berapa banyak nilai antara 1 dan 2.

Dan seterusnya

Yang memberi kita hasil ini:

  • 52 nilai antara 0 dan 1
  • 48 nilai berada di antara 1 dan 2
  • 49 nilai antara 2 dan 3
  • 51 nilai berada di antara 3 dan 4
  • 50 nilai berada di antara 4 dan 5

Catatan: Nilai array adalah angka acak dan tidak akan menampilkan hasil yang sama persis pada komputer Anda.

Distribusi Big Data

Sebuah array yang berisi 250 nilai tidak dianggap terlalu besar, tapi sekarang kita tahu cara membuat kumpulan nilai acak, dan dengan mengubah parameter, kita dapat membuat kumpulan data sebesar yang diinginkan.

Contoh:
Buat array dengan 100000 nomor acak, dan tampilkan menggunakan histogram dengan 100 bar

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()

You may also like