Distribusi Zipf digunakan untuk mengambil sampel data berdasarkan hukum zipf.
Hukum Zipf menyatakan: Dalam sebuah kumpulan istilah umum ke-n adalah 1/n kali dari istilah yang paling umum. Misalnya. Kata umum ke-5 dalam bahasa Inggris telah muncul hampir 1/5 kali dari kata yang paling sering digunakan.
Distribusi Zipf memiliki dua parameter, yaitu:
a – parameter distribusi.
size – Bentuk dari array yang akan dikembalikan.
Contoh:
Mengambil sample pada distribusi zipf dengan parameter distribusi 2 dan ukuran 2×3
from numpy import random x = random.zipf(a=2, size=(2, 3)) print(x)
Visualisasi Distribusi Zipf
Contoh 1000 poin tetapi plotting hanya satu dengan nilai <10 untuk grafik yang lebih berarti.
Contoh:
from numpy import random import matplotlib.pyplot as plt import seaborn as sns x = random.zipf(a=2, size=1000) sns.distplot(x[x<10], kde=False) plt.show()
Hasilnya: