Analisis Data Eksplorasi dalam Praktik

Cara Data

Saat Anda memiliki banyak data untuk melatih model pembelajaran mesin atau membuat keputusan berdasarkan data, akan sangat sulit untuk mengamatinya secara manual atau melalui Excel. Di situlah alat analisis data dan bahasa pemrograman, seperti Python, dapat membantu. Menggunakan Datalore dapat membuat proses lebih mudah dan mengarahkan Anda ke wawasan yang lebih baik.

Analisis Data Eksplorasi: Langkah dan Teknik

Mari kita lihat bagaimana Anda dapat menjelajahi data Anda dengan lebih efektif. Dalam tutorial ini, kita akan menggunakan open dataset dari Netflix, tersedia di sini.

Apa itu Analisis Data Eksplorasi?

Proses mendapatkan wawasan melalui eksplorasi data disebut Exploratory Data Analysis (EDA). Berikut adalah beberapa contoh teknik EDA:

  • Menemukan pola dan korelasi antar data.
  • Mengidentifikasi anomali dan ketidaksepakatan dalam data.
  • Membersihkan data agar lebih representatif.
  • Memvisualisasikan data untuk mendapatkan wawasan.

EDA dapat membantu Anda membuat keputusan bisnis berdasarkan informasi yang didukung oleh data – atau jika Anda ingin melatih model pembelajaran mesin untuk digunakan sebagai prediktor. Kami menyarankan untuk membaca panduan ini dan memproses dataset dengan Python, Pandas, Plotly, dan Datalore. Anda akan belajar cara menangani kumpulan data besar, menangani anomali, dan memvisualisasikan data.

Buka Buku Catatan di Datalore

Jelajahi kumpulan data Anda

Memulai pekerjaan di Datalore itu mudah, karena semua library yang diperlukan sudah diinstal. Cukup buat buku catatan dan unggah kumpulan data di Data Terlampir di panel sebelah kiri. Untuk membaca dataset dengan Pandas, mari impor dan baca file CSV dengan kode di bawah ini:

import pandas as pd
df = pd.read_csv('netflix_titles.csv')

Untuk mengamati lima baris pertama dari kumpulan data, Anda dapat menggunakan metode df.head().

Membaca kumpulan data dengan Pandas

Datalore memungkinkan Anda mengamati data dalam tabel biasa, tetapi bukan itu saja. Anda juga akan mendapatkan semua statistik dataset yang diperlukan dari dataset menggunakan metode yang sama seperti df.info() dan df.describe(), tetapi dengan cara yang lebih intuitif. Ini sangat berguna, karena Anda tidak perlu menambahkan kode tambahan apa pun. Mari kita lihat statistik dari keseluruhan dataset.

Statistik kumpulan data

Seperti yang Anda lihat, ada 8807 baris. Untuk mendapatkan jumlah fitur selain jumlah instance, kami dapat menghubungi df.shape dan lihat ada 12 fitur.

Datalore juga memungkinkan Anda memeriksa hipotesis Anda dengan cepat dengan alat visualisasi data. Cukup klik pada tab Visualisasikan, pilih fitur untuk setiap sumbu, dan plot grafiknya. Mari kita lihat korelasi antara durasi acara dan tanggal rilisnya.

Pertama, kita perlu mengonversi date_added ke format DateTime, hapus baris durasi, yang sesuai dengan musim, dan konversi string dengan min ke int. Itu dapat dilakukan dengan kode berikut.

df['date_added'] =  pd.to_datetime(df['date_added'])
df = df[df['duration'].str.contains("Season") == False]
df['duration'] = df['duration'].str.replace("\smin", "", regex=True).astype(int)
df.sort_values(by=['date_added', 'duration'])
Visualisasi Kumpulan Data

Buka Buku Catatan di Datalore

Menangani Masalah Data

Anda mungkin telah memperhatikan saat mengamati data bahwa beberapa nilai adalah NaN, yang berarti ada nilai yang hilang. Hal ini dapat berdampak negatif pada keakuratan analisis dan menurunkan performa model pembelajaran mesin Anda. Mari kita lihat bagaimana kita bisa menangani ini.

Dengan menggunakan df.isnull().sum()kita dapat menghitung jumlah NaN di setiap kolom fitur.

Menangani nilai yang hilang

Seperti yang ditunjukkan di atas, ada banyak nilai yang hilang di kolom Sutradara, Pemeran, dan Negara.

Ada beberapa kemungkinan pendekatan untuk menangani nilai yang hilang:

  1. Hitung nilai rata-rata dari semua kejadian dan isi sebagai ganti nilai yang hilang. Ini adalah pendekatan yang paling populer, tetapi menambah bias pada distribusi data.
  2. Ganti nilai NaN dengan nilai fitur yang paling sering. Ini dapat bekerja dengan baik untuk data kategorikal.
  3. Jatuhkan baris dengan nilai yang hilang. Pendekatan ini memungkinkan kumpulan data menyimpan “nilai alami”, tetapi dalam hal melatih model, hal itu dapat menyebabkan generalisasi masalah. Ini karena kurangnya contoh unik dan jumlah keseluruhan contoh pelatihan yang kecil.
  4. Gunakan algoritme pembelajaran mesin seperti K-NN atau hutan acak untuk memprediksi nilai yang hilang. Ini bisa menjadi pendekatan yang paling akurat, tetapi lambat untuk kumpulan data besar.

Untuk kolom Sutradara, Pemeran, Negara, dan Peringkat, sebaiknya isi data yang hilang dengan kemunculan yang paling sering, karena fitur ini bersifat kategoris. Untuk mendapatkan nilai paling sering di kolom direktur, Anda dapat menggunakan kode di bawah ini:

frequent_value = df[‘director’].value_counts().idxmax()

Untuk mengganti nilai yang hilang di kolom, gunakan kode di bawah ini:

df[‘director’] = df[‘director’].fillna(frequent_value)

Karena ada 4 kolom yang harus diganti, mari kita tulis sepotong kecil kode dengan satu lingkaran dan amati hasilnya.

Seperti yang Anda lihat, semua nilai yang hilang dari 4 kolom telah hilang. Untuk menangani date_added dan durasi, mari kita tinggalkan kolom ini, karena sulit untuk mengisi data tersebut.

Untuk menghapus baris dengan nilai yang hilang, gunakan kode di bawah ini:

df = df.dropna(axis = 0, how ='any')

Saat Anda membuang sisa nilai yang hilang, Anda dapat melihat bahwa tidak ada nilai yang hilang lagi! Anda dapat mencoba pendekatan lain untuk menangani nilai yang hilang dan mendapatkan wawasan baru.

Buka Buku Catatan di Datalore

Visualisasi data spesifik

Seperti yang Anda lihat di atas, Datalore memungkinkan Anda memvisualisasikan data dengan cara yang praktis tanpa pengkodean apa pun setelah mengunggah kumpulan data. Anda dapat menggunakannya untuk memenuhi sebagian besar kebutuhan EDA. Jika Anda tidak menggunakan Datalore atau Anda memerlukan beberapa plot tertentu (misalnya peta panas), mari kita lihat bagaimana kita dapat memvisualisasikan data kita dengan Plotly, pustaka Python yang banyak digunakan untuk analisis data eksplorasi.

Mari menggambar matriks sebar untuk kolom Type, Release_year, dan Rating untuk mendapatkan beberapa wawasan. Untuk tugas itu, kita akan membuang sisa kolom dan membangun plot dengan kode di bawah ini:

import plotly.graph_objects as go
import plotly.express as px
df_dropped = df.drop(columns=['show_id', 'title', 'director', 'cast', 'date_added', 'description', 'listed_in', 'duration', 'country'])
fig = px.scatter_matrix(df_dropped)
fig.show()
Analisis data eksplorasi dengan Plotly

Untuk membuatnya lebih visual, ada baiknya untuk menentukan kolom yang akan direpresentasikan dan menerapkan pewarnaan pada data.

fig = px.scatter_matrix(df_dropped,
    dimensions=["type", "release_year", "rating"],
    color="rating")
fig.show()
Analisis data eksplorasi dengan Plotly

Sepertinya Netflix mulai menggunakan peringkat NC-17 dan TV-Y7-FV pada tahun 2000-an, dan mereka hanya menggunakan peringkat PG untuk film. Anda juga dapat memeriksa korelasi lainnya, tetapi jangan lupa untuk mengubah durasi dan date_added ke format standar (misalnya float dan datetime). Anda dapat melakukannya dengan metode total_seconds() dan to_datetime() .

Untuk mengamati hubungan antar kolom, Anda dapat menggunakan peta kepadatan. Ini akan membantu Anda memahami tingkat hubungan antara nilai-nilai.

fig = px.density_heatmap(df, x=<strong>"release_year"</strong>, y=<strong>"type"</strong>)
fig.show()
Peta kepadatan dengan Plotly

Sepertinya Netflix telah berkonsentrasi pada film dalam beberapa tahun terakhir. Anda juga dapat mencoba lebih banyak opsi dan membandingkan lebih banyak kolom untuk mendapatkan lebih banyak wawasan.

Buka Buku Catatan di Datalore

Kesimpulan

Baik Anda ingin membuat keputusan berdasarkan data atau melatih model pembelajaran mesin untuk membuat prediksi, Anda memerlukan Analisis Data Eksplorasi. Python, Pandas, dan Plotly adalah beberapa alat yang harus dimiliki untuk ini, karena memudahkan dan mempercepat penjelajahan data. Agar lebih fleksibel dan menghemat lebih banyak waktu, Anda juga dapat menggunakan Datalore, yang menyediakan berbagai alat untuk Analisis Data Eksplorasi dan alat statistik dan visualisasi yang diperlukan untuk memeriksa hipotesis Anda.

Pemrograman