Secara umum, data diklasifikasikan menjadi data numerik dan data kategorik. Dari namanya sudah terlihat, numerik artinya data tersebut terdiri dari angka-angka, misal tinggi badan, berat badan, dll. Sedangkan variabel kategorik berisi kategori / golongan tertentu, seperti jenis kelamin dan tempat tinggal.
Pada artikel, fokusnya adalah data numerik dan bagaimana data numerik saling berkorelasi atau berhubungan satu sama lain.
Bagaimana Data Numerik Saling Berkorelasi?
Misalkan dilakukan pengukuran berat badan dan jumlah makanan yang dikonsumsi pada 40 anak. Misalkan anak pertama makan 2 centong nasi dan memiliki BB 25kg. Kemudian anak kedua makan sehari 3 centong nasi dan memiliki BB 32 kg.
Secara sederhana, terlihat bahwa ketika jumlah makanan yang dimakan meningkat, maka berat badan pun meningkat, dan sebaliknya. Artinya, data atau variabel jumlah makan berkorelasi dengan berat badan.
Analisis di atas tentu saja tidak bisa digunakan untuk analisis data real yang jumlahnya sangat banyak. Apalagi pada kasus tertentu tidak selalu begitu hubungannya. Misalkan dari 10 anak, bisa saja 8 anak berat badannya sesuai dengan jumlah makanannya. Sedangkan yang 2 anak tidak begitu. Makan banyak tapi berat badannya tetap saja rendah, dan sebaliknya.
Karena itu, dalam melihat korelasi data harus dilihat secara keseluruhan tidak bisa parsial. Dan dalam mengecek korelasi beberapa cara di bawah ini bisa digunakan.
Melihat Korelasi Data Menggunakan Grafik
Melihat korelasi data menggunakan grafik biasanya dilakukan menggunakan grafik berjenis scatter plot. Scatter plot dilakukan dengan menempatkan salah satu variabel data pada sumbu x, dan data lainnya pada sumbu y, kemduian ditarik garis pada masing-masing posisi dan bertemu pada satu titik.
Grafik di bawah ini adalah scatter plot hubungan antara waktu olah raga dengan berat badan. Tentu saja data ini bukan data asli, tapi data dummy, untuk sekedar belajar saja, agar lebih mudah memahami bagaimana data saling memiliki korelasi.
Data waktu olahrga berada pada sumbu x dan berat badan pada sumbu y. Masing-masing titik pada grafik bisa diinterpretasikan menggunakan aturan, semakin posisi titik ke kanan, maka semakin besar waktu olahraga. Semakin ke atas suatu titik, maka semakin berat ketika ditimbang.
Dari Grafik ini, kita bisa melihat secara umum bahwa, semakin ke kanan posisi titik, maka semakin ke bawah posisinya. Artinya, semakin banyak waktu dihabiskan untuk berolahraga, maka semakin langsing orang tersebut.
Walaupun ada juga data yang posisinya di kiri tapi lumayan di bawah juga. Artinya orang ini tidak banyak olahraga, tapi tetap langsing, ga umum kan? Atau ada juga yang sudah banyak olahraga tapi, masih tetap berat. Data-data yang tidak umum seperti ini disebut sebagai "outlier", akan kita bahas pada artikel yang lain.
Intinya, dari grafik di atas, terlihat pola umum dari data waktu olahraga dan berat badan. Korelasi antara dua data tersebut adalah semakin lama waktu olahraga maka orang akan semakin langsing (berat badan rendah)
Kelebihan dan Kelemahan Korelasi dengan Visualisasi
Melihat korelasi data menggunakan visualisasi lebih mudah dipahami terutama bagi orang awam yang tidak terlalu paham teknis. Misalkan sedang presentasi di depan direktur, terus bilang ini korelasi datnaya 0.8 pak, so what? Apa artinya?
Beda dengan menggunakan grafik, apalagi grafiknya bagus dan eye catching. Sebagai presenter kita bisa menjelaskan dengan santai, misal ini grafiknya naik seperti gunung, artinya ketika satu data naik maka data yang lain naik.
Penjelasan di atas akan lebih mudah diterima daripada hanya menunjukkan angka. Apalagi, angka kan gitu-gitu saja tidak bisa dibuat agar eye catching.
Kelemahannya adalah tidak bisa menentukan korelasi secara akurat. Padahal akurasi data korelasi akan berpengaruh pada proses yang lain, misalkan ketika ingin membangun model machine learning.
Bisa jadi walaupun terlihat memiliki korelasi yang bagus, ternyata tidak bagus-bagus amat korelasinya. Apalagi jika banyak data yang tidak umum atau outlier.
Penentuan korelasi data yang lebih akurat dapat dilakukan menggunakan nilai dan dihitung secara matematis.
Menghitung Korelasi Data Secara Matematis
Cara adalah cara yang paling akurat dalam menentukan nilai korelasi. Walaupun ada beberapa rumus untuk menghitung korelasi, nilainya akan mirip dan tidak terlalu jauh berbeda.
Nilai korelasi berkisar antara 0 - 1, dimana semakin mendekati 1 maka semakin bagus korelasinya. Setidaknya harus lebih dari 0.7 hingga korelasi dikatan bagus.
Nilainya pun bisa plus atau minus. Nilai korelasi data 0.7 dan -0.7 sama bagusnya, bedanya hanya yang satu berkorelasi positif dan yang satu berkorelasi negatif. Apa bedanya? Nanti akan dibahas pada artikel yang lain.
Penghitungan loefisien korelasi dapat dilakukan menggunakan beberapa rumus. Tapi untuk saat ini, biar gampang gunakan method .corrcoef() pada numpy.
1 import numpy as np
2
3 correlation = np.corrcoef(x, y)
4 print(correlation)
out:
[[1. -0.6757]
[-0.6757 1.]]
Script di atas adalah ilustrasi untuk menghitung koefisien korelasi menggunakan numpy. Variabel x dan y adalah array dari data yang dihitung korelasinya. Variabel tersebut digunakan sebagai input pada method .corrcoef() dari numpy.
Ketika diprint, maka muncul output sebuah matriks atau numpy array. Angka 1 menunjukkan korelasi variabel dengan variabel itu sendiri. Yang harus dilihat adalah angka di pojok kanan atas dan kiri bawah, angkanya sama.
Angka tersebut adalah koefisien korelasi antara variabel x (Jumlah waktu olahraga) dan variabel y (berat badan). Nilainya mutlaknya hampir mendekati 0.7, jadi korelasinya cukup baik.
Kemudian nilianya negatif (-), artinya korelasinya bersifat terbalik. Tentu saja sesuai, karena normalnya semakin lama berolahraga, justru berat semakin turun.
Karena korelasinya yang cukup baik, waktu olahraga dapat digunakan untuk memprediksi berat badan. Karena variabelnya bersifat numerik, maka bisa digunakan metode machine learning seperti regresi sebagai modelnya.
Kesimpulan
Korelasi antar data dapat dilihat menggunakan metode visualisas, menggunakan scatter plot, maupun dengan koefisien korelasi.
Korelasi secara visualisasi lebih mudah dipahami dan diprentasikan pada orang awam. Tetapi tidak bisa mengetahui secara akurat bagaimana korelasinya.
Korelasi data dengan koefisien korelasi lebih akurat, dan bagus digunakan untuk proses pengolahan data.
Posting Komentar untuk "Korelasi Data Numerik dan Interpretasinya"