Tuesday, March 21, 2023

Korelasi Pearson untuk Memilih Fitur yang Paling Berpengaruh

DATASET : https://archive.ics.uci.edu/ml/datasets/Energy+efficiency
https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx

NAMA FILE : ENB2012_data.xlsx

768 sampel, Setiap sampel terdiri dari 8 fitur numerik yang terdiri dari faktor-faktor seperti luas permukaan, tinggi plafon, dan jenis kaca yang digunakan.


  1. Kolom X1 : compactness relatif dari bangunan (Relative Compactness), yang merupakan rasio antara volume bangunan dan luas permukaan eksterior bangunan.
  2. Kolom X2 : permukaan (Surface Area) dari bangunan.
  3. Kolom : luas dinding (Wall Area) dari bangunan.
  4. Kolom X4 : luas atap (Roof Area) dari bangunan.
  5. Kolom X5: tinggi keseluruhan (Overall Height) dari bangunan.
  6. Kolom X6 : orientasi (Orientation) bangunan. Kolom ini mengindikasikan arah pandang bangunan terhadap matahari, diukur dalam derajat dari utara dalam arah jarum jam.
  7. Kolom X7 : luas kaca (Glazing Area) dari bangunan.
  8. Kolom X8 : distribusi luas kaca (Glazing Area Distribution) pada bangunan.
  9. Kolom Y1 : koefisien transmisi panas (Heat Transmission Coefficient) dari bangunan, yang mengukur seberapa baik bangunan dapat menahan panas dari luar ke dalam.
  10. Kolom Y2 : kehilangan energi pendinginan (Cooling Load) dari bangunan, yang mengukur jumlah energi yang dibutuhkan untuk mendinginkan ruangan dalam bangunan.

Korelasi Pearson adalah salah satu metode yang digunakan untuk memilih fitur-fitur yang paling berpengaruh terhadap sebuah target pada dataset, pada contoh dataset di atas target yang ingin dicapai adalah kolom Y1 dan Y2


#korelasi pearson
import pandas as pd

# Load data from Excel file
df = pd.read_excel("https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx")

# Split data into X (independent variables) and y (dependent variables)
X = df.iloc[:, :-2]
y1 = df.iloc[:, -2]
y2 = df.iloc[:, -1]

# Calculate Pearson correlation coefficients between X and y1
corr_y1 = X.corrwith(y1, method='pearson')

# Calculate Pearson correlation coefficients between X and y2
corr_y2 = X.corrwith(y2, method='pearson')

# Create dataframe with correlation coefficients
results = pd.DataFrame({"Y1_corr": corr_y1, "Y2_corr": corr_y2})

# Sort dataframe by absolute correlation coefficient for Y1 and Y2
results = results.reindex(results["Y1_corr"].abs().sort_values(ascending=False).index)
results = results.reindex(results["Y2_corr"].abs().sort_values(ascending=False).index)

# Print results
print("Variables with highest correlation for Y1:")
print(results["Y1_corr"].head())

print("\nVariables with highest correlation for Y2:")
print(results["Y2_corr"].head())

HASIL


dari hasil tersebut dapat dilihat bahwa fitur yang paling berpengaruh terhadap Y1 dan Y2 adalah fitur X4 (Roof Area) dan X5 (
Overall Height)

KORELASI PEARSON

Analisis korelasi Pearson dan Spearman merupakan teknik statistik yang digunakan untuk mengukur kekuatan dan arah hubungan antara dua variabel. Dalam konteks dataset Energy Efficiency, analisis korelasi Pearson dan Spearman digunakan untuk menentukan hubungan antara variabel masukan dan variabel keluaran.

Dalam dataset Energy Efficiency, analisis korelasi Pearson digunakan untuk mengukur hubungan linear antara variabel masukan dan variabel keluaran. Hasil analisis korelasi Pearson menunjukkan bahwa 'roof area''overall heigh’ memiliki korelasi yang kuat dengan variabel keluaran "heating load" dan "cooling load".



No comments :

Post a Comment