DATASET : https://archive.ics.uci.edu/ml/datasets/Energy+efficiency
https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx
NAMA FILE : ENB2012_data.xlsx
768 sampel, Setiap sampel terdiri dari 8 fitur numerik yang terdiri dari faktor-faktor seperti luas permukaan, tinggi plafon, dan jenis kaca yang digunakan.
- Kolom X1 : compactness relatif dari bangunan (Relative Compactness), yang merupakan rasio antara volume bangunan dan luas permukaan eksterior bangunan.
- Kolom X2 : permukaan (Surface Area) dari bangunan.
- Kolom : luas dinding (Wall Area) dari bangunan.
- Kolom X4 : luas atap (Roof Area) dari bangunan.
- Kolom X5: tinggi keseluruhan (Overall Height) dari bangunan.
- Kolom X6 : orientasi (Orientation) bangunan. Kolom ini mengindikasikan arah pandang bangunan terhadap matahari, diukur dalam derajat dari utara dalam arah jarum jam.
- Kolom X7 : luas kaca (Glazing Area) dari bangunan.
- Kolom X8 : distribusi luas kaca (Glazing Area Distribution) pada bangunan.
- Kolom Y1 : koefisien transmisi panas (Heat Transmission Coefficient) dari bangunan, yang mengukur seberapa baik bangunan dapat menahan panas dari luar ke dalam.
- Kolom Y2 : kehilangan energi pendinginan (Cooling Load) dari bangunan, yang mengukur jumlah energi yang dibutuhkan untuk mendinginkan ruangan dalam bangunan.
Korelasi Pearson adalah salah satu metode yang digunakan untuk memilih fitur-fitur yang paling berpengaruh terhadap sebuah target pada dataset, pada contoh dataset di atas target yang ingin dicapai adalah kolom Y1 dan Y2
#korelasi pearson
import pandas as pd
# Load data from Excel file
df = pd.read_excel("https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx")
# Split data into X (independent variables) and y (dependent variables)
X = df.iloc[:, :-2]
y1 = df.iloc[:, -2]
y2 = df.iloc[:, -1]
# Calculate Pearson correlation coefficients between X and y1
corr_y1 = X.corrwith(y1, method='pearson')
# Calculate Pearson correlation coefficients between X and y2
corr_y2 = X.corrwith(y2, method='pearson')
# Create dataframe with correlation coefficients
results = pd.DataFrame({"Y1_corr": corr_y1, "Y2_corr": corr_y2})
# Sort dataframe by absolute correlation coefficient for Y1 and Y2
results = results.reindex(results["Y1_corr"].abs().sort_values(ascending=False).index)
results = results.reindex(results["Y2_corr"].abs().sort_values(ascending=False).index)
# Print results
print("Variables with highest correlation for Y1:")
print(results["Y1_corr"].head())
print("\nVariables with highest correlation for Y2:")
print(results["Y2_corr"].head())
HASIL
KORELASI PEARSON
Analisis korelasi Pearson dan Spearman
merupakan teknik statistik yang digunakan untuk mengukur kekuatan dan arah
hubungan antara dua variabel. Dalam konteks dataset Energy Efficiency, analisis
korelasi Pearson dan Spearman digunakan untuk menentukan hubungan antara
variabel masukan dan variabel keluaran.
Dalam
dataset Energy Efficiency, analisis korelasi Pearson digunakan untuk mengukur
hubungan linear antara variabel masukan dan variabel keluaran. Hasil analisis
korelasi Pearson menunjukkan bahwa 'roof area', 'overall heigh’ memiliki
korelasi yang kuat dengan variabel keluaran "heating load" dan
"cooling load".
No comments :
Post a Comment