BSA05-Housing-Project.ipynb 필요한 패키지 import pandas as pd import pyspark from pyspark.sql import SparkSession from sklearn.preprocessing import OneHotEncoder from sklearn.impute import KNNImputer from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression import statsmodels.api as sm import matplotlib.pyplot as plt import folium 스파크 세션 시작 및 데이터 불러오기 스파크 =..
BSA05_Dim-Reduction.ipynb 필요한 패키지 # !pip install scikit-learn import sklearn # print(sklearn.__version__) : 0.23.0 이상인 버전 사용 from numpy import mean from numpy import std import statsmodels.api as sm from sklearn.datasets import make_classification from sklearn.model_selection import cross_val_score # 모형이 잘 적합했는지 점수로 확인 from sklearn.model_selection import RepeatedStratifiedKFold from sklearn.line..
BSA05_Imbalanced-Resampling.ipynb 필요한 패키지 # !pip install imblearn from imblearn.over_sampling import SMOTE from imblearn.under_sampling import NearMiss from imblearn.under_sampling import RandomUnderSampler import pandas as pd 데이터 불러오기 및 전처리 카드자료 = pd.read_csv('creditcard.csv') 카드자료.info() # dtype 'int64'를 dtype 'category'로 변경 카드자료["Class"] = 카드자료["Class"].astype('category') # 메모리 축소를 위해 dtype '..
BSA05_Combine-DataFrame.ipynb 필요한 패키지 import pandas as pd import pyspark from pyspark.sql import SparkSession python에서 데이터 결합 side-by-side (axis=1) : merge or join join은 제거될 예정 stacking (axis=0) : concat or append append는 제거될 예정 1. 위아래로 결합 (axis=0 : stacking) # 데이터 불러오기 df1 = pd.read_csv("./combinedata/data1.csv") # 현재 폴더(.) 안의 폴더(combinedata) 안의 데이터 df2 = pd.read_csv("./combinedata/data2.csv") ..
BSA05_Pyspark-Missing-Values.ipynb 필요한 패키지 from pyspark.sql import SparkSession from pyspark.ml.feature import Imputer from pyspark.sql.types import StringType 스파크 세션 시작 및 데이터 준비 # 'Missing'이라는 이름의 스파크 세션 시작 스파크 = SparkSession.builder.appName('Missing').getOrCreate() # 메모리 문제 발생 시 해결하기 위한 코드 스파크.conf.set("spark.sql.execution.arrow.enabled", "true") # 데이터 불러오기 ## utf-8 형태로 저장되어 있다면 encoding="cp94..
BSA05_Missing-Value.ipynb 필요한 패키지 import pandas as pd import numpy as np 결측값 제거 행 제거 : 관측값 제거 결측자료 = pd.read_csv("Employee_missing.csv", encoding="cp949") # 결측자료의 수 확인 결측자료.isna().sum() # 결측값이 하나라도 있는 경우 제거 결측자료.dropna(axis=0).head() # 모든 자료가 결측값이면 제거 : how='all', default='any' # default='any' : 결측값이 하나라도 있는 행 제거 결측자료.dropna(how='all').head() # 결측값이 아닌 개수가 k개 미만이면 제거 k=5 결측자료.dropna(thresh=k).he..