BSA06_WordCloud.ipynb 패키지 호출 import matplotlib.pyplot as plt import matplotlib from wordcloud import WordCloud ## !pip install nltk, konlpy import nltk import konlpy from konlpy.tag import Okt ## koNLPy의 형태소 분석기와 NLTK의 Text 클래스를 결합하여 NLTK 기능을 사용 from nltk import Text import numpy as np from PIL import Image 데이터 불러오기 및 한글 처리 독립선언 = open('독립선언서.txt',encoding='utf-8').read() matplotlib.rcParams["fo..
BSA06_Pyspark-EDA.ipynb 패키지 호출 및 스파크 세션 시작하기 from pyspark.sql import SparkSession 스파크 = SparkSession.builder.appName('Dataframe').getOrCreate() 스파크.conf.set("spark.sql.execution.arrow.pyspark.enabled","true") 데이터 불러오기 # 그냥 읽어들이면 데이터를 다 문자로 인식함 DF스파크 = 스파크.read.option('encoding','cp949').option('header','true').csv("Employee.csv") DF스파크.show() # Check the Schema DF스파크.printSchema() # inferSchema=..
BSA06_Pandas-EDA.ipynb 패키지 불러오기 import pandas as pd import seaborn as sns 데이터 불러오기 팁 = sns.load_dataset('tips') 팁.head() 기본적 통계 # 수치자료 팁.describe() # 범주형 데이터에 대해서도 요약을 보고 싶으면 include = 'all' 추가 팁.describe(include="all") 팁['sex'].value_counts() 팁[['sex','smoker','day','time']].value_counts() 팁[['sex','smoker']].value_counts() # 상관계수 팁.corr() 그룹별 분석 # 그룹별 평균 팁.groupby('sex').mean() 팁.groupby('sex'..
BSA03_Dashboard-CO2.ipynb 패키지 불러오기 import pandas as pd import numpy as np import panel as pn import hvplot.pandas pn.extension("tablulator",css_files=[pn.io.resources.CSS_URLS['font-awesome']]) df = pd.read_csv("D:\Bigdata\owid-co2-data.csv") 데이터 전처리 # 변수명 변경 df.rename(columns = {'co2':'CO2','co2_per_capita':'인당CO2','country':'국가','year':'연도'},inplace=True) df.rename(columns = {'coal_co2':'석탄','..
BSA06_Data-Visualization-Libraries.ipynb 패키지 불러오기 import pandas as pd import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns from bokeh.plotting import figure from bokeh.io import output_notebook, push_notebook, show from bokeh.layouts import layout from bokeh.models import Div, RangeSlider, Spinner from bokeh.plotting import figure, show import plotly...
BSA06_Matplotlib-Korean.ipynb 패키지 불러오기 import matplotlib.pyplot as plt import matplotlib 한글 처리 방법 1. C:\Windows\fonts에 있는 한글 폰트 사용 matplotlib.rc('font',family ='NanumGothic') plt.plot([1,2,3],[4,5,8]) plt.xlabel("문자") 2. matplotlib에서 관리하는 폰트 폴더에 있는 한글 폰트 사용 # 위치 확인 print(matplotlib.matplotlib_fname()) matplotlib.rcParams["font.family"] = 'NanumGothic' plt.plot([1,2,3],[4,5,8]) plt.xlabel("문자")