#03. laptops.csv

%matplotlib inline import pandas as pd import seaborn as sns

1. 칼럼/시리즈(Series)의 unique value들을 count 해주는 함수

laptops_df['os'].value_counts()

2. groupby 함수를 이용해 해당 그룹의 개수 count하기

laptops_df.groupby(boolean1).count()

3. describe 함수

laptops_df.describe()

4. 상관계수 분석

laptops_df.corr() sns.heatmap(laptops_df.corr()) sns.heatmap(laptops_df.corr(), annot=True)

5. 산점도와 상관계수

laptops_df.plot(kind='scatter', x='price', y='clock_speed') laptops_df[['price','clock_speed']].corr()

1. os(운영체제, operating system)은 windows, linux, mac 순서로 많음

2. 여러 조건을 만족시키는 데이터 추출하기

3. 가격(price)이 제일 비싼 laptop은 Apple의 MacBook Pro(TouchBar)임을 알 수 있음

4. 가격은 40,000달러~50,000달러가 가장 많았고, 무게는 2.0kg~2.5kg가 가장 많았음

5. 상관계수 분석을 통해 상관계수>0.3 이상인 변수 중에서 4개를 골라 산점도로 나타내었으나

① price(가격)과 ram(램) -- 0.71

② price(가격)과 clock_speed(클록 속도(컴퓨터 운영 속도)) -- 0.427

② weight(무게)와 screen_size(노트북 화면 크기) -- 0.62

② clock_speed(클록 속도(컴퓨터 운영 속도))와 ram(램) -- 0.55

index 함수를 이용해 laptops_df['price'].max().index() 처럼 바로 가격이 제일 비싼 노트북의 인덱스를 출력하고 싶었으나 실패함

Pearson Correlation 상관계수 분석은 두 개의 연속형 변수 간의 관계를 분석하는데 쓰이는데 ram은 연속형 변수가 아니라서 Pearson Correlation으로는 상관관계 분석이 어렵지 않았나 하는 생각을 함 -> 다른 상관계수(??)

cf. Pandas Dataframe에서 값이 발생하는 빈도 계산하기

Pandas Dataframe에서 값이 발생하는 빈도를 계산하는 방법

Pandas 라이브러리의 df.groupby(). size()/df.groupby(). count()/Series.value_counts() 메소드를 사용하여 빈도를 계산하십시오.

www.delftstack.com

cf. correlation(상관계수)의 종류

[기초통계] correlation의 종류 (연속형 변수, 범주형 변수)

상관계수 (correlation)의 종류에 대해 알아보고, 각 데이터의 종류에 맞는 상관관계 방법에 대해 소개한다. 먼저 두개 자료의 상관관계를 비교할때 크게 3가지 케이스로 나눌 수 있다. 1. 연속형 -

dodonam.tistory.com

티스토리툴바