1. 코드
%matplotlib inline import pandas as pd import seaborn as sns
1. 칼럼/시리즈(Series)의 unique value들을 count 해주는 함수
laptops_df['os'].value_counts()
2. groupby 함수를 이용해 해당 그룹의 개수 count하기
laptops_df.groupby(boolean1).count()
3. describe 함수
laptops_df.describe()
4. 상관계수 분석
laptops_df.corr() sns.heatmap(laptops_df.corr()) sns.heatmap(laptops_df.corr(), annot=True)
5. 산점도와 상관계수
laptops_df.plot(kind='scatter', x='price', y='clock_speed') laptops_df[['price','clock_speed']].corr()
2. 발견한 인사이트
1. os(운영체제, operating system)은 windows, linux, mac 순서로 많음

2. 여러 조건을 만족시키는 데이터 추출하기

3. 가격(price)이 제일 비싼 laptop은 Apple의 MacBook Pro(TouchBar)임을 알 수 있음

4. 가격은 40,000달러~50,000달러가 가장 많았고, 무게는 2.0kg~2.5kg가 가장 많았음

5. 상관계수 분석을 통해 상관계수>0.3 이상인 변수 중에서 4개를 골라 산점도로 나타내었으나

① price(가격)과 ram(램) -- 0.71

② price(가격)과 clock_speed(클록 속도(컴퓨터 운영 속도)) -- 0.427

② weight(무게)와 screen_size(노트북 화면 크기) -- 0.62

② clock_speed(클록 속도(컴퓨터 운영 속도))와 ram(램) -- 0.55

3. 한 줄 평가

- 특정 조건을 만족하는 데이터의 개수를 count 함수를 이용해 세어보려고 했으나 실패함 (모든 칼럼에 해당 개수가 나옴)

- index 함수를 이용해 laptops_df['price'].max().index() 처럼 바로 가격이 제일 비싼 노트북의 인덱스를 출력하고 싶었으나 실패함
- Pearson Correlation 상관계수 분석은 두 개의 연속형 변수 간의 관계를 분석하는데 쓰이는데 ram은 연속형 변수가 아니라서 Pearson Correlation으로는 상관관계 분석이 어렵지 않았나 하는 생각을 함 -> 다른 상관계수(??)
- 변수간 상관계수(corr)도 오름차순 정렬이나 max값을 출력하고 싶었으나 실패함
cf. Pandas Dataframe에서 값이 발생하는 빈도 계산하기
Pandas Dataframe에서 값이 발생하는 빈도를 계산하는 방법
Pandas 라이브러리의 df.groupby(). size()/df.groupby(). count()/Series.value_counts() 메소드를 사용하여 빈도를 계산하십시오.
www.delftstack.com
cf. correlation(상관계수)의 종류
[기초통계] correlation의 종류 (연속형 변수, 범주형 변수)
상관계수 (correlation)의 종류에 대해 알아보고, 각 데이터의 종류에 맞는 상관관계 방법에 대해 소개한다. 먼저 두개 자료의 상관관계를 비교할때 크게 3가지 케이스로 나눌 수 있다. 1. 연속형 -
dodonam.tistory.com
'DA' 카테고리의 다른 글
#06. world_cities.csv (0) | 2021.07.16 |
---|---|
#05. toeic.csv (0) | 2021.07.16 |
#04. liverpool.csv (0) | 2021.07.16 |
#02. iphone.csv (0) | 2021.07.15 |
#01. hyundee.csv / samsong.csv (0) | 2021.07.15 |