1. 코드
%matplotlib inline import pandas as pd import seaborn as sns
1. countplot을 이용해 그룹별로 count
sns.countplot(x="Artist", data=albums_df)
2. kdeplot
sns.kdeplot(albums_df['Year'])
3. violinplot
ax = sns.violinplot(x="Year", y="Genre", data=albums_df)
2. 발견한 인사이트
1. 가장 많은 음원을 낸 가수는 'The Rolling Stones', 'The Beatles', 'Bob Dylan', 'Bruce Springsteen', 'The Who', 'Radiohead', 'David Bowie', 'Various Artists', 'Elton John', 'Led Zeppelin' 순서임을 알 수 있음
2. 가장 많은 음원이 발표된 해는 1970년대임을 알 수 있음
3. 연도별 가장 많이 발표된 음원 장르를 파악하려 했지만 데이터가 많아 파악하기 어려웠음 -> 1910s, 1920s,... 이렇게 묶어야 되나(??)
4. 가장 많이 발표된 음원 장르 10개는 'Rock', 'Funk/Soul', 'Hip Hop', 'Electronic, Rock', 'Rock, Pop', 'Rock, Blues', 'Folk, World, & Country', 'Rock, Folk, World, & Country', 'Blues', 'Jazz' 임을 알 수 있음
3. 한 줄 평가
- 항목이 많은 경우에 그래프로 나타내면 항목 이름이 겹쳐서 제대로 보이지 않는 경우에 해결하는 방법을 알고 싶음
- 장르별로 ', ' 나 '/', '&' 기준으로 split 해서 그룹화하고 싶었으나 그러기에는 데이터의 특성이 사라지는 것 같아 더 나은 방법을 알고 싶음
- 연도별 주로 발표된 음원 장르 시각화(??)
+++
5. 10년씩 묶어서 그래프로 나타낸 결과
-> 2보다 정확하게 연도별 발매 음원 수를 파악할 수 있음
-> 연도별로 주로 발매된 음원 장르
-> 1950년대 데이터도 10개밖에 없어 유의미한 결과를 얻어내기에는 데이터가 부족하지만 주로 'Jazz', 'Blues' 음악이 많았음을 알 수 있음
-> 1960년대는 'Rock', 'Rock, Blues', 'Funk / Soul'이 많음
-> 1970년대는 'Rock', 'Funk / Soul', 'Rock, Pop'이 많음
-> 1980년대는 'Rock', 'Hip Hop', 'Funk / Soul, Pop', 'Rock, Pop'이 많음
-> 1990년대는 'Rock', 'Hip Hop', 'Electronic, Rock'이 많음
-> 2000년대는 'Rock', 'Hip Hop', 'Electronic, Rock'이 많음
-> 2010년대는 데이터가 2개밖에 없어서 유의미한 결과를 얻어내기에는 데이터가 부족함
-> 연도별로 새로 생겨난 장르나 가장 많이 발매된 음원 장르 3개의 변화를 그래프로 시각화하는 방법(??)
'DA' 카테고리의 다른 글
#17. occupations.csv (0) | 2021.07.21 |
---|---|
#16. museum_1.csv / museum_2.csv / museum_3.csv (0) | 2021.07.21 |
#14. salaries.csv (0) | 2021.07.20 |
#13. insurance.csv (0) | 2021.07.20 |
#12. starbucks_drinks.csv (0) | 2021.07.20 |