본문 바로가기
반응형

seaborn4

[seaborn, pandas] boxplot에 대한 관찰 어떤 데이터를 어떻게 표현해주는게 좋을까? 관찰 - boxplot 이번엔 boxplot에 대해서 관찰해보겠습니다. seaborn과 판다스에는 데이터를 boxplot으로 시각화하는 함수가 내장되어 있다. 그럼 그리는건 좋은데 무엇을 boxplot으로 그려야할지 난감할 때가 많다. 무조건 먼저 그려버리고 데이터의 특성이 잘 나타내는지 지켜보는것이 시각화의 방법일까? 머릿속으로 먼저 데이터를 파악한 후에 머릿속에 그려지는 차트를 표현하는것이 가장 좋은 방법일거 같다. 그럼 boxplot에 대해서 어떤 특성을 가지고 있는지 확인할 필요가 있어 보인다. 그럼 간단하게 np.array를 만들어 boxplot을 그려봅시다 values = np.array([1,3,4,5,6,8,10,14,16,20]) values s.. 2020. 9. 15.
pandas 시각화 - 결측치를 시각화 해보자 [seaborn, missingno] 결측치는 머신러닝을할때나 딥러닝을 할 때 가장 고민스러운 결측치 즉, 비어있는값을 어떤 값으로 채울지 입니다. 보통 경험상 결측치를 채우는 방법은 아래 방법으로 많이 합니다. 숫자형일경우, mean, std, midian이런 수치로 많이 채우게 됩니다. 문자열같은 경우 가장많이 나오는 건수의 문자열로 채워주기도 합니다. 하지만 데이터마다 채워야하는 정보는 다를수 있기 때문에 본인이 판단해서 채워야 합니다. 그럼 우리는 결측치가 데이터셋에 얼만큼있는지 판별하기 위한 시각화 방법을 알려드리겠습니다. 크게 2가지 방법을 알려드리겠습니다. 기본 pandas및 seaborn으로 시각화 missingno를 이용한 시각화 (아주 간편) 그럼 먼저 pandas 및 seaborn을 이용한 시각화를 해보겠습니다. 필요한 .. 2020. 9. 15.
[데이터 시각화] seaborn scatter (산점도의 이해) Scatter plot scatter (산점도)는 수치와 수치를 비교할때 사용한다. 즉, float, float를 비교한다 생각하면 좋을거 같다. 초보자가 가끔하는 어뚱한짓은 x축이나 y축을 int, 카테고리 컬럼등등을 써서 비교하는 경우가 있는데 이는 아마도 이상한 모양이 나올 확률이 높다. 다시 말해서 scatter plot은 두변수가 수치형일경우 적합한 차트라고 이해하면 좋을거 같다. 하지만 scatter의 차트 기능을 통해 수치형을 비교후 범주형(카테고리)데이터를 비교분석 할 수 있다. 아래에서 편의상 scatterplot과 relplot을 혼횽했지만 둘다 scatter를 표현하는 차트라고 이해하면 된다. relplot은 scatter기능에서 추가로 카테고리별 차트기능을 그려주는데 이는 이번 실습.. 2020. 9. 12.
matplotlib 기본설정 (한글깨짐, 음수깨짐, 레티나, 테마 지정) import seaborn as sns import matplotlib.pyplot as plt from matplotlib import style import pandas as pd #plot테마를 지정한다. style.use('ggplot') or plt.style.use('ggplot') plt.style.use('fivethirtyeight') #한글 폰트 맑은고딕을 사용한다. plt.rc('font', family='Malgun Gothic') #음수표현이 깨지지 않도록 한다. plt.rc('axes', unicode_minus=False) #plt.rc('font', family='AppleGothic') from IPython.display import set_matplotlib_format.. 2020. 9. 12.
반응형