Contents

boxplot 해석 방법

What is Boxplot?

데이터 분석을 진행하면서 다른 분들의 분석 레퍼런스를 보며 공부하다보니 많은 분들이 boxplot을 사용하는 것을 보았습니다. 다만, 저는 그 박스가 어떤 경우에 사용하는 것인지? 어떤 의미로 그려지는 것인지? 어떻게 해석하면 좋은지? 개념이 약했기 때문에 내용을 정리해보겠습니다.

Box Plot

최댓값, 최솟값, 중앙값, 사분편차를 사용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 극단값들은 어떠한지 등을 쉽게 알 수 있도록 하는 그림이다. 자료들이 비대칭으로 분포되어 있을 경우에는 상자그림을 그려 극단값의 개수, 비대칭 여부 등을 파악할 수 있으므로 측정값들의 중심위치와 산포도의 척도로 사용할 수 있다.

출처 : [네이버 지식백과] 상자그림 [box plot, box and whisker plot] (교육평가용어사전, 2004. 5. 31., 한국교육평가학회)

👉 박스로 표현한 데이터에 4분위 값들의 분포와 특이값을 표현한 그림

어떤 경우에 Box Plot을 사용할까?

데이터 분포에 관한 정보를 얻고 싶을 때 사용.

Box Plot은 어떻게 해석해야 하는가?

사분위수?

자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당하는 값을 말한다.
제1사분위수는 누적 백분율이 25%에 해당하는 점수이고, 제2사분위수는 누적 백분율이 50%, 제3사분위수는 75%, 제4사분위수는 100%에 해당하는 점수이다.
특히 제2사분위수는 누적 백분율이 50%이므로 개념적으로 중앙값과 동일하다.

출처: [네이버 지식백과] 사분위수 [quartile] (교육평가용어사전, 2004. 5. 31., 한국교육평가학회)

중앙값?

자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값이다.
중앙값을 기준으로 자료의 반은 중앙값보다 큰 값을 갖고, 나머지 반은 중앙값보다 작은 값을 갖는다.
자료가 (4, 5, 7, 8, 10)으로 구성되어 있다면, 7보다 작은 값이 2개, 7보다 큰 값이 2개 있으므로 7이 중앙값이 된다.

자료가 (1, 3, 5, 7, 8, 9)와 같이 짝수로 구성되어 있는 경우, 가운데 있는 두 값인 5와 7의 평균으로 중앙값이 결정된다. 자료에 중복된 값이 있는 경우 중앙값 계산은 복잡해지며, 이 경우는 누적 백분율이 50%인 점을 계산하는 공식을 활용하여 중앙값을 산출할 수 있다.

출처: [네이버 지식백과] 중앙값 [median] (교육평가용어사전, 2004. 5. 31., 한국교육평가학회)