我不喜爱把箱形图说得像本教科书,你不用顺着我的手指头读,那玩意儿忒死板了。你只需求脑子里有个念头就想画出来,剩下的交给纸。画箱形图实际上就是画个底,然后往上面蹦出几个数据点,再挑出来做个总结。 画底就是画个底座。
不用画得像个高台,就找个一般/平平的矩形框就行。
这个框里要留两个地方,左边留左边框,右边留右边框,中间留中间框。
要是数据特别大,中间框能够横着画,但要是数据特别小,那就竖着画,反正只要框得住就行。
这个框就是箱的骨架,哪位也不能把它弄坏了。 往上蹦就算作“弹”要么“跳”吧,反正别让人说你是死板地按一下。你得让这些点跳出框,并且中间得隔开一段距离。
这段距离叫“中位数的距离”。
如何算?找中间那根线,那是中位数,就是那些线里中间那个。
然后从这根线向两边量,让你跳出去的距离。
要是数据是 10、40、30、50、60、80、30、20,那中位数大约是 40。你让一个点跳到 40 上面 10 个格,另一个点跳到 40 再上面 20 个格,这样中间就空出一段路。 哪位也不许让相邻的两个点挨得忒近,要不就那俩点离得特近。
比如两个点,一个在 40,一个在 42,中间那根线离它们忒远了,那就连不起来,得让它们离得近一点,要么干脆让它们直接连成一条线。 选个能代表整体数据的点,也就是个代表值。你能够随意挑一个,比如整个图最高的那条线,要么最低的那条线,反正是为了撇脱路标之类的。你把这个代表值标在框的中间,然后往上下各引两条线。
这两条线就是“四分位数”和“百分位数”。 百分位数是啥?百分位就是第 10、20、30……这些个位置。
比如百分位是 40,那这条线就是从第 40 百分位到第 60 百分位。四分位数就是第 25、75 百分位。好办说,就是一半的人在这条线下面,一半的人在这条线上面,这中间围起来就是箱体。 那中间箱子里面还有啥?有个叫“中位数”的线,就是中间那条线。
这个线得贯穿整个箱体,你要看到它从下往上跑,要么从下往右跑。它把箱体分成两半,左半边的数据少,右边数据多,要么反过来。但它不是代表值,它只是代表中间位置。 箱体里还有两个柱子,一个高的,一个矮的。矮的那个叫下四分位数柱子,高的那个叫上四分位数柱子。它们要立在箱体里。中间那段距离叫“上下四分位数间距”。
这段间距要是能容纳下中位数,那就行。
要是这段间距忒长了,中位数就飘出去了,得把它拉回来,要么干脆让上下柱子重新画。 画好了这些,要看看分布咋样。
要是数据是正态分布,那箱子里的柱子应当差不多高,中间那条线也得居中。
要是数据是偏态分布呢?比如长尾分布,那高柱子会缩,矮柱子会胖,中间线可能偏右。
这时候你就得把中位数移到中间,把高柱子缩回去,矮柱子缩胖点,让它们看起来对称点。 最终别忘了去那代表值上做个记号。你能够画个十字,标记一下这个点的值。还要在图表旁写上标题,写上“箱形图”,写上“数据分布”,写上几个数字,比如“范围是 10 到 100"。别啥都没写,那样人家一看就不知道你是干啥的,要么你连个名字都没写,显得忒随意。 实际上画箱形图挺有意思的,你不用管它会不会被老师骂,也不用管它会不会被评委挑三拣四。你只管把它画好就行。
要是画错了,改改那个代表值,要么把中位数拉回来,要么把柱子的间距调小,总而言之只要数据是对的,图就对了。你慢慢来,别急眼,这图画出来就算是篇论文,比啥都强。 你画的时候也别忒拘谨,线条不要画得忒直,略微加点弧度,显得没那么机械。数据点也不要画得忒碎,聚起来一点,显得更有感觉。你就连能够在箱体里画个网格线,让数据点落在格子里,这样看起来更规整。 最终,别忘了在图下方留个空白,写上你的分析结论。别写“数据表明……"这种套话,直接写“数据聚拢在 40 到 50 之间,主要聚拢在 40 到 45 这个区间,说明……"。你越简洁,越有感觉。你不用在图上画忒复杂的公式,也不要解释忒多原理。你只需求把最关键的信息画出来,剩下的留给你的解读。 总而言之,箱形图就是个容器,用来装数据的。你把它画得有趣点,画得明明白白,你就能在考试里脱颖而出。