by @秦书宝
全文约 3000 字,阅读约需 5 分钟。
.
Excel 真的是个好东西,不只是作为工具,更是作为思维方式。
今天 #铀点逻辑# 私开课答疑的时候,跟一个小伙伴聊到「要不要把生活小结和工作小结分开」的事,我就想起自己之前工作时吃过的一个大亏。
.
读研的时候,收集原始数据就是用 excel 或者 SPSS。总之数据都是二维表,原始数据一条就是几十个字段值,但大部分原始值在做实验数据分析的时候是没用的。
比如说,我可能收集了参与调查者的性别、年龄、学历、收入、16 个维度的性格得分。但实际上数据分析时,我只需要用性格得分和收入做相关,其他的不关心。所以我就会在原始数据表之外再做一个数据分析表,用数据透视的方法直接把数据拉过来。
到互联网上班的时候,我们自己做数据平台,我就回忆起读研时的这个经历,于是就在设计产品时,自己删掉了一些我觉得没用的数据字段。研发也没问,就这么把数据库做出来了。
等到产品上线,出现了一些我们没想到的现象,于是就想分析数据看看什么原因。分析的时候才发现,有的原始数据没有收集,没法分析。再排查,发现是原始数据的字段就不存在,因为我给的产品原型里就没有,研发也就没做。
我就找研发沟通,我说咱们现在加一个字段,再在线上收集一天,数据就能分析了。研发当时就爆了,「你说加字段就加字段啊,你知不知道你现在要加这个底层字段等于数据表重构」。我心想不就是 excel 加一列吗,至于嚷嚷吗,差点跟研发打起来。后来才知道,这种情况就是典型的沟通灾难。
后来我就长记性了,所有产品原型,都尽可能把细节列出来,并且把未来的构想也写出来,不管研发读不读,反正我都写上,开会的时候也强调一下。结果就正循环了,研发也主动跟我分析产品逻辑,提了很多巧妙的建议,要么提升了数据的效率,要么让现在开发的模块之后更可复用。
这是沟通的部分,在数据的部分,我觉得收获是更大的,也是更本质的。
.
不管这个原始数据有没有用,先收集,因为收集的时候不费劲,将来想用却没有的时候再费劲也晚了。这个成本和收益是不对称的,没到黑天鹅那个程度,但也仍然是显著不对称的。
回到「要不要把生活小结和工作小结分开」这个事上,其实就是数据库设计的问题:
- 1. 要记录哪些原始信息(用于之后小结);
- 2. 不同角色的员工来查看小结的时候,如何基于原始数据进行汇总;
表面上讨论的是 2,其实根源是 1。如果 1 没做好,2 就无从谈起。而只要 1 做好了,那么不光是 2,可能 3456789 都易如反掌了。这也是一个典型的 X-Y problem。
有人说你这就是个例子,怎么就成了思维方式了呢?
我在生活中和工作中都遇到过这样的情况——别人拿 excel 或者一张纸在那里记录一些原始数据,可能是装修费用,可能是生活开支,可能是员工的打卡时间——几乎所有没经过正规数据训练的人,都会出现以下几个大的问题:
- 要么,二维表不是二维表,原始记录居然不是一条一条的,而是同一张表里既有原始数据又有局部汇总,甚至在列字段(本该放原始字段值)的位置会出现多层字段。比如,同样是买菜,有几天记了肉和菜分开,有几天是混在一起,有几天又单独列了蛋……说是流水账,其实这水流相当不畅。
- 要么,原始记录不完整,最简单最直观的缺失就是少「备注」这一列。任何数据都必须有「备注」这一列,因为你不可能穷尽一组数据的维度。同样是忘了设置某个字段,备注至少能临时应急,没备注就直接丢数据了。加上「备注」就是做了冗余,为自己必然会出现的思维盲区提前做准备。
- 要么,更惨,连 MECE 都做不到,连 MECE 里的 ME 都做不到。比如说记录一组人的身份,有的人是「女高中生」,有的人是「男外卖员」,还有的人是「网红」,这数据怎么分析?
.
拿一个比较普遍的问题细说几句。
「多选题」经常被放在一列里记录,这种记录方法是完全无法做分析的,哪怕是最简单的描述统计。
比如问赵钱孙李分别喜欢哪些季节,字段值是「喜欢的季节」,那原始数据就变成了「赵-春」「钱-夏&冬」「孙-春&秋&冬」「李-春&夏」,然后你怎么统计「最受欢迎的季节」?
正确做法是直接分列 4 个原始字段,分别为「喜欢春天」「喜欢夏天」「喜欢秋天」「喜欢冬天」,如果喜欢就填上 1 或者 Y,不喜欢就填上 0 或者 N 或者干脆空着。
这样,上面的数据就变成了结构更合理的「赵-1000」「钱-0101」「孙-1011」「李-1100」。想统计最受欢迎的季节,竖向加总比大小就知道了,春夏秋冬是 3212,因此第一名是「春天」。
这时还可以做更「高级」一些的分析,比如「喜欢春天的人往往还喜欢哪个季节」「喜欢 1 个季节的人多,还是喜欢 2 个季节的人多」「如果以 2 个季节为组合,哪一种季节组合最受欢迎」。
再加上之前例子里的各种数据,就可以组合出更多变化,比如「不同年龄段的人分别喜欢哪些季节」「高收入男性与低收入男性对冬天的偏好有何不同」「低收入男女对夏天的喜欢程度是否受其人格因素影响」「外向型人格的收入水平是否影响其对季节的偏好」等等。
.
有人说你这是矫情,是为了举例强行编排。但事实上,这种思路不是为了真正做数据分析,而是为了预想「万一我没提前想到某种情况,所以导致后来无法分析数据的话,那我可能是没想到哪种奇葩的分析角度呢」。在企业管理里有一个装逼名词叫「事前验尸」,说白了就是还没开始做,先想想假如已经失败了,可能是为什么失败的。如果你从来没有在数据分析这种事上经历新的失败,那大概率是工作场景内卷了,没有新事情了。
但 excel 绝对不应该只用在工作中,在生活中也是非常有用的,甚至根本不需要实际去用,只是在脑子里进行二维表的设计,也会让人思路变得更清晰。我之前没觉得这个思维方式有多重要,直到后来发现大部分人没有这个思路,才意识到它的重要性。
这东西很难描述清楚,只能说懂的人就明白懂这个有什么好处,不懂的话,确实体会不到。不懂,又想懂,肯定要问「那我怎么学会用 excel 呢」,或者更准确的问法是「如何掌握数据分析能力」。
这个问题是没法简单回答的,就好像我可以几句话告诉你背单词很重要,但没人能几句话就让你背会单词。知道这个东西重要,接下来就是像一个本专业的大一新生一样(其实就是高中毕业生),找本经典教材开始学就好了。
.
哦,最后,本文标题瞎起的,我也想不出来这种内容应该怎么起名字比较好。
哈哈,还是有小伙伴问: 所以工作小结和生活小结要不要分开?工作记录和生活记录要不要分开?
只要用最完整的方式保留了原始记录,那么当你需要「工作记录」进行年终汇报时,直接分析提取出工作部分即可。生活记录也是同样,都只不过是原始数据的局部特定呈现而已。有人发愁写工作总结,有人不知道自己平时的时间都干了什么,是因为根本没保留原始记录呀。
SQL捡回来,我都忘记了怎么设计一个表了。
自己一直有记录自己方方面面的习惯,平时写在手机备忘录上,全部用文字形式,分个类别文件夹,直观性自然不比excel,很想尝试用exclel做出来但又要考虑到日常生活中的便捷性。有没有什么非常好用的存在多种形式(表格、文字)、又同时方便win电脑端、ios端能云编辑同步的app推荐?
我之前是用云笔记,表格就在 excel 里做好了插进去即可。现在我就直接用锡安了,所有东西随手发锡安,要公开的就公开发,不公开的就存草稿。
就是利用数据库建表思维,记录尽量全的数据,然后根据需求提取分析数据,应用到各个场景。
“最完整的方式记录”,想到之前一篇说沟通的时候总会隐去自以为不重要的信息,感觉也是这么个道理。至于记录形式,是不是可以分三栏,左工作右生活,下面就备注一些无法区分的杂想。(偏个题,没有新的失败就是内卷了,这对我这个惧怕工作出问题的职场小白来说真是醍醐灌顶)
比较通用的数据格式可能是这样的,|代表分栏:编号|日期|内容|分类|备注|…… 其中「分类」就是「工作/生活/……」可选,不需要左右分栏,那样并不方便统计汇总。
所以工作小结和生活小结要不要分开?工作记录和生活记录要不要分开?
只要用最完整的方式保留了原始记录,那么当你需要「工作记录」进行年终汇报时,直接分析提取出工作部分即可。生活记录也是同样,都只不过是原始数据的局部特定呈现而已。