永洪社区

标题: 如何像数据科学家一样思考 [打印本页]

作者: 宫不上叔    时间: 2017-9-18 22:53
标题: 如何像数据科学家一样思考
如何像数据科学家一样思考


导读:
如今,数据分析已成为每个职场人的必备技能。当我们使用数据时,都希望自己能像专业的数据科学家一样有着严谨的数据思维。
LinkedIn 数据科学家,Monica Rogati 在《Lean Analytics》这本书中提出了数据分析常见的 “十大陷阱”。让我们认清这十大陷阱,像数据科学家一样正确的思考。

数据源没有噪声

永远不要假设你拿到的数据源是无噪声的。全面的数据检查和恰当的数据清洗是你正确使用数据的第一步,也是工作量最大的一步。
数据不准确,结论便没有可信性。如果整个团队就产品的用户增长讨论一个小时后发现,是数据源错误导致的,你可以想象老板的脸色会有多难看。

数据不做归一化
数据的绝对总量意义并不大,我们往往更关心相对比例。
举个例子,你想要通过数据分析找出十个最受欢迎的婚礼举办地。普通人的想法必然是找到举办婚礼数量排名前十的城市。但是,你很快就会发现,这十个地方多半只是十个常见的热门旅游地。由于去这些城市旅行的基数很大,于是,相应的,去那里结婚的人的总量也会比较多。
因此,正确的做法是,用在当地举办婚礼的人数除以旅行总人数,这个比例排名前十的目的地才是真正受欢迎的婚礼举办地。
随意忽略异常点
如果你发现有21个人每天访问你的网站1000次,你会怎么看?他们要么是你的超级粉丝,要么就是爬虫机器人。无论是哪一种,请不要随便忽略他们。深入分析他们,再进行恰当的处理。

将异常点包含进你的数据模型

虽然深入了解这21个异常点是必要的定性分析,但进行数据建模的时候,最好不要将他们包括进来。数据建模的目的是用现有用户行为数据预测未来,进而影响你的产品决策。异常点会破坏模型的普适性。
比方说,你想要为网站的 “猜你喜欢” 功能建模。由于超级粉丝的权重往往很高,将他们包括进来会使得推荐结果就只是忠实粉丝所喜欢的东西。
忽略数据的季度性

“最近 实习生 的搜索量怎么这么大?难道发生了什么新鲜事?” “等等,原来现在是六月份 — 实习生招聘季 ”。
所有的产品用户数据都有季度性,流量往往和节假日紧密相关。在阅读数据时,如果不注意这些趋势,你会做出错误的数据决策。

抛开基数谈增长

关注增长总量的时候一定不能忘记了它的基数。在产品刚上线的时候,每天的用户增量不会太多,但是按比例来看,却会轻松翻倍。相应的,当你的产品有了一定的规模之后,每天的用户增量很大,但是增长比例却不一定很高。

数据会说话
当你面对一张数据报表的时候,如果你不懂业务逻辑,不清楚你想要解决的问题,你将会一脸茫然,完全不知道该看哪里。
数据不会说话。只有带着你的大脑去看数据,数据才会说话。

数据异常假警报

为了更好的监控数据,你一定会设置一些警报。好让数据出现异常的时候可以提醒你。
但是,请主意,如果你设置的阈值太敏感,你会被提醒邮件所淹没。到最后,你就会习惯性的忽略数据异常了。
只关心手头的数据

当你手中有了一定量数据之后,你的思维往往会产生局限性,将分析的重点只放在这有限的数据上。而数据科学家往往能够打开思路,引入其他数据来源,进行更深入的分析。
比如,你通过分析数据发现,粉丝用户多来自于北京的某一个区域。接下来,你该怎么拓展思路呢?你应该想办法去找到有关这一区域的更多数据。接着你就会发现,这一带也是寿司餐馆的集中地。
新的数据源会让你发现更多关联,激发你的新点子。

关注噪点

在做数据分析时,数据噪点总是能够吸引我们的注意力。因为他们在数据报表中总是特别抢眼。但是切记不要把精力过多放在上面。
如果你在一堆数据里找不到规律,那么它就是没有规律。这个时候,最应该做的事情是,抽身出来,从全局的角度去看数据。

本文由知乎@徐小圈 投稿
知乎主页:https://www.zhihu.com/people/xu-xiao-quan-64-63/


本文转自微信公众号:小蚊子数据分析,作者:徐小圈
文章原链接为: https://mp.weixin.qq.com/s/9EU0i-BPxBw_299BNIwLjQ

作者: Mr.Zhang    时间: 2017-10-17 17:19
马克留名
作者: Rachi    时间: 2017-10-17 19:23
Mr.Zhang 发表于 2017-10-17 17:19
马克留名

为啥要马克~




欢迎光临 永洪社区 (https://club.yonghongtech.com/) Powered by Discuz! X3.4