01 Microsoft Excel
excel做数据分析想必大家都再熟悉不过了吧
02 Python
虽说Python是一种面向对象、解释型计算机程序设计语言,本身的数据分析功能并不强,但它是开源而且免费的。
Python的“平台模式”带来了大量的充满热情的用户,用户越多,软件的生命力就越强,发展也越快,这可以看作是软件生态的“人口红利”。
优点:
开源且免费
当下最热门的数据分析工具,用户多经验多,寻求帮助也容易很多
拥有强大的分析库
爬虫能力特别优秀,适合做网络数据采集
“即使不懂原理也能调用复杂高级算法”
相对比较友善,对于想写几行代码的非专业人士是比较好的选择
缺点:
emmm......在我看来Python并没有什么大的缺点。像哪些版本兼容问题、内存消耗大等都不算是大的问题。如果要从技术上来说:
由于Python的各类工具过于强大,很多时候一个算法可以在好几个库里找到函数,然后就容易把自己搞晕
毕竟不是鼠标点点菜单就能生成分析结果的界面式工具,还是要一行行敲代码的,或多或少有一点技术要求。
03 R
R和Python都属于“平台模式”——来自世界各地的开发者都可以贡献自己开发的工具包。但R语言更像是综合性较强的一类数据分析工具
江湖传言,“会用R是成为一名成熟的数据分析师的重要标志。”因为只要入了门,R的功能就能很大程度地帮助使用者实现各种数据分析需求。
优点:
依然是免费且开源
专业,专业,专业,科研前沿的大神用R的比用Python更多
各行各业有专业的工具库,模块十分齐全
界面能力很不错
灵活性很强,甩SPSS好几条街
缺点:
专业度高,学习难度也高
对数学基础有一定要求,所以像我这种文科出身,看到算法就头疼的,不太建议
因为R语言是开源的,谁都可以上传数据包,如果分不清可能用到不靠谱的数据包
对于没有数学和编程基础的新手小白,不建议从R入手,容易变成入门到放弃。
分享几个学习资料:
Python
Python基础编程,Magnus Lie Hetland;
像计算机科学家一样思考Python,Allen B. Downey;
官方文档,包括其他常用数据分析module的官方文档(很多教程就是根据官方文档改编过来的);
R
R语言实战,Robert I. Kabacoff
Advanced R,Hadley Wickha
04 BI
严格来说,BI并不完全等于数据分析,BI与数据分析是有共同交集的两个领域。数据分析是BI的一个重要组成部分,BI是数据分析的一个典型应用。
BI是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。数据仓库、报表查询、数据分析、数据挖掘、数据可视化等。
像题主所说的帆软BI工具,数据透视、图表制作这些功能都是封装好的,可以直接拿来套用,整个过程就是连数据,设计模板, web展示。图表是内设好的或者开发对接Hcharts/Echarts/D3图标库。
优点:
成本相对更低
兼容性强,支持多种数据源
可视化大屏易在观感上给人留下震撼印象,便于营造某些独特氛围、打造仪式感
响应速度更快,能处理的数据量也很大
缺点:
这种自助式数据分析虽然也是需要一定的学习时间成本,但相比上面其他数据分析工具来说,整个上手过程还是比较快的,所以这点我可以接受。
05 MATLAB
Matlab是一个商业数学软件,在数值计算方面首屈一指。随着里面各种库的扩展,它在图像处理、信号处理、量化金融、工程仿真等方面都优秀到了让人忘记这是个数学软件。
优点:
特别适合图像类的数据分析,工具库全,计算快,展示还好看;
也有人工智能、神经网络什么的工具库可以调用;
在工程方面的分析分析优秀,特别是结合Simulink进行仿真,那是真的效果飞起;
MATLAB语法比Python更加灵活一些,编程难度也还行,中等吧,不算很复杂,偏C,但更简单。
缺点:
最大的不足就是贵,是真的很贵,反正我是买不起。
MATLAB太庞大了,基本包的安装就要占用10G,对于我这电脑总共才128G,平时多余空间就很少多余10个G的普通人,不太友善;
MATLAB是面向对象语言,入门难度不高,但要学精还是小有难度的。
06 SPSS
SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。
SPSS既可以像Excel一样鼠标点一点菜单就出结果,也能想Python一样通过编程出结果,老少皆宜。优点:
SPSS的数据接口比较好,特别是和Excel的兼容性较好,基本上一看就懂怎么用;
内置算法国际认可度比较高,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,;
内置丰富的统计分析方法,适用于统计分析类的数据分析。
缺点:
想读透SPSS给出的分析结果,需要比较扎实的统计学知识;
SPSS虽然结果可以直接输出图形,但样式比较有限,相对于MATLAB数据可视化能力较弱;
基本上只能用于结构化数据分析,对于图形、视频分析、文本数据,力不从心;
SPSS也是收费的,至于多少钱就不清楚了,个人长期用的是试用
不管是Python、Excel、SPSS、SAS、MATLAB、hadoop、R等等,至少熟练使用一到两个,了解一两个,并知道每个的最适合使用场景就好了。至于怎么用,万事不懂问百度,要不就谷歌也行,如果要熟悉某个工具,最好就是多逛逛技术论坛,多拿项目练练
|