成语| 古诗大全| 扒知识| 扒知识繁体

当前位置:首页 > 数码科技

python 数据分析学什么

Q1:python做数据分析怎么样?

可以。

Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上。

由于Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用。由于Python本身有十分广泛的应用,本期Python数据分析路线图主要从数据分析从业人员的角度讲述Python数据分析路线图。整个路线图计划分成16周,120天左右。主要学习内容包括四大部分:

1)Python工作环境及基础语法知识了解(包括正则表达式相关知识学习);

2)数据采集相关知识(python爬虫相关知识);

3)数据分析学习;

4)数据可视化学习。

Q2:python和r数据分析哪个更好

2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。不知道是不是因为大数据时代的到来。
Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。
Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效
(Python的数据挖掘包Orange canve
中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。但是,凡事都不绝对,如果R矢量化编程做得好的话(有点小难度),会
使R的速度和程序的长度都有显著性提升。
R的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包直接使用。
相比之下,Python之前在这方面贫乏不少。但是,现在Python有了
pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期
/不定期的时间序列进行重采样等。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。于是,近
年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大替代方案。
做过几个实验:
1. 用python实现了一个统计方法,其中用到了ctypes,multiprocess。
之后一个项目要做方法比较,又用回R,发现一些bioconductor上的包已经默认用parallel了。(但那个包还是很慢,一下子把所有线程都用掉了,导致整个电脑使用不能,看网页非常卡~)
2. 用python pandas做了一些数据整理工作,类似数据库,两三个表来回查、匹配。感觉还是很方便的。虽然这些工作R也能做,但估计会慢点,毕竟几十万行的条目了。
3. 用python matplotlib画图。pyplot作图的方式和R差异很大,R是一条命令画点东
西,pylot是准备好了以后一起出来。pyplot的颜色选择有点尴尬,默认颜色比较少,之后可用html的颜色,但是名字太长了~。pyplot
的legend比R 好用多了,算是半自动化了。pyplot画出来后可以自由拉升缩放,然后再保存为图片,这点比R好用。
总的来说Python是一套比较平衡的语言,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处
理,Python都有着明显优势。
而R是在统计方面比较突出。但是数据分析其实不仅仅是统计,前期的数据收集,数据处理,数据抽样,数据聚类,以及比较复杂的数据挖掘算法,数据建模等等
这些任务,只要是100M以上的数据,R都很难胜任,但是Python却基本胜任。
结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
但世上本没有最好的软件或程序,也鲜有人能把单一语言挖掘运用到极致。尤其是很多人早先学了R,现在完全不用又舍不得,所以对于想要学以致用的人来说,如果能把R和Python相结合,就更好不过了。

如果有大数据方面的问题,也可以咨询我。

谢谢!

W:WW.BaZhiSHI.Com

Q4:利用python进行数据分析 用什么软件

•将IPython这个交互式Shell作为你的首要开发环境。
•学习NumPy(Numerical Python)的基础和高级知识。
•从pandas库的数据分析工具开始。
•利用高性能工具对数据进行加载、清理、转换、合并以及重塑。
•利用matplotlib创建散点图以及静态或交互式的可视化结果。
•利用pandas的groupby功能对数据集进行切片、切块和汇总操作。
•处理各种各样的时间序列数据。
•通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

Q5:python数据分析需要什么编程基础

看完一本Python入门书
了解一下HTML知识,以及学习Python爬虫的第三方库的使用。(学会收集数据)
然后想怎么玩就怎么玩吧。

Q6:python到底是不是数据分析最好的语言

目前,机器学习-数据分析-可谓业界最为火热的一项技术。越来越多的机器学习/数据分析算法被应用在电商、搜索、金融、游戏,医疗等领域中的数据分析、挖掘、推荐上。从日常使用的相机,每天使用的搜索引擎,网上的每一次购物,到无人驾驶汽车,智能家居,智能机器人等,都有机器学习的影子。而Py是机器学习领域主流语言。
Py以它优势:
1.优质的文档
2.平台无关,可以在现在每一个*nix版本上使用
3.和其他面向对象编程语言比学习更加简单快速
4.Py有许多图像加强库像Py Imaging Libary,VTK和Maya 3D可视化工具包,Numeric Py, Scientific Py和其他很多可用工具可以于数值和科学应用。
5.Py的设计非常好,快速,坚固,可移植,可扩展。很明显这些对于人工智能应用来说都是非常重要的因素。
6.对于科学用途的广泛编程任务都很有用,无论从小的shell脚本还是整个网站应用。
7.最后,它是开源的。可以得到相同的社区支持。
将会成为人工智能/数据分析的最佳编程语言。
并没有很多的语言能提供像 Py这样的多样性和简洁性; 能持续努力演进并让社区繁荣好几十年的就更少了。无论你是编码新手还是能信手写就脚本的大师,都需要了解一下 Python。

Q7:上有哪些值得学习的Python数据分析的课程

这个是Python官方的中文教程 有最新的3.4.3版本的 也可以选择中英对照 基本的东西都讲述的差不多了 如果想了解更多库或模块 知乎上大神很多 随便找一找都能找到很多有用的建议 但是建议不要初期就看过多虚的比较和互撕神马的 官方的IDLE用好了之...

猜你喜欢

更多