在数据很大的场景下怎么进行数据探索?

  统计/机器学习 开放问题 应用场景    浏览次数:1672        分享
0

如在使用spark的情况下,数据一共有2亿条。是运用collect转换成如python可处理的格式后进行操作吗?还是有更好的方法进行数据探索。

 

sunnymilk   2020-03-18 22:42



   1个回答 
2

你应该不需要直接处理到2亿条数据的吧

如果是要用2亿条数据直接建模,你可以用sparkmllib

如果你只是去做一些交叉分析然后做一些可视化,可以先在spark里进行筛选汇总操作,最后再pandas出来一个很小的dataframe

SofaSofa数据科学社区DS面试题库 DS面经

zl_pku   2020-03-19 08:59

谢谢你的回答,应该说具体场景是类似于建模前需要对数据分布等进行绘图。比如说欺诈分析是需要进行绘图来查看两者分布的。我理解你的意思是比如做直方图,会先对变量值按值分组,count,接下来把这个小的部分给转换成pd.dataframe后作图,请问理解得对吗? - sunnymilk   2020-03-19 12:30
是的。如果你数据特别大,也可以先做随机采样再做直方图,会节约很多时间。 - zl_pku   2020-03-20 00:11
也可以直接在spark里得到直方图的分布数据,然后再导入到本地用matplotlib画出来 - zl_pku   2020-03-20 00:15


  相关讨论

脑纹锁 有开源项目吗

评分卡模型是什么?

互联网或者业界中的“数据治理”是什么意思?

商业数据模型中lead score是什么意思?

fatigue model是什么模型?

cvr和ctr的区别是什么?

想请教机器学习能不能解决一个问题

做语言生成的大神来评鉴下这个自动生成的足球新闻?

lstm可以用来做产量销量预测吗

逻辑回归评分卡案例中的处理过程无法实现对多个特征进行分箱

  随便看看

pandas报错ValueError: Cannot convert non-finite values (NA or inf) to integer

pandas把一列日期转换为星期

点击率的95%置信区间该怎么算?

分类变量,进行One hot编码,维度升高,如何处理?

逻辑回归模型中变量的系数怎么理解?