在数据很大的场景下怎么进行数据探索?

  统计/机器学习 开放问题 应用场景    浏览次数:525        分享
0

如在使用spark的情况下,数据一共有2亿条。是运用collect转换成如python可处理的格式后进行操作吗?还是有更好的方法进行数据探索。

 

sunnymilk   2020-03-18 22:42



   1个回答 
2

你应该不需要直接处理到2亿条数据的吧

如果是要用2亿条数据直接建模,你可以用sparkmllib

如果你只是去做一些交叉分析然后做一些可视化,可以先在spark里进行筛选汇总操作,最后再pandas出来一个很小的dataframe

SofaSofa数据科学社区DS面试题库 DS面经

zl_pku   2020-03-19 08:59

谢谢你的回答,应该说具体场景是类似于建模前需要对数据分布等进行绘图。比如说欺诈分析是需要进行绘图来查看两者分布的。我理解你的意思是比如做直方图,会先对变量值按值分组,count,接下来把这个小的部分给转换成pd.dataframe后作图,请问理解得对吗? - sunnymilk   2020-03-19 12:30
是的。如果你数据特别大,也可以先做随机采样再做直方图,会节约很多时间。 - zl_pku   2020-03-20 00:11
也可以直接在spark里得到直方图的分布数据,然后再导入到本地用matplotlib画出来 - zl_pku   2020-03-20 00:15


  相关主题

用户画像具体是指什么?   3回答

商业数据模型中lead score是什么意思?   1回答

脑纹锁 有开源项目吗   1回答

互联网或者业界中的“数据治理”是什么意思?   3回答

评分卡模型是什么?   1回答

fatigue model是什么模型?   0回答

想请教机器学习能不能解决一个问题   2回答

cvr和ctr的区别是什么?   3回答

lstm可以用来做产量销量预测吗   1回答

有没有能够判断文本中情绪的python package?   1回答

有没有拍商品各个角度(7-10张),就可以无限生成这个商品各个角度的数据集   1回答

怎么构造商品向量embedding来做推荐系统?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!