如在使用spark的情况下,数据一共有2亿条。是运用collect转换成如python可处理的格式后进行操作吗?还是有更好的方法进行数据探索。
1个回答
你应该不需要直接处理到2亿条数据的吧
如果是要用2亿条数据直接建模,你可以用sparkmllib
如果你只是去做一些交叉分析然后做一些可视化,可以先在spark里进行筛选汇总操作,最后再pandas出来一个很小的dataframe
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
用户画像具体是指什么?
3回答
脑纹锁 有开源项目吗
1回答
评分卡模型是什么?
1回答
cvr和ctr的区别是什么?
3回答
想请教机器学习能不能解决一个问题
2回答
lstm可以用来做产量销量预测吗
1回答
有没有能够判断文本中情绪的python package?
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!