就是10w条+特征数据max_depth=30,n_estimators=500
跑出来了800M大小模型,load都慢。。。
3个回答
你这个森林深度有点大啊,如果你把深度调小点,效果应该差不多。
另外你保存的时候,设置一下compress参数应该会减小很多空间
from sklearn.externals import joblib
joblib.dump(my_rf_model, "rf.pkl", compress=9)
#my_rf_model是你训练好的模型
compress的值是0到9之间,越大表示压缩程度越高。
SofaSofa数据科学社区DS面试题库 DS面经
您好,调整了一下测试 确实小了很多,参数为(max_depth=30,n_estimators=500, min_samples_leaf= 5),10W条数据 compress=0时是300M+,compress=9时是50M+,这边数据量是有500W+如果按照这个比例的话其实压缩比是6倍左右,还是挺大的,请问下面的只能调整深度参数来解决了么?
-
莫莫莫i
2019-05-08 16:02
你的模型还是挺大的,最大深度为30,就意味着一棵树最多有2^29个分叉,2^30个叶节点。你的数据只有10万,应该是不需要这么大的深度。同时min_sample_leaf可能也要调整。有时候为了模型压缩牺牲一点精度是ok的。
-
strong.man
2019-05-08 21:38