关于那个autoencode有没有出来解惑一下的。

  板凳区    浏览次数:3067        分享
0

@SofaSofa TeamM

关于那个autoencoder的教程,我们得到了MAE,MSE,以及原标签

然后画ROC_AUC.

# 画出ROC曲线


官方ROC-curve文档说的是,


这个mse是不是就是这个决策的非阈值测量?(预测概率是0-1的小数,mse应该是无界的吧?)

还有关于怎么修改分类的阈值,这个阈值返回一串子,是什么东西




 

陈十一   2018-10-10 10:55



   3个回答 
0

还有啊,这个是将有监督换成无监督来测验分类的效果

那无监督,最后只能得到一个还原误差,怎么知道截断点在哪

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-10-10 11:25

0

你可以把还原误差想象为“概率”的。如果你用predict_proba得到一串概率,那你的截断点在哪儿?

如果你把每个可行的截断点都试一遍,是不是就得到了很多precision和recall,连起来不就是precession-recall的曲线嘛

同理,你也可以得到很多的FPR和TPR,连起来就是ROC曲线了


对于概率,你知道你的截断点是0.5,但是往往你也可以自己设置一个截断点。这里是还原误差,你可以设置数值,也可以设置为X百分位点,默认其中百分之X都是异常。

SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2018-10-10 13:44

0-1,设置大于0.5概率。但还原误差 并不是一个概率分布,只是一个差值,一个离散程度,可以小于1,大于1。如实例中,本身有标签,可以去逼近去选择截断点的还原误差值。那么真实的无监督,怎么判断这个截断点是多少 - 陈十一   2018-10-10 14:15
0

在真实情况下,这个截断点的选择要么是根据前提信息(prior info),要么是根据真实的异常值在roc曲线或者pr曲线上选择截断点的。

这一点是和稀疏情况下的二元分类问题类似的,在非平衡状态下,一般不会用0.5作为阈值点,而是根据业务需求来选择截断点。即使是平衡的二元分类问题,有时也会选择其他阈值,而非总是固定在0.5。

总体上来说,这是precision和recall的trade-off,或者是TPR和FPR的trade-off。取决于整个商业决策是保守还是激进等因素。

SofaSofa数据科学社区DS面试题库 DS面经

SofaSofa驹炜   2018-10-11 08:49



  相关讨论

求教一下:怎么进阶

如何评价大数据的未来?

有偿!!如何写一个restful api

有人关注机器学习在量化交易中的应用吗?

有没有赚外快的方法啊

大家跑模型都用的什么牌子的笔记本

使用深度学习进行图像分类

作为一个ML的博士应该怎么去怎么找文献?

面试题库做几遍比较合适?

怎么和领导说自己的模型很好?

  随便看看

怎么从矩母函数(mgf)推导得到概率密度函数(pdf)?

为什么矩阵的二范数和向量的二范数的定义不同?

神经网络中的dense和sparse是什么意思?

pandas读取csv中指定的某些列

如果样本不是正态分布,还能用t-test或者z-test吗?