t检验,需要测试集验证集吗?

  统计/机器学习 假设检验    浏览次数:3969        分享
0

表述有误,修改下,不好意思!

数据是这样的,自变量8种(比如体积/直径/周长等连续变量),因变量是二元变量(有/无),没有用复杂的模型,就是根据结果(有/无)把每个自变量分两组,两组之间做最简单的t检验,筛出有显著统计学差异的自变量,拿有意义的自变量与结果(有/无)做ROC曲线。

审稿人现在说我没有验证集啊,我之前只见过机器学习算法建模后验证的。

ROC曲线是否也是一种模型啊?ROC曲线如何拿到验证集中去评估呢?

不知道这样写,大家能否看懂,谢谢!

 

gerxyuan   2018-01-04 09:31



   3个回答 
1

我试着揣摩下楼主的用意,以及审稿人的想法。

楼主用了几个“比较显著”的自变量,在一个数据集上训练得到了一个模型(假如说逻辑回归好了)。然后楼主用这个模型在原来的数据集上进行预测,得到每个样本为“有”的概率,根据预测概率和真实信息,楼主得到了ROC曲线。

审稿人的想法是,你怎么可以同一个数据集上又训练又预测呢,你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。

我同意审稿人的想法。


SofaSofa数据科学社区DS面试题库 DS面经

飞翔钉子   2018-01-05 11:45

是的,确实有问题。我用显著的自变量(1个)与因变量做了ROC曲线,这也是模型吗?医学类文章几乎都是这种做法,之前没遇到过相关质疑。现在问题是我的ROC曲线结果,如果去验证集中验证?其他模型我倒是会做,ROC曲线怎么去玩验证,我没见过,谢谢啦! - gerxyuan   2018-01-05 22:25
0

不大明白他的意思。

也许可能大概是这个意思:

你有两组数据A和B,你对A和B做T test,发现是是显著的。

他希望你把A分成两部分(A1和A2),然后B也分成两部分(B1和B2),A1和B1的T test是显著的,然后你再对A2和B2再做次T test,看看结果如何。A2和B2就是所谓的测试集(?)。

是这样理解?


SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2018-01-04 13:16

原文我写的有问题,我修改了,麻烦您再看下,谢谢! - gerxyuan   2018-01-05 11:32
0

不知道上下文,t test和roc有什么关系呢?


SofaSofa数据科学社区DS面试题库 DS面经

五丁大包   2018-01-05 06:39

原文我写的不对,ttest是拿来筛变量的,有意义的变量再做ROC曲线,不好意思 - gerxyuan   2018-01-05 11:34


  相关讨论

单侧T检验p值与双侧T检验p值的关系

显著水平和p值是什么关系?

F检验的使用场景

配对T检验和两样本T检验是一回事么?

T检验的effect size是什么?有什么含义吗?

多重比较校正

spss的检验分了t,卡方,非参数,分类的依据和目的是啥

多重检验中的FDR(false discovery rate, 错误发现率)是什么?

z test和t test什么区别?

Python单侧T检验

  随便看看

z test和t test什么区别?

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?

两个独立的正态随机变量的乘积服从什么分布?

'str' object has no attribute 'decode' 代码运行时有错误呢?请高手帮忙解决

kNN算法有哪些缺点?