t检验，需要测试集验证集吗？-SofaSofa

表述有误，修改下，不好意思！

数据是这样的，自变量8种（比如体积/直径/周长等连续变量），因变量是二元变量（有/无），没有用复杂的模型，就是根据结果（有/无）把每个自变量分两组，两组之间做最简单的t检验，筛出有显著统计学差异的自变量，拿有意义的自变量与结果（有/无）做ROC曲线。

审稿人现在说我没有验证集啊，我之前只见过机器学习算法建模后验证的。

ROC曲线是否也是一种模型啊？ROC曲线如何拿到验证集中去评估呢？

不知道这样写，大家能否看懂，谢谢！

gerxyuan 2018-01-04 09:31

我试着揣摩下楼主的用意，以及审稿人的想法。

楼主用了几个“比较显著”的自变量，在一个数据集上训练得到了一个模型（假如说逻辑回归好了）。然后楼主用这个模型在原来的数据集上进行预测，得到每个样本为“有”的概率，根据预测概率和真实信息，楼主得到了ROC曲线。

审稿人的想法是，你怎么可以同一个数据集上又训练又预测呢，你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。

我同意审稿人的想法。

飞翔钉子 2018-01-05 11:45

是的，确实有问题。我用显著的自变量（1个）与因变量做了ROC曲线，这也是模型吗？医学类文章几乎都是这种做法，之前没遇到过相关质疑。现在问题是我的ROC曲线结果，如果去验证集中验证？其他模型我倒是会做，ROC曲线怎么去玩验证，我没见过，谢谢啦！ - gerxyuan 2018-01-05 22:25

不大明白他的意思。

也许可能大概是这个意思：

你有两组数据A和B，你对A和B做T test，发现是是显著的。

他希望你把A分成两部分（A1和A2），然后B也分成两部分（B1和B2），A1和B1的T test是显著的，然后你再对A2和B2再做次T test，看看结果如何。A2和B2就是所谓的测试集（？）。

是这样理解？

AlphaCat 2018-01-04 13:16

原文我写的有问题，我修改了，麻烦您再看下，谢谢！ - gerxyuan 2018-01-05 11:32

不知道上下文，t test和roc有什么关系呢？

五丁大包 2018-01-05 06:39

原文我写的不对，ttest是拿来筛变量的，有意义的变量再做ROC曲线，不好意思 - gerxyuan 2018-01-05 11:34

t检验，需要测试集验证集吗？