t检验,需要测试集验证集吗?

  统计/机器学习 假设检验
0

表述有误,修改下,不好意思!

数据是这样的,自变量8种(比如体积/直径/周长等连续变量),因变量是二元变量(有/无),没有用复杂的模型,就是根据结果(有/无)把每个自变量分两组,两组之间做最简单的t检验,筛出有显著统计学差异的自变量,拿有意义的自变量与结果(有/无)做ROC曲线。

审稿人现在说我没有验证集啊,我之前只见过机器学习算法建模后验证的。

ROC曲线是否也是一种模型啊?ROC曲线如何拿到验证集中去评估呢?

不知道这样写,大家能否看懂,谢谢!

 

gerxyuan   2018-01-04 09:31



   3个回答 
1

我试着揣摩下楼主的用意,以及审稿人的想法。

楼主用了几个“比较显著”的自变量,在一个数据集上训练得到了一个模型(假如说逻辑回归好了)。然后楼主用这个模型在原来的数据集上进行预测,得到每个样本为“有”的概率,根据预测概率和真实信息,楼主得到了ROC曲线。

审稿人的想法是,你怎么可以同一个数据集上又训练又预测呢,你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。

我同意审稿人的想法。


飞翔钉子   2018-01-05 11:45

是的,确实有问题。我用显著的自变量(1个)与因变量做了ROC曲线,这也是模型吗?医学类文章几乎都是这种做法,之前没遇到过相关质疑。现在问题是我的ROC曲线结果,如果去验证集中验证?其他模型我倒是会做,ROC曲线怎么去玩验证,我没见过,谢谢啦! - gerxyuan   2018-01-05 22:25
0

不大明白他的意思。

也许可能大概是这个意思:

你有两组数据A和B,你对A和B做T test,发现是是显著的。

他希望你把A分成两部分(A1和A2),然后B也分成两部分(B1和B2),A1和B1的T test是显著的,然后你再对A2和B2再做次T test,看看结果如何。A2和B2就是所谓的测试集(?)。

是这样理解?


AlphaCat   2018-01-04 13:16

原文我写的有问题,我修改了,麻烦您再看下,谢谢! - gerxyuan   2018-01-05 11:32
0

不知道上下文,t test和roc有什么关系呢?


五丁大包   2018-01-05 06:39

原文我写的不对,ttest是拿来筛变量的,有意义的变量再做ROC曲线,不好意思 - gerxyuan   2018-01-05 11:34


相关问题

z test和t test什么区别?   1回答

F检验的使用场景   3回答

如何从假设检验的角度去理解AB testing   0回答

假设检验的效力是什么?   1回答

配对T检验和两样本T检验是一回事么?   1回答

多重检验中的FDR(false discovery rate, 错误发现率)是什么?   2回答

单侧T检验p值与双侧T检验p值的关系   1回答

假设检验中的p值是什么意思?为什么越小越好?   2回答

Python单侧T检验   1回答

python里用F检验来比较方差   1回答

多因素方差分析   0回答

回归中的p value怎么理解?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!