t检验,需要测试集验证集吗?

  统计/机器学习 假设检验    浏览次数:2688        分享
0

表述有误,修改下,不好意思!

数据是这样的,自变量8种(比如体积/直径/周长等连续变量),因变量是二元变量(有/无),没有用复杂的模型,就是根据结果(有/无)把每个自变量分两组,两组之间做最简单的t检验,筛出有显著统计学差异的自变量,拿有意义的自变量与结果(有/无)做ROC曲线。

审稿人现在说我没有验证集啊,我之前只见过机器学习算法建模后验证的。

ROC曲线是否也是一种模型啊?ROC曲线如何拿到验证集中去评估呢?

不知道这样写,大家能否看懂,谢谢!

 

gerxyuan   2018-01-04 09:31   3个回答 
1

我试着揣摩下楼主的用意,以及审稿人的想法。

楼主用了几个“比较显著”的自变量,在一个数据集上训练得到了一个模型(假如说逻辑回归好了)。然后楼主用这个模型在原来的数据集上进行预测,得到每个样本为“有”的概率,根据预测概率和真实信息,楼主得到了ROC曲线。

审稿人的想法是,你怎么可以同一个数据集上又训练又预测呢,你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。

我同意审稿人的想法。


SofaSofa数据科学社区DS面试题库 DS面经

飞翔钉子   2018-01-05 11:45

是的,确实有问题。我用显著的自变量(1个)与因变量做了ROC曲线,这也是模型吗?医学类文章几乎都是这种做法,之前没遇到过相关质疑。现在问题是我的ROC曲线结果,如果去验证集中验证?其他模型我倒是会做,ROC曲线怎么去玩验证,我没见过,谢谢啦! - gerxyuan   2018-01-05 22:25
0

不大明白他的意思。

也许可能大概是这个意思:

你有两组数据A和B,你对A和B做T test,发现是是显著的。

他希望你把A分成两部分(A1和A2),然后B也分成两部分(B1和B2),A1和B1的T test是显著的,然后你再对A2和B2再做次T test,看看结果如何。A2和B2就是所谓的测试集(?)。

是这样理解?


SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2018-01-04 13:16

原文我写的有问题,我修改了,麻烦您再看下,谢谢! - gerxyuan   2018-01-05 11:32
0

不知道上下文,t test和roc有什么关系呢?


SofaSofa数据科学社区DS面试题库 DS面经

五丁大包   2018-01-05 06:39

原文我写的不对,ttest是拿来筛变量的,有意义的变量再做ROC曲线,不好意思 - gerxyuan   2018-01-05 11:34


  相关主题

F检验的使用场景   3回答

单侧T检验p值与双侧T检验p值的关系   1回答

spss的检验分了t,卡方,非参数,分类的依据和目的是啥   1回答

配对T检验和两样本T检验是一回事么?   1回答

T检验需要提前假设吗?   1回答

假设检验中的p值是什么意思?为什么越小越好?   2回答

多重比较校正   1回答

单因素方差分析(one-way anova)在使用时需要有什么前提假设条件吗?   1回答

假设检验的效力是什么?   1回答

显著水平和p值是什么关系?   1回答

z test和t test什么区别?   2回答

多重检验中的FDR(false discovery rate, 错误发现率)是什么?   2回答回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!