怎么判断训练集和测试集是同一个分布?

  统计/机器学习 概率分布 模型验证 开放问题    浏览次数:1459        分享
0

我现在有训练集和测试集,怎么来判断或者说验证训练集和测试集是同一个分布?

这个“分布”我是指的这个问题里的分布(机器学习中,数据的分布是指什么呢?

 

何立诚   2019-01-07 04:04



   2个回答 
4

如果你不知道测试集的真实值/目标变量,可能比较难判断。这样你只能比较训练集的$X$和测试集的$X$。

假如你有测试集的目标变量的真实值,你可以用训练集拟合一个模型,测试集拟合另一个模型,然后对比两个模型的参数。

另一个思路是你对训练集进行bootstrap,拟合出多个模型,然后再看测试集拟合出的模型的参数在不在训练集bootstrap出来的模型参数的范围内。

SofaSofa数据科学社区DS面试题库 DS面经

kykix   2019-01-15 14:34

好的,谢谢你的思路 - 何立诚   2019-01-17 14:16
2

如何检验两个样本是同分布的?

SofaSofa数据科学社区DS面试题库 DS面经

yaya   2019-01-11 19:22

谢谢您的回复,我这里的“分布”不是概率分布,而是数据集的分布,我的问题里贴出了一个链接,就是指那个链接的分布 - 何立诚   2019-01-12 15:05


  相关主题

现实生活中有哪些例子是服从帕累托分布的?   1回答

模型调参时常用到的Grid Search是什么意思?   3回答

建模时一定需要验证集或者测试集吗?   2回答

对于异常数据的判断?   2回答

强大数定律和弱大数定律有什么区别?   1回答

odds和odds ratio的定义是什么?   1回答

二项分布的正态近似   2回答

长尾分布、肥尾分布、重尾分布?   2回答

均匀分布的上限的最大似然估计   2回答

X,Y 独立并且,X~U(0,2)以及Y∼U(1,3)。求max(X,Y) 的期望。   2回答

机器学习中,数据的分布是指什么呢?   1回答

Weibull分布是什么分布?现实中有什么例子?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!