怎么判断训练集和测试集是同一个分布?

  统计/机器学习 概率分布 模型验证 开放问题    浏览次数: 192
0

我现在有训练集和测试集,怎么来判断或者说验证训练集和测试集是同一个分布?

这个“分布”我是指的这个问题里的分布(机器学习中,数据的分布是指什么呢?

 

何立诚   2019-01-07 04:04



   2个回答 
4

如果你不知道测试集的真实值/目标变量,可能比较难判断。这样你只能比较训练集的$X$和测试集的$X$。

假如你有测试集的目标变量的真实值,你可以用训练集拟合一个模型,测试集拟合另一个模型,然后对比两个模型的参数。

另一个思路是你对训练集进行bootstrap,拟合出多个模型,然后再看测试集拟合出的模型的参数在不在训练集bootstrap出来的模型参数的范围内。

SofaSofa数据科学社区 DS面经 问答 实战

kykix   2019-01-15 14:34

好的,谢谢你的思路 - 何立诚   2019-01-17 14:16
2

如何检验两个样本是同分布的?

SofaSofa数据科学社区 DS面经 问答 实战

yaya   2019-01-11 19:22

谢谢您的回复,我这里的“分布”不是概率分布,而是数据集的分布,我的问题里贴出了一个链接,就是指那个链接的分布 - 何立诚   2019-01-12 15:05


  相关主题

现实生活中有哪些例子是服从帕累托分布的?   1回答

两个独立的正态随机变量的乘积服从什么分布?   1回答

二项分布的正态近似   2回答

机器学习中,数据的分布是指什么呢?   1回答

均匀分布的上限的最大似然估计   1回答

python产生服从常用概率分布的随机数   1回答

生成两组不独立的标准正态分布随机数   1回答

用高斯混合模型(GMM)做聚类时,怎么确定component的个数?   2回答

python中实现box-cox变换的函数?   1回答

模型调参时常用到的Grid Search是什么意思?   3回答

KL divergence为什么不是对称的?   3回答

怎么理解指数分布里的参数lambda?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!