有序多分类问题

  统计/机器学习 监督式学习    浏览次数: 84
0

对于预测结果是有序的情况,比如对年龄段的预测,是每一个年龄段作为一类好,还是按二进制编码每个段预测,或者年龄段从小到大当作回归?

 

无限不循环   2018-09-30 15:51



   2个回答 
0

如果你知道原始的年龄的数值,当然是用回归问题的处理方式更好。

如果你只知道年龄区间的话,那就当作多分类问题处理。

可以参考下这个问题:有序的分类变量的预测是回归问题还是多分类问题?

Jiho   2018-10-04 12:38

0

最好是多分类问题,因为你最后想知道的也是分类信息。而且每个年龄段数据的特性可能不一样,多个分类器才可学习出这些特性。用一个回归模型去拟合这些不同的特性,得到也是比较中庸的结果。比如说三条线段$x\in [0,1],y=1$,$x\in [1,2],y=2$,,$x\in [2,3],y=3$,如果分三段处理要简单点;如果用一条曲线去拟合(regression),曲线是非线性的,而且误差会很大。

唯一想到的问题是数据量是否足够去学习这些参数。数据量越多,分类器或回归模型参数估计的可信度越高。可以用置信区间区间来衡量。具体的置信区间公式我不清楚,印象中它宽度和$\frac{1}{\sqrt(n)}$成正比,大概需要50个点。

如果每年龄段的数据个数不多,学到的分类器参数误差很大,还不如合并数据变为一个回归问题。回归问题中要求输出值是线性的。你可以用年龄段的均值或中位数代表年龄段。比如0-9,10-19,20-29,...,你可以用[5,15,25,..]代表年龄段,除以5变为[1,3,5,...];如果是0-9,10-24,25-29,...,可映射为[5,17.5,27.5,...],除以5最后可变为[1,3.5,5.5,...]。

Zealing   2018-10-04 17:17



  相关主题

关于方差和偏差和噪声   1回答

kNN的k=1为什么训练误差为0?   4回答

为什么说knn是惰性算法   1回答

knn推导过程中的一个细节   2回答

k-NN的k取1会怎么样   4回答

SVM的支持向量最少有几个?   1回答

线性可分是什么意思?   1回答

adaboost里的learning rate是什么意思?   1回答

欠采样后概率还原问题   2回答

SVM里的软间隔是什么意思   2回答

支持向量机(SVM)里的支持向量是什么意思   6回答

python里如何实现线性判别分析(LDA)?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!