周志华老师的《机器学习》里面说“线性核的svm迄今仍是文本分类的首选技术”,请问他这说的依据是什么?是因为线性核的svm在稀疏特征表示的数据上有什么优于其他算法的地方吗?不是很明白,请明白的人指点一二。
1个回答
这个英文博客里解释了这个问题:Linear SVM good for text classification
这个博客里讲了很多都是经验总结,总体上有三个原因:
- 文本分类问题很多是基本上线性可分的
- 文本分类问题中特征很多,再用其他kernel升到更高维的空间也没有必要,也没帮助
- 线性核速度快,也没有太多超惨要调