【机器读中文2:“辨古识今”】特征工程大家都是什么思路?

  板凳区 Sofa竞赛5    浏览次数:4571        分享
1

我用了分词,然后提取了一些高频词(tf idf)。

非常好奇还有其他什么思路来做特征工程?

谢谢!


 

TTesT   2018-03-21 22:47



   2个回答 
1

我切词之后试过用了linersvc,效果一般,(不过当时会的东西也不多,生搬硬套,到今天为止也没想过去修改,过两天看看重新用字典或者稀疏矩阵或者谷歌的w2v向量重新搞一下)就用的s开头id的那个用户的因为古典文有明显的虚词,然后就拿网上找的虚词做特征,用贝叶斯概率算的,其实在再想想还可以把白话文的虚词代词也加入特征,后来也一直懒得鼓捣。

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-03-22 10:21

0

第一名的0.06真实太疯狂了


SofaSofa数据科学社区DS面试题库 DS面经

Robin峰   2018-03-22 11:39



  相关讨论

【竞赛5】征集标杆模型啦!

求教一下:怎么进阶

如何评价大数据的未来?

使用深度学习进行图像分类

有没有赚外快的方法啊

有偿!!如何写一个restful api

作为一个ML的博士应该怎么去怎么找文献?

大家跑模型都用的什么牌子的笔记本

有人关注机器学习在量化交易中的应用吗?

面试题库做几遍比较合适?

  随便看看

修正R方(adjusted R square)是什么?

'str' object has no attribute 'decode' 代码运行时有错误呢?请高手帮忙解决

PCA降维之前为什么要先标准化?

点击率的95%置信区间该怎么算?

如果样本不是正态分布,还能用t-test或者z-test吗?