我用了分词,然后提取了一些高频词(tf idf)。
非常好奇还有其他什么思路来做特征工程?
谢谢!
2个回答
我切词之后试过用了linersvc,效果一般,(不过当时会的东西也不多,生搬硬套,到今天为止也没想过去修改,过两天看看重新用字典或者稀疏矩阵或者谷歌的w2v向量重新搞一下)就用的s开头id的那个用户的因为古典文有明显的虚词,然后就拿网上找的虚词做特征,用贝叶斯概率算的,其实在再想想还可以把白话文的虚词代词也加入特征,后来也一直懒得鼓捣。
SofaSofa数据科学社区DS面试题库 DS面经