机器学习中文数据的训练集的预处理

  统计/机器学习 自然语言处理 数据预处理    浏览次数:802        分享
0


类似于图上这样的样本,只有三个特征,还全是中文这种,看了很多资料是要把中文转成数组特征然后进行训练,现在不知道该用啥方式,有没有大佬给俺资料参考参考(才接触机器学习,被赶鸭子上架)

 

肥肥   2022-04-02 15:00



   2个回答 
1

首先你要清楚做这个数据的目标是什么,然后再想下一步要做什么。

不管怎么说你这个是非结构化的数据,可以做一些结构化的工作的。

  • 比如name那列可以做分词,或者人工做一些分类匹配,至少可以提取出“类别”:鲍鱼、黄鱼、龙虾什么的。
  • standard那里基本上也可以看出单个品种的大小,只要类别做好了,standard这里是可以做比较的,可以改名叫平均重量之类的
  • unit就是整个商品的总重量,你需要尽量转化到一个单位量纲上,要么都是g要么都是kg,有的是斤有的公斤有的克,也不可比。
SofaSofa数据科学社区DS面试题库 DS面经

莱莱0915   2022-04-05 17:53

您好,就是现在有一个标准档案,然后要把不标准的数据对应到标准的档案里面(比如说10头大鲍鱼,澳洲大鲍鱼这种对应标准档案的鲜鲍鱼;波士顿龙虾之类的龙虾对应标准档案的龙虾),我感觉就是模式匹配那种就能完成,但是一定要搞机器学习只能那种。 name那边做了分词提取类别之后我发现很多类别的界限很模糊,或者就算加上standard、unit的特征,人工都没法判定倒是是哪个类别的; 然后unit这个好像有除了公斤,kg之类其他的单位,袋、罐、只什么的,感觉好像不太能规范化; 那这样的话是不是就很难训练了 - 肥肥   2022-04-06 15:58
0

主要还是要看建模的目标是什么,如果只是为了类别的聚类,用name这一列就够了,具体再看是NER还是做其他的方法。

如果要预测欢迎度什么的,可能又有不一样的玩法。

SofaSofa数据科学社区DS面试题库 DS面经

卡里昂   2022-04-08 16:16



  相关讨论

请问NLP中这种编码方式有没有什么术语?

怎么理解nlp里的good-turing smooth?

如何对中文部分进行独热处理(one-hot)

python去掉中文文本中所有的标点符号

求python里得到n-grams的包?

自定义CountVectorizera中默认的英语stop_words

文本分类问题怎么做data augmentation?

数据批量分析提取,求指点迷津

自然语言处理中的Tf-idf是什么意思

nlp里的stemming是什么意思?

  随便看看

matplotlib.pyplot画图的标题中插入变量

python里清除已经定义过的变量

为什么过拟合不好?

什么是K-Modes(K众数)聚类法?

Resnet-18, Resnet-50, Resnet-101这些模型里的数字是什么意思?