机器学习中文数据的训练集的预处理-SofaSofa

类似于图上这样的样本，只有三个特征，还全是中文这种，看了很多资料是要把中文转成数组特征然后进行训练，现在不知道该用啥方式，有没有大佬给俺资料参考参考(才接触机器学习，被赶鸭子上架)

肥肥 2022-04-02 15:00

2个回答

首先你要清楚做这个数据的目标是什么，然后再想下一步要做什么。

不管怎么说你这个是非结构化的数据，可以做一些结构化的工作的。

比如name那列可以做分词，或者人工做一些分类匹配，至少可以提取出“类别”：鲍鱼、黄鱼、龙虾什么的。
standard那里基本上也可以看出单个品种的大小，只要类别做好了，standard这里是可以做比较的，可以改名叫平均重量之类的
unit就是整个商品的总重量，你需要尽量转化到一个单位量纲上，要么都是g要么都是kg，有的是斤有的公斤有的克，也不可比。

莱莱0915 2022-04-05 17:53

您好，就是现在有一个标准档案，然后要把不标准的数据对应到标准的档案里面(比如说10头大鲍鱼，澳洲大鲍鱼这种对应标准档案的鲜鲍鱼；波士顿龙虾之类的龙虾对应标准档案的龙虾)，我感觉就是模式匹配那种就能完成，但是一定要搞机器学习只能那种。 name那边做了分词提取类别之后我发现很多类别的界限很模糊，或者就算加上standard、unit的特征，人工都没法判定倒是是哪个类别的；然后unit这个好像有除了公斤，kg之类其他的单位，袋、罐、只什么的，感觉好像不太能规范化；那这样的话是不是就很难训练了 - 肥肥 2022-04-06 15:58

主要还是要看建模的目标是什么，如果只是为了类别的聚类，用name这一列就够了，具体再看是NER还是做其他的方法。

如果要预测欢迎度什么的，可能又有不一样的玩法。

SofaSofa数据科学社区 DS面试题库 DS面经

卡里昂 2022-04-08 16:16

机器学习中文数据的训练集的预处理

Warning

2个回答

Warning

Warning