类似于图上这样的样本,只有三个特征,还全是中文这种,看了很多资料是要把中文转成数组特征然后进行训练,现在不知道该用啥方式,有没有大佬给俺资料参考参考(才接触机器学习,被赶鸭子上架)
2个回答
首先你要清楚做这个数据的目标是什么,然后再想下一步要做什么。
不管怎么说你这个是非结构化的数据,可以做一些结构化的工作的。
- 比如name那列可以做分词,或者人工做一些分类匹配,至少可以提取出“类别”:鲍鱼、黄鱼、龙虾什么的。
- standard那里基本上也可以看出单个品种的大小,只要类别做好了,standard这里是可以做比较的,可以改名叫平均重量之类的
- unit就是整个商品的总重量,你需要尽量转化到一个单位量纲上,要么都是g要么都是kg,有的是斤有的公斤有的克,也不可比。
您好,就是现在有一个标准档案,然后要把不标准的数据对应到标准的档案里面(比如说10头大鲍鱼,澳洲大鲍鱼这种对应标准档案的鲜鲍鱼;波士顿龙虾之类的龙虾对应标准档案的龙虾),我感觉就是模式匹配那种就能完成,但是一定要搞机器学习只能那种。
name那边做了分词提取类别之后我发现很多类别的界限很模糊,或者就算加上standard、unit的特征,人工都没法判定倒是是哪个类别的;
然后unit这个好像有除了公斤,kg之类其他的单位,袋、罐、只什么的,感觉好像不太能规范化;
那这样的话是不是就很难训练了
-
肥肥
2022-04-06 15:58
主要还是要看建模的目标是什么,如果只是为了类别的聚类,用name这一列就够了,具体再看是NER还是做其他的方法。
如果要预测欢迎度什么的,可能又有不一样的玩法。