全部问题问题热门未解答所有标签标签收藏收藏我要提问

收集了一批网站的html源码，想对html进行特征提取，或者分类，请问有什么比较好的方法推荐？

统计/机器学习深度学习自然语言处理浏览次数：1555 分享

二维码

手机扫描二维码

案例分析面试常见题？

数据：网页源码

目的：提取特征或者打码分类

seven 2020-12-15 17:05

2个回答

爬虫而来数据？有具体样例没有

SofaSofa数据科学社区 DS面试题库 DS面经

boyang987 2021-03-09 15:56

html元数据里一般会有给搜索引擎用的keywords，此外可以在body的标题标签里提取高频的关键词

SofaSofa数据科学社区 DS面试题库 DS面经

lingf33 2021-07-27 16:51

相关讨论

请问汉字CNN识别，怎么做标签呢？

不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定

python随机打乱文本

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗？

text CNN的输入训练样本有什么要求？

nlp里的stemming是什么意思？

文本处理中的tf是什么意思？如何计算？

怎么判断一句中文话语是否通顺

文本处理中stop word什么意思

随便看看

机器学习中的奥卡姆剃刀原理是什么意思

python sklearn模型中random_state参数的意义

主成分分析法(PCA)算是黑盒算法吗？

推荐系统里的ALS是什么意思？

AIC可以是负数吗？