数据批量分析提取,求指点迷津

  统计/机器学习 自然语言处理 数据预处理 开放问题    浏览次数: 479
0

苦逼的数据工作,在里面沉陷, 

试着做了一个小小的雏形工具: 

1、导入杂乱信息的文档  

2、把线头理出来 

3、批量提取:   

企业机关事业单位

地址   

联系方式   

。。。。。。   

以后我们还可以延伸到提取标准,规范的名称,编号等。 

但是,做着做着,就不知道怎么往下走了,   


我们经验不够,所以希望高手能提点一下:

  

1.这个产品,应该朝哪个方向走?   

2.哪些地方,会用的到这个产品?

3.做大数据助手,要增加些什么?  

 

q2488433945   2018-04-25 11:56



   4个回答 
0

导入的文档是文本还是图片?

我也看不出你这个有什么用,因为如果是我的话,需要查事业单位的地址,我都是用百度的。这个产品是独立的,还是服务于公司内部其他产品的?

之前有个app是把别人的名片(图片)导入手机里,变成姓名、电话、邮箱、单位,等文本信息的。

SofaSofa数据科学社区 DS面经 问答 实战

DuckU   2018-04-25 12:04

导入文本。这个产品是独立的 - q2488433945   2018-04-28 10:43
0

一般不是先有应用场景和需求,再有产品么?感觉题主是先有产品,再找场景。

大数据助手嘛,感觉可以提供每个单位的开门时间(忙或者闲的时段)、停车信息什么的

SofaSofa数据科学社区 DS面经 问答 实战

mrhust   2018-04-25 12:25

最初,我们本意是自己用来做数据清洗的,把杂乱数据中的有效联系方式识别提取出来。做到现在,就想看看还有没有扩展的可能。所以想请各位有经验的前辈提点一下 - q2488433945   2018-04-28 10:48
0

产品定位是什么,用户群体是什么,功能是是什么,数据助手,那么数据来源是什么,获利手段是什么‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’

SofaSofa数据科学社区 DS面经 问答 实战

陈十一   2018-04-25 16:51

最初,我们本意是自己用来做数据清洗的,没有想过获利。 以上问题,均陷入迷茫,所以才寻求高手指点! 能否请再深入一点、赐教一二? - q2488433945   2018-04-28 10:50
0

你这还只是数据录入的阶段,还没到数据处理和分析。流程应该是

1.preprocessing(比如降维,normalization),

2. data mining,有目标时做(regression,classification),没目标时可以尝试clustering。先看下各个输入的histogram,大概能分几类,在做clustering,最后调参。

3.postprocessing,做结果的可视化,cluster evaluation(这也是个大话题,分为有/无target label)。

4.重复1-3

有目标的任务会简单点,如果没有目标,而且对数据理解又不深,那结果就很难说了。

SofaSofa数据科学社区 DS面经 问答 实战

Zealing   2018-04-25 18:08

非常感谢老师的指点。 - q2488433945   2018-04-28 10:51
非常感谢老师的指点。 - q2488433945   2018-04-28 10:51


  相关主题

如果不去除stop words,word2vec的结果会受到影响吗?   0回答

请问NLP中这种编码方式有没有什么术语?   1回答

python去掉中文文本中所有的标点符号   3回答

自定义CountVectorizera中默认的英语stop_words   1回答

求python里得到n-grams的包?   2回答

如何对中文部分进行独热处理(one-hot)   0回答

自然语言处理中的分词是什么意思?   1回答

word2vec怎么处理一词多义的情况?   0回答

求推荐条件随机场(CRF)的python package   1回答

文本处理中的tf是什么意思?如何计算?   1回答

文本处理中stop word什么意思   2回答

自然语言处理中的Tf-idf是什么意思   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!