数据批量分析提取，求指点迷津-SofaSofa

苦逼的数据工作，在里面沉陷，

试着做了一个小小的雏形工具：

1、导入杂乱信息的文档

2、把线头理出来

3、批量提取：

企业机关事业单位

地址

联系方式

。。。。。。

以后我们还可以延伸到提取标准，规范的名称，编号等。

但是，做着做着，就不知道怎么往下走了，

我们经验不够，所以希望高手能提点一下：

1.这个产品，应该朝哪个方向走？

2.哪些地方，会用的到这个产品？

3.做大数据助手，要增加些什么？

q2488433945 2018-04-25 11:56

导入的文档是文本还是图片？

我也看不出你这个有什么用，因为如果是我的话，需要查事业单位的地址，我都是用百度的。这个产品是独立的，还是服务于公司内部其他产品的？

之前有个app是把别人的名片（图片）导入手机里，变成姓名、电话、邮箱、单位，等文本信息的。

DuckU 2018-04-25 12:04

导入文本。这个产品是独立的 - q2488433945 2018-04-28 10:43

一般不是先有应用场景和需求，再有产品么？感觉题主是先有产品，再找场景。

大数据助手嘛，感觉可以提供每个单位的开门时间（忙或者闲的时段）、停车信息什么的

mrhust 2018-04-25 12:25

最初，我们本意是自己用来做数据清洗的，把杂乱数据中的有效联系方式识别提取出来。做到现在，就想看看还有没有扩展的可能。所以想请各位有经验的前辈提点一下 - q2488433945 2018-04-28 10:48

产品定位是什么，用户群体是什么，功能是是什么，数据助手，那么数据来源是什么，获利手段是什么‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’

陈十一 2018-04-25 16:51

最初，我们本意是自己用来做数据清洗的，没有想过获利。以上问题，均陷入迷茫，所以才寻求高手指点！能否请再深入一点、赐教一二？ - q2488433945 2018-04-28 10:50

你这还只是数据录入的阶段，还没到数据处理和分析。流程应该是

1.preprocessing（比如降维，normalization），

2. data mining,有目标时做（regression，classification），没目标时可以尝试clustering。先看下各个输入的histogram，大概能分几类，在做clustering，最后调参。

3.postprocessing，做结果的可视化，cluster evaluation（这也是个大话题，分为有/无target label）。

4.重复1-3

有目标的任务会简单点，如果没有目标，而且对数据理解又不深，那结果就很难说了。

Zealing 2018-04-25 18:08

非常感谢老师的指点。 - q2488433945 2018-04-28 10:51

数据批量分析提取，求指点迷津