数据批量分析提取,求指点迷津

  统计/机器学习 自然语言处理 数据预处理 开放问题    浏览次数:3403        分享
0

苦逼的数据工作,在里面沉陷, 

试着做了一个小小的雏形工具: 

1、导入杂乱信息的文档  

2、把线头理出来 

3、批量提取:   

企业机关事业单位

地址   

联系方式   

。。。。。。   

以后我们还可以延伸到提取标准,规范的名称,编号等。 

但是,做着做着,就不知道怎么往下走了,   


我们经验不够,所以希望高手能提点一下:

  

1.这个产品,应该朝哪个方向走?   

2.哪些地方,会用的到这个产品?

3.做大数据助手,要增加些什么?  

 

q2488433945   2018-04-25 11:56



   4个回答 
0

导入的文档是文本还是图片?

我也看不出你这个有什么用,因为如果是我的话,需要查事业单位的地址,我都是用百度的。这个产品是独立的,还是服务于公司内部其他产品的?

之前有个app是把别人的名片(图片)导入手机里,变成姓名、电话、邮箱、单位,等文本信息的。

SofaSofa数据科学社区DS面试题库 DS面经

DuckU   2018-04-25 12:04

导入文本。这个产品是独立的 - q2488433945   2018-04-28 10:43
0

一般不是先有应用场景和需求,再有产品么?感觉题主是先有产品,再找场景。

大数据助手嘛,感觉可以提供每个单位的开门时间(忙或者闲的时段)、停车信息什么的

SofaSofa数据科学社区DS面试题库 DS面经

mrhust   2018-04-25 12:25

最初,我们本意是自己用来做数据清洗的,把杂乱数据中的有效联系方式识别提取出来。做到现在,就想看看还有没有扩展的可能。所以想请各位有经验的前辈提点一下 - q2488433945   2018-04-28 10:48
0

产品定位是什么,用户群体是什么,功能是是什么,数据助手,那么数据来源是什么,获利手段是什么‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-04-25 16:51

最初,我们本意是自己用来做数据清洗的,没有想过获利。 以上问题,均陷入迷茫,所以才寻求高手指点! 能否请再深入一点、赐教一二? - q2488433945   2018-04-28 10:50
0

你这还只是数据录入的阶段,还没到数据处理和分析。流程应该是

1.preprocessing(比如降维,normalization),

2. data mining,有目标时做(regression,classification),没目标时可以尝试clustering。先看下各个输入的histogram,大概能分几类,在做clustering,最后调参。

3.postprocessing,做结果的可视化,cluster evaluation(这也是个大话题,分为有/无target label)。

4.重复1-3

有目标的任务会简单点,如果没有目标,而且对数据理解又不深,那结果就很难说了。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-04-25 18:08

非常感谢老师的指点。 - q2488433945   2018-04-28 10:51
非常感谢老师的指点。 - q2488433945   2018-04-28 10:51


  相关讨论

文本分类问题怎么做data augmentation?

请问NLP中这种编码方式有没有什么术语?

NLP里的OOV是什么意思?

自然语言处理中的分词是什么意思?

怎么理解nlp里的good-turing smooth?

机器学习中文数据的训练集的预处理

怎么识别“的”“地”“得”是否用错?

如何对中文部分进行独热处理(one-hot)

自定义CountVectorizera中默认的英语stop_words

求python里得到n-grams的包?

  随便看看

Python的Jupyter Notebook环境下怎么制作一个动态显示的进度条?

'numpy.ndarray' object has no attribute 'head'

为什么LASSO可以做特征选择,而Ridge却不行?

把tf.Tensor转换为numpy array

随机梯度下降(sgd)的收敛问题