推荐开放数据库

  统计/机器学习 开放问题    浏览次数: 1748

最近在自学machine learning,想找点真实数据练练手,大家能推荐几个免费的开放的数据库吗?

最好是比较全的那种,想练练回归、分类、聚类的那些模型。

谢谢了!

 

小嘿   2017-03-07 14:10



   5个回答 
9

我补充几个

数据中华

Wind(万得)

亚马逊AWS

手写数字识别MNIST

ImageNet(图像识别)

电影评论数据

SofaSofa数据科学社区 DS面经 问答 实战

LeBron   2017-03-14 07:23

6

加州大学尔湾分校的公开数据库(这个是最全的!) UCI Machine Learning DataBase 

加州大学河滨分校的时间序列数据库 UCR Time Series Classification Archive

国家数据(咱们自己的) 国家数据

Kaggle数据竞赛 Kaggle数据集

SofaSofa数据科学社区 DS面经 问答 实战

蓝色北方   2017-03-08 10:56

kaggle高层表示可以退休享福了。 - 小嘿   2017-03-29 07:59
3

补充补充:

数据描述与下载 | 聚数力平台 | 大数据应用要素托管与交易平台

KONECT - The Koblenz Network Collection

Webscope | Yahoo Labs

MS MARCO - Dataset Download

SofaSofa数据科学社区 DS面经 问答 实战

s3040608090   2017-10-30 10:49

2

上海数据库也不错

http://www.datashanghai.gov.cn

SofaSofa数据科学社区 DS面经 问答 实战

杨业勇   2017-05-14 02:41

2

1 -Kaggle数据集

网址:www.kaggle.com/datasets

每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状、大小、格式各异的真实数据集。你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。


2 -亚马逊数据集

网址:registry.opendata.aws

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!


3- UCI机器学习库:

网址:archive.ics.uci.edu/ml/datasets.html

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。


4-谷歌的数据集搜索引擎:

网址:toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。


5 -微软数据集:

网址:msropendata.com

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。


6-Awesome公共数据集:

网址:github.com/awesomedata/awesome-public-datasets

这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。


7-计算机视觉数据集:

网址:www.visualdata.io

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。

该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。


8-SofaSofa数据集:

网址:SofaSofa竞赛与数据集

SofaSofa上的朋友都知道吧


综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

SofaSofa数据科学社区 DS面经 问答 实战

得得得   2019-01-31 09:11



  相关主题

人类的第一个机器学习算法是什么?   2回答

在线算法(online algorithm)是什么意思?   2回答

如何理解PAC Learning?   1回答

机器学习算法中有哪些用到了贪婪算法的思想?   5回答

Generic/Heuristic Algorithm是什么意思?有什么区别?   1回答

hyperparameter与parameter的区别?   3回答

加性模型是什么意思?   2回答

数据泄漏(data leakage)是什么意思?   2回答

如何学习机器学习?有没有好的经验。   1回答

ensemble模型时,bagging和stacking有什么区别?   2回答

baseline模型和benchmark模型的差别?   1回答

如何理解VC dimension?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!