推荐开放数据库

  统计/机器学习 开放问题    浏览次数:3498        分享

最近在自学machine learning,想找点真实数据练练手,大家能推荐几个免费的开放的数据库吗?

最好是比较全的那种,想练练回归、分类、聚类的那些模型。

谢谢了!

 

小嘿   2017-03-07 14:10



   5个回答 
9

我补充几个

数据中华

Wind(万得)

亚马逊AWS

手写数字识别MNIST

ImageNet(图像识别)

电影评论数据

SofaSofa数据科学社区DS面试题库 DS面经

LeBron   2017-03-14 07:23

6

加州大学尔湾分校的公开数据库(这个是最全的!) UCI Machine Learning DataBase 

加州大学河滨分校的时间序列数据库 UCR Time Series Classification Archive

国家数据(咱们自己的) 国家数据

Kaggle数据竞赛 Kaggle数据集

SofaSofa数据科学社区DS面试题库 DS面经

蓝色北方   2017-03-08 10:56

kaggle高层表示可以退休享福了。 - 小嘿   2017-03-29 07:59
3

补充补充:

数据描述与下载 | 聚数力平台 | 大数据应用要素托管与交易平台

KONECT - The Koblenz Network Collection

Webscope | Yahoo Labs

MS MARCO - Dataset Download

SofaSofa数据科学社区DS面试题库 DS面经

s3040608090   2017-10-30 10:49

2

上海数据库也不错

http://www.datashanghai.gov.cn

SofaSofa数据科学社区DS面试题库 DS面经

杨业勇   2017-05-14 02:41

2

1 -Kaggle数据集

网址:www.kaggle.com/datasets

每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状、大小、格式各异的真实数据集。你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。


2 -亚马逊数据集

网址:registry.opendata.aws

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!


3- UCI机器学习库:

网址:archive.ics.uci.edu/ml/datasets.html

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。


4-谷歌的数据集搜索引擎:

网址:toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。


5 -微软数据集:

网址:msropendata.com

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。


6-Awesome公共数据集:

网址:github.com/awesomedata/awesome-public-datasets

这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。


7-计算机视觉数据集:

网址:www.visualdata.io

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。

该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。


8-SofaSofa数据集:

网址:SofaSofa竞赛与数据集

SofaSofa上的朋友都知道吧


综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

SofaSofa数据科学社区DS面试题库 DS面经

得得得   2019-01-31 09:11



  相关主题

baseline模型和benchmark模型的差别?   2回答

在线算法(online algorithm)是什么意思?   2回答

sota model是什么意思?   1回答

评分卡模型是什么?   1回答

除了线性回归,逻辑回归,线性模型(linear model)包括哪些模型和算法?   2回答

如何理解PAC Learning?   1回答

ensemble模型时,bagging和stacking有什么区别?   2回答

函数型数据分析   0回答

hyperparameter与parameter的区别?   3回答

数据泄漏(data leakage)是什么意思?   2回答

用户画像具体是指什么?   3回答

seq2seq模型有什么应用场景?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!