- Kaggle’s open data platform
- Google’s Public Data Sets
- /r/datasets
- UCI Machine Learning Repository
- awesome-public-datasets – an awesome list of high-quality open datasets in public domains (on-going)
- Реестр наборов открытых данных на data.gov.ru
- Большой перечень больших по размеру публичных датасетов
- An awesome list of high-quality datasets from the Webhose.io repositories
- IEEE Dataport datasets
- Wolfram Data Drop: Universal Data Accumulator
- Statistic Brain Stats and Facts Database - Stats and facts database on financial, sports, entertainment, geographic, industries
- Million song dataset – классический датасет на 280 гигов
- датасет MIDI, частично сматченный с аудио из million song dataset
- синхронизация фортепианных аудио и MIDI
- для рекомендаций (фидбек всякий):
- не знаю, что, но про аудио
- куча датасетов на сайте университета Пампеу Фабра (там хорошая лаборатория по music information retrieval)
- FMA: A Dataset For Music Analysis — в нем 100000 песен, с метой, говорят, что лучше MSD в том плане, что raw audio, не предобработанные Echonest'ом треки
- MusicNet — A curated collection of labeled classical music
- The NSynth Dataset – A large-scale and high-quality dataset of annotated musical notes