To enhance the fluid dataset manager capability, i summary our commany dataset usage: Unisound Atlas AI Platform(网络隔离): 数据存储方式: 非对象存储,为分布式文件系统存储,分布式文件挂载到所有物理节点的固定目录,所有组和用户有统一的入口 数据的来源: 1. 公开数据集, 例如 [ImageNet](http://www.image-net.org/)、[MS-Celeb-1M](https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/)、[LibriSpeech](http://www.openslr.org/12/) 2. 针对业务场景,算法科学家指导数据标注部门进行数据采集 3. 算法工程师自己拿设备(摄像头、麦克风、或者真实场景会用到的设备)进行符合业务场景环境采集 4. 爬虫在网络爬取数据 数据的备份: 1. 针对上述的1和2会进行数据入库,并进行备份(注:通过原始数据能够生成的数据(比如特征等)不会入库) 数据的使用场景和使用方式: 1. 针对数据1一般为复现模型和实验 Baseline 2. 针对数据2一般为针对业务场景在 Basline 优化 3. 数据3一般会作为测试集或针对业务优化 4. 看情况,可能是上面3种任意一种 使用数据的痛点: 1. 入库数据非面向用户(数据科学家)使用,虽然可查但是从申请数据到数据到自己的目录需要手动的拷贝 2. 各个用户(每个用户一个 namespace)的文件目录下有很多重复的数据集(对存储是一种浪费) 3. 数据来源 2、3、4 的大量数据没有入库,用户间无法感知,复用较复杂(需要用户和用户之间沟通,并授权或拷贝) 4. 模型复现依赖于数据(原始数据或者前处理后数据),无法管理如此零散的数据 @cheyang @TrafalgarZZZ @wsxiaozhang