Skip to content

[DISCUSS]: Discuss about enhance the dataset manager capability #11

@xieydd

Description

@xieydd

To enhance the fluid dataset manager capability, i summary our commany dataset usage:

Unisound Atlas AI Platform(网络隔离):

数据存储方式:
非对象存储,为分布式文件系统存储,分布式文件挂载到所有物理节点的固定目录,所有组和用户有统一的入口

数据的来源:

  1. 公开数据集, 例如 ImageNetMS-Celeb-1MLibriSpeech
  2. 针对业务场景,算法科学家指导数据标注部门进行数据采集
  3. 算法工程师自己拿设备(摄像头、麦克风、或者真实场景会用到的设备)进行符合业务场景环境采集
  4. 爬虫在网络爬取数据

数据的备份:

  1. 针对上述的1和2会进行数据入库,并进行备份(注:通过原始数据能够生成的数据(比如特征等)不会入库)

数据的使用场景和使用方式:

  1. 针对数据1一般为复现模型和实验 Baseline
  2. 针对数据2一般为针对业务场景在 Basline 优化
  3. 数据3一般会作为测试集或针对业务优化
  4. 看情况,可能是上面3种任意一种

使用数据的痛点:

  1. 入库数据非面向用户(数据科学家)使用,虽然可查但是从申请数据到数据到自己的目录需要手动的拷贝
  2. 各个用户(每个用户一个 namespace)的文件目录下有很多重复的数据集(对存储是一种浪费)
  3. 数据来源 2、3、4 的大量数据没有入库,用户间无法感知,复用较复杂(需要用户和用户之间沟通,并授权或拷贝)
  4. 模型复现依赖于数据(原始数据或者前处理后数据),无法管理如此零散的数据

@cheyang @TrafalgarZZZ @wsxiaozhang

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions