CABench

Setup

You can install mlebench with pip:

pip install -e .

Dataset

The CA-bench dataset is a collection of 70 CA problems which we use to evaluate the ML engineering capabilities of AI systems.

To install CA problems datasets, run:

cabench download -d datasets

To install baseline and humand design results, run:

cabench download -d results

Usage

Generate workflows from pipeline

To generate workflows from a specific pipeline:

cabench generate -p <task_directory> -s <save_directory> -pl <pipeline_path> -n <rounds>

Example:

cabench generate -p tasks/node-level -s results/my_experiment -pl pipeline/zeroshot_pipeline.py -n 3

Run generated workflows

To run the generated workflows:

cabench run -p <task_directory> -s <save_directory> -n <rounds>

Example:

cabench run -p tasks/node-level -s results/my_experiment -n 3

Calculate solution scores

To calculate scores for executed solutions:

cabench calculate -p <task_directory> -s <save_directory> -n <rounds>

Example:

cabench calculate -p tasks/node-level -s results/my_experiment -n 3

Run complete pipeline

To generate, run and calculate scores in a single command:

cabench generate -p <task_directory> -s <save_directory> -pl <pipeline_path> -n <rounds> --run-after --calculate-after

Example:

cabench generate -p tasks/node-level -s results/my_experiment -pl pipeline/zeroshot_pipeline.py -n 3 --run-after --calculate-after

Main parameters

-p, --path: Path to task directory (multiple tasks supported)
-s, --save-dir: Directory to save results (must be a subfolder of 'results/')
-pl, --pipeline_path: Path to pipeline for generating solutions
-n, --rounds: Number of rounds to run (default: 1)
--run-after: Run workflows immediately after generation
--calculate-after: Calculate scores after running (requires --run-after)

List available datasets

cabench download --list

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
configs		configs
data		data
pipeline		pipeline
provider		provider
scripts		scripts
server		server
storage		storage
templates		templates
utils		utils
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
docker-compose.yml		docker-compose.yml
entrypoint.sh		entrypoint.sh
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CABench

Setup

Dataset

Usage

Generate workflows from pipeline

Run generated workflows

Calculate solution scores

Run complete pipeline

Main parameters

List available datasets

About

Uh oh!

Releases

Packages

Languages

License

iSE-UET-VNU/CABench

Folders and files

Latest commit

History

Repository files navigation

CABench

Setup

Dataset

Usage

Generate workflows from pipeline

Run generated workflows

Calculate solution scores

Run complete pipeline

Main parameters

List available datasets

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages