AO-GPT-MDMD

This is the repository for training/infering an Masked Diffusion Model in a GPT-style based on nanoGPT.

install

pip install torch numpy transformers datasets tiktoken wandb tqdm

Dependencies:

pytorch <3
numpy <3
transformers for huggingface transformers <3 (to load GPT-2 checkpoints)
datasets for huggingface datasets <3 (if you want to download + preprocess OpenWebText)
tiktoken for OpenAI's fast BPE code <3
wandb for optional logging <3
tqdm for progress bars <3

data preprocessing

bash submit_data_preprocess.sh

This bash script is to download and preprocess the necessary datasets (OpenWebText, Wikitext, 1BW, LAMBADA, etc.) before training.

Train an AO-GPT

Train a GPT-2 Small scale model.

bash submit_124M_train.sh

Train a GPT-2 Medium scale model.

bash submit_350M_train.sh

Pretrained Checkpoint

Pretrained Checkpoints

My pretrained checkpoints for AO-GPT (Small, Medium) and Sigma-GPT (Small, Medium) are hosted on Hugging Face at Cauthyyy/AO-GPT-MDM.

Model	Link
AO-GPT-Small	Link
AO-GPT-Medium	Link
Sigma-GPT-Small	Link
Sigma-GPT-Medium	Link

sampling / inference

bash sample_AOGPT.sh

Try different sampling steps, Top-p, and temperature settings!

acknowledgements

This repo is heavily built on nanoGPT.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
config_larger_model_v3		config_larger_model_v3
config_order		config_order
README.md		README.md
catsample.py		catsample.py
configurator.py		configurator.py
data.py		data.py
data_preprocess.py		data_preprocess.py
ema.py		ema.py
eval_ppl_AOGPT.py		eval_ppl_AOGPT.py
eval_ppl_AOGPT_ar.py		eval_ppl_AOGPT_ar.py
eval_ppl_AOGPT_ensemble.py		eval_ppl_AOGPT_ensemble.py
eval_ppl_gpt.py		eval_ppl_gpt.py
eval_ppl_sigmagpt_ar.py		eval_ppl_sigmagpt_ar.py
eval_ppl_sigmagpt_random.py		eval_ppl_sigmagpt_random.py
model_AOGPT_AdaLN6_NoRep_cond_128_trunc_qknorm.py		model_AOGPT_AdaLN6_NoRep_cond_128_trunc_qknorm.py
model_AOGPT_generate.py		model_AOGPT_generate.py
model_sigmaGPT.py		model_sigmaGPT.py
sample_AOGPT.py		sample_AOGPT.py
sample_AOGPT.sh		sample_AOGPT.sh
speed_compare.py		speed_compare.py
submit_124M_train.sh		submit_124M_train.sh
submit_124M_train_NoCL.sh		submit_124M_train_NoCL.sh
submit_350M_train.sh		submit_350M_train.sh
submit_data_preprocess.sh		submit_data_preprocess.sh
train_AOGPT_CL.py		train_AOGPT_CL.py
train_AOGPT_single_random.py		train_AOGPT_single_random.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

AO-GPT-MDMD

install

data preprocessing

Train an AO-GPT

Pretrained Checkpoint

Pretrained Checkpoints

sampling / inference

acknowledgements

About

Uh oh!

Releases

Packages

Languages

scxue/AO-GPT-MDM

Folders and files

Latest commit

History

Repository files navigation

AO-GPT-MDMD

install

data preprocessing

Train an AO-GPT

Pretrained Checkpoint

Pretrained Checkpoints

sampling / inference

acknowledgements

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages