GitHub - georgetown-cset/arxiv-corpus: arXiv source data, and associated code for preprocessing, labeling, and partitioning

arXiv data and code

This repo contains arXiv source data, and associated code for preprocessing, labeling, and partitioning it. The source data are under data/source as gzipped JSONL files.

After setting up a Python environment, run

python runner.py 'data/source/arxiv-data-20200125-split*.jsonl.gz'

The result will be a preprocessed corpus under data/processed and various partitions and samples for training under data/train.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
analysis		analysis
data		data
preprocessing_utils		preprocessing_utils
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
assign_labels.py		assign_labels.py
preprocess.py		preprocess.py
requirements-minimal.txt		requirements-minimal.txt
requirements.txt		requirements.txt
runner.py		runner.py
util.py		util.py
write_partitions.py		write_partitions.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

arXiv data and code

About

Releases

Packages

Contributors 2

Languages

georgetown-cset/arxiv-corpus

Folders and files

Latest commit

History

Repository files navigation

arXiv data and code

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages