GitHub - Avi197/Vietnamese-news-corpus: 2 millions news from popular Vietnamese news sources

2 millions news corpus for Vietnamese NLP task

News crawled from various popular Vietnamese news source: Dantri, Tuoitre, Thanhnien, Vnexpress, Vtv, Vietnamnet

All data was preprocessed: removed dupplicate, invisible space, ....

MongoDB (all information: author, images, cover, ....): ~6GB uncompressed
Download

MongoDB demo

title and description only (classification): ~500MB uncompress
Download

Raw text

Tokenized text

Title, description, content tokenized (raw text): ~5GB uncompressed, ~1GB compressed
Download

There is a bigger news corpus by binvq with different news source, contain around 14 millions news (raw, not preprocessed), use that one if you need a lot of data
Binhvq news corpus

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
README.md		README.md
detail demo.png		detail demo.png
mongo demo.png		mongo demo.png
non tokenized demo.png		non tokenized demo.png
tokenized demo.png		tokenized demo.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

2 millions news corpus for Vietnamese NLP task

About

Uh oh!

Releases

Packages

Avi197/Vietnamese-news-corpus

Folders and files

Latest commit

History

Repository files navigation

2 millions news corpus for Vietnamese NLP task

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages