Crawler

Open source crawler for Persian websites. Crawled websites to now:

Asriran

asriran/run_asriran.sh

You can change some paramters in this crawler. See run_asriran.sh.

Fa-Wikipedia

Due to some problems in crawling, I splitted this job into two stages. First crawling all index pages and second use those pages for crawling.

wikipedia/run_wikipedia.sh

Tasnim News

This crawler saves tasnim news pages based on category. This is appopriate for text classification task as data is relatively balanced across all categories. I selected equal amount of page per category.

We have a parameter Called Number_of_pages in tasnim.py which controls how many pages we should crawl in each category.

tasnim/run_tasnim.sh

Datasets are all available for download at Kaggle.

CSS selectors are mostly extracted via Copy Css Selector.

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
.vscode		.vscode
asriran		asriran
ensani		ensani
isna		isna
tarjoman		tarjoman
tasnim		tasnim
virgool		virgool
wikipedia		wikipedia
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md
asriran.py		asriran.py
ensani.py		ensani.py
isna.py		isna.py
logger.py		logger.py
requirements.txt		requirements.txt
tarjoman.py		tarjoman.py
tasnim.py		tasnim.py
virgool.py		virgool.py
wikipedia.py		wikipedia.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawler

Asriran

Fa-Wikipedia

Tasnim News

About

Uh oh!

Uh oh!

Languages

License

pourmand1376/PersianCrawler

Folders and files

Latest commit

History

Repository files navigation

Crawler

Asriran

Fa-Wikipedia

Tasnim News

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Uh oh!

Languages