Skip to content

Парсинг российской судебной статистики. Прилежность судов в публикации информации на сайте на основе разницы между датой события и датой размещения записи.

Notifications You must be signed in to change notification settings

undine-su-menulio/Russian-Courts

Repository files navigation

Здравствуйте!

Этот код парсит сайты региональных российских судов (не подходит для Москвы). 
Полученные данные позволяют сделать выводы, насколько прилежно суд публикует информацию на сайте, за счёт разницы между датой события и датой размещения на сайте информации о событии.

В папке "Картограммы и Презентация" — результаты визуализации полученных данных с помощью программы QGis.

В папке "Примеры данных" — файлы, полученные с помощью кода. Данные районных судов Перми, по 1000 дел на суд.

Файлы "Ссылки название суда.txt" содержат все ссылки на дела, которые слушались в течение выбранного пользователем периода. В данном случае собирались ссылки с 1 января по 15 сентября 2020 г.

Названия .xlsx-файлов строятся по схеме: "Название суда_Количество собранных ссылок_чистый.xlsx"
Например: Дзержинский_1000_с дельтой.xlsx

..._чистый.xlsx - содержат только спарсенные Даты и Даты размещения.
..._с дельтой.xlsx: столбцы "index" и "pure"  - разница между Датой и Датой размещения в днях (то есть сама дельта), столбец "Дельта" - число уникальных значений. Допустим, сколько записей суды опубликовали в день события? Иными словами, сколько раз дельта между датой размещения и датой события равна 0?
Столбцы "index" и "pure" тождественны друг другу в эксель-файлах, дублируются лишь из-за разницы форматов при обработке данных в питоне.
Отрицательные значения в столбцах "index" и "pure" означают, что запись размещена заранее и оповещает пользователей о грядущем событии, которое пока не состоялось.

Файл "Суды Финал.xlsx". Колонки:

	Суд — название суда.
        Всего записей — совокупное количество записей.

        0 дней — количество записей, где разница между Датой размещения и Датой события составляет 0 дней.
        0 дней % — процент 0 дней от всех записей.

        1-7 дней — количество записей, где разница между Датой размещения и Датой события составляет от 1 до 7 дней.
        1-7 дней % — процент 1-7 дней от всех записей.

        8+дн. - месяц — количество записей, где разница между Датой размещения и Датой события составляет от 8 до 31 дня.
        8+дн. - месяц % — процент 8+дн. - месяц от всех записей.

        Больше месяца — количество записей, где разница между Датой размещения и Датой события составляет свыше 31 дня.
        Больше месяца % — процент Больше месяца от всех записей.

        Максимум + — максимальная задержка публикации, то есть максимальная разница между Датой размещения и Датой события. 

        Минимум - — максимальная отрицательная разница между Датой размещения и Датой события, то есть наиболее отдалённое, 
        запланированное событие.

        0> Будущее — количество записей, где разница между Датой размещения и Датой события отрицательна, 
        то есть событие запланировано на будущее.
        0> Будущее % — процент 0> Будущее от всех записей.
	
	Нет даты размещения — количество записей, где не указана Дата размещения.
        Нет даты размещения % — процент Нет даты размещения от всех записей.

Контакты: [email protected]

About

Парсинг российской судебной статистики. Прилежность судов в публикации информации на сайте на основе разницы между датой события и датой размещения записи.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published