refatora spider do Ceará

Cesar Smaniotto · Cesar Smaniotto · commit 3a35fec6b3b2 · 2020-03-29T23:05:38.000-03:00
diff --git a/corona_ce_spider.py b/corona_ce_spider.py
@@ -1,132 +1,139 @@
 import json
-import os
 from collections import defaultdict
-from datetime import datetime
+from datetime import datetime, timedelta
 
 import scrapy
 
-from scrapy_splash import SplashRequest
-
 
 class Covid19CESpider(scrapy.Spider):
-    url = "https://indicadores.integrasus.saude.ce.gov.br/indicadores/indicadores-coronavirus/coronavirus-ceara"
     name = "covid19ce"
-    lua_src = """
-    function main(splash, args)
-      splash:go(args.url)
-      splash:wait(0.5)
-      local data = splash:jsfunc([[
-      function() {
-        var module = {exports:[]};
-        for (var i=0; i < window.webpackJsonp.length; i++) {
-          try {
-            console.log(i);
-            window.webpackJsonp[i][1]['./src/assets/data/data-municipio.json'](module);
-            break;
-          }
-          catch (err) {
-            console.log('Falha ao buscar arquivo no indice ' + i);
-          }
-        }
-        return module.exports;
-      }
-      ]])
-      return {
-        data = data()
-      }
-    end
-    """
-
-    custom_settings = {
-        'SPLASH_URL': os.environ.get('SPLASH_URL'),
-        'DOWNLOADER_MIDDLEWARES': {
-            'scrapy_splash.SplashCookiesMiddleware': 723,
-            'scrapy_splash.SplashMiddleware': 725,
-            'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
-        },
-        'SPIDER_MIDDLEWARES': {
-            'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
-        },
-        'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',
-        'HTTPCACHE_STORAGE': 'scrapy_splash.SplashAwareFSCacheStorage',
-    }
+    base_url = "https://indicadores.integrasus.saude.ce.gov.br/api/coronavirus/qtd-por-municipio?data={date}&tipo={type}"
 
     def start_requests(self):
-        args = {"lua_source": self.lua_src}
-        yield SplashRequest(
-            self.url, self.parse, endpoint="execute", args=args
+        yield scrapy.Request(
+            "https://indicadores.integrasus.saude.ce.gov.br/api/coronavirus/filtro-data",
+            self.parse_filter_date,
         )
 
-    def parse(self, response):
-        script_return = response.body_as_unicode()
-        cases = json.loads(script_return)["data"]
+    def parse_filter_date(self, response):
+        response_json = response.body_as_unicode()
+        filter_date = json.loads(response_json)[0]
 
-        cities_cases = process_cities(cases, self.url)
-        state_cases = process_state(cities_cases)
+        iter_date = datetime.strptime(filter_date["dataMin"], "%d/%m/%Y").date()
+        end_date = datetime.strptime(filter_date["dataMax"], "%d/%m/%Y").date()
 
-        all_cases = cities_cases + state_cases
-        all_cases.sort(key=lambda d: d['date'])
+        while iter_date <= end_date:
+            yield scrapy.Request(
+                self.base_url.format(date=iter_date.isoformat(), type="Confirmado"),
+                self.parse_confirmed,
+                meta={"date": iter_date.isoformat()},
+            )
 
-        for case in all_cases:
-            yield case
+            iter_date += timedelta(days=1)
 
+    def parse_confirmed(self, response):
+        response_json = response.body_as_unicode()
+        confirmed_cases = json.loads(response_json)
 
-def process_cities(cases, url):
-    date_cases_map = defaultdict(lambda: defaultdict(dict))
+        fixed_cases = []
+        for case in confirmed_cases:
+            if case["tipo"] != "Positivo":
+                continue
 
-    for case in cases:
-        date = case["data"]
-        city = case["municipio"]
-        if case["tipo"] == "Confirmado":
-            date_cases_map[date][city]["confirmed"] = case["quantidade"]
-        elif case["tipo"] == "Óbito":
-            date_cases_map[date][city]["deaths"] = case["quantidade"]
-
-    cities_cases = []
-
-    for date, city_map in date_cases_map.items():
-        for city_name, cases in city_map.items():
-            date_obj = datetime.strptime(date, "%d/%m/%Y").date()
-            cities_cases.append(
+            fixed_cases.append(
                 {
-                    "date": date_obj.isoformat(),
-                    "state": "CE",
-                    "city": city_name,
-                    "place_type": "city",
-                    "notified": "",
-                    "confirmed": cases.get("confirmed", ""),
-                    "discarded": "",
-                    "suspect": "",
-                    "deaths": cases.get("deaths", ""),
-                    "notes": "",
-                    "source_url": url,
+                    **case,
+                    "date": response.meta["date"],
+                    "url": response.url,
+                    "confirmed": case["quantidade"],
                 }
             )
 
-    return cities_cases
+        yield scrapy.Request(
+            self.base_url.format(date=response.meta["date"], type="Óbito"),
+            self.parse_death,
+            meta={"confirmed": fixed_cases, "date": response.meta["date"]},
+        )
+
+    def parse_death(self, response):
+        response_json = response.body_as_unicode()
+        death_cases = json.loads(response_json)
+
+        fixed_cases = []
+        for case in death_cases:
+            if case["tipo"] != "Positivo":
+                continue
+
+            fixed_cases.append(
+                {
+                    **case,
+                    "date": response.meta["date"],
+                    "url": response.url,
+                    "deaths": case["quantidade"],
+                }
+            )
+
+        all_cases = fixed_cases + response.meta["confirmed"]
+        parsed_cases = list(process_cities(all_cases))
+
+        for case in parsed_cases:
+            yield case
+
+        state_case = process_state(parsed_cases)
+        if state_case:
+            yield state_case
+
+
+def process_cities(cases):
+    map_city_case = defaultdict(lambda: {"deaths": 0, "confirmed": 0, "source_url": []})
+
+    for case in cases:
+        municipio = case["municipio"]
+        if "confirmed" in case:
+            map_city_case[municipio]["confirmed"] = case["confirmed"]
+        if "deaths" in case:
+            map_city_case[municipio]["deaths"] = case["deaths"]
+
+        map_city_case[municipio]["source_url"].append(case["url"])
+        map_city_case[municipio].update(
+            date=case["date"], city=case["municipio"].title(),
+        )
+
+    for case in map_city_case.values():
+        yield {
+            "date": case["date"],
+            "state": "CE",
+            "city": case["city"],
+            "place_type": "city",
+            "notified": "",
+            "confirmed": case["confirmed"],
+            "discarded": "",
+            "suspect": "",
+            "deaths": case["deaths"],
+            "notes": "",
+            "source_url": ",".join(case["source_url"]),
+        }
 
 
 def process_state(cities_cases):
-    date_cases_map = {}
-
-    for city_case in cities_cases:
-        date = city_case['date']
-        if date not in date_cases_map:
-            date_cases_map[date] = {
-                "date": date,
-                "state": "CE",
-                "city": '',
-                "place_type": "state",
-                "notified": "",
-                "confirmed": city_case['confirmed'] or 0,
-                "discarded": "",
-                "suspect": "",
-                "deaths": city_case['deaths'] or 0,
-                "notes": "",
-                "source_url": city_case['source_url'],
-            }
-        else:
-            date_cases_map[date]['deaths'] += city_case['deaths'] or 0
-            date_cases_map[date]['confirmed'] += city_case['confirmed'] or 0
-
-    return list(date_cases_map.values())
+    if not cities_cases:
+        return None
+
+    sum_confirmed = sum((case["confirmed"] for case in cities_cases))
+    sum_deaths = sum((case["deaths"] for case in cities_cases))
+
+    city_case = cities_cases[0]
+
+    return {
+        "date": city_case["date"],
+        "state": "CE",
+        "city": "",
+        "place_type": "state",
+        "notified": "",
+        "confirmed": sum_confirmed,
+        "discarded": "",
+        "suspect": "",
+        "deaths": sum_deaths,
+        "notes": "",
+        "source_url": city_case["source_url"],
+    }