Skip to content
This repository has been archived by the owner on Mar 15, 2019. It is now read-only.

Scrapping of Letni kino MDB #67

Open
wants to merge 1 commit into
base: master
Choose a base branch
from

Conversation

volmutJ
Copy link

@volmutJ volmutJ commented Aug 27, 2013

  • Scrapper downloads pdf from programme page then runs pdftotext on it and parse information eventually.
  • Pyocr was not possible to use because of messy result from parsing image.
    I found this article (http://theprogrammingbutler.com/blog/archives/2011/07/28/running-pdftotext-on-heroku/) about running pdf to text on heroku.
    I tried some other possibilities like python libs dedicated to parsing pdf but the layout of result was broken.
  • There is binary of pdftotext which was compiled on Heroku and added to the source code.

- Scrapper downloads pdf from program page then runs pdftotext on it
    and parse information eventually.
- Pyocr was not possible to use due to wrong parsing of image
- There is binary of pdftotext which was compiled on Heroku and added
    to the source code
@honzajavorek
Copy link
Contributor

Díky moc! 🎈

Přidal jsem CONTRIBUTING.md, ať si tu můžeme povídat česky.

Tohle vypadá hodně dobře! Škoda, že by nevyšlo nějaké to OCR, protože těch "obrázkových" kin bylo víc (jsou někde zahrabané v issues). Prozkoumám to a dám vědět. Na Heroku by šel snad připravit nějaký speciální buildpack, nebo jak oni tomu říkají. Uvažoval jsem o vlastním buildpacku zrovna kvůli Tesseractu.

@volmutJ
Copy link
Author

volmutJ commented Aug 27, 2013

Chtěl jsem scrapnout další a narazil jsem na to samé, totiž, že to mají často jako obrázek. Zkoušel jsem si s Tesseractem hrát, ale i pro černý text na bílém pozadí to začne být v určité velikosti písma problém (např. 5/s, l/1 a podobné), nemluvě o horším kontrastu (purpurová - černá).
Taky jsem uvažoval o něčem podobném, jako je buildpack, ale nepouštěl jsem se do toho, protože mi přijde rozumné se nejdřív domluvit (navíc s heroku nemám moc extra zkušenosti).

@honzajavorek
Copy link
Contributor

Tak kontrast by šel ještě upravit přes nějaký filtr a grafickou knihovnu, ale ta špatná písmenka, to už je horší. Muselo by se to důsledně protáhnout přes fuzzywuzzy a normalizovat na existující název filmu (což se stejně plánuje, kina mívají na stránkách překlepy, chybné názvy, nebo to všechno píšou CAPSLOCKem). Potom je otázkou, zda se s takovou chybou vypořádá referenční vyhledávání (čti vyhledávání na ČSFD). No a na jemný pokus se zdá, že asi jo :-) Takže cesta by to možná, možná byla!

@honzajavorek
Copy link
Contributor

Dívali jsme se na to i na sprintu a bavili se o tom, ale zatím je to u ledu, protože letní kina jsou nyní pasé a není momentálně žádné další kino, které by mělo program jako obrázek (původně byly dvě). Jak se nějaké objeví, začne to být opět aktuální, protože pro tyto případy nezafunguje #93.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants