Scrapping of Letni kino MDB #67

volmutJ · 2013-08-27T15:32:22Z

Scrapper downloads pdf from programme page then runs pdftotext on it and parse information eventually.
Pyocr was not possible to use because of messy result from parsing image.
I found this article (http://theprogrammingbutler.com/blog/archives/2011/07/28/running-pdftotext-on-heroku/) about running pdf to text on heroku.
I tried some other possibilities like python libs dedicated to parsing pdf but the layout of result was broken.
There is binary of pdftotext which was compiled on Heroku and added to the source code.

- Scrapper downloads pdf from program page then runs pdftotext on it and parse information eventually. - Pyocr was not possible to use due to wrong parsing of image - There is binary of pdftotext which was compiled on Heroku and added to the source code

honzajavorek · 2013-08-27T17:14:34Z

Díky moc! 🎈

Přidal jsem CONTRIBUTING.md, ať si tu můžeme povídat česky.

Tohle vypadá hodně dobře! Škoda, že by nevyšlo nějaké to OCR, protože těch "obrázkových" kin bylo víc (jsou někde zahrabané v issues). Prozkoumám to a dám vědět. Na Heroku by šel snad připravit nějaký speciální buildpack, nebo jak oni tomu říkají. Uvažoval jsem o vlastním buildpacku zrovna kvůli Tesseractu.

volmutJ · 2013-08-27T18:29:29Z

Chtěl jsem scrapnout další a narazil jsem na to samé, totiž, že to mají často jako obrázek. Zkoušel jsem si s Tesseractem hrát, ale i pro černý text na bílém pozadí to začne být v určité velikosti písma problém (např. 5/s, l/1 a podobné), nemluvě o horším kontrastu (purpurová - černá).
Taky jsem uvažoval o něčem podobném, jako je buildpack, ale nepouštěl jsem se do toho, protože mi přijde rozumné se nejdřív domluvit (navíc s heroku nemám moc extra zkušenosti).

honzajavorek · 2013-08-27T19:37:30Z

Tak kontrast by šel ještě upravit přes nějaký filtr a grafickou knihovnu, ale ta špatná písmenka, to už je horší. Muselo by se to důsledně protáhnout přes fuzzywuzzy a normalizovat na existující název filmu (což se stejně plánuje, kina mívají na stránkách překlepy, chybné názvy, nebo to všechno píšou CAPSLOCKem). Potom je otázkou, zda se s takovou chybou vypořádá referenční vyhledávání (čti vyhledávání na ČSFD). No a na jemný pokus se zdá, že asi jo :-) Takže cesta by to možná, možná byla!

honzajavorek · 2013-09-26T09:31:14Z

Dívali jsme se na to i na sprintu a bavili se o tom, ale zatím je to u ledu, protože letní kina jsou nyní pasé a není momentálně žádné další kino, které by mělo program jako obrázek (původně byly dvě). Jak se nějaké objeví, začne to být opět aktuální, protože pro tyto případy nezafunguje #93.

Scrapping of Letni kino MDB

6916e46

- Scrapper downloads pdf from program page then runs pdftotext on it and parse information eventually. - Pyocr was not possible to use due to wrong parsing of image - There is binary of pdftotext which was compiled on Heroku and added to the source code

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Scrapping of Letni kino MDB #67

Scrapping of Letni kino MDB #67

volmutJ commented Aug 27, 2013

honzajavorek commented Aug 27, 2013

volmutJ commented Aug 27, 2013

honzajavorek commented Aug 27, 2013

honzajavorek commented Sep 26, 2013

Scrapping of Letni kino MDB #67

Are you sure you want to change the base?

Scrapping of Letni kino MDB #67

Conversation

volmutJ commented Aug 27, 2013

honzajavorek commented Aug 27, 2013

volmutJ commented Aug 27, 2013

honzajavorek commented Aug 27, 2013

honzajavorek commented Sep 26, 2013