Skip to content
/ tcc Public

Repository for research of my Course Completion Paper.

Notifications You must be signed in to change notification settings

richecr/tcc

Repository files navigation

Meu TCC

Repositório para pesquisa do meu Trabalho de Conclusão de Curso.

Tasks:

  • Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
  • Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
    • PyMuPDF obteve melhores resultados.
  • Segementação dos textos por publicações.
    • Utilizado o pipe que tem nos PDF para a separação de atos.
    • Regex para encontrar padrões de quando se inicia um novo ato.
    • Separação de atos por entidades do documento.
    • PDF convertido em um JSON com os atos separados por entidades.