Meu TCC

Repositório para pesquisa do meu Trabalho de Conclusão de Curso.

Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
- PyMuPDF obteve melhores resultados.
Segementação dos textos por publicações.
- Utilizado o pipe que tem nos PDF para a separação de atos.
- Regex para encontrar padrões de quando se inicia um novo ato.
- Separação de atos por entidades do documento.
- PDF convertido em um JSON com os atos separados por entidades.

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
best_models		best_models
nlp		nlp
pos_anotation		pos_anotation
tcc		tcc
.gitignore		.gitignore
CountLicitation.py		CountLicitation.py
Main.py		Main.py
README.md		README.md
TCC_Rich_Elton_Carvalho_Ramalho.pdf		TCC_Rich_Elton_Carvalho_Ramalho.pdf
converter.py		converter.py
environment.md		environment.md
filter.py		filter.py
output.jsonl		output.jsonl
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
search.py		search.py
x.pdf		x.pdf

Provide feedback