Herramienta para extraer información de sitios web y convertirla a formato Markdown. Ideal para alimentar LLMs o crear bases de conocimiento.
- Clona este repositorio.
- Instala las dependencias:
pip install -r requirements.txtEl script extract_docs.py permite rastrear un sitio web y extraer su contenido.
python extract_docs.py URL [--output DIRECTORIO] [--delay SEGUNDOS]URL(Requerido): La URL base desde donde comenzar el rastreo. El script se limitará al dominio de esta URL.--output(Opcional): El nombre del directorio donde se guardarán los archivos Markdown generados. Por defecto esextracted_docs.--delay(Opcional): Tiempo de espera en segundos entre peticiones para respetar al servidor. Por defecto es1.0.
Extraer documentación de un sitio con delay de 2 segundos:
python extract_docs.py https://docs.ejemplo.com --output docs_ejemplo --delay 2El script funciona siguiendo esta lógica:
- Estructura de Clases: Utiliza
DocumentationCrawlerpara un código más modular y mantenible. - Extracción Eficiente: Usa
trafilaturapara obtener el contenido principal y reutiliza la descarga para descubrir nuevos enlaces, minimizando las peticiones HTTP. - Respetuoso: Implementa un sistema de delay configurable para no saturar los servidores objetivo.