Skip to content

MotherJammer/URLToMD

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

URLToMD

Herramienta para extraer información de sitios web y convertirla a formato Markdown. Ideal para alimentar LLMs o crear bases de conocimiento.

Instalación

  1. Clona este repositorio.
  2. Instala las dependencias:
pip install -r requirements.txt

Uso

El script extract_docs.py permite rastrear un sitio web y extraer su contenido.

Sintaxis

python extract_docs.py URL [--output DIRECTORIO] [--delay SEGUNDOS]

Argumentos

  • URL (Requerido): La URL base desde donde comenzar el rastreo. El script se limitará al dominio de esta URL.
  • --output (Opcional): El nombre del directorio donde se guardarán los archivos Markdown generados. Por defecto es extracted_docs.
  • --delay (Opcional): Tiempo de espera en segundos entre peticiones para respetar al servidor. Por defecto es 1.0.

Ejemplos

Extraer documentación de un sitio con delay de 2 segundos:

python extract_docs.py https://docs.ejemplo.com --output docs_ejemplo --delay 2

Funcionamiento

El script funciona siguiendo esta lógica:

  • Estructura de Clases: Utiliza DocumentationCrawler para un código más modular y mantenible.
  • Extracción Eficiente: Usa trafilatura para obtener el contenido principal y reutiliza la descarga para descubrir nuevos enlaces, minimizando las peticiones HTTP.
  • Respetuoso: Implementa un sistema de delay configurable para no saturar los servidores objetivo.

About

Simple python script to extract web data into markdown file

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages