URLToMD

Herramienta para extraer información de sitios web y convertirla a formato Markdown. Ideal para alimentar LLMs o crear bases de conocimiento.

Instalación

Clona este repositorio.
Instala las dependencias:

pip install -r requirements.txt

Uso

El script extract_docs.py permite rastrear un sitio web y extraer su contenido.

Sintaxis

python extract_docs.py URL [--output DIRECTORIO] [--delay SEGUNDOS]

Argumentos

URL (Requerido): La URL base desde donde comenzar el rastreo. El script se limitará al dominio de esta URL.
--output (Opcional): El nombre del directorio donde se guardarán los archivos Markdown generados. Por defecto es extracted_docs.
--delay (Opcional): Tiempo de espera en segundos entre peticiones para respetar al servidor. Por defecto es 1.0.

Ejemplos

Extraer documentación de un sitio con delay de 2 segundos:

python extract_docs.py https://docs.ejemplo.com --output docs_ejemplo --delay 2

Funcionamiento

El script funciona siguiendo esta lógica:

Estructura de Clases: Utiliza DocumentationCrawler para un código más modular y mantenible.
Extracción Eficiente: Usa trafilatura para obtener el contenido principal y reutiliza la descarga para descubrir nuevos enlaces, minimizando las peticiones HTTP.
Respetuoso: Implementa un sistema de delay configurable para no saturar los servidores objetivo.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
README.md		README.md
extract_docs.py		extract_docs.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

URLToMD

Instalación

Uso

Sintaxis

Argumentos

Ejemplos

Funcionamiento

About

Uh oh!

Releases

Packages

Languages

MotherJammer/URLToMD

Folders and files

Latest commit

History

Repository files navigation

URLToMD

Instalación

Uso

Sintaxis

Argumentos

Ejemplos

Funcionamiento

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages