🔧 "Análisis Estadístico y Predictivo de Respuesta al Tratamiento en Pacientes Oncológicos"
📊 Descripción del Proyecto
Introducción: La respuesta al tratamiento en pacientes oncológicos es un factor crítico para evaluar la efectividad de las intervenciones terapéuticas. Este estudio combina análisis estadísticos descriptivos y métodos predictivos para identificar los factores clínicos y terapéuticos más relevantes asociados al éxito del tratamiento.
🎯 Objetivo Analizar y predecir la respuesta al tratamiento en pacientes oncológicos mediante técnicas estadísticas avanzadas y modelos de aprendizaje automático, utilizando datos clínicos y terapéuticos.
Metodología: Se analizó un conjunto de datos clínicos que incluye variables demográficas, características del tumor, tipo de tratamiento, y respuesta al mismo, clasificada en una variable binaria (éxito o fracaso). El análisis se dividió en tres fases principales:
-
Exploración y limpieza de datos, incluyendo la normalización de variables categóricas y el tratamiento de valores atípicos.
-
Análisis estadístico para evaluar asociaciones significativas entre las variables clínicas y la respuesta al tratamiento.Empleando testing AB basados en pruebas como chi-cuadrado dada la naturaleza de los datos,con el objetivo de e evaluar la relación general entre las variables, lo que incluye cualquier patrón de asociación (no solo una diferencia de proporciones). a) Relación entre Tumor Primario y Localización. b) Análisis entre Tratamiento Sistemico y Respuesta al tratamiento. c) Análisis entre DOSIS (Gy) (Cantidad de energía absorbida por un tejido debido a la radiación ionizante) y Respuesta al tratamiento. d) Análisis entre Perfil Molecular y Resṕuesta al tratamiento. e) Analisis entre Cirugia Previa y Resṕuesta al tratamiento. f) Analisis de la relación entre la variable SRS y la respuesta al tratamiento
-
Análisis multivariable.
-
Desarrollo de un modelo predictivo (Random Forest Classifier) para identificar factores clave asociados al éxito terapéutico y predecir la respuesta con métricas como precisión, sensibilidad y AUC-ROC.
Resultados esperados: Se espera identificar variables significativas que influyen en la respuesta al tratamiento, como características del tumor, cirugía previa,Dosis de radiación, técnica de radioterapia utilizada, tipo de tratamiento. Además, los modelos predictivos desarrollados proporcionarán una herramienta útil para predecir el éxito terapéutico, optimizando la toma de decisiones clínicas.
Conclusión: Este análisis combina técnicas estadísticas y de aprendizaje automático para aportar conocimiento sobre los factores determinantes en la respuesta al tratamiento en pacientes oncológicos, contribuyendo a mejorar la personalización de las intervenciones terapéuticas.
Recomendaciones: Implementar un formato estandarizado que prevenga la entrada de datos incorrectos, garantizando su adecuado procesamiento e interpretación. Esta mejora optimizó la base de datos en Excel proporcionada por la médica, fortaleciendo los filtros y validando la información para asegurar su precisión en historiales futuros.
🎥 Presentación: https://gamma.app/docs/Neuro-TX-Latam--ac94pz9q7jdvupq Aplicación: https://neuro-tx-latam.streamlit.app/ Promoción: Ver video
Katia Berrios: Data Analyst - PM
Melisa Rossi: Data Scientist
Rosa González: Data Scientist
Ángel Troncoso: Data Analyst
- Trello: Herramienta de Gestión de Proyectos
- Linear: Herramienta de Gestión de Proyectos Agiles
- GitHub y Colab: Desarrollo Colaborativo y Control de Versiones.
- Slack: Comunicación diaria del equipo y colaboración en tiempo real.
- Google Meet: Reuniones diarias, planificación de sprint y coordinación de trabajo.
- WhatsApp: Comunicación instantánea para cuestiones urgentes.
- Google Drive: Almacenamiento y sincronización de documentación.
🔄 Flujo de Trabajo: metodologias Agiles Scrum y Kanban
Definición del Experimento:
🔎 Identificación de las variables a probar (e.g., cambio de diseño, textos en botones).
🔄 División de grupos: Control y Tratamiento.
Recopilación de Datos:
📂 Almacenamiento en bases de datos estructuradas.
Análisis Estadístico:
🎯 Pruebas de hipótesis (e.g., t-test, chi-cuadrado).
🔢 Analis Multivariable
Desarrollo y enrenamiento del Modelo Predictivo.
Visualización y Reporte:
💡 Creación de dashboards interactivos.
🗃️ Informe final con recomendaciones.
🔍 Estructura del Proyecto
├── data/ # 📊 Datos simulados para pruebas A/B
├── notebooks/ # 📓 Notebooks de análisis y limpieza de datos
├── reports/ # 📑 Reportes finales y presentaciones
├── scripts/ # 🔧 Scripts de automatización y visualización
├── tests/ # 🔍 Pruebas unitarias y verificación de datos
└── README.md # 📝 Descripción del proyecto
🔧 Requisitos Previos
🎓 Conocimiento básico de estadística y pruebas A/B.
Entorno configurado con:
Python 3.8+
Google Colaboratory (Colab)
Google Drive
🔄 Configuración del Entorno
Clonar este repositorio:
git clone https://github.com/No-Country-simulation/s20-10-data.git
Instalar las dependencias:
pip install -r requirements.txt
Crear bases de datos para los diferenes procesos
🕹️ Uso
📚 Cargar los datos simulados en la base de datos.
📓 Ejecutar los notebooks de análisis para obtener resultados iniciales.
📊 Desplegar la aplicación de streamlit creada para el proyecto en donde se pueden revisar diferentes tipos de visualizacionbes y tambien cargar un archivo para realizar una predicción https://neuro-tx-latam.streamlit.app/
🔄 Contribución
Este proyecto está abierto para mejoras y colaboraciones. Si deseas contribuir:
🔄 Haz un fork del repositorio.
🔧 Crea una rama para tu funcionalidad: git checkout -b feature/nueva-funcion.
📢 Envía un pull request con una descripción clara de los cambios.