Repositorio con los materiales del evento "Datos Abiertos y Humanidades Digitales" realizado en el marco de la celebración del Día de los Datos Abiertos 2021. Este evento fue organizado por el equipo editorial de Programming Historian en Español y recibió el apoyo de la Open Knowledge Foundation.
Aprende a hacer “lectura distante” (ganar una vista de pájaro sobre muchos textos con herramientas computacionales) con una herramienta que no requiere instalación: Voyant Tools. En este taller usaremos como base el tutorial de Programming Historian en español Análisis de corpus con Voyant Tools y mostraremos cómo adaptarlo para analizar otro corpus abierto de textos.
Silvia Gutiérrez De la Torre estudió la maestría de Humanidades Digitales en la Universidad de Wurzburgo y en el King’s College de Londres. Es co-fundadora de RLadiesCDMX y voluntaria de Wikipedia y Wikidata porque quiere pensar que compartir es el verbo que sustituirá a tener. Durante cinco años trabajó como la primera Bibliotecaria de Humanidades Digitales en El Colegio de México donde impartió diversos talleres sobre el uso de herramientas y la aplicación de métodos computacionales para las Humanidades y Ciencias Sociales. Actualmente está por comenzar su doctorado en la Universidad de Leipzig y el Max Planck para la Historia de la Ciencia.
🔧 En línea
- Página principal Voyant Tools: voyant-tools.org
- Espejos (o sea, sitios que contienen réplicas de algún software o página web)
💻 Local
- Descargar la última versión de Voyant Tools Server (M45) (:warning:aunque me ha dado algunos problemas en Windows)
- ✅ Alternativo: descargar la versión más estable del Voyant Tools Server (M28)
- Las instrucciones para correr tu propio servidor están aquí (¡ojo! El servidor del blog aparece como "no seguro") | también pueden seguir las instrucciones de este video
Para esta lección podrás usar una colección de textos que fue "parseada" a partir de una publicación compartida con licencia CC BY 4.0:
- Este taller está basado en tres fuentes principales:
- la lección de Programming Historian en español Análisis de corpus con Voyant Tools existe una breve introducción a cómo preparar un corpus histórico y algunas de las funciones básicas de VT.
- Dialogica: Thinking-Through Voyant (DTTV) un libro de texto gratuito creado por los desarrolladores de VT para aprender sobre el análisis de texto asistido por computadora con Voyant y Spyral. Las lecciones están vivas, para comentarios escribir a grockwel (arroba) ualberta.ca
- El libro Hermeneutica: Computer-Assisted Interpretation in the Humanities (MIT Press, 2016), el cual contiene cuatro capítulos interactivos que demuestran las posibilidades de analizar un corpus con la ayuda de VT.
- La documentación de VT es muy útil también para comprender mejor cada una de las herramientas ofrecidas por este software aunque no está tan actualizada
📺 En este enlace encontrarás el registro del evento (faltan los primeros 7 minutos)
En este taller aprenderemos a descargar, procesar y visualizar datos abiertos con Python, Pandas y Dash. Utilizaremos la herramienta Jupyter Notebook para hacer los ejercicios, por lo que no es necesario realizar instalaciones de software. No importa si no cuentas con conocimientos previos en lenguajes de programación o bases de datos: en el taller aprenderemos algunas estrategias sencillas para hacer tareas complejas con datos abiertos en Python.
Jairo es Doctor en historia de El Colegio de Michoacán de México, maestro y licenciado en Historia de la Universidad Industrial de Santander en Colombia. En la actualidad es jefe de desarrollo MOOC en la Coordinación de Universidad Abierta, Innovación Educativa y Educación a Distancia de la UNAM.
Para ejecutar el notebook en que se basa este taller hay dos opciones.
- Ir a la dirección https://colab.research.google.com/
- Seleccionar la pestaña GitHub
- Ingresa la URL correspondiente al repositorio creado en el GitHub de Programming Historian >> Open Data Day: https://github.com/programminghistorian/opendataday-2021
- Seleccionar el notebook de la ruta
python-pandas-dash/cuaderno.ipynb
- Para ejecutar las casillas será necesario autenticarse con una cuenta de Google. La primera vez que trates de ejecutar aparecerá el siguiente mensaje: "Advertencia: Google no creó este bloc de notas". Haz clic en "Ejecutar de todos modos".
(Es probable que se encuentren algunos bugs y se tarde un poco en cargar.)
- Ir a la dirección https://mybinder.org/
- En la casilla "GitHub repository name or URL" escribir la dirección de este repositorio: https://github.com/programminghistorian/opendataday-2021
- Ejecutar en el botón "launch"
- Abrir el directorio
python-pandas-dash
- Abrir el archivo
cuaderno.ipynb
Para este taller utilizaremos datos sobre educación preescolar, básica y media por departamento en Colombia. Esta información la obtuvimos del Portal de Datos Abiertos del Gobierno de Colombia.
Este conjunto de datos contiene los principales indicadores de los niveles preescolar, básica y media discriminados por Departamento desde el año 2011 hasta 2019 definitiva oficial. Este set de datos se puede relacionar con el de matrícula en educación preescolar, básica y media donde se presenta la caracterización de los estudiantes que permiten obtener información para comprender el comportamiento de los indicadores
- Lecciones sobre Python publicadas por Programming Historian
- pandas documentation
- plotly open source graphing libraries
- dash open-source
- McKinney, Wes. Python for data analysis: data wrangling with pandas, NumPy, and IPython. Second edition, O’Reilly Media, Inc, 2018.
- Pajankar, Ashwin. Practical Python Data Visualization: A Fast Track Approach to Learning Data Visualization with Python. 2021.
- Stepanek, y Suresh John. Thinking in Pandas. Apress, 2020. Open WorldCat, https://link.springer.com/10.1007/978-1-4842-5839-2.
📺 En este enlace encontrarás el registro del evento