Fixed typos based on Irene's review #245

dpuenteramirez · dpuenteramirez · commit 646d9e729c85 · 2022-06-08T10:32:31.000+02:00
diff --git a/docs/anexos.pdf b/docs/anexos.pdf
diff --git a/docs/memoria.pdf b/docs/memoria.pdf
diff --git a/docs/tex/3_Conceptos_teoricos.tex b/docs/tex/3_Conceptos_teoricos.tex
@@ -308,7 +308,7 @@ \subsection{Proceso de minería de datos}
 
 \begin{enumerate}
    \item \textbf{Establecer los objetivos y comprensión del problema.}
-    La primera etapa puede resultar la más complicada del proceso. Todas las partes interesadas deben de estar presentes y de acuerdo en la definición del problema que se va a tratar, esto incluye tanto a los científicos de datos como las terceras partes involucradas o interesadas. 
+    La primera etapa puede resultar la más complicada del proceso. Todas las partes interesadas deben de estar presentes y de acuerdo en la definición del problema que se va a tratar, esto incluye tanto a los científicos de datos como a las terceras partes involucradas o interesadas. 
     Este procedimiento ayuda a la formulación de las preguntas de los datos y los parámetros a utilizar en el proyecto. Si se trata de un proyecto empresarial, se debe hacer un estudio o investigación adicional para comprender el contexto de la empresa.
     \item \textbf{Preparación de los datos.}
     Con el alcance del problema definido ya se puede comenzar a identificar qué conjunto de datos será el más efectivo o representativo con el fin de comenzar a dar respuesta a las preguntas formuladas en el proceso anterior.
@@ -372,7 +372,7 @@ \subsection{Técnicas utilizadas en la minería de datos}
 \end{enumerate}
 
 \section{Técnicas de selección de instancias}\label{sec:tecnicas-seleccion-instancias}
-Dentro de los conjuntos de datos nos encontramos con las instancias, también llamadas ejemplos o prototipos, son cada uno de los elementos que componen el \textit{dataset}; en problemas reales de \textit{machine learning} es habitual que se requiera de clasificación automática de estos datos. Este proceso se puede llevar a cabo con algoritmos de aprendizaje supervisado, Sección~\ref{subsec:Aprendizaje-Supervisado}, con el objetivo de etiquetar la nueva información. Para poder hacerlo previamente se ha tenido que, entrenado el clasificador con un conjunto de entrenamiento, $T$~\cite{olvera2010review}.
+Dentro de los conjuntos de datos nos encontramos con las instancias, también llamadas ejemplos o prototipos, son cada uno de los elementos que componen el \textit{dataset}; en problemas reales de \textit{machine learning} es habitual que se requiera de clasificación automática de estos datos. Este proceso se puede llevar a cabo con algoritmos de aprendizaje supervisado, Sección~\ref{subsec:Aprendizaje-Supervisado}, con el objetivo de etiquetar la nueva información. Para poder hacerlo previamente se ha tenido que, entrenar el clasificador con un conjunto de entrenamiento, $T$~\cite{olvera2010review}.
 
 En la práctica, cualquier $T$ dado contendrá información útil e información desechable, este último tipo de información --- que en realidad son instancias --- aparte de ser redundantes producen ruido, pudiendo inducir en una clasificación errónea en el proceso de aprendizaje, y posteriormente tener un modelo que no sea capaz de clasificar correctamente la nueva información.
 
@@ -469,7 +469,7 @@ \subsubsection{Algoritmos de selección de instancias}\label{subsubsec:Instance-
 
 Si bien es una técnica utilizada por su efectividad, posee una serie de puntos negativos a su vez.
 \begin{itemize}
-\item Sensibilidad ante el ruido. Un objeto ruidoso no será correctamente clasificado por sus vecinos. Estas muestran no se eliminarán del conjunto solución $S$, por lo que no desaparecerán.
+\item Sensibilidad ante el ruido. Un objeto ruidoso no será correctamente clasificado por sus vecinos. Estas muestras no se eliminarán del conjunto solución $S$, por lo que no desaparecerán.
 \item $S$ no tiene por qué ser el menor conjunto de $T$. Diferentes ejecuciones del algoritmo sobre el mismo $T$ pueden dar diferentes conjuntos solución $S$. Esto se debe al orden aleatorio por el cual se seleccionan las instancias. Por definición del propio algoritmo se asume que no se va a alcanzar de forma general el subconjunto de tamaño mínimo que cumpla con las características especificadas.
 \end{itemize}
 
diff --git a/docs/tex/4_Tecnicas_y_herramientas.tex b/docs/tex/4_Tecnicas_y_herramientas.tex
@@ -45,7 +45,7 @@ \subsubsection{Actores, roles y responsabilidades}
 \begin{itemize}
 \item \textbf{\textit{Product Owner.}} Encargado de optimizar y maximizar el valor del producto, es la persona encargada de gestionar las prioridades del \textit{product backlog}. Una de sus principales tareas es la de ser intermediario con los \textit{stakeholders}, partes interesadas, del proyecto; junto con recoger los requerimientos de los clientes. Es habitual que esta figura sea representante del negocio, con lo que aumenta su valor.
 
-Para cada \textit{sprint} debe de marcar el objetivo de éste de manera clara y acordada con el equipo de desarrollo, lo cual hará que el producto vaya incrementando constantemente su valor. Para que todo fluya como debe, esta figura debe tener el <<poder>> de tomar decisiones que afecten al producto.
+En cada \textit{sprint} se debe marcar el objetivo de este de manera clara y acordada con el equipo de desarrollo, lo cual hará que el producto vaya incrementando constantemente su valor. Para que todo fluya como debe, esta figura debe tener el <<poder>> de tomar decisiones que afecten al producto.
 
 \item \textbf{\textit{Scrum Master.}} Figura con dos responsabilidades, gestionar el proceso \textit{scrum} y ayudar a eliminar impedimentos que puedan afectar a la entrega del producto.
 \begin{enumerate}
@@ -121,7 +121,7 @@ \subsection{Orange3}
 
 Entre los objetivos de \texttt{Orange} figura que sea una plataforma para la experimentación basada en selección, modelado predictivo y sistemas de aprobación. Permitiendo ser utilizada en campos como la bioinformática, el análisis del genoma, biomedicina y la enseñanza. Desde el punto de vista de la educación ofrece un apoyo en la enseñanza de la minería de datos y el aprendizaje automático.
 
-Página web de la herramienta: \url~{https://orangedatamining.com/}
+Página web de la herramienta: \url{https://orangedatamining.com/}
 
 
 \subsection{PyCharm}
diff --git a/docs/tex/5_Aspectos_relevantes_del_desarrollo_del_proyecto.tex b/docs/tex/5_Aspectos_relevantes_del_desarrollo_del_proyecto.tex
@@ -68,7 +68,7 @@ \section{Experimentación de filtros de ruido para aprendizaje semi-supervisado}
 \subsection{Experimentación}
 La experimentación en una primera instancia ha sido realizada utilizando \textit{self-training}, como algoritmo de aprendizaje semi-supervisado, utilizando como clasificadores base: \textit{K-Nearest Neighbors} y árboles de decisión. 
 
-En una segunda instancia se siguió la aproximación propuesta en~\cite{li2019selfk}, bajo la cual el etiquetado de las instancias se produce en base a picos de densidad y la reducción de este mediante el uso mediante el uso de un filtrado de ruido previo.
+En una segunda instancia se siguió la aproximación propuesta en~\cite{li2019selfk}, bajo la cual el etiquetado de las instancias se produce en base a picos de densidad y la reducción de este mediante el uso de un filtrado de ruido previo.
 
 Para la realización de la experimentación se utilizan 18 conjuntos de datos seleccionados del repositorio de la Universidad de California Irvine (UCI), la descripción de los diferentes conjuntos de datos se encuentra en la Tabla~\ref{tab:exp:datasets}. Los experimentos son realizados con diferentes porcentajes de número de instancias etiquetadas sobre el total, disponibles en la Tabla~\ref{tab:exp:percents}.
 
diff --git a/docs/tex/6_Trabajos_relacionados.tex b/docs/tex/6_Trabajos_relacionados.tex
@@ -107,7 +107,7 @@ \section{Aprendizaje Semi-Supervisado Seguro}
 
 \cite{triguero2014characterization} comprueba como los filtros <<globales>>, algoritmos CF e IPF, destacan como la familia de filtros con mejor rendimiento, mostrando que la concordancia de hipótesis de varios clasificadores también es robusta cuando se reduce la proporción de datos etiquetados disponibles. La mayoría de los enfoques locales necesitan más datos etiquetadas para rendir mejor. El uso de estos filtros ha dado lugar a un mejor rendimiento que el logrado por métodos de auto-formación como son SETRED y SNNRCE. Obteniendo como conclusión que el uso de filtros <<globales>> es muy recomendable en el campo en el que se enmarca tanto este como el citado trabajo.
 
-Con el fin de trabajar con aprendizaje semi-supervisado seguro, en~\cite{zhao2021safe} se propone una nueva forma de trabajar con clasificadores supervisados en un \textit{ensemble}, los cuales a partir de múltiples iteraciones y pasadas sobre el conjunto de datos etiquetados lo acabarán etiquetando de forma segura. Para ello los clasificadores son entrenados con conjuntos de datos extraídos de los prototipos etiquetados y los cuales han sido seleccionados entre aquellos que poseen una baja ambigüedad. Posteriormente se etiquetas aquellos prototipos para los cuales los clasificadores acuerdan mediante mayoría de la clase a la que corresponde y se reentrenan los modelos.
+Con el fin de trabajar con aprendizaje semi-supervisado seguro, en~\cite{zhao2021safe} se propone una nueva forma de trabajar con clasificadores supervisados en un \textit{ensemble}, los cuales a partir de múltiples iteraciones y pasadas sobre el conjunto de datos etiquetados lo acabarán etiquetando de forma segura. Para ello los clasificadores son entrenados con conjuntos de datos extraídos de los prototipos etiquetados y los cuales han sido seleccionados entre aquellos que poseen una baja ambigüedad. Posteriormente se etiquetan aquellos prototipos para los cuales los clasificadores acuerdan mediante mayoría de la clase a la que corresponde y se reentrenan los modelos.
 
 De la misma forma que se acaba de ver cómo hay trabajos en la literatura acerca de mejorar los métodos ya existentes de clasificación semi-supervisada, también existen métodos basados en \textit{clusters} los cuáles eran brevemente introducidos al principio de esta sección. Uno de los mayores problemas que se encontraban estos métodos era el poder generalizar para cualquier conjunto de datos independientemente de cuál fuese su distribución~\cite{adankon2011help, gan2013using}.
 
diff --git a/docs/tex/7_Conclusiones_Lineas_de_trabajo_futuras.tex b/docs/tex/7_Conclusiones_Lineas_de_trabajo_futuras.tex
@@ -49,11 +49,11 @@ \section{Líneas de trabajo futuras}
 	\end{itemize}
 \end{itemize}
 
-\textbf{\texttt{IS-SSL}}, el propio diseño de ambas bibliotecas sugiera una posible unión en el futuro, en caso de que se acaben comenzando a utilizar de forma conjunta y facilite su uso. 
+\textbf{\texttt{IS-SSL}}, el propio diseño de ambas bibliotecas sugiere una posible unión en el futuro, en caso de que se acaben comenzando a utilizar de forma conjunta, y consecuentemente, facilite su uso. 
 
 Para facilitar la aportación de la comunidad a las bibliotecas, se van a definir las convenciones, buenas prácticas, \ldots de forma que la evolución de las bibliotecas mantenga una estructura y un código limpio y, sobre todo, \emph{fácil} de mantener. En esta misma línea se va a aplicar el método plantilla~\cite{shvets2021} con el fin de re-estructurar las bibliotecas, permitiendo crear un \texttt{core} común y desacoplar ciertas funcionalidades.
 
-Una de las mejoras que se plantean para realizar a corto/medio plazo es la migración de los algoritmos a \texttt{Cython}, de manera que haya un aumento considerable del rendimiento. Otra opción que se propone es la modificación de los algoritmos para, en aquellas partes soportadas, corran en paralelo tanto mediante hilos, como mediante procesadores lógicos o reales.
+Una de las mejoras que se plantean para realizar a corto/medio plazo es la migración de los algoritmos a \texttt{Cython}, de manera que haya un aumento considerable del rendimiento. Otra opción que se propone es la modificación de los algoritmos con el fin de que, en aquellas partes soportadas, se ejecuten en paralelo tanto mediante hilos, como mediante procesadores lógicos o reales.
 
 \textbf{Investigación.} La investigación, como es lógico, no está ni cerca de estar terminada. El campo es muy amplio y quedan muchas preguntas por responder. Una de las principales mejoras que se puede realizar es hacer uso de \textit{Random Forests} en lugar de árboles de decisión, evitando que queden hojas con una única instancia y afecten a la clasificación en el aprendizaje semi-supervisado~\cite{tanha2017semi}.
 
diff --git a/docs/tex/A_Plan_proyecto.tex b/docs/tex/A_Plan_proyecto.tex
@@ -65,7 +65,7 @@ \subsubsection{Actores, roles y responsabilidades}
 \begin{itemize}
 \item \textbf{\textit{Product Owner.}} Encargado de optimizar y maximizar el valor del producto, es la persona encargada de gestionar las prioridades del \textit{product backlog}. Una de sus principales tareas es la de ser intermediario con los \textit{stakeholders}, partes interesadas, del proyecto; junto con recoger los requerimientos de los clientes. Es habitual que esta figura sea representante del negocio, con lo que aumenta su valor.
 
-Para cada \textit{sprint} debe de marcar el objetivo de éste de manera clara y acordada con el equipo de desarrollo, lo cual hará que el producto vaya incrementando constantemente su valor. Para que todo fluya como debe, esta figura debe tener el <<poder>> de tomar decisiones que afecten al producto.
+En cada \textit{sprint} se debe marcar el objetivo de éste de manera clara y acordada con el equipo de desarrollo, lo cual hará que el producto vaya incrementando constantemente su valor. Para que todo fluya como debe, esta figura debe tener el <<poder>> de tomar decisiones que afecten al producto.
 
 \item \textbf{\textit{Scrum Master.}} Figura con dos responsabilidades, gestionar el proceso \textit{scrum} y ayudar a eliminar impedimentos que puedan afectar a la entrega del producto.
 \begin{enumerate}