El problema a resolver en esta Tesis Doctoral consiste en hallar una solución que mejore la clasificación que se consigue actualmente para el problema de la detección precoz del síndrome de Down en fetos, durante el segundo trimestre de embarazo, con técnicas no invasivas. El conjunto de datos usado para la detección del síndrome de Down es de dos clases y de tipo imbalanceado, es decir, que hay una gran diferencia entre el número de casos correspondientes a fetos que no son afectados porEn el SID sugerimos utilizar la palabra o expresión Tienen ... en su lugar. el síndrome de Down y los que sí lo son. Para tratar de mejorar la clasificación que se logra en la actualidad, se ha desarrollado un nuevo método de Soft Computing basado en Lógica Difusa diseñado para trabajar con conjuntos de datos imbalanceados. Este método permite, no sólo hallar una buena solución, sino también extraer el conocimiento adquirido.
El método desarrollado se denomina FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) y se basa en la idea de que la solución generalice lo máximo posible, para evitar el efecto de sobreaprendizaje (‘overfitting’) que se produce en la mayoría de métodos al tratar de trabajar con un conjunto de datos imbalanceado. Para proporcionar las herramientas necesarias al método para que generalice, se ha desarrollado un algoritmo llamado ReRecBF, que forma parte del método FLAGID. Este algoritmo transforma las funciones de pertenencia obtenidas a partir de los datos por otro algoritmo ya existente llamado DDA/RecBF. Esta transformación consiste en convertir las funciones de pertenencia generadas a partir de los casos de la clase-menor en funciones triangulares, dejar como funciones trapezoidales las funciones de pertenencia de la clase-mayor y dividir las funciones de pertenencia que se solapen.
Finalmente, debido a que se generan nuevas funciones de pertenencia, un algoritmo genético es usado simplemente para hallar las reglas que más se ajusten a las nuevas funciones. Los resultados obtenidos han mejorado la tasa de falsos positivos en el conjunto de datos del síndrome de Down hasta el 4%, con una tasa de verdaderos positivos del 60%. Esta es la primera vez que un método consigue bajar del 5% de falsos positivos con esa tasa de aciertos en los verdaderos positivos. Además, se ha extraído el conocimiento del resultado, y éste ha coincidido, en su mayoría, con el conocimiento existente en el campo de la medicina. Otro hecho remarcable es que se ha comprobado que el método también es útil para trabajar con conjuntos de datos imbalanceados. Finalmente, los resultados de este trabajo realizan aportaciones nuevas en el campo de la medicina, como son la importancia de la edad gestacional del feto en la detección de los casos positivos y que el peso de la madre tiene más importancia que simplemente el calibrar los dos indicadores hormonales AFP y hCG.
Información recogida de Teseo (Bases de datos de las tesis doctorales leídas en las Universidades Españolas del Ministerio de Educación, Cultura)