Clasificación de muestras de agua para determinar su potabilidad mediante el uso de algoritmos de aprendizaje automático

González Andújar, Daniel

Master Thesis

Clasificación de muestras de agua para determinar su potabilidad mediante el uso de algoritmos de aprendizaje automático

Files

Acceso documento (PDF) (2.33 MB)

URI

https://hdl.handle.net/10334/9193

Fecha de publicación

2023

Fecha de depósito

2024-10-21

Editorial

Universidad Internacional de Andalucía

Resumen

Trabajo Fin de Máster en Big Data (2022-23). Tutores: Dr. D. Diego Marín Santos ; Dr. D. Manuel Emilio Gegúndez Arias. The main porpuse of this work is to analyze the results obtained in the classification of different water samples through the use of algorithms and machine learning methods. Access to safe drinking water services is still a problem for approximately 2,000 million people around the world, which makes it even more necessary to study and predict the potability of water samples, this analysis is a tool for the prevention of disease and even death. A dataset with water samples has been extracted from the Kaggle website, specifically, the database is made up of a total of 3,276 instances of water samples, where 59.67% correspond to non-potable water samples. Different supervised learning methods such as K-NN, Random Forest or SVM have been used to classify the water samples, and they have been evaluated with different methodologies. The results obtained with the different classifiers, depending on the methodology, vary significantly. The algorithm which we have obtained the best results has been SVM, which is capable of working with an AUC of 0.75, Hit Rate of 0.72, Sensitivity of 0.71 and Specificity of 0.73. Although these results are susceptible of improvement, they indicate that the application of algorithms based on machine learning can constitute an important tool to predict non-potable water samples.

El objetivo principal de este trabajo es analizar los resultados obtenidos en la clasificación de diferentes muestras de agua mediante el uso de algoritmos y métodos de aprendizaje automático. El acceso a servicios de agua potable segura es todavía un problema para 2.000 millones de personas aproximadamente en todo el mundo, lo que hace aún más necesario el estudio y predicción de la potabilidad de las muestras de agua, siendo este análisis una herramienta de prevención de enfermedades e incluso de la muerte. Se ha hecho uso de un conjunto de datos con muestras de agua extraído de la web Kaggle. Concretamente, la base de datos se compone de un total de 3.276 instancias de muestras de agua, donde 59,67% se corresponden con muestras de agua no potable. Para la clasificación de las muestras de agua se han empleado diferentes técnicas de aprendizaje supervisado como K-NN, Random Forest o SVM, y se han evaluado con diferentes metodologías. Los resultados obtenidos con los diferentes clasificadores, dependiendo de la metodología, varían significativamente. El algoritmo con el que mejores resultados hemos obtenido ha sido el SVM, que es capaz de trabajar con un AUC de 0,75, Tasa de Acierto de 0,72, Sensibilidad de 0,71 y Especificidad de 0,73. Aunque estos resultados son susceptibles de mejora, indican que la aplicación de algoritmos basados en aprendizaje automático puede constituir una importante herramienta para predecir muestras de agua no potable.