dc.contributor.author | González Andújar, Daniel | |
dc.date.accessioned | 2024-10-21T06:43:26Z | |
dc.date.available | 2024-10-21T06:43:26Z | |
dc.date.issued | 2023 | |
dc.identifier.uri | http://hdl.handle.net/10334/9193 | |
dc.description | 49 páginas. | es |
dc.description.abstract | Trabajo Fin de Máster en Big Data (2022-23). Tutores: Dr. D. Diego Marín Santos ; Dr. D. Manuel Emilio Gegúndez Arias. The main porpuse of this work is to analyze the results obtained in the classification of
different water samples through the use of algorithms and machine learning methods.
Access to safe drinking water services is still a problem for approximately 2,000 million
people around the world, which makes it even more necessary to study and predict the
potability of water samples, this analysis is a tool for the prevention of disease and even
death. A dataset with water samples has been extracted from the Kaggle website,
specifically, the database is made up of a total of 3,276 instances of water samples,
where 59.67% correspond to non-potable water samples. Different supervised learning
methods such as K-NN, Random Forest or SVM have been used to classify the water
samples, and they have been evaluated with different methodologies. The results
obtained with the different classifiers, depending on the methodology, vary significantly.
The algorithm which we have obtained the best results has been SVM, which is capable
of working with an AUC of 0.75, Hit Rate of 0.72, Sensitivity of 0.71 and Specificity of
0.73. Although these results are susceptible of improvement, they indicate that the
application of algorithms based on machine learning can constitute an important tool to
predict non-potable water samples. | es |
dc.description.abstract | El objetivo principal de este trabajo es analizar los resultados obtenidos en la
clasificación de diferentes muestras de agua mediante el uso de algoritmos y métodos
de aprendizaje automático. El acceso a servicios de agua potable segura es todavía un
problema para 2.000 millones de personas aproximadamente en todo el mundo, lo que
hace aún más necesario el estudio y predicción de la potabilidad de las muestras de
agua, siendo este análisis una herramienta de prevención de enfermedades e incluso
de la muerte. Se ha hecho uso de un conjunto de datos con muestras de agua extraído
de la web Kaggle. Concretamente, la base de datos se compone de un total de 3.276
instancias de muestras de agua, donde 59,67% se corresponden con muestras de agua
no potable. Para la clasificación de las muestras de agua se han empleado diferentes
técnicas de aprendizaje supervisado como K-NN, Random Forest o SVM, y se han
evaluado con diferentes metodologías. Los resultados obtenidos con los diferentes
clasificadores, dependiendo de la metodología, varían significativamente.
El algoritmo con el que mejores resultados hemos obtenido ha sido el SVM, que es
capaz de trabajar con un AUC de 0,75, Tasa de Acierto de 0,72, Sensibilidad de 0,71 y
Especificidad de 0,73. Aunque estos resultados son susceptibles de mejora, indican que
la aplicación de algoritmos basados en aprendizaje automático puede constituir una
importante herramienta para predecir muestras de agua no potable. | es |
dc.language.iso | spa | es |
dc.publisher | Universidad Internacional de Andalucía | es |
dc.relation.ispartofseries | Máster de Formación Permanente en Big Data | es |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Aprendizaje automático | es |
dc.subject | Aprendizaje supervisado | es |
dc.subject | Clasificación binaria | es |
dc.subject | Agua potable | es |
dc.subject | Salud pública | es |
dc.title | Clasificación de muestras de agua para determinar su potabilidad mediante el uso de algoritmos de aprendizaje automático | es |
dc.type | masterThesis | es |
dc.rights.accessRights | openAccess | es |
dc.type.hasVersion | publishedVersion | es |