Técnicas de aprendizaje automático para la detección de phishing de URL
Autoría
Fecha
Palabra(s) clave
Editorial
Resumen
Trabajo de Máster Universitario en Economía, Finanzas y Computación (2022-23). Tutor: Dr. D. Antonio J. Tallón Ballesteros. Con el aumento significativo del uso de Internet y los servicios en línea en los últimos tiempos, principalmente por parte de gobiernos e instituciones financieras, el riesgo de ataques de phishing ha ido en constante aumento, por lo que la protección contra las amenazas a la seguridad en línea se vuelve de vital importancia. En este contexto, este trabajo se enfoca en la detección de phishing para prevenir la filtración de información privada y las pérdidas económicas, mediante la implementación de múltiples técnicas de aprendizaje automático supervisado. Este estudio se sustenta en la metodología del KDD para la búsqueda del modelo de aprendizaje más efectivo para discriminar entre URLs legítimas y fraudulentas, que incluye la preparación de datos, el manejo del desbalance de datos, la optimización de modelos y la ingeniería de características, y además, se complementa con un análisis exploratorio de los datos. Finalmente, se obtiene que el algoritmo Extra Trees (19 atributos + hiperparámetros por defecto), con una exactitud del 97,15 %, un AUC-ROC de 97,0 %, Sensibilidad del 95,48 % y Valor Predictivo Negativo de 96,38 % constituye el modelo optimo, pues garantiza una discriminación adecuada entre clases y ofrece un mejor equilibrio entre eficiencia y precisión.
Trabajo de Máster Universitario en Economía, Finanzas y Computación (2022-23). Tutor: Dr. D. Antonio J. Tallón Ballesteros. Con el aumento significativo del uso de Internet y los servicios en línea en los últimos tiempos, principalmente por parte de gobiernos e instituciones financieras, el riesgo de ataques de phishing ha ido en constante aumento, por lo que la protección contra las amenazas a la seguridad en línea se vuelve de vital importancia. En este contexto, este trabajo se enfoca en la detección de phishing para prevenir la filtración de información privada y las pérdidas económicas, mediante la implementación de múltiples técnicas de aprendizaje automático supervisado. Este estudio se sustenta en la metodología del KDD para la búsqueda del modelo de aprendizaje más efectivo para discriminar entre URLs legítimas y fraudulentas, que incluye la preparación de datos, el manejo del desbalance de datos, la optimización de modelos y la ingeniería de características, y además, se complementa con un análisis exploratorio de los datos. Finalmente, se obtiene que el algoritmo Extra Trees (19 atributos + hiperparámetros por defecto), con una exactitud del 97,15 %, un AUC-ROC de 97,0 %, Sensibilidad del 95,48 % y Valor Predictivo Negativo de 96,38 % constituye el modelo optimo, pues garantiza una discriminación adecuada entre clases y ofrece un mejor equilibrio entre eficiencia y precisión.