MINERÍA DE DATOS PARA DETERMINAR LOS FACTORES MÁS INFLUYENTES TORRES-QUEZADA
vantes para el análisis posterior, inicialmente se filtraron atri-
butos mediante el análisis de las variables, como resultado
fueron seleccionadas trece variables relevantes, de igual ma-
nera se realizó un filtrado de registros con el fin de eliminar
registros almacenados que afectan al proceso de descubri-
miento del conocimiento. En el trabajo relacionado realizado
por (Gomes Barcellos, 2020), ejecutan un proceso similar
al aplicado en el presente artículo con respecto a la depura-
ción del conjunto de datos utilizado, en el cual realizan un
análisis para seleccionar los atributos relacionados a las prin-
cipales causas de los accidentes, esto con el fin de identificar
patrones en la ocurrencia de siniestros de tránsito.
En la fase de minería de datos se aplicó los algoritmos
de árboles de decisión CHAID, CHAID Exhaustivo y CRT;
redes neuronales Perceptrón Multicapa y de Base de Fun-
ción Radial; y redes bayesianas Naive Bayes y BayesNet,
mediante las herramientas SPSS Statistics y Weka; si bien
actualmente existen muchos algoritmos de minería de datos,
se optó por los antes mencionados debido a la literatura en-
contrada en la que mencionan que los algoritmos más utiliza-
das en el campo de la seguridad vial, analizando siniestros de
tránsito son los Árboles de Decisión, las Redes Neuronales y
las Redes Bayesianas.
En los trabajos relacionados realizados por Atnafu Kaur
(2017), Ospina-Mateus Quintana Jiménez (2019), Yuan et
al. (2017), Makkar et al. (2017), Almamlook et al. (2019),
se realiza una aplicación de los algoritmos antes menciona-
dos bastante similar mediante Weka, R y Rapid Miner, pero
no todos aplican específicamente las variantes de árboles de
decisión como CHAID, CHAID Exhaustivo o CRT, en unos
trabajos aplican el algoritmo Random Forest y en otros el al-
goritmo J 48 y C4.5.; dentro del desarrollo del presente traba-
jo se debe destacar, que la aplicación de los algoritmos tuvo
el propósito de determinar los factores más influyentes para
la ocurrencia de siniestros de tránsito en Ecuador en el año
2020. Se debe exponer además que la ejecución de los al-
goritmos en las herramientas SPSS Statistics y Weka resulta
más sencilla que al hacerlo en un lenguaje de programación,
debido a que se la puede realizar mediante la interfaz gráfica
que ofrecen estas herramientas.
Con respecto a la fase de interpretación de resultados, pri-
mero se realizó la evaluación de cuales fueron los algoritmos
con mejores resultados, para que a través del mejor se presen-
ten los mismos de manera simplificada y comprensibles, re-
saltando que realmente pocos son los estudios que muestran
de manera detallada la etapa de evaluación de los algoritmos
de minería de datos aplicados. Es por ello, que en el presente
artículo se realizó el proceso de evaluación mediante la com-
paración de las métricas de rendimiento, esta métricas fueron
el porcentaje global de instancias clasificadas correctamente
y el porcentaje de precisión global especificado para cada ca-
tegoría de la variable objetivo, se eligió este proceso por que
a través de este se compararon todos los algoritmos aplica-
dos, mediante la utilización de tablas y gráficos que muestran
los porcentajes de rendimiento para cada uno de ellos, con el
fin de elegir el mejor algoritmo.
Los resultados plasmados mediante los gráficos presenta-
dos fueron realizados en base al algoritmo CHAID Exhaus-
tivo, considerando que este obtuvo los porcentajes más altos,
específicamente 58,38% de clasificación correcta y 44,60%
de precisión. El trabajo relacionado de AlKheder et al.
(2020), realiza el mismo proceso de evaluación de los algo-
ritmos aplicados con el fin de decidir que algoritmo fue mejor
en la predicción de las variables independientes, esto ayudó
a entender que algoritmo funcionó con más precisión con los
datos utilizados para la predicción de la muestra para cada
factor, en este estudio el algoritmo de Red Bayesiana tuvo la
mayor precisión, seguido de algoritmo CHAID Exhaustivo,
dejando al final al algoritmo Máquina de Vectores de Apoyo
(SVM ) debido a que tuvo la menor precisión en compara-
ción con los otros algoritmos.
A través del algoritmo CHAID Exhaustivo se determinó
que la causa probable con más probabilidad de ocurrencia
con un 95,20% fue conducir en sentido contrario a la vía nor-
mal de circulación, mientras que la causa probable de condu-
cir desatento a las condiciones de tránsito (celular, pantallas
de video, comida, maquillaje o cualquier otro elemento dis-
tractor) fue la que presentó la menor probabilidad de ocu-
rrencia con un 20,50%, destacando que estas dos causas pro-
bables fueron categorizadas dentro del Factor Humano, por
el contrario, con el estudio de Pumares (2019) el cual pre-
senta a la causa relacionada a conducir con falta de atención
a las condiciones de tránsito, como la que obtuvo un mayor
nivel de soporte y confianza, esto a través de la aplicación
del algoritmo árbol de decisión C4.5. con una precisión del
58,00%.
CONCLUSIONES
Los datos obtenidos sobre siniestros de tránsito en Ecuador
en el año 2020 a través de la página oficial de la ANT fueron
el principal insumo y tuvieron un aporte muy significativo al
desarrollo del presente trabajo, ya que son datos que fueron
recolectados por entes de control gubernamentales de las 24
provincias del país, lo que permitió que la aplicación de la
minería de datos presente resultados satisfactorios referentes
al objeto de estudio.
Comparando los resultados de cada algoritmo de clasifica-
ción, se concluye que el algoritmo con mejores resultados de
rendimiento con respecto a porcentajes de clasificación co-
rrecta de las instancias y de precisión con valores de 58,38%
y 44,60% respectivamente es el árbol de decisión CHAID
Exhaustivo, el cual permitió determinar cuáles fueron los fac-
tores más influyentes para que ocurran siniestros de tránsito
en Ecuador en el año 2020 mostrando el contexto de ocurren-
cia de cada clase de siniestro de tránsito.
La categorización de los tres factores fue realizada en re-
lación a las categorías presentes en la variable “CAUSA-
PROBABLE”, estas fueron diferenciadas de acuerdo al fac-
tor humano, factor vehículo y factor entorno, esto con el pro-
pósito de tratar más concretamente a las causas probables,
para poder cumplir con el objetivo de desarrollar el presente
trabajo.
A través de la aplicación de minería de datos, fue posible
determinar los factores más influyentes para que ocurran si-
niestros de tránsito en Ecuador en el año 2020, dando como
resultado que el factor humano es el factor más influyente
con una probabilidad de ocurrencia del 69,64%, implican-
do a cinco causas probables principales que son: conducir en
sentido contrario a la vía normal de circulación, no respe-
tar las señales reglamentarias de tránsito (pare, ceda el paso,
luz roja del semáforo, etc.), no guardar la distancia lateral
131