
e-ISSN: 1390-5902
CEDAMAZ, Vol. 11, No. 02, pp. 124–132, julio–diciembre 2021
DOI: 10.54753/cedamaz.v11i2.1181
tajes presentados y en base a este se generaron reportes con
las reglas de asociación de patrones y gráficos que facilitaron
la interpretación de las mismas para así determinar los facto-
res más influyentes en la ocurrencia de siniestros de tránsi-
to y de esta manera obtener conclusiones finales del análisis
realizado.
RESULTADOS
Fase I: Búsqueda de información
En esta fase se realizó una investigación acerca de insti-
tuciones que proporcionen bases de datos, las cuales conten-
gan registros de sucesos de siniestros de tránsito ocurridos
en Ecuador, una vez identificado dicho repositorio se pro-
cedió a analizar trabajos relacionados con el presente, como
(ANT, 2020a), (Gomes Barcellos, 2020), (Pumares, 2019)
y (Ospina-Mateus Quintana Jiménez, 2019) , con la finali-
dad de obtener referencias para establecer los lineamientos
para la selección del conjunto de datos más factible. Poste-
rior a haber realizado dicha búsqueda fueron establecidos los
lineamientos que se proponen en la Tabla 1.
Tabla 1: Criterios para la selección de la base de datos
Criterios de Inclusión Criterios de Exclusión
Contenido Relacionado Contenido no Relacionado
9 o más variables Menos de 9 variables
Año 2020 Otros años
Fuentes oficiales Fuentes no oficiales
Acceso público Solicitud para obtener información
Fase II: Obtención de datos
Ya establecidos los criterios para la selección de las ba-
ses de datos mostrados en la Tabla 1, se inició el proceso
para la obtención de las mismas. Se trabajó con el conjunto
de datos alojado en la página oficial de la (ANT, 2020b), en
el cual se encuentra almacenada la información recopilada a
partir de datos de los partes policiales del año 2020. La ba-
se de datos cuenta con 418 variables correspondientes a las
categorías incluidas en dichos partes policiales, diseñados y
aprobados por cada uno de los entes de control, bajo los pa-
rámetros técnicos establecidos por la (ANT, 2020b) y 16972
registros de eventos ocurridos sobre siniestros de tránsito en
Ecuador. Considerando lo establecido en la Tabla 1, esta base
de datos cumple con los cinco criterios establecidos. A tra-
vés de la obtención de información se adquirió el conjunto
de datos el cual fue el principal insumo para trabajar durante
el desarrollo de las siguientes fases.
Fase III: Depuración de la base de datos
En esta fase, se procedió a la evaluación de la misma, de
esta manera se determinó que variables del conjunto de da-
tos son las más relevantes y útiles para el proceso de aplica-
ción de las técnicas de minería de datos, una vez evaluado el
conjunto de datos se identificó trece variables relevantes, es-
tas variables seleccionadas con referencia a las investigacio-
nes de (Pumares, 2019), (Ospina-Mateus Quintana Jiménez,
2019) y (Gomes Barcellos, 2020) que tratan de la utiliza-
ción de minería de datos para el análisis de los siniestros de
tránsito.
Luego se realizó la limpieza a la base de datos, la herra-
mienta usada para la eliminación de la información no útil
fue OpenRefine , a través del uso de la función Transforma-
ciones Comunes y Transformar, se realizó la estandarización
del conjunto de datos, aplicando comandos para renombrar
las variables, al igual para convertir los registros de las va-
riables a mayúsculas y reemplazar un valor por otro, de esta
manera se eliminó las tildes y se reemplazó la letra “Ñ”, por
la letra “N”.
Una vez estandarizado el conjunto de datos, a través del
software RStudio se procedió a eliminar información incon-
sistente presente en el conjunto de datos estandarizado, esta
información se presentó en relación a la edad de los con-
ductores de los diferentes tipos de vehículos involucrados en
la ocurrencia de los siniestros de tránsito, la eliminación de
esta información se llevó a cabo en base al Art. 125 del Re-
glamento a Ley De Transporte Terrestre Tránsito y Seguridad
Vial, con esto se eliminaron registros controlando que estos
almacenen datos de los participantes que sean conductores
de los tipos de vehículos, ya sean automóviles y camionetas,
que contaban con un servicio particular y de cuenta propia,
que tengan una edad menor a 16 años y además controlando
que para los demás tipos de vehículos involucrados y su tipo
de servicio, diferentes a los antes mencionados, se eliminen
los que cuenten con una edad menor a 18 años, luego de la
aplicación de este control el número de registros se redujo de
16972 a 16940.
Fase IV: Aplicación de técnicas de minería de datos
Para la aplicación de los algoritmos de minería de datos
fueron utilizadas las herramientas SPSS Statistics y Weka,
los algoritmos seleccionados de acuerdo a literatura encon-
trada en los cuales según (Rodriguez Hassiger, 2014) y (Ló-
pez Maldonado, 2013), destacan que las técnicas de minería
de datos más utilizadas en el campo de la seguridad vial ana-
lizando siniestros de tránsito son los Árboles de Decisión, las
Redes Neuronales Artificiales y las Redes Bayesianas.
Es por lo antes mencionado que se aplicaron tres tipos de
algoritmos de árboles de decisión: CHAID, CHAID Exhaus-
tivo y CRT; dos tipos de algoritmos de redes neuronales: Per-
ceptrón multicapa y de Función de Base Radial; y por últi-
mo los algoritmos de Redes Bayesianas: Naive Bayes y Ba-
yesNet, al aplicar dichos algoritmos se configuró la variable
“CLASE_FINAL” como variable objetivo esto en relación al
objeto de estudio del presente trabajo. Mediante esta aplica-
ción se realizó la clasificación del conjunto de datos sobre
siniestros de tránsito registrados en Ecuador en el año 2020.
Fase V: Interpretación y presentación de resultados
En esta fase primero se realizó el análisis de los resulta-
dos obtenidos después de la aplicación de los algoritmos de
minería de datos. El análisis estuvo dado principalmente en-
torno a métricas de rendimiento basadas en la matriz de con-
fusión generada por cada algoritmo estas métricas fueron el
porcentaje global de instancias clasificadas correctamente y
el porcentaje de precisión global especificado para cada ca-
tegoría de la variable objetivo.
De acuerdo al análisis entorno a las métricas de rendimien-
to antes mencionadas, se identificó a los mejores algoritmos
126