e-ISSN: 1390-5902
CEDAMAZ Revista del Centro de Estudio y Desarrollo de la Amazonia , Vol. 11, No. 1, pp. 70–77, enero–junio 2021
previamente, no obstante, aquellos emoticones restantes
fueron reemplazados por su respectivo identificador.
En la etapa de transformación de los datos se aplicó
criterios de reducción y de clustering. En relación con la
reducción, se suprimió aquellos datos que se encontraban
duplicados y se conservó una sola muestra, por lo cual, se
redujo la base de datos a 149.077 tuits. Adicionalmente, con
respecto al clustering se aplicó homogeneidad a los datos por
medio de facetas de texto; dichas facetas utilizan técnicas
propias de Inteligencia Artificial, por ejemplo, colisión de
llaves y vecino más cercano. En consecuencia, se logró
lematizar la base de datos y mejorar su calidad.
No obstante, en la actualidad existen diversas herra-
mientas que permiten realizar el trabajo de la limpieza de
los datos, tales como: Python, R, Orange, Tanagra, Rapid
Minner, ROctave, Scavis entre otros. Sin embargo, se se-
leccionó OpenRefine debido a la interfaz gráfica (sencillez)
que presenta para manipular los datos y permite utilizar el
lenguaje de programación Python para la limpieza, además,
existe una extensa documentación para utilizar la herramien-
ta OpenRefine y Python. En la etapa de minería de datos
se extrajo una muestra del conglomerado de datos con el
objetivo de contrastar los resultados con otras herramientas
que realizan el trabajo de análisis de opinión y con una
clasificación manual realizada por un experto. En efecto, el
algoritmo propuesto se ubicó en tercer lugar después de la
revisión manual y de la herramienta MeneaningCloud.
El modelo propuesto fue validado por medio de la matriz
de confusión y por la curva ROC por este motivo, las métri-
cas estadísticas evidencian una Precisión del 94%, Recall
de 80% y una media de intervalo de confianza calculada
en 77.5%. Se puede concluir que el modelo es confiable
de acuerdo con los resultados analizados, pero carece de
memoria con respecto a la técnica utilizada (Naive Bayes),
por tal motivo, técnicas como Aprendizaje Automático o Re-
des Neuronales pueden presentar a futuro mejores resultados.
Finalmente, en la etapa de interpretación de los datos se
utilizó la herramienta Jupyter para analizar los clústeres
generados (positivo, negativo y neutro) y se realizó gráficos
con el objetivo de inferir en el conocimiento oculto, por
ejemplo, Correlación y dispersión lineal, Frecuencia de
palabras, Nube de palabras, Parcela de cajas y Reglas de
asociación. Sin embargo, cuestionando el avance de la
ciencia de los datos en materia de análisis de sentimiento,
se observa que el progreso es limitado en el manejo del
idioma español debido a su complejidad. Puesto que, a
nivel sintáctico la mayoría de herramientas que existen
actualmente no presentan resultados similares, por otra
parte, a nivel semántico y pragmático se espera proporcionar
posibles soluciones a futuro.
CONCLUSIONES
La herramienta Google Data Search, permitió obtener un
conjunto de datos de excelente calidad para llevar a cabo
el análisis de opinión. Gracias a él se logró encontrar de
forma organizada y gratuita diversos conjuntos de datos
sobre diversos temas de interés colectivo (COVID-19). Entre
estos se pueden mencionar datos gubernamentales, datos
de organizaciones de noticias o instituciones universitarias
como Harvard, Miami y el MIT, entre otros.
De acuerdo con las etapas de preprocesamiento de los
datos y transformación de los datos (KDD). La herramienta
OpenRefine ayudó a limpiar la base de datos en forma
sencilla y visual, además, permitió aplicar los criterios de
duplicidad de los datos disminuyendo el tamaño de la misma
en un 27,69%. Así mismo, ayudó con la aplicación de
los criterios de clustering para unificar la base de datos en
conformidad con la lematización.
El Algoritmo Naive Bayes propuesto presentó los mejores
resultados con la siguiente configuración: probabilidad
previa (1.0), probabilidad débil (1.0) y probabilidad fuerte
(0.5), la cual, clasificó los tuits de la siguiente manera:
84.044(positivo), 52.451(negativo) y 12.582 (neutro). El
algoritmo se delimita a su capacidad de clasificar debido
a su simplicidad, por lo que, carece de recuerdo. En con-
secuencia, para inferir de mejor manera la polaridad de
las opiniones se utilizó como fuente de conocimiento los
lexicones Isol, ML-SentiCon y Tass.
El modelo bayesiano expuesto fue validado por medio de
la Matriz de Confusión y por la curva ROC por esta razón,
las métricas estadísticas evidencian una Precisión del 94%,
Recall de 80% y un intervalo de confianza comprendido
entre 67.8% y 87.2%. Adicionalmente, se obtuvo una
muestra del Dataset en general con el objetivo de comparar
los resultados con otras herramientas similares, por ejemplo,
clasificación manual (human evaluation), MeneaningCloud,
Textblob, Google Cloud Natural Language, IBM Watson,
CoreNLP, NLTK entre otras más. Por esta razón, el al-
goritmo se posesionó en tercer lugar con una calificación
equivalente a 9,12/10 puntos.
AGRADECIMIENTOS
Agradezco al Licdo. José Manuel Padilla Puchaciela por
su guía y ayuda durante esta investigación en calidad de ex-
perto (Profesional en Lengua y Literatura – Postgrado en
Edición de medio impresos).
CONTRIBUCIONES DE LOS AUTORES
Conceptualización JT, Curación de datos JT, Análisis for-
mal JT, Investigación JT, Metodología JT, Redacción - borra-
dor original JT, Redacción - revisión y edición JT.
FINANCIAMIENTO
El presente estudio fue financiado por el autor y la Univer-
sidad Nacional de Loja, bajo resolución 250-2021-DI-UNL.
REFERENCIAS
Aldana, H. S. M., Rivas, J. D. C., Hidalgo, J. M. V. (2018).
Big Data, el futuro de las predicciones certeras. Revista
76