Evaluación de Algoritmos de Aprendizaje Supervisado usando Modelos Binarios para Clasificación de Análisis de Sentimiento
Evaluation of Supervised Learning Algorithms Using Binary Models for Sentiment Analysis Classification
Palabras clave:
Máquinas de soporte vectorial, Naive Bayes, Regresión logistica binaria, Árboles de Decisipon, Análisis discriminante lineal, Support vector machines, Binary logistic regression, Decisipon trees, Linear discriminant analysisResumen
Este estudio tuvo como propósito evaluar algoritmos de aprendizaje supervisado en modelos binarios para mejorar el análisis de sentimiento en la clasificación de datos no estructurados. Se analizaron datos de diversas áreas temáticas, desde ciencias sociales hasta ciencias naturales, con diferentes dimensiones en cada área, reflejando la variabilidad y cantidad de datos recopilados. Los modelos de aprendizaje supervisado lograron altos niveles de precisión, destacándose el modelo análisis discriminante lineal (LDA) como el mejor clasificador en términos de precisión y ROC. Sin embargo, la sensibilidad y especificidad variaron entre modelos. El análisis de sentimientos reveló que predominaba el sentimiento positivo en los datos, respaldado por un conjunto significativo de palabras. Aunque el modelo LDA se mostró idóneo para clasificar los datos, se enfatiza la importancia de considerar el equilibrio entre precisión, sensibilidad y especificidad según los objetivos específicos y la relevancia de falsos positivos y falsos negativos en un contexto particular.
This study aimed to evaluate supervised learning algorithms on binary models to improve sentiment analysis in the classification of unstructured data. Data from various subject areas were analyzed, from social sciences to natural sciences, with different dimensions in each area, reflecting the variability and amount of data collected. The supervised learning models achieved high levels of accuracy, with the linear discriminant analysis (LDA) model standing out as the best classifier in terms of accuracy and ROC. However, sensitivity and specificity varied between models. Sentiment analysis revealed that positive sentiment predominated in the data, supported by a significant set of words. Although the LDA model was suitable for classifying the data, the importance of considering the balance between precision, sensitivity and specificity according to the specific objectives and the relevance of false positives and false negatives in a particular context is emphasized.