Principal Component Analysis (PCA) para mejorar la performance de aprendizaje de los algoritmos Support Vector Machine (SVM) y Red Neuronal Multicapa (MLNN)
Ver/
Descargar
(application/pdf: 2.127Mb)
(application/pdf: 2.127Mb)
Fecha
2017Autor(es)
Aguilar Gutierrez, Luis Antonio
Vasquez Valdivia, Yndra Olenca
Metadatos
Mostrar el registro completo del ítemResumen
Esta tesis explora el problema de data sets con un número alto de atributos; y el impacto
que generan en la performance de aprendizaje de los algoritmos Support Vector Machine
(SVM) y Redes Neuronales Multicapa (MLNN).
Para poder resolver este problema, proponemos la siguiente hipótesis: ““La aplicación de
Principal Component Analysis (PCA) sobre el data set; mejorará la performance de
aprendizaje de los algoritmos Support Vector Machine (SVM) y Redes neuronales
Multicapa (MLNN).
De acuerdo con nuestra hipótesis; tenemos el siguiente objetivo general: ““Mejorar la
performance de aprendizaje de los algoritmos Support Vector Machine (SVM) y Redes
Neuronales Multicapa (MLNN) a través de la aplicación de Principal Component Analysis
(PCA) sobre el data set““.
Para poder implementar los algoritmos (SVM, MLNN y PCA); usamos el data set QSAR
biodegradation, de obtenido del repositorio gratuito Machine Learning (UCI), asimismo,
todo la implementación de los algoritmos fue realizada usando Matlab 2014a. Una vez que
los algoritmos fueron implementados, empezamos la prueba de la hipótesis; para ello
creamos dos dataset, uno aplicando PCA y el otro sin aplicarle PCA; luego medimos la
performance de aprendizaje de los algoritmos SVM y MLNN contra sus contrapartes sin
PCA; al final, los resultados mostraron que ambos algoritmos SVM y MLNN ganaron una
mejora significativa en sus performances de aprendizaje en contraste con simplemente
entrenar los algoritmos sin aplicar PCA al data set. This thesis explores the problem of data sets with a high number of attributes, and its
impact on the learning performance of the algorithms Support Vector Machine (SVM) and
Multilayer Neural Network (MLNN).
In order to solve this problem we propose the following hypothesis: “The applicat ion of
Principal Component Analysis (PCA) over the data set; will improve the learning
performance of the algorithms Support Vector Machine (SVM) and Multilayer Neural
Network (MLNN)”
According wit h our hypothesis; we have the following general object ive: “Improve the
learning performance of the algorithms Support Vector Machine (SVM) and Multilayer
Neural Network through the application of Principal Component Analysis (PCA) over the
data set”. In order to implement the algorithms (SVM, MLNN and PCA), we used the
QSAR biodegradation dataset, obtained from the Free Machine Learning Repository (UCI),
also all the development of the algorithms was done using Matlab 2014a. Once the
algorithms were developed, we begin with the test of our hypothesis, to do so, we create
two sets, one applying PCA to the dataset, and the other without applying it, then we
measure the learning performance of the algorithms SVM and MLNN against themselves
on both datasets (one applying PCA and the other not), at the end, the results show us that
both algorithms SVM and MLNN gain a major improvement in their learning performance
compared to simple train the algorithms without applying PCA to the dataset.