Please use this identifier to cite or link to this item: http://monografias.ufrn.br/handle/123456789/8682
Title: Uma análise da influência do parâmetro de controle do limiar no método de aprendizado semissupervisionado FlexCon-C
Authors: Gorgônio, Arthur Costa
Keywords: Aprendizado semissupervisionado;Semi-Supervised Learning;Self-Training;Self-Training;Ajuste de parâmetros;Parameter setting;FlexCon-C
Issue Date: 12-Dec-2018
Publisher: Universidade Federal do Rio Grande do Norte
Citation: GORGÔNIO, Arthur Costa. UMA ANÁLISE DA INFLUÊNCIA DO PARÂMETRO DE CONTROLE DO LIMIAR NO MÉTODO DE APRENDIZADO SEMISSUPERVISIONADO FLEXCON-C. 2018. 110 p. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação)- Universidade Federal do Rio Grande do Norte, Caicó/RN, 2018.
Portuguese Abstract: Algoritmos com a capacidade de aprendizado são ferramentas eficazes e eficientes para o processamento de um grande volume de dados. Entretanto, bases de dados das aplicações do mundo real não são completamente rotuladas, isso dificulta o desenvolvimento de um modelo pelos modos tradicionais de aprendizado de máquina. O aprendizado de máquina semissupervisionado surge para realizar o treinamento de algoritmos capazes de aprender com base de dados parcialmente rotuladas. A confiabilidade do processo de classificação depende de vários fatores que incluem o tipo de classificador utilizado e um conjunto de parâmetros que os customiza, além da disposição e/ou formatação da própria base de dados. Um fator importante deste tipo de aprendizado é a seleção de exemplos a serem incluídos no conjunto de dados rotulados. Uma forma de realizar essa seleção é por meio de um limiar que determina quais instâncias são incluídas por iteração, permitindo rotular apenas instâncias classificadas com alto valor de confiança. O método FlexCon-C – derivado do algoritmo Self-Training – faz uso dessa estratégia e o objeto de estudo deste trabalho foram as três técnicas variantes do método FlexCon-C (FlexCon-C1 (s), FlexCon-C1 (v), FlexCon-C2). No qual foi analisado diferentes valores para a variação do limiar (cr) mensurando o impacto na classificação de dados semissupervisionados. Os resultados demonstraram não haver um valor para o parâmetro cr que seja superior aos demais em todos os casos, uma vez que o melhor valor depende de diferentes configurações do experimento, tais como: técnica, classificador e percentual de dados inicialmente rotulados. Analisando a acurácia por classificador, percebeu-se que Naïve Bayes e rpartXse não apresentaram diferenças significativas no valor da acurácia ao se variar o parâmetro cr. Entretanto, o RIPPER obteve melhores resultados fixando-se o valor do cr > 5%, enquanto que o k-NN alcançou melhores acurácias com o cr < 5%.
Abstract: Learning algorithms are effective and efficient tools for processing large volumes of data. However, real-world application databases are not fully labeled, this difficult the development of a model through traditional modes of machine learning. The semi-supervised machine learning arises to perform the training of algorithms capable of learning with partially labeled databases. The confidence of the classification process depends on several factors that include the type of the classifier and a set of parameters that customize them, besides the layout and/or the dataset’s characteristics. An important factor in this type of learning is the selection of examples to be included in the labeled data set. A way to make this selection is using a threshold that determinate the included instances for each iteration, allowing to label only the instances with high confidence value. The FlexCon-C method – derived from the Self-Training algorithm – make use of this strategy and the object of study of this paper were the three variations of the FlexCon-C (FlexCon-C1 (s), FlexCon-C1 (v), FlexCon-C2). In this research were analyzed different values for the threshold variation (cr), measuring the impact on the classification of semi-supervised learning. The results showed that there is no value for the parameter cr that is superior to the other in all cases, the best value depends on different configurations of the experiment, such as: technique, classifier and percentage of initially labeled data. Analyzing the accuracy by classifier, it was observed that Naïve Bayes and rpartXse did not present significant differences in the value of accuracy when the parameter cr was changed. However, the RIPPER obtain the best results by setting the value of cr > 5%, while the k-NN classifier achieved better accuracy with cr < 5%.
URI: http://monografias.ufrn.br/handle/123456789/8682
Other Identifiers: 2015031473
Appears in Collections:CERES - Sistemas de Informação

Files in This Item:
File Description SizeFormat 
UmaAnáliseDaInfluência_Gorgonio_2018.pdf1.06 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons