Please use this identifier to cite or link to this item: http://monografias.ufrn.br/handle/123456789/8682
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorLucena, Amarildo Jeiele Ferreira de-
dc.contributor.authorGorgônio, Arthur Costa-
dc.date.accessioned2019-06-03T15:59:33Z-
dc.date.available2019-06-03T15:59:33Z-
dc.date.issued2018-12-12-
dc.identifier2015031473pt_BR
dc.identifier.citationGORGÔNIO, Arthur Costa. UMA ANÁLISE DA INFLUÊNCIA DO PARÂMETRO DE CONTROLE DO LIMIAR NO MÉTODO DE APRENDIZADO SEMISSUPERVISIONADO FLEXCON-C. 2018. 110 p. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação)- Universidade Federal do Rio Grande do Norte, Caicó/RN, 2018.pt_BR
dc.identifier.urihttp://monografias.ufrn.br/handle/123456789/8682-
dc.description.abstractLearning algorithms are effective and efficient tools for processing large volumes of data. However, real-world application databases are not fully labeled, this difficult the development of a model through traditional modes of machine learning. The semi-supervised machine learning arises to perform the training of algorithms capable of learning with partially labeled databases. The confidence of the classification process depends on several factors that include the type of the classifier and a set of parameters that customize them, besides the layout and/or the dataset’s characteristics. An important factor in this type of learning is the selection of examples to be included in the labeled data set. A way to make this selection is using a threshold that determinate the included instances for each iteration, allowing to label only the instances with high confidence value. The FlexCon-C method – derived from the Self-Training algorithm – make use of this strategy and the object of study of this paper were the three variations of the FlexCon-C (FlexCon-C1 (s), FlexCon-C1 (v), FlexCon-C2). In this research were analyzed different values for the threshold variation (cr), measuring the impact on the classification of semi-supervised learning. The results showed that there is no value for the parameter cr that is superior to the other in all cases, the best value depends on different configurations of the experiment, such as: technique, classifier and percentage of initially labeled data. Analyzing the accuracy by classifier, it was observed that Naïve Bayes and rpartXse did not present significant differences in the value of accuracy when the parameter cr was changed. However, the RIPPER obtain the best results by setting the value of cr > 5%, while the k-NN classifier achieved better accuracy with cr < 5%.pt_BR
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAprendizado semissupervisionadopt_BR
dc.subjectSemi-Supervised Learningpt_BR
dc.subjectSelf-Trainingpt_BR
dc.subjectSelf-Trainingpt_BR
dc.subjectAjuste de parâmetrospt_BR
dc.subjectParameter settingpt_BR
dc.subjectFlexCon-Cpt_BR
dc.titleUma análise da influência do parâmetro de controle do limiar no método de aprendizado semissupervisionado FlexCon-Cpt_BR
dc.typebachelorThesispt_BR
dc.contributor.advisor-co1Karliane Medeiros Ovidio Valept_BR
dc.contributor.referees1Lucena, Amarildo Jeiele Ferreira de-
dc.contributor.referees2Canuto, Anne Magaly de Paula-
dc.description.resumoAlgoritmos com a capacidade de aprendizado são ferramentas eficazes e eficientes para o processamento de um grande volume de dados. Entretanto, bases de dados das aplicações do mundo real não são completamente rotuladas, isso dificulta o desenvolvimento de um modelo pelos modos tradicionais de aprendizado de máquina. O aprendizado de máquina semissupervisionado surge para realizar o treinamento de algoritmos capazes de aprender com base de dados parcialmente rotuladas. A confiabilidade do processo de classificação depende de vários fatores que incluem o tipo de classificador utilizado e um conjunto de parâmetros que os customiza, além da disposição e/ou formatação da própria base de dados. Um fator importante deste tipo de aprendizado é a seleção de exemplos a serem incluídos no conjunto de dados rotulados. Uma forma de realizar essa seleção é por meio de um limiar que determina quais instâncias são incluídas por iteração, permitindo rotular apenas instâncias classificadas com alto valor de confiança. O método FlexCon-C – derivado do algoritmo Self-Training – faz uso dessa estratégia e o objeto de estudo deste trabalho foram as três técnicas variantes do método FlexCon-C (FlexCon-C1 (s), FlexCon-C1 (v), FlexCon-C2). No qual foi analisado diferentes valores para a variação do limiar (cr) mensurando o impacto na classificação de dados semissupervisionados. Os resultados demonstraram não haver um valor para o parâmetro cr que seja superior aos demais em todos os casos, uma vez que o melhor valor depende de diferentes configurações do experimento, tais como: técnica, classificador e percentual de dados inicialmente rotulados. Analisando a acurácia por classificador, percebeu-se que Naïve Bayes e rpartXse não apresentaram diferenças significativas no valor da acurácia ao se variar o parâmetro cr. Entretanto, o RIPPER obteve melhores resultados fixando-se o valor do cr > 5%, enquanto que o k-NN alcançou melhores acurácias com o cr < 5%.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentBacharelado de Sistemas de Informaçãopt_BR
dc.publisher.initialsUFRNpt_BR
dc.contributor.referees3Vale, Karliane Medeiros Ovidio-
Appears in Collections:CERES - Sistemas de Informação

Files in This Item:
File Description SizeFormat 
UmaAnáliseDaInfluência_Gorgonio_2018.pdf1,06 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons