
Esta página apresenta uma explicação estruturada das tabelas de níveis de dificuldade
e do alinhamento com a Taxonomia de Bloom aplicadas à questão de validação da abordagem
de paráfrase T5 para dados sintéticos de comandos em HRI.
A atividade proposta nesse ensaio tem como objetivo explicitar e justificar
o desenho pedagógico e metodológico adotado na avaliação da abordagem de
paráfrase T5 aplicada à geração de dados sintéticos de comandos em Interação
Humano-Robô (HRI). Por meio da apresentação estruturada das tabelas de
níveis de dificuldade e de seu alinhamento com a Taxonomia de Bloom,
a página busca demonstrar como as tarefas propostas evoluem progressivamente
em complexidade cognitiva, articulando desde a compreensão e aplicação até
a análise e avaliação, de modo a assegurar a validade, a coerência e a robustez
do processo de validação da abordagem T5 no contexto experimental.
Na Tabela 1 representamos a descrição de uma síntese dos “níveis de dificuldade” envolvidos na atividade como um todo (questão + resposta), organizada de forma progressiva. A classificação combina demanda cognitiva, domínio técnico e maturidade científica, o que é comum em avaliações de pós-graduação e pesquisas acadêmica.
| Nível | Descrição sintética | O que o aluno precisa demonstrar |
|---|---|---|
| Básico | Compreensão conceitual | Entender o que é paráfrase, intenção semântica e validação objetiva |
| Básico–Intermediário | Conhecimento de modelos NLP | Reconhecer o papel do T5 em tarefas de reformulação textual |
| Intermediário | Aplicação de métricas | Utilizar BLEU, ROUGE e classificadores de intenção |
| Intermediário–Avançado | Avaliação experimental | Comparar dados sintéticos e reais para validar preservação de intenção |
| Avançado | Integração metodológica | Combinar métricas, classificação e explicabilidade |
| Avançado | Pensamento crítico | Justificar objetivamente a utilidade do método |
| Muito Avançado / Pesquisa | Rigor científico | Articular métodos, limitações e referências acadêmicas |
A atividade não se trata apenas de uma questão técnica; ela requer avaliação metodológica, indo além do “o que usar” e exigindo justificativa de por que isso valida objetivamente a abordagem. Ela também foi adaptada, conforme mostrado abaixo na Tabela 2, em uma rubrica de classificação alinhada com os níveis da Taxonomia de Bloom, de forma simplificada:
| Nível de Bloom | Descrição do nível | Exigência na questão / resposta |
|---|---|---|
| Lembrar | Recordar conceitos e termos | Conhecer T5, paráfrase, intenção semântica e HRI |
| Compreender | Explicar ideias centrais | Explicar por que paráfrases preservam intenção |
| Aplicar | Usar métodos e ferramentas | Aplicar métricas e classificadores |
| Analisar | Relacionar e diferenciar | Comparar dados reais e sintéticos |
| Avaliar | Julgar com critérios | Justificar a validade dos dados sintéticos |
| Criar | Propor soluções | Propor framework de validação |
Este aplicativo simples permite salvar temporariamente um template de validação e simular resultados ilustrativos de métricas.
Os valores de BLEU, ROUGE e preservação de intenção devem ser analisados de forma conjunta, pois cada métrica captura um aspecto distinto da qualidade dos dados sintéticos gerados por paráfrase.
BLEU e ROUGE medem a sobreposição lexical entre o texto original e a paráfrase. Em tarefas de reformulação textual, valores intermediários são desejáveis, pois indicam diversidade linguística sem perda semântica.
| Faixa (0–100) | Interpretação |
|---|---|
| 0 – 30 | Texto semanticamente distante ou mal formado |
| 30 – 45 | Paráfrase fraca ou ruidosa |
| 45 – 60 | Paráfrase válida com diversidade linguística |
| 60 – 80 | Boa preservação semântica com variação controlada |
| 80 – 100 | Alta similaridade textual ou reformulação superficial |
A preservação de intenção é avaliada por meio da acurácia de um classificador treinado exclusivamente com dados reais e aplicado aos comandos sintéticos.
| Faixa (%) | Interpretação |
|---|---|
| < 70% | Intenção frequentemente perdida |
| 70 – 85% | Preservação parcial da intenção |
| 85 – 90% | Preservação aceitável |
| 90 – 95% | Preservação forte da intenção |
| 95 – 99% | Preservação quase total da intenção |
A validade científica da abordagem de paráfrase é determinada pela combinação das métricas, e não por valores isolados.
| BLEU / ROUGE | Intenção | Interpretação |
|---|---|---|
| Alto | Alto | Reformulação superficial ou quase cópia |
| Baixo | Baixo | Paráfrase inadequada |
| Médio | Alto | Cenário ideal para dados sintéticos |
| Muito baixo | Alto | Excesso de variação ou ruído linguístico |
Resultados na faixa de BLEU e ROUGE entre 45 e 80, combinados com preservação de intenção entre 90% e 99%, indicam que os comandos sintéticos preservam o significado original enquanto introduzem diversidade linguística relevante, tornando-os adequados para treinamento robusto de modelos HRI.
| Métrica | Faixa Observada | Interpretação Científica | Conclusão Metodológica |
|---|---|---|---|
| BLEU | 45 – 80 | Similaridade lexical moderada, indicando diversidade linguística com preservação semântica. | As paráfrases não são cópias literais e contribuem para data augmentation. |
| ROUGE | 45 – 80 | Sobreposição semântica suficiente para manter o conteúdo informacional do comando original. | O conteúdo essencial dos comandos é preservado. |
| Preservação de intenção | 90% – 99% | Alta taxa de reconhecimento correto da intenção por classificador treinado em dados reais. | Os comandos sintéticos são funcionalmente equivalentes aos comandos humanos. |
| Análise conjunta | BLEU/ROUGE médios + Intenção alta | Equilíbrio entre diversidade linguística e fidelidade semântica. | Validação objetiva da utilidade da abordagem de paráfrase T5. |
A combinação de métricas linguísticas intermediárias com elevada preservação de intenção fornece evidências objetivas de que a abordagem de paráfrase T5 é adequada para a geração de dados sintéticos em cenários de interação humano–robô, apoiando o treinamento robusto de modelos.
• BLEU (Bilingual Evaluation Understudy) : métrica automática que avalia a qualidade
de textos gerados comparando n-gramas do texto produzido com referências humanas,
sendo muito usada em tradução automática (Lundeberg & Lee, 2017).
• GERAÇÃO DE DADOS SINTÉTICOS : é a criação artificial de dados, por meio de modelos
computacionais, que preservam propriedades estatísticas e semânticas dos dados
reais, sendo usada para ampliar conjuntos de treino, reduzir vieses e contornar
limitações de coleta (Frid-Adar et al., 2018; Shorten & Khoshgoftaar, 2019).
• HRI (Human-Robot Interaction) : é a área de pesquisa que estuda como humanos e
robôs se comunicam, cooperam e interagem, incluindo linguagem natural, comandos,
percepção e comportamento social (Goodrich & Schultz, 2007).
• LIME (Local Interpretable Model-agnostic Explanations) : método de interpretabilidade
que explica previsões localmente, aproximando o comportamento do modelo complexo por
um modelo simples (geralmente linear) ao redor de uma instância específica (Lundeberg & Lee, 2017).
• MODELOS DE NLP (Processamento de Linguagem Natural) : modelos computacionais que
permitem aos sistemas compreenderem, gerar e manipular linguagem humana,
realizando tarefas como classificação de texto, tradução, sumarização e paráfrase.
• PARÁFRASE T5 : refere-se ao uso do modelo T5 (Text-to-Text Transfer Transformer)
para reescrever sentenças mantendo o significado semântico, sendo amplamente aplicado
em tarefas de paráfrase, tradução e geração controlada de texto (Raffel et al., 2020).
• ROUGE (Recall-Oriented Understudy for Gisting Evaluation) : conjunto de métricas
que mede a sobreposição de unidades linguísticas (n-gramas, subsequências)
entre um texto gerado e textos de referência, comum na avaliação de sumarização
e geração de texto.
• SHAP (SHapley Additive exPlanations) : método de interpretabilidade baseado
na teoria dos valores de Shapley, que quantifica de forma consistente
a contribuição de cada característica para a decisão final do modelo (Lundeberg & Lee, 2017).
• TAXONOMIA DE BLOMM: é um sistema hierárquico que classifica os objetivos de aprendizagem em níveis
de complexidade cognitiva, ajudando educadores a planejar aulas e avaliações mais eficazes, abrangendo
os domínios Cognitivo, Afetivo e Psicomotor, com o Cognitivo dividindo-se em seis níveis: Lembrar,
Compreender, Aplicar, Analisar, Avaliar e Criar, do mais básico ao mais complexo, focando no desenvolvimento
do pensamento crítico e habilidades de ordem superior (Anderson,1999; Marcheti & Belhot, 2010, p. 422-424).
Anderson, L. W. Rethinking Bloom’s Taxonomy:implication for testing and assessment . [PDF]. Document Resume - Reports - Descriptive (141) MF01/PC01, Columbia:University of South, 1999, 27 p. Disponívelem: https://files.eric.ed.gov/fulltext/ED435630.pdf. Acesso em: 12 dez.2025.
Frid-Adar, M. et al. (2018) Synthetic data augmentation using GAN for improved liver lesion classification. [PDF], idioma inglês. In: IEEE 15th International Symposium on Biomedical Imaging (ISBI), 2018, p. 289–293 (14 p.). DOI: 10.1109/ISBI.2018.8363576. Disponivel em: https://d-nb.info/1371690278/34. Acesso em: 12 dez. 2025.
Goodrich, M. A., & Schultz, A. C. (2007). Human–Robot Interaction: A Survey. Idioma inglês. Foundations and Trends, in: Human–Computer Interaction. Vol. 1, No. 3. 203–275. DOI: 10.1561/1100000005. Disponível em: https://www.researchgate.net/publication/220613473_Human-Robot_Interaction_A_Survey. Acesso em: 18 dez 2025.
Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries . Idioma inglês. Barcelona, Espanha: Associação de Linguística Computacional, jul. 2004, p. 74–81. Disponível em: https://aclanthology.org/W04-1013/. Acesso em: 13 de dezembro de 2025.
Lundberg, SM, & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. NeurIPS. . [online] [PDF]. Idioma inglês. Conferência: NIPS, 10 p. Disponível em: https://www.researchgate.net/publication/317062430_A_Unified_Approach_to_Interpreting_Model_Predictions. Acesso em: 13 de dezembro de 2025.
Marcheti, A. P.; & Belhot, R. V. (2010). Taxonomia de Bloom: revisão teórica e apresentação das
adequações do instrumento para definição de objetivos instrucionais .. [online] ,[PDF].
São Carlosç: Gestão & Produção v. 17, n. 2, 2010, p. 421-431 (11 p.). DOI: 10.1590/S0104-530X2010000200015.
Disponível em:
Papineni, K. et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. [PDF] In: Meeting of the Association for Computational Linguistics, Proceedings of the 40th Annual , Filadélfia, Pensilvânia, EUA: ACL, pp. 311–318. Doi: 10.3115/1073083.1073135. Disponível em: https://aclanthology.org/P02-1040.pdf. Acesso em: 13 de dezembro de 2025.
Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer . Idioma inglês. Journal of Machine Learning Research. v4, 19 de setembro de 2023, [np]. Disponível em: https://arxiv.org/abs/1910.10683. Acessado em: 12 de dezembro de 2025.
Ribeiro, MT et al. (2016). “Por que eu deveria confiar em você?” Explicando as previsões de qualquer classificador . [PDF], idioma inglês. v3) rXiv:1602.04938v3 [cs.LG], KDD: Universidade Cornell, 9 de agosto de 2016, 10 p. Disponível em: https://arxiv.org/pdf/1602.04938. Acessado em: 12 de dezembro de 2025.
Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning . Idioma inglês. Journal of Big Data, 6, 48 p. DOI: 10.1186/s40537-019-0197-0. Disponível em: https://www.researchgate.net/publication/334279066_A_survey_on_Image_Data_Augmentation_for_Deep_Learning. Acesso em: 14 dez. 2025.