Validação Objetiva da Abordagem de Paráfrase T5

By: Iraê César Brandão - Luck Way Lab

Esta página apresenta uma explicação estruturada das tabelas de níveis de dificuldade e do alinhamento com a Taxonomia de Bloom aplicadas à questão de validação da abordagem de paráfrase T5 para dados sintéticos de comandos em HRI.

Atividade Proposta


A atividade proposta nesse ensaio tem como objetivo explicitar e justificar o desenho pedagógico e metodológico adotado na avaliação da abordagem de paráfrase T5 aplicada à geração de dados sintéticos de comandos em Interação Humano-Robô (HRI). Por meio da apresentação estruturada das tabelas de níveis de dificuldade e de seu alinhamento com a Taxonomia de Bloom, a página busca demonstrar como as tarefas propostas evoluem progressivamente em complexidade cognitiva, articulando desde a compreensão e aplicação até a análise e avaliação, de modo a assegurar a validade, a coerência e a robustez do processo de validação da abordagem T5 no contexto experimental.

Na Tabela 1 representamos a descrição de uma síntese dos “níveis de dificuldade” envolvidos na atividade como um todo (questão + resposta), organizada de forma progressiva. A classificação combina demanda cognitiva, domínio técnico e maturidade científica, o que é comum em avaliações de pós-graduação e pesquisas acadêmica.

Tabela 1 — Níveis de Dificuldade da Atividade

Nível Descrição sintética O que o aluno precisa demonstrar
Básico Compreensão conceitual Entender o que é paráfrase, intenção semântica e validação objetiva
Básico–Intermediário Conhecimento de modelos NLP Reconhecer o papel do T5 em tarefas de reformulação textual
Intermediário Aplicação de métricas Utilizar BLEU, ROUGE e classificadores de intenção
Intermediário–Avançado Avaliação experimental Comparar dados sintéticos e reais para validar preservação de intenção
Avançado Integração metodológica Combinar métricas, classificação e explicabilidade
Avançado Pensamento crítico Justificar objetivamente a utilidade do método
Muito Avançado / Pesquisa Rigor científico Articular métodos, limitações e referências acadêmicas

A atividade não se trata apenas de uma questão técnica; ela requer avaliação metodológica, indo além do “o que usar” e exigindo justificativa de por que isso valida objetivamente a abordagem. Ela também foi adaptada, conforme mostrado abaixo na Tabela 2, em uma rubrica de classificação alinhada com os níveis da Taxonomia de Bloom, de forma simplificada:

Tabela 2 — Alinhamento com a Taxonomia de Bloom

Nível de Bloom Descrição do nível Exigência na questão / resposta
Lembrar Recordar conceitos e termos Conhecer T5, paráfrase, intenção semântica e HRI
Compreender Explicar ideias centrais Explicar por que paráfrases preservam intenção
Aplicar Usar métodos e ferramentas Aplicar métricas e classificadores
Analisar Relacionar e diferenciar Comparar dados reais e sintéticos
Avaliar Julgar com critérios Justificar a validade dos dados sintéticos
Criar Propor soluções Propor framework de validação

Aplicativo de Teste (Template Temporário)

Este aplicativo simples permite salvar temporariamente um template de validação e simular resultados ilustrativos de métricas.



ORIENTAÇÕES DE USO


1- O que é o template nesse contexto?


O template representa um plano de validação experimental da abordagem de paráfrase T5. Ele não executa código real, mas descreve como o experimento seria conduzido, permitindo:
- Padronizar testes;
- Reproduzir a metodologia;
- Simular resultados de forma controlada.
Pense nele como um protocolo experimental resumido.

2- Estrutura lógica do template


Um template bem-formado normalmente contém:
- Objetivo da validação;
- Fonte dos dados reais;
- Método de geração sintética (T5);
- Critérios de validação;
- Métricas utilizadas;
- Critério de aceitação.
No aplicativo, tudo isso é texto livre, mas estruturado para clareza.

3- Template SIMULADO (copie e cole)


👉 Copie exatamente o texto abaixo e cole na caixa “Template de validação”

OBJETIVO:
-Validar se paráfrases geradas pelo modelo T5 preservam a intenção semântica de comandos HRI e contribuem para um treinamento mais robusto.

DADOS REAIS:
-Conjunto de comandos humanos reais anotados por intenção (gold standard).

GERAÇÃO SINTÉTICA:
-Modelo T5 fine-tuned para tarefa de paráfrase, gerando 3 variações por comando.

VALIDAÇÃO DE INTENÇÃO:
- Classificador de intenção treinado exclusivamente com dados reais.
- Comparação da acurácia entre dados reais e dados sintéticos.

MÉTRICAS LINGUÍSTICAS:
- BLEU e ROUGE aplicados para medir diversidade lexical e sobreposição semântica.

CRITÉRIO DE ACEITAÇÃO:
- Diferença de acurácia ≤ 3% entre dados reais e sintéticos;
- BLEU e ROUGE moderados (0.4 – 0.7);
- Nenhuma evidência de viés artificial introduzido.

INTERPRETABILIDADE:
- Aplicação de LIME/SHAP para verificar foco em elementos semânticos relevantes.

4- O que acontece ao clicar nos botões?


EXPORTAR TEMPLATE (Salvar template)
- O texto acima é armazenado temporariamente no navegador; - Simula a persistência de um protocolo experimental;
- Ao mesmo tempo, é exportado um arquivo (download) com o nome "template_validacao_T5.json", ficando este armazenado na pasta Downloads do usuário.

IMPORTAR TEMPLATE (Carregar template)
- Abre uma caixa de diálogo onde se deve buscar o arquivo salvo (na pasta utilizada para armazenar o protolo salvo);
- Após selecionado o arquivo, clicado em "Abrir", recupera o protocolo salvo;
- Simula reutilização do experimento.

SIMULAR RESULTADOS
O resultado simulado será baseado no template importado, ou digitado ou até mesmo colado (copia/cola) dentro da caixa de texto, gerando os valores conforme exemplo a seguir.
* Gera valores ilustrativos como:
- BLEU ≈ 0.45 – 0.80
- ROUGE ≈ 0.45 – 0.80
- Preservação de intenção ≈ 90% – 99%

Representa um cenário de validação bem-sucedida.


Interpretação das Métricas (Escala 0–100)

Os valores de BLEU, ROUGE e preservação de intenção devem ser analisados de forma conjunta, pois cada métrica captura um aspecto distinto da qualidade dos dados sintéticos gerados por paráfrase.

Escalas utilizadas

Interpretação de BLEU e ROUGE

BLEU e ROUGE medem a sobreposição lexical entre o texto original e a paráfrase. Em tarefas de reformulação textual, valores intermediários são desejáveis, pois indicam diversidade linguística sem perda semântica.

Tabela 3 — Tabela de interpretação BLEU - ROUGE

Faixa (0–100) Interpretação
0 – 30 Texto semanticamente distante ou mal formado
30 – 45 Paráfrase fraca ou ruidosa
45 – 60 Paráfrase válida com diversidade linguística
60 – 80 Boa preservação semântica com variação controlada
80 – 100 Alta similaridade textual ou reformulação superficial

Interpretação da Preservação de Intenção

A preservação de intenção é avaliada por meio da acurácia de um classificador treinado exclusivamente com dados reais e aplicado aos comandos sintéticos.

Tabela 4 — Tabela Interpretação da Preservação de Intenção

Faixa (%) Interpretação
< 70% Intenção frequentemente perdida
70 – 85% Preservação parcial da intenção
85 – 90% Preservação aceitável
90 – 95% Preservação forte da intenção
95 – 99% Preservação quase total da intenção

Análise conjunta das métricas

A validade científica da abordagem de paráfrase é determinada pela combinação das métricas, e não por valores isolados.

Tabela 5 — Tabela de Análise conjunta das métricas

BLEU / ROUGE Intenção Interpretação
Alto Alto Reformulação superficial ou quase cópia
Baixo Baixo Paráfrase inadequada
Médio Alto Cenário ideal para dados sintéticos
Muito baixo Alto Excesso de variação ou ruído linguístico

Resultados na faixa de BLEU e ROUGE entre 45 e 80, combinados com preservação de intenção entre 90% e 99%, indicam que os comandos sintéticos preservam o significado original enquanto introduzem diversidade linguística relevante, tornando-os adequados para treinamento robusto de modelos HRI.



Tabela 6 - Final: Síntese Interpretativa dos Resultados

Métrica Faixa Observada Interpretação Científica Conclusão Metodológica
BLEU 45 – 80 Similaridade lexical moderada, indicando diversidade linguística com preservação semântica. As paráfrases não são cópias literais e contribuem para data augmentation.
ROUGE 45 – 80 Sobreposição semântica suficiente para manter o conteúdo informacional do comando original. O conteúdo essencial dos comandos é preservado.
Preservação de intenção 90% – 99% Alta taxa de reconhecimento correto da intenção por classificador treinado em dados reais. Os comandos sintéticos são funcionalmente equivalentes aos comandos humanos.
Análise conjunta BLEU/ROUGE médios + Intenção alta Equilíbrio entre diversidade linguística e fidelidade semântica. Validação objetiva da utilidade da abordagem de paráfrase T5.

A combinação de métricas linguísticas intermediárias com elevada preservação de intenção fornece evidências objetivas de que a abordagem de paráfrase T5 é adequada para a geração de dados sintéticos em cenários de interação humano–robô, apoiando o treinamento robusto de modelos.

Glossário

BLEU (Bilingual Evaluation Understudy) : métrica automática que avalia a qualidade de textos gerados comparando n-gramas do texto produzido com referências humanas, sendo muito usada em tradução automática (Lundeberg & Lee, 2017).

GERAÇÃO DE DADOS SINTÉTICOS : é a criação artificial de dados, por meio de modelos computacionais, que preservam propriedades estatísticas e semânticas dos dados reais, sendo usada para ampliar conjuntos de treino, reduzir vieses e contornar limitações de coleta (Frid-Adar et al., 2018; Shorten & Khoshgoftaar, 2019).

HRI (Human-Robot Interaction) : é a área de pesquisa que estuda como humanos e robôs se comunicam, cooperam e interagem, incluindo linguagem natural, comandos, percepção e comportamento social (Goodrich & Schultz, 2007).

LIME (Local Interpretable Model-agnostic Explanations) : método de interpretabilidade que explica previsões localmente, aproximando o comportamento do modelo complexo por um modelo simples (geralmente linear) ao redor de uma instância específica (Lundeberg & Lee, 2017).

MODELOS DE NLP (Processamento de Linguagem Natural) : modelos computacionais que permitem aos sistemas compreenderem, gerar e manipular linguagem humana, realizando tarefas como classificação de texto, tradução, sumarização e paráfrase.

PARÁFRASE T5 : refere-se ao uso do modelo T5 (Text-to-Text Transfer Transformer) para reescrever sentenças mantendo o significado semântico, sendo amplamente aplicado em tarefas de paráfrase, tradução e geração controlada de texto (Raffel et al., 2020).

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) : conjunto de métricas que mede a sobreposição de unidades linguísticas (n-gramas, subsequências) entre um texto gerado e textos de referência, comum na avaliação de sumarização e geração de texto.

SHAP (SHapley Additive exPlanations) : método de interpretabilidade baseado na teoria dos valores de Shapley, que quantifica de forma consistente a contribuição de cada característica para a decisão final do modelo (Lundeberg & Lee, 2017).

TAXONOMIA DE BLOMM: é um sistema hierárquico que classifica os objetivos de aprendizagem em níveis de complexidade cognitiva, ajudando educadores a planejar aulas e avaliações mais eficazes, abrangendo os domínios Cognitivo, Afetivo e Psicomotor, com o Cognitivo dividindo-se em seis níveis: Lembrar, Compreender, Aplicar, Analisar, Avaliar e Criar, do mais básico ao mais complexo, focando no desenvolvimento do pensamento crítico e habilidades de ordem superior (Anderson,1999; Marcheti & Belhot, 2010, p. 422-424).



REFERÊNCIAS

Anderson, L. W. Rethinking Bloom’s Taxonomy:implication for testing and assessment . [PDF]. Document Resume - Reports - Descriptive (141) MF01/PC01, Columbia:University of South, 1999, 27 p. Disponívelem: https://files.eric.ed.gov/fulltext/ED435630.pdf. Acesso em: 12 dez.2025.

Frid-Adar, M. et al. (2018) Synthetic data augmentation using GAN for improved liver lesion classification. [PDF], idioma inglês. In: IEEE 15th International Symposium on Biomedical Imaging (ISBI), 2018, p. 289–293 (14 p.). DOI: 10.1109/ISBI.2018.8363576. Disponivel em: https://d-nb.info/1371690278/34. Acesso em: 12 dez. 2025.

Goodrich, M. A., & Schultz, A. C. (2007). Human–Robot Interaction: A Survey. Idioma inglês. Foundations and Trends, in: Human–Computer Interaction. Vol. 1, No. 3. 203–275. DOI: 10.1561/1100000005. Disponível em: https://www.researchgate.net/publication/220613473_Human-Robot_Interaction_A_Survey. Acesso em: 18 dez 2025.

Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries . Idioma inglês. Barcelona, Espanha: Associação de Linguística Computacional, jul. 2004, p. 74–81. Disponível em: https://aclanthology.org/W04-1013/. Acesso em: 13 de dezembro de 2025.

Lundberg, SM, & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. NeurIPS. . [online] [PDF]. Idioma inglês. Conferência: NIPS, 10 p. Disponível em: https://www.researchgate.net/publication/317062430_A_Unified_Approach_to_Interpreting_Model_Predictions. Acesso em: 13 de dezembro de 2025.

Marcheti, A. P.; & Belhot, R. V. (2010). Taxonomia de Bloom: revisão teórica e apresentação das adequações do instrumento para definição de objetivos instrucionais .. [online] ,[PDF]. São Carlosç: Gestão & Produção v. 17, n. 2, 2010, p. 421-431 (11 p.). DOI: 10.1590/S0104-530X2010000200015. Disponível em: . Acesso em: 18 dez. 2025.

Papineni, K. et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. [PDF] In: Meeting of the Association for Computational Linguistics, Proceedings of the 40th Annual , Filadélfia, Pensilvânia, EUA: ACL, pp. 311–318. Doi: 10.3115/1073083.1073135. Disponível em: https://aclanthology.org/P02-1040.pdf. Acesso em: 13 de dezembro de 2025.

Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer . Idioma inglês. Journal of Machine Learning Research. v4, 19 de setembro de 2023, [np]. Disponível em: https://arxiv.org/abs/1910.10683. Acessado em: 12 de dezembro de 2025.

Ribeiro, MT et al. (2016). “Por que eu deveria confiar em você?” Explicando as previsões de qualquer classificador . [PDF], idioma inglês. v3) rXiv:1602.04938v3 [cs.LG], KDD: Universidade Cornell, 9 de agosto de 2016, 10 p. Disponível em: https://arxiv.org/pdf/1602.04938. Acessado em: 12 de dezembro de 2025.

Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning . Idioma inglês. Journal of Big Data, 6, 48 p. DOI: 10.1186/s40537-019-0197-0. Disponível em: https://www.researchgate.net/publication/334279066_A_survey_on_Image_Data_Augmentation_for_Deep_Learning. Acesso em: 14 dez. 2025.