Validação da Abordagem de Paráfrase T5

Atividade Proposta

A atividade proposta nesse ensaio tem como objetivo explicitar e justificar o desenho pedagógico e metodológico adotado na avaliação da abordagem de paráfrase T5 aplicada à geração de dados sintéticos de comandos em Interação Humano-Robô (HRI). Por meio da apresentação estruturada das tabelas de níveis de dificuldade e de seu alinhamento com a Taxonomia de Bloom, a página busca demonstrar como as tarefas propostas evoluem progressivamente em complexidade cognitiva, articulando desde a compreensão e aplicação até a análise e avaliação, de modo a assegurar a validade, a coerência e a robustez do processo de validação da abordagem T5 no contexto experimental.

Tabela 1 — Níveis de Dificuldade da Atividade

Nível	Descrição sintética	O que o aluno precisa demonstrar
Básico	Compreensão conceitual	Entender o que é paráfrase, intenção semântica e validação objetiva
Básico–Intermediário	Conhecimento de modelos NLP	Reconhecer o papel do T5 em tarefas de reformulação textual
Intermediário	Aplicação de métricas	Utilizar BLEU, ROUGE e classificadores de intenção
Intermediário–Avançado	Avaliação experimental	Comparar dados sintéticos e reais para validar preservação de intenção
Avançado	Integração metodológica	Combinar métricas, classificação e explicabilidade
Avançado	Pensamento crítico	Justificar objetivamente a utilidade do método
Muito Avançado / Pesquisa	Rigor científico	Articular métodos, limitações e referências acadêmicas

Nível de Bloom	Descrição do nível	Exigência na questão / resposta
Lembrar	Recordar conceitos e termos	Conhecer T5, paráfrase, intenção semântica e HRI
Compreender	Explicar ideias centrais	Explicar por que paráfrases preservam intenção
Aplicar	Usar métodos e ferramentas	Aplicar métricas e classificadores
Analisar	Relacionar e diferenciar	Comparar dados reais e sintéticos
Avaliar	Julgar com critérios	Justificar a validade dos dados sintéticos
Criar	Propor soluções	Propor framework de validação

ORIENTAÇÕES DE USO

1- O que é o template nesse contexto?

O template representa um plano de validação experimental da abordagem de paráfrase T5. Ele não executa código real, mas descreve como o experimento seria conduzido, permitindo:
- Padronizar testes;
- Reproduzir a metodologia;
- Simular resultados de forma controlada.
Pense nele como um protocolo experimental resumido.

2- Estrutura lógica do template

Um template bem-formado normalmente contém:
- Objetivo da validação;
- Fonte dos dados reais;
- Método de geração sintética (T5);
- Critérios de validação;
- Métricas utilizadas;
- Critério de aceitação.
No aplicativo, tudo isso é texto livre, mas estruturado para clareza.

3- Template SIMULADO (copie e cole)

👉 Copie exatamente o texto abaixo e cole na caixa “Template de validação”

OBJETIVO:
-Validar se paráfrases geradas pelo modelo T5 preservam a intenção semântica de comandos HRI e contribuem para um treinamento mais robusto.

DADOS REAIS:
-Conjunto de comandos humanos reais anotados por intenção (gold standard).

GERAÇÃO SINTÉTICA:
-Modelo T5 fine-tuned para tarefa de paráfrase, gerando 3 variações por comando.

VALIDAÇÃO DE INTENÇÃO:
- Classificador de intenção treinado exclusivamente com dados reais.
- Comparação da acurácia entre dados reais e dados sintéticos.

MÉTRICAS LINGUÍSTICAS:
- BLEU e ROUGE aplicados para medir diversidade lexical e sobreposição semântica.

CRITÉRIO DE ACEITAÇÃO:
- Diferença de acurácia ≤ 3% entre dados reais e sintéticos;
- BLEU e ROUGE moderados (0.4 – 0.7);
- Nenhuma evidência de viés artificial introduzido.

INTERPRETABILIDADE:
- Aplicação de LIME/SHAP para verificar foco em elementos semânticos relevantes.

4- O que acontece ao clicar nos botões?

EXPORTAR TEMPLATE (Salvar template)
- O texto acima é armazenado temporariamente no navegador; - Simula a persistência de um protocolo experimental;
- Ao mesmo tempo, é exportado um arquivo (download) com o nome "template_validacao_T5.json", ficando este armazenado na pasta Downloads do usuário.

IMPORTAR TEMPLATE (Carregar template)
- Abre uma caixa de diálogo onde se deve buscar o arquivo salvo (na pasta utilizada para armazenar o protolo salvo);
- Após selecionado o arquivo, clicado em "Abrir", recupera o protocolo salvo;
- Simula reutilização do experimento.

SIMULAR RESULTADOS
O resultado simulado será baseado no template importado, ou digitado ou até mesmo colado (copia/cola) dentro da caixa de texto, gerando os valores conforme exemplo a seguir.
* Gera valores ilustrativos como:
- BLEU ≈ 0.45 – 0.80
- ROUGE ≈ 0.45 – 0.80
- Preservação de intenção ≈ 90% – 99%

Representa um cenário de validação bem-sucedida.

Interpretação das Métricas (Escala 0–100)

Os valores de BLEU, ROUGE e preservação de intenção devem ser analisados de forma conjunta, pois cada métrica captura um aspecto distinto da qualidade dos dados sintéticos gerados por paráfrase.

Escalas utilizadas

BLEU e ROUGE: originalmente variam de 0 a 1, sendo aqui interpretados na escala 0–100.
Preservação de intenção: expressa diretamente em percentual (0–100%).

Interpretação de BLEU e ROUGE

BLEU e ROUGE medem a sobreposição lexical entre o texto original e a paráfrase. Em tarefas de reformulação textual, valores intermediários são desejáveis, pois indicam diversidade linguística sem perda semântica.

Tabela 3 — Tabela de interpretação BLEU - ROUGE

Faixa (0–100)	Interpretação
0 – 30	Texto semanticamente distante ou mal formado
30 – 45	Paráfrase fraca ou ruidosa
45 – 60	Paráfrase válida com diversidade linguística
60 – 80	Boa preservação semântica com variação controlada
80 – 100	Alta similaridade textual ou reformulação superficial

Interpretação da Preservação de Intenção

A preservação de intenção é avaliada por meio da acurácia de um classificador treinado exclusivamente com dados reais e aplicado aos comandos sintéticos.

Tabela 4 — Tabela Interpretação da Preservação de Intenção

Faixa (%)	Interpretação
< 70%	Intenção frequentemente perdida
70 – 85%	Preservação parcial da intenção
85 – 90%	Preservação aceitável
90 – 95%	Preservação forte da intenção
95 – 99%	Preservação quase total da intenção

Análise conjunta das métricas

A validade científica da abordagem de paráfrase é determinada pela combinação das métricas, e não por valores isolados.

Tabela 5 — Tabela de Análise conjunta das métricas

BLEU / ROUGE	Intenção	Interpretação
Alto	Alto	Reformulação superficial ou quase cópia
Baixo	Baixo	Paráfrase inadequada
Médio	Alto	Cenário ideal para dados sintéticos
Muito baixo	Alto	Excesso de variação ou ruído linguístico

Resultados na faixa de BLEU e ROUGE entre 45 e 80, combinados com preservação de intenção entre 90% e 99%, indicam que os comandos sintéticos preservam o significado original enquanto introduzem diversidade linguística relevante, tornando-os adequados para treinamento robusto de modelos HRI.

Tabela 6 - Final: Síntese Interpretativa dos Resultados

Métrica	Faixa Observada	Interpretação Científica	Conclusão Metodológica
BLEU	45 – 80	Similaridade lexical moderada, indicando diversidade linguística com preservação semântica.	As paráfrases não são cópias literais e contribuem para data augmentation.
ROUGE	45 – 80	Sobreposição semântica suficiente para manter o conteúdo informacional do comando original.	O conteúdo essencial dos comandos é preservado.
Preservação de intenção	90% – 99%	Alta taxa de reconhecimento correto da intenção por classificador treinado em dados reais.	Os comandos sintéticos são funcionalmente equivalentes aos comandos humanos.
Análise conjunta	BLEU/ROUGE médios + Intenção alta	Equilíbrio entre diversidade linguística e fidelidade semântica.	Validação objetiva da utilidade da abordagem de paráfrase T5.

A combinação de métricas linguísticas intermediárias com elevada preservação de intenção fornece evidências objetivas de que a abordagem de paráfrase T5 é adequada para a geração de dados sintéticos em cenários de interação humano–robô, apoiando o treinamento robusto de modelos.

Glossário

• BLEU (Bilingual Evaluation Understudy) : métrica automática que avalia a qualidade de textos gerados comparando n-gramas do texto produzido com referências humanas, sendo muito usada em tradução automática (Lundeberg & Lee, 2017).

• GERAÇÃO DE DADOS SINTÉTICOS : é a criação artificial de dados, por meio de modelos computacionais, que preservam propriedades estatísticas e semânticas dos dados reais, sendo usada para ampliar conjuntos de treino, reduzir vieses e contornar limitações de coleta (Frid-Adar et al., 2018; Shorten & Khoshgoftaar, 2019).

• HRI (Human-Robot Interaction) : é a área de pesquisa que estuda como humanos e robôs se comunicam, cooperam e interagem, incluindo linguagem natural, comandos, percepção e comportamento social (Goodrich & Schultz, 2007).

• LIME (Local Interpretable Model-agnostic Explanations) : método de interpretabilidade que explica previsões localmente, aproximando o comportamento do modelo complexo por um modelo simples (geralmente linear) ao redor de uma instância específica (Lundeberg & Lee, 2017).

• MODELOS DE NLP (Processamento de Linguagem Natural) : modelos computacionais que permitem aos sistemas compreenderem, gerar e manipular linguagem humana, realizando tarefas como classificação de texto, tradução, sumarização e paráfrase.

• PARÁFRASE T5 : refere-se ao uso do modelo T5 (Text-to-Text Transfer Transformer) para reescrever sentenças mantendo o significado semântico, sendo amplamente aplicado em tarefas de paráfrase, tradução e geração controlada de texto (Raffel et al., 2020).

• ROUGE (Recall-Oriented Understudy for Gisting Evaluation) : conjunto de métricas que mede a sobreposição de unidades linguísticas (n-gramas, subsequências) entre um texto gerado e textos de referência, comum na avaliação de sumarização e geração de texto.

• SHAP (SHapley Additive exPlanations) : método de interpretabilidade baseado na teoria dos valores de Shapley, que quantifica de forma consistente a contribuição de cada característica para a decisão final do modelo (Lundeberg & Lee, 2017).

• TAXONOMIA DE BLOMM: é um sistema hierárquico que classifica os objetivos de aprendizagem em níveis de complexidade cognitiva, ajudando educadores a planejar aulas e avaliações mais eficazes, abrangendo os domínios Cognitivo, Afetivo e Psicomotor, com o Cognitivo dividindo-se em seis níveis: Lembrar, Compreender, Aplicar, Analisar, Avaliar e Criar, do mais básico ao mais complexo, focando no desenvolvimento do pensamento crítico e habilidades de ordem superior (Anderson,1999; Marcheti & Belhot, 2010, p. 422-424).

REFERÊNCIAS

Anderson, L. W. Rethinking Bloom’s Taxonomy:implication for testing and assessment . [PDF]. Document Resume - Reports - Descriptive (141) MF01/PC01, Columbia:University of South, 1999, 27 p. Disponívelem: https://files.eric.ed.gov/fulltext/ED435630.pdf. Acesso em: 12 dez.2025.

Frid-Adar, M. et al. (2018) Synthetic data augmentation using GAN for improved liver lesion classification. [PDF], idioma inglês. In: IEEE 15th International Symposium on Biomedical Imaging (ISBI), 2018, p. 289–293 (14 p.). DOI: 10.1109/ISBI.2018.8363576. Disponivel em: https://d-nb.info/1371690278/34. Acesso em: 12 dez. 2025.

Goodrich, M. A., & Schultz, A. C. (2007). Human–Robot Interaction: A Survey. Idioma inglês. Foundations and Trends, in: Human–Computer Interaction. Vol. 1, No. 3. 203–275. DOI: 10.1561/1100000005. Disponível em: https://www.researchgate.net/publication/220613473_Human-Robot_Interaction_A_Survey. Acesso em: 18 dez 2025.

Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries . Idioma inglês. Barcelona, Espanha: Associação de Linguística Computacional, jul. 2004, p. 74–81. Disponível em: https://aclanthology.org/W04-1013/. Acesso em: 13 de dezembro de 2025.

Lundberg, SM, & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. NeurIPS. . [online] [PDF]. Idioma inglês. Conferência: NIPS, 10 p. Disponível em: https://www.researchgate.net/publication/317062430_A_Unified_Approach_to_Interpreting_Model_Predictions. Acesso em: 13 de dezembro de 2025.

Marcheti, A. P.; & Belhot, R. V. (2010). Taxonomia de Bloom: revisão teórica e apresentação das adequações do instrumento para definição de objetivos instrucionais .. [online] ,[PDF]. São Carlosç: Gestão & Produção v. 17, n. 2, 2010, p. 421-431 (11 p.). DOI: 10.1590/S0104-530X2010000200015. Disponível em: . Acesso em: 18 dez. 2025.

Papineni, K. et al. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation. [PDF] In: Meeting of the Association for Computational Linguistics, Proceedings of the 40th Annual , Filadélfia, Pensilvânia, EUA: ACL, pp. 311–318. Doi: 10.3115/1073083.1073135. Disponível em: https://aclanthology.org/P02-1040.pdf. Acesso em: 13 de dezembro de 2025.

Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer . Idioma inglês. Journal of Machine Learning Research. v4, 19 de setembro de 2023, [np]. Disponível em: https://arxiv.org/abs/1910.10683. Acessado em: 12 de dezembro de 2025.

Ribeiro, MT et al. (2016). “Por que eu deveria confiar em você?” Explicando as previsões de qualquer classificador . [PDF], idioma inglês. v3) rXiv:1602.04938v3 [cs.LG], KDD: Universidade Cornell, 9 de agosto de 2016, 10 p. Disponível em: https://arxiv.org/pdf/1602.04938. Acessado em: 12 de dezembro de 2025.

Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning . Idioma inglês. Journal of Big Data, 6, 48 p. DOI: 10.1186/s40537-019-0197-0. Disponível em: https://www.researchgate.net/publication/334279066_A_survey_on_Image_Data_Augmentation_for_Deep_Learning. Acesso em: 14 dez. 2025.

Validação Objetiva da Abordagem de Paráfrase T5

By: Iraê César Brandão - Luck Way Lab