RobMed LLM Notes

❯

Evaluation Methods

❯

02 paraphrase robustness

02-paraphrase-robustness

Sep 20, 20251 min read

Paraphrase Robustness and Metrics (MedPhr‑Rad)

← Evaluation Index | Benchmark →

Taxonomy of Paraphrase Variation

Synonymy and lexical choice
Negation and polarity flips
Hedging and uncertainty markers
Temporality (prior vs current; onset)
Quantifiers and numeric ranges
Units and measurement formats
Reading level and clinician style

Core Metrics

Paraphrase consistency rate: fraction of a paraphrase group matching modal answer
Flip rate: share of items where any paraphrase changes the decision
Robust accuracy: accuracy aggregated over paraphrase sets
ECE (Expected Calibration Error): base calibration quality
Selective risk at coverage c%: risk under an abstention policy at target coverage

Risk Score and Triage Signal

Dispersion across paraphrases (vote entropy/variance)
Combine with confidence for selective automation
Use conformal risk control for guaranteed error rates on auto‑accept cases

Dataset Scope

Radiology VQA (VQA‑RAD, PMC‑VQA, SLAKE)
Extensions with standardized paraphrase sets per item
Clinician spot checks + NLI + concept‑equivalence filters

Implementation Notes

Group paraphrases per item; report per‑group metrics
Paired tests across paraphrase groups; bootstrap CIs
Fairness slices across subgroups and sentinel findings

See also: Selective Conformal Triage, MedGemma, LLaVA‑Rad

Graph View

Paraphrase Robustness and Metrics (MedPhr‑Rad)
Taxonomy of Paraphrase Variation
Core Metrics
Risk Score and Triage Signal
Dataset Scope
Implementation Notes

Backlinks

01-medphr-rad
06-gemma3-vlm-interpretation
07-lvlm-interpretation-tools
Evaluation Methods
phrasing-robustness-framework
robustness-gauntlet
Index
02-selective-conformal-triage

Created with Quartz v4.5.1 © 2025

SAIL Lab
GitHub