Introduzione

La metanalisi è una tecnica di analisi statistica che ha come scopo combinare, in modo quantitativo, i risultati di multipli studi scientifici che valutano il medesimo outcome. La combinazione di tali risultati porta a una stima aggregata riassuntiva, che viene ottenuta dai dati degli studi primari mediante l’applicazione di modelli statistici specifici [1]. I modelli che possono essere utilizzati per ricavare questa stima aggregata sono diversi; ciò che differisce tra di loro è principalmente il modo con cui viene assegnato il peso relativo di ciascuno studio, scelta che può influenzare sia la media ponderata finale, sia il suo grado di incertezza.

Il principale vantaggio, nonché obiettivo, di una metanalisi è la possibilità di ottenere una stima più precisa dell’outcome di nostro interesse, caratterizzata da un intervallo di confidenza più ristretto. Come diretta conseguenza, questo consente alla metanalisi di beneficiare di una maggiore potenza statistica rispetto agli studi primari, ovvero di una maggiore probabilità di rifiutare l’ipotesi nulla quando essa è falsa. Ciò può essere di aiuto, in particolare, in quelle situazioni in cui gli studi primari non forniscono risultati concordi, dato che la maggiore robustezza della stima metanalitica conferisce maggiori possibilità di risolvere l’incertezza sul risultato finale [1].

La revisione sistematica della letteratura

Prima di poter procedere a una stima aggregata e quantitativa di un dato, risulta necessario effettuare una revisione sistematica della letteratura per individuare tutti i possibili studi che riportano informazioni rilevanti ai fini del quesito di ricerca di interesse. A tale scopo, bisogna innanzitutto andare a definire in maniera specifica il quesito di ricerca cui si vuole rispondere, che viene spesso strutturato secondo l’acronimo PICO, ovvero “Population or Problem”, “Intervention or Exposure”, “Comparison” e “Outcome”. Questo passaggio deve essere accompagnato dalla definizione dettagliata dei criteri di inclusione e di esclusione che si vorranno applicare agli studi, al fine di poterne determinare in maniera specifica l’eleggibilità [2].

Una volta definito il quesito di interesse, esso deve essere tradotto in specifiche stringhe di ricerca, costruite con la concatenazione di parole chiave rilevanti mediante operatori booleani. Tali stringhe devono essere implementate in specifici database bibliografici, quali Pubmed/MEDLINE, Embase, Ovid e Web of Science. Gli articoli così identificati devono dunque essere valutati secondo i criteri di inclusione e di esclusione precedentemente stabiliti; alcuni di essi potranno essere precocemente esclusi mediante la sola valutazione di titolo e abstract; per altri, invece, sarà necessaria la valutazione del full-text al fine di determinarne l’eleggibilità [2]. Una volta determinata l’eleggibilità di ciascuno documento e individuati, dunque, gli studi da includere nella metanalisi, sarà infine necessario estrarre da ciascuno tutti i dati rilevanti ai fini della metanalisi stessa; tipicamente questo processo viene condotto mediante griglie di estrazione dei dati prestabilite, al fine di rendere l’estrazione stessa più precisa e oggettiva possibile [2].

I possibili modelli metanalitici

Dopo aver concluso la revisione sistematica della letteratura, con l’identificazione di tutti gli studi pertinenti e l’estrazione dei dati, risulta possibile procedere all’aggregazione quantitativa dei dati stessi. Come già detto in precedenza, i modelli che possono essere utilizzati per ricavare la stima aggregata dei dati sono diversi. Fondamentalmente, tuttavia, essi possono essere ricondotti a due principali tipologie, rappresentate dal modello a effetto fisso (fixed-effect model) e dal modello a effetti casuali (random-effects model) [1].

Nel modello a effetto fisso, si assume che l’unica fonte di variabilità tra i risultati ottenuti dagli studi primari sia il differente campionamento che li caratterizza (Fig. 1a) [1]. In altre parole, si suppone che la dimensione dell’effetto che viene stimato sia unica e comune a tutti gli studi, e che le differenze osservate siano esclusivamente dovute a una variabilità imputabile al caso. Per questo motivo, sebbene il termine tipicamente utilizzato in letteratura sia “modello a effetto fisso”, potrebbe essere semanticamente più corretto utilizzare il termine “modello a effetto comune”, dato che si assume, appunto, che gli studi considerati forniscano ciascuno una stima del medesimo parametro comune [1].

Fig. 1
figure 1

Rappresentazione concettuale dell’assunto alla base del modello a effetto fisso (\(\mathbf{a}\)) e del modello a effetti casuali (\(\mathbf{b}\)). Nel primo caso, si suppone che il valore reale del parametro stimato (\(\theta \)) sia lo stesso per tutti gli studi. Nel secondo caso, si suppone che il valore reale del parametro stimato possa essere realmente differente da studio a studio (\(\theta _{1}\), \(\theta _{2}\), …, \(\theta _{\mathrm{n}}\)), e che il dato numerico aggregato fornito dalla metanalisi non rappresenti dunque la stima di un unico effetto comune, bensì la stima della media (\(\theta \)) di una distribuzione di effetti differenti

Nel modello a effetti casuali, invece, si assume che la variabilità tra i risultati ottenuti dagli studi primari sia dovuta non solo a un effetto di tipo casuale legato al campionamento, ma anche a delle differenze reali tra gli studi stessi, legate ad esempio a differenti caratteristiche di base della popolazione, a diversi criteri di inclusione e di esclusione, a differenze nell’intervento effettuato, e così via (Fig. 1b) [1]. In altre parole, si suppone che la dimensione dell’effetto che viene stimato possa essere realmente differente da studio a studio, al di là della sola variabilità imputabile al caso, e che il dato numerico aggregato fornito dalla metanalisi non rappresenti dunque la stima di un unico effetto comune, bensì la stima della media di una distribuzione di effetti differenti [1].

Da un punto di vista matematico, la scelta dell’uno o dell’altro modello si traduce in una differente distribuzione dei pesi da assegnare a ciascuno studio. Nel modello a effetto fisso, l’assegnazione dei pesi risulta fortemente sbilanciata verso gli studi più grandi; infatti, dato che si suppone che l’effetto stimato sia lo stesso in tutti gli studi, l’informazione derivante dagli studi di piccole dimensioni risulta di ridotta rilevanza rispetto a quella contenuta negli studi di più grandi dimensioni (Fig. 2a). Nel modello a effetti casuali, invece, si ha un maggior bilanciamento nei pesi assegnati ai differenti studi; infatti, poiché ogni studio fornisce la stima – da considerarsi unica – di un differente effetto, è necessario assicurarsi che ciascuno di essi sia adeguatamente rappresentato nella misura finale di sintesi (Fig. 2b) [1].

Fig. 2
figure 2

Metanalisi condotta su un medesimo gruppo di studi, prima mediante un modello a effetto fisso (\(\mathbf{a}\)), poi mediante un modello a effetti casuali (\(\mathbf{b}\)). \(IC\), intervallo di confidenza

Oltre a queste differenze nel calcolo della media aggregata, i due modelli differiscono, inoltre, anche nel calcolo dell’intervallo di confidenza della media stessa. Nel modello a effetto fisso, operando nell’ipotesi di stimare un medesimo parametro comune, le formule per il calcolo dell’intervallo di confidenza restituiscono un valore numericamente inferiore (Fig. 2a). Nel modello a effetti casuali, invece, operando nell’ipotesi di stimare la media di una distribuzione di effetti differenti, tali formule restituiscono un valore numericamente maggiore (Fig. 2b). In altre parole, pertanto, il risultato finale della metanalisi risulterà caratterizzato da un intervallo di confidenza più stretto nel caso in cui si faccia uso di un modello a effetto fisso, mentre risulterà caratterizzato da un intervallo di confidenza più ampio nel caso in cui si faccia uso di un modello a effetti casuali [1].

Da un punto di vista pratico, tuttavia, quale modello risulta preferibile scegliere? Se si utilizza un modello a effetto fisso, si assume di fatto che tutti i fattori che potrebbero avere un’influenza sull’outcome di interesse siano identici in tutti gli studi. Questo, tuttavia, potrebbe ipoteticamente essere vero solamente in contesti estremamente selezionati. Ad esempio, potremmo supporre che un centro di ricerca voglia condurre su 500 pazienti un trial farmacologico, randomizzato e controllato con placebo, ma che per motivi gestionali questi 500 pazienti vengano divisi casualmente, in parti uguali, tra 5 équipe tra loro equivalenti; se si considera il trial condotto da ciascuna équipe come uno studio indipendente, ciascuno di essi è atteso condividere con gli altri il medesimo effetto comune. Pertanto, in questo contesto, il modello a effetto fisso risulta plausibilmente adeguato per il calcolo della stima aggregata; appare evidente, tuttavia, come le assunzioni su cui si basa il modello a effetto fisso risultino raramente rispettate nella realtà concreta.

Pur nell’ambito di uno specifico quesito di ricerca, infatti, risulta poco plausibile che tutti gli studi condotti a riguardo siano perfettamente sovrapponibili tra loro per popolazione e disegno. Ad esempio, possono sussistere differenze, anche rilevanti, nell’età media della popolazione arruolata, nella distribuzione tra i sessi, nel contesto geografico e temporale, nei criteri di inclusione ed esclusione specificamente adottati, e così via. Risulta pertanto poco probabile, e comunque non giustificabile a priori, che l’outcome non sia influenzato da queste differenze e che, quindi, si traduca in un medesimo effetto comune per tutti gli studi [1]. Pertanto, il modello metanalitico tipicamente più corretto da utilizzare risulta essere, in ambito medico, il modello a effetti casuali. Questa scelta porta con sé varie implicazioni, quali una distribuzione più bilanciata dei pesi (con una minor preponderanza dei grandi studi) e un più ampio intervallo di confidenza della stima aggregata, con una contestuale riduzione della potenza statistica; d’altra parte, tuttavia, quest’ultimo è un prezzo che si deve pagare se si vuole tener conto delle possibili differenze reali nella dimensione dell’effetto stimata da ciascun singolo studio [1].

La valutazione dell’eterogeneità

Quando si conduce una metanalisi, la variazione che si osserva tra studio e studio nella dimensione dell’effetto è spuria, poiché incorpora sia la vera eterogeneità tra studi che l’errore casuale. Pertanto, al di là di ottenere una stima aggregata dell’outcome di interesse, una metanalisi non può prescindere da una valutazione statistica formale delle differenze tra i diversi studi, suddividendo la variazione osservata in queste due componenti. Risulta, infatti, molto importante andare a determinare quale parte della variazione osservata sia reale (cioè dovuta a vera eterogeneità tra studi) e quale invece non lo è (cioè semplicemente dovuta al caso) [1]. L’importanza di stimare l’eterogeneità riflette, infatti, la necessità di capire se la misura dell’effetto che si va a stimare è o meno coerente in tutto il corpo dei dati disponibili. Come vedremo in seguito, infatti, le implicazioni cliniche che si possono trarre da un medesimo dato aggregato possono essere anche significativamente diverse a seconda dell’entità dell’eterogeneità osservata.

Esistono vari indici in grado di descrivere e/o quantificare l’eterogeneità presente tra gli studi di una metanalisi. Tra di essi, quello di più intuitiva comprensione è l’indice I2, che stima quale percentuale della variabilità totale osservata può essere attribuita alla vera eterogeneità tra gli studi, piuttosto che all’errore casuale [3]. All’atto pratico, quindi, quando l’indice I2 è uguale allo 0%, non sussiste evidenza di una reale eterogeneità tra di effetto tra gli studi. Al contrario, se l’indice I2 assume un valore maggiore di 0%, tale valore indica in che percentuale le differenze osservate tra gli studi risultino ascrivibili a una reale eterogeneità tra di essi [3]. Il valore numerico dell’indice I2, tuttavia, deve sempre essere corredato dal risultato (espresso come p-value) di un test di ipotesi, avente come ipotesi nulla (H0) il fatto che non sussista eterogeneità tra studi (e cioè che il valore di I2 sia pari a 0%). Pertanto, un valore non nullo di I2 può risultare o meno statisticamente significativo, e sulla base di ciò si potrà definire l’eterogeneità osservata come statisticamente significativa oppure no [3].

L’importanza della valutazione dell’eterogeneità tra gli studi non è secondaria. Da essa, infatti, può dipendere fortemente l’interpretazione del dato aggregato, nonché la tipologia di analisi successive che possono essere condotte. Ad esempio, le implicazioni cliniche sono diverse a seconda che un farmaco per una data patologia riduca la mortalità del 30% circa, in maniera riproducibile, in tutti i setting analizzati (Fig. 3a; \(\mbox{I}^{2}= 0,00\)%, \(p=0,77\)), oppure che il medesimo farmaco riduca la mortalità in media del 30% ma come risultato, tuttavia, di una riduzione che va dallo 0% in alcuni studi e al 60% in altri (Fig. 3B; \(\mbox{I}^{2}=60,51\)%, \(p=0,01\)). Nel primo caso, infatti, possiamo concludere sull’efficacia generale del farmaco stesso, con dimensione dell’effetto pari al 30%. Nel secondo caso, invece, la quantificazione numerica della dimensione dell’effetto, di per sé stessa, risulta di minor rilievo, mentre risulterà mandatorio cercare di individuare i fattori che sono alla base dell’eterogeneità osservata.

Fig. 3
figure 3

Esempio di due metanalisi condotte su due differenti gruppi di studi, caratterizzate entrambe dalla medesima stima aggregata, in un caso senza significativa eterogeneità (\(\mathbf{a}\)), nell’altro con significativa eterogeneità (\(\mathbf{b}\)). \(IC\), intervallo di confidenza

I principali strumenti per effettuare questo tipo di analisi sono l’analisi per sottogruppi (subgroup analysis) e la meta-regressione (meta-regression) [4, 5].

Il primo strumento viene utilizzato per valutare se l’eterogeneità osservata sia riconducibile a classificatori categorici per i quali gli studi analizzati si distinguono [4, 5]; nel setting prima descritto, ad esempio, posso voler valutare la differenza della dimensione dell’effetto tra gli studi condotti su pazienti senza pregresso evento cardiovascolare e quelli condotti su pazienti con pregresso evento cardiovascolare (immaginando, per semplicità, che non ci siano studi che li arruolino entrambi). Graficamente, il risultato è rappresentato da un forest plot, suddiviso questa volta per sottogruppi. Nell’esempio proposto (Fig. 4), osservo che nei pazienti senza pregresso evento cardiovascolare la riduzione della mortalità risulta in media pari al 12%, mentre in quelli con pregresso evento cardiovascolare risulta pari al 53%, con differenza statisticamente significativa tra i due sottogruppi (\(p<0,01\)); potrò dunque concludere che l’entità del beneficio del farmaco in esame sulla mortalità è differente a seconda della popolazione di pazienti studiata utilizzato, con un beneficio significativamente maggiore nei pazienti con pregresso evento cardiovascolare.

Fig. 4
figure 4

Valutazione dei determinanti dell’eterogeneità mediante analisi per sottogruppi. \(IC\), intervallo di confidenza

Il secondo strumento, invece, viene utilizzato per valutare se l’eterogeneità osservata sia potenzialmente riconducibile a parametri numerici continui [4, 5]; ad esempio, posso voler valutare l’eventuale correlazione della dimensione dell’effetto in funzione dell’età media dei pazienti arruolati in ciascuno studio. Graficamente, il risultato è rappresentato dal cosiddetto bubble plot, in cui ciascuno studio viene rappresentato da un cerchio di misura proporzionale al suo peso, e su cui si va a visualizzare la retta di regressione tra il predittore di interesse e l’outcome. Nell’esempio proposto (Fig. 5), osservo che l’età media dei pazienti arruolati in ciascuno studio è significativamente correlata alla riduzione osservata della mortalità (\(p<0,01\)), con un beneficio che aumenta al crescere dell’età media dei pazienti arruolati.

Fig. 5
figure 5

Valutazione dei determinanti dell’eterogeneità mediante meta-regressione. \(IC\), intervallo di confidenza

La valutazione del publication bias

I modelli statistici utilizzati per condurre una metanalisi sono in grado di fornire una stima aggregata e quantitativa dei dati presenti in letteratura. Tuttavia, questa stima può risultare distorta nel caso in cui sia presente una significativa distorsione negli studi che risultano pubblicati su un dato argomento [1]. È stato dimostrato che gli studi che riportano risultati statisticamente significativi trovano più probabilmente una collocazione pubblicativa rispetto a quelli che riportano risultati non statisticamente significativi [6]. Per la struttura dei test di ipotesi, ciò risulta tanto più probabile quanto più la dimensione dell’effetto è elevata. Ne consegue, dunque, che tra tutti gli studi condotti su un dato outcome, quelli in cui si ottengono stime numericamente maggiori (e che quindi più facilmente sono risultati statisticamente significativi) hanno una maggiore probabilità di giungere a pubblicazione. Come conseguenza, ciò può far sì che gli studi inclusi in una metanalisi sovrastimino il vero valore dell’outcome di interesse. Risulta, dunque, importante andare a valutare se vi sia effettiva evidenza, sulla base dei dati disponibili, della presenza di un publication bias.

Per effettuare questo tipo di valutazione, ci si basa sul differente impatto che il publication bias esercita in funzione della dimensione degli studi [1]. Infatti, più è grande la dimensione del campione, più è probabile che lo studio venga comunque pubblicato a prescindere dalla stima ottenuta e dalla sua significatività statistica, per via della qualità dell’evidenza che un’elevata dimensione campionaria di per sé conferisce. Viceversa, gli studi di più piccole dimensioni sono quelli maggiormente a rischio di publication bias; infatti, solamente quelli che ottengono stime dell’outcome numericamente maggiori risulteranno statisticamente significativi e potranno giungere a pubblicazione, mentre quelli che ottengono stime minori più probabilmente non giungeranno alla significatività statistica e, pertanto, sono a più alto rischio di non giungere a pubblicazione.

Uno strumento che può essere utilizzato per valutare l’eventuale presenza di un publication bias è il funnel plot (letteralmente, “grafico a imbuto”) [7]. In questo grafico, sull’asse X viene riportata la dimensione dell’effetto, mentre sull’asse Y una misura della precisione degli studi (tipicamente rappresentata dall’errore standard). Gli studi più grandi saranno caratterizzati da una stima più precisa e si collocheranno nella parte alta del grafico, tipicamente in prossimità dell’effetto medio stimato. Gli studi più piccoli, invece, si collocheranno nella parte bassa del grafico e, essendo caratterizzati da una maggiore variabilità di campionamento, si distribuiranno su un più ampio range di valori attorno all’effetto medio. In assenza di publication bias, gli studi risulteranno distribuiti in maniera simmetrica attorno all’effetto medio (Fig. 6a). In presenza di publication bias, invece, il funnel plot risulterà asimmetrico, tipicamente nella parte bassa del grafico, per effetto della mancanza di studi di piccole dimensioni in cui la dimensione dell’effetto è risultata numericamente ridotta e non statisticamente significativa (Fig. 6b).

Fig. 6
figure 6

Esempi di funnel plot, in assenza di publication bias (\(\mathbf{a}\)) e in presenza di publication bias (\(\mathbf{b}\)). \(IC\), intervallo di confidenza

L’interpretazione grafica del funnel plot, tuttavia, sebbene intuitiva, risulta di fatto soggettiva e non chiaramente standardizzabile. Pertanto, nel corso del tempo sono stati sviluppati e proposti dei test di ipotesi per quantificare e valutare oggettivamente la significatività statistica di un eventuale publication bias. Tra questi, i due test più comunemente utilizzati sono il test di Begg [8] e il test di Egger [9]; tali test restituiscono un p-value che esprime la probabilità che le asimmetrie osservabili nel funnel plot siano dovute al caso; pertanto, se significativi, risultano indicativi di un’asimmetria non casuale imputabile, dunque, a un publication bias.

Conclusioni

La metanalisi rappresenta un potente strumento capace di riassumere, in maniera quantitativa, i risultati di molteplici studi che valutano il medesimo outcome. I modelli metodologici e statistici disponibili, tuttavia, sono molteplici, e devono essere correttamente scelti e interpretati secondo quanto più appropriato in ciascun contesto. Una lettura consapevole di uno studio metanalitico non può dunque prescindere dalla loro conoscenza, al fine di poterne valutare l’appropriatezza e le possibili implicazioni.