«VQR e governo della ricerca»

La relazione di Andrea Bonaccorsi e le slide della Giornata di studio sulla valutazione della ricerca

Anvur Venerdì 28 febbraio, i rettori dei tre atenei generalisti della Toscana e il nuovo assessore regionale all'Università e alla Ricerca, Emmanuele Bobbio, si sono riuniti a Pisa nell'ambito della Giornata di studio sulla valutazione della ricerca, organizzata dall'Università di Pisa in collaborazione con quelle di Firenze e Siena. Oltre ai rettori Massimo Augello, Angelo Riccaboni e Alberto Tesi, all'incontro hanno partecipato il presidente dell'Agenzia nazionale di valutazione del sistema universitario e della ricerca, Stefano Fantoni, e il membro del Consiglio direttivo dell'ANVUR e docente dell'Ateneo pisano, Andrea Bonaccorsi, che ha tenuto un intervento dal titolo "VQR e governo della ricerca".

Pubblichiamo qui di seguito la relazione integrale del professor Andrea Bonaccorsi e le slide degli altri interventi della giornata:

"Evoluzione del sistema di valutazione della ricerca: dal CIVR all'ANVUR", di Roberto Barale, prorettore alla Ricerca dell'Università di Pisa

"Prospettive di sviluppo della valutazione della ricerca", di Vincenzo Sorrentino, prorettore alla Ricerca dell'Università di Siena

"L'esercizio VQR e la valutazione interna", di Giacomo Poggi, prorettore vicario dell'Università degli Studi di Firenze

*****************

VQR E GOVERNO DELLA RICERCA

bonaccorsi1 Ringrazio per l'invito che mi è stato rivolto, che mi consente non solo di confrontarmi con i colleghi sui cambiamenti in corso nel sistema universitario, ma anche di tornare nella mia Università, nella quale potrò rientrare solo tra un anno, alla fine della esperienza ANVUR.

Ho scelto come titolo dell'intervento VQR e governo della ricerca perché cercherò di illustrare come si stia delineando un sistema che lega la valutazione della ricerca alle scelte degli atenei, in particolare nella allocazione delle risorse e nel reclutamento, in modo integrato.

1. Affidabilità e robustezza della VQR

Iniziamo con il chiederci se la valutazione della ricerca appena conclusa costituisce una buona base per le decisioni degli atenei. Ciò equivale a chiedersi se la VQR è affidabile e robusta.

Circa la affidabilità (reliability) ritengo che la discussione di questi mesi abbia fornito una risposta ampiamente positiva. I criteri di valutazione sono stati formulati da 450 esperti, tenendo conto dettagliatamente delle differenze disciplinari. Nella proposta dei criteri gli esperti dei GEV hanno rappresentato le migliori esperienze valutative internazionali nei rispettivi settori. Nei settori bibliometrici vi è ampio consenso sulla scelta di una combinazione variabile tra indicatori citazionali e indicatori di impatto delle riviste. Nei settori non bibliometrici la situazione è più articolata. I dati mostrano che la peer review fornisce punteggi sistematicamente inferiori rispetto alla bibliometria: in particolare sembra che i decisori umani siano più prudenti degli algoritmi nell'assegnare il punteggio massimo corrispondente ad un giudizio di eccellenza.

Nella prossima edizione della VQR terremo in conto alcuni suggerimenti per migliorare la peer review. Primo, sarà possibile pubblicare la lista integrale dei referee, chiedendo in anticipo la liberatoria ai fini della riservatezza dei dati personali, in modo da responsabilizzare i valutatori. Secondo, la valutazione qualitativa potrebbe essere resa obbligatoria e in ogni caso verrà comunicata all'autore. Terzo, occorrerà lavorare più intensamente per la calibrazione dei giudizi qualitativi dei pari, in modo da ottenere maggiore comparabilità. Altri miglioramenti possono emergere dal dibattito in corso.

Una critica che è stata avanzata riguarda il ruolo del criterio della internazionalizzazione presente nella valutazione dei prodotti: si è sostenuto che le aree umanistiche e sociali, nelle quali si pubblicano più frequentemente monografie e lavori in lingua italiana, avrebbero ricevuto punteggi inferiori a causa della presenza di questa dimensione della valutazione. Non credo che questa critica abbia fondamento. Il criterio della internazionalizzazione è ormai diventato normativo nel quadro legislativo che regola la valutazione e in generale la qualità del sistema universitario e non poteva essere trascurato. È possibile che questo criterio abbia penalizzato le aree umanistiche e sociali in particolare? Se questo fosse vero allora tutte le aree avrebbero avuto un effetto di abbassamento dei punteggi. Ma ciò non è avvenuto: in molte aree che pubblicano prevalentemente in italiano, come in storia o nelle discipline letterarie, non vi è traccia di questo effetto. Inoltre se i valutatori fossero stati convinti che la internazionalizzazione è un criterio divergente rispetto alla qualità, allora vi sarebbe bassa correlazione tra i punteggi assegnati a questo criterio e i punteggi assegnati ai criteri di originalità e rilevanza. Invece ciò non accade: prendendo ad esempio le aree 13 e 14 la correlazione a due a due, calcolata sui giudizi individuali dei revisori assegnati allo stesso prodotto, oscilla tra .80 e .90. Ciò significa che nel valutare la internazionalizzazione i revisori non hanno meccanicamente penalizzato i prodotti non in inglese, ma al contrario si sono chiesti se i prodotti in italiano potessero competere con i migliori prodotti nelle principali lingue veicolari nelle quali si esprime la ricerca scientifica nel rispettivo ambito.

In ogni caso la differenza tra peer review e bibliometria conferma quanto abbiamo fin dall'inizio sostenuto, e cioè che i punteggi non possono essere rigorosamente confrontati tra discipline diverse, perché può cambiare il mix valutativo, ed in particolare la proporzione tra peer review e bibliometria. Tuttavia i punteggi sono una guida altamente affidabile per effettuare confronti interni alle discipline, e verificare il posizionamento relativo dei dipartimenti.

Quanto alla robustezza (robustness) della VQR, occorre distinguere tra confronti interni alle discipline e aggregazioni di ateneo. Ritengo che sul fronte dei confronti interni i dati siano ampiamente robusti. Ciò significa che è possibile usarli per confrontare tra loro aree scientifiche simili tra atenei diversi, o anche dipartimenti, utilizzando le disaggregazioni più fini a livello di SSD. Allo scopo di neutralizzare le differenze nel mix di discipline interno ai dipartimenti, è possibile studiare normalizzazioni diverse, come quella proposta dal prof. Poggi basata sulla nozione di dipartimento virtuale. Si tratta di una proposta molto interessante, che abbiamo fin da subito accolto come strumento di lavoro utile per gli atenei.

Altra questione è quella del ranking delle università. L'ANVUR non poteva non produrre un ranking, perché la legge prevedeva che i risultati sarebbero stati utilizzati a fini di allocazione della quota premiale. Naturalmente ogni aggregazione si basa su ipotesi specifiche, che non sono neutrali e che possono anche essere controverse. Ad esempio aggregare secondo il criterio del numero dei ricercatori implica la assunzione che il costo della ricerca sia uniformemente distribuito tra le discipline; aggregare secondo il criterio del costo della ricerca ha l'inconveniente di basarsi su costi storici che possono incorporare inefficienze; aggregare secondo standard internazionali significa assumere la comparabilità nelle strutture di costo, etc. L'ANVUR ne ha proposte diverse, allo scopo di minimizzare le distorsioni e offrire al Ministro la possibilità di scelta. Deve essere chiaro che ogni aggregazione porta con sé inevitabilmente la formulazione di giudizi non neutrali.

In riferimento al ranking vi sono inoltre due osservazioni metodologiche. La prima è che i ranking attirano l'attenzione dei media molto di più del contenuto della valutazione, perché riassumono in pochi numeri una grande quantità di informazioni complesse e multidimensionali. La seconda è che i ranking si basano per definizione su indicatori deterministici. Su questi aspetti è utile riferire dei risultati di alcune attività di ricerca che sto svolgendo sulla esperienza della VQR e che verranno sottoposti a rivista internazionale nelle prossime settimane. Sul primo fronte abbiamo esaminato la copertura dei media italiani per due mesi, dopo la pubblicazione dei risultati della VQR nel luglio 2013. Emerge una interessante concentrazione dei titoli sui ranking tra università, mentre scarsa attenzione viene assegnata ai contenuti della valutazione e al confronto tra discipline. Un caso interessante è il picco mediatico raggiunto dopo le dichiarazioni del Governatore Chiodi che chiedeva di utilizzare i dati VQR per chiudere alcune università del Sud, come Messina, seguite da un diluvio di dichiarazioni e polemiche. Si trattava di una discussione costruita sul nulla, ma che ha ricevuto alta copertura per il semplice fatto di utilizzare lo schema del ranking, della classifica tra chi sta in cima e chi in fondo.

In riferimento alla natura deterministica dei dati, se l'obiettivo è costruire un indicatore sulla base del quale assegnare risorse finanziarie, allora i dati elementari devono essere assunti con un solo valore, e non con una distribuzione. Quindi ad esempio ad ogni dipartimento viene assegnato un punteggio solo, che rappresenta la media dei punteggi ricevuti dai prodotti. In realtà le valutazioni sono assimilabili a valori estratti da distribuzioni di probabilità. Noi abbiamo, a fini di ricerca, ricalcolato gli indicatori VQR studiando la distribuzione dei punteggi all'interno dei dipartimenti e costruendo dei cluster di dipartimenti con un criterio statistico: all'interno del cluster i dipartimenti sono statisticamente indistinguibili, mentre sono diversi da quelli degli altri cluster. Ebbene, quello che si trova è che in tutte le aree, ad eccezione delle aree più piccole, si trovano 5-6 cluster ben distinti tra loro. Ciò significa che esiste variabilità interna ai dipartimenti, ma anche una significativa e robusta variabilità tra dipartimenti. Quindi è possibile classificare i dipartimenti interni ad ogni ateneo in base alla loro posizione nazionale e impostare su questo posizionamento robusto delle strategie. Utilizzare i dati della VQR ai fini del governo della ricerca interno all'ateneo è quindi possibile in modo robusto e affidabile.

2. Valutazione della ricerca e governo della ricerca di ateneo

È utile chiedersi come la valutazione della ricerca impatta sulla vita degli atenei.

Il primo snodo è certamente il passaggio dal livello centrale agli atenei. Il quadro normativo prevede che la valutazione abbia un impatto sui finanziamenti, come del resto era stato richiesto da più parti dopo il primo esperimento del CIVR. Questo snodo funziona ormai molto bene: gli atenei traducono gli esiti della valutazione in un impatto finanziario quasi immediato. Occorre qui richiamare l'orientamento recente del legislatore, in particolare la norma inclusa nel c.d. Decreto del fare del 2013. Il legislatore ha non solo confermato l'orientamento ad assegnare una quota del Fondo di Finanziamento Ordinario (FFO) su base premiale, ma anche a far aumentare la percentuale di premialità progressivamente nel corso degli anni e ad utilizzare la VQR come base di calcolo. Sulla base di questo orientamento il MIUR ha ripartito la quota 2013, nella parte dipendente dalla ricerca, per il 90% sulla base della VQR e per il restante 10% sulla base dei risultati del reclutamento 2004-2010, anch'essi derivati dalla VQR. Quindi il primo passaggio, dal centro agli atenei, sembra aver raggiunto un certo grado di stabilità normativa e di efficacia.

Il secondo snodo è quello che va dagli atenei ai dipartimenti. Qui la situazione è più variabile e conta moltissimo la capacità di iniziativa interna dei singoli atenei.

Dal nostro punto di osservazione vediamo che molte università, soprattutto nel Centro Nord, ed in particolare tra quelle che hanno l'ambizione di consolidare o migliorare le proprie performance di ricerca, stanno utilizzando gli indicatori della VQR per allocare internamente varie risorse, dai posti di ricercatore a tempo determinato agli assegni di ricerca ai fondi di ricerca di ateneo. Ciò accade anche in alcune università meridionali, talora anche penalizzate dalla VQR, che intendono lavorare sui propri punti di forza per recuperare. Si tratta di un dinamismo per certi versi inedito, che si colloca nella linea della autonomia.

Occorre qui richiamare il fatto che in questi esercizi non possono essere usati i punteggi grezzi delle singole aree, che non sono tra loro confrontabili, ma piuttosto il piazzamento delle aree di ateneo nel quadro nazionale per singola disciplina.

Più in generale è importante che la VQR sia percepita come uno strumento per impostare il governo della ricerca, cioè innanzitutto una strategia a lungo termine. L'ateneo dovrebbe chiedersi in quali aree è più forte e in quali è debole. Dovrebbe farlo in sede pubblica, per attivare la riflessione e l'iniziativa dei colleghi. Si è detto in alcune sedi che la valutazione è punitiva: si tratta di un giudizio superficiale. Non è affatto detto che un ateneo debba "punire" le proprie aree più deboli: potrebbe invece decidere di investire di più per migliorarne le performance. Il punto cruciale è che la valutazione crea un forte incentivo per il governo degli atenei a stimolare internamente il miglioramento.

Vorrei qui richiamare con forza alla necessità che la VQR venga dibattuta, area per area, alla ricerca comune delle strategie per il miglioramento. Non servono sotterfugi o furbizie. Mi è stata mostrata la mail di un direttore di dipartimento che ha avuto un basso piazzamento alla VQR e che suggerisce che i docenti che sono risultati inattivi vengano inseriti come co-autori dagli altri autori. Si va poco lontano con questi strumenti. Se anche alla prossima VQR tutti i dipartimenti avessero adottato queste furbizie, resterebbero ampie differenze nella qualità della ricerca, e si sarebbe persa una occasione importante per migliorare.

3. Governo della ricerca e reclutamento dei docenti

Il cambiamento del modello di governo degli atenei si riflette anche sul tema, delicato, del reclutamento. Vorrei insistere sul cambiamento che si è verificato con il nuovo quadro legislativo. Con una formula sintetica direi che si sta passando da un modello collegiale ad un modello misto o quasi-presidenziale. Nel modello collegiale (collegiate), tipico di tutti i paesi dell'Europa continentale, le decisioni di reclutamento sono prese dalle comunità scientifiche e vengono ratificate dagli atenei, che non hanno un vero potere negoziale. In altri termini, sono le comunità scientifiche, per il tramite delle commissioni di concorso, che stabiliscono le promozioni, e gli atenei non hanno gli strumenti e/o gli incentivi per entrare nel merito. Nei paesi anglosassoni (USA, Regno Unito, Canada, Australia) e nei paesi che hanno adottato la valutazione della ricerca come strumento di governo (in Europa i casi più rilevanti sono l'Olanda, i paesi scandinavi, la Svizzera), i vertici degli atenei sono assai più interessati alle decisioni di reclutamento, perché esse hanno un impatto diretto sul finanziamento pubblico. Nei paesi anglosassoni il modello prevalente è chiamato presidenziale (presidential), perché oltre ad un rettore o preside eletto dal corpo accademico esiste una figura di vertice non elettiva, che è responsabile delle strategie a lungo termine e del finanziamento. Il fatto che la figura del presidente non sia elettiva assicura un principio di funzionamento diverso e dialettico rispetto a quello accademico e collegiale. In questi casi le decisioni di reclutamento non sono più delegate alle comunità scientifiche, ma passano al vaglio di organi di ateneo, che sono rivestiti di un mandato formale e che possono entrare nel merito delle singole candidature. Uso l'espressione quasi-presidenziale perché in realtà nel nostro ordinamento è rimasta al vertice dell'università la figura del rettore e non sono previste figure come quella del presidente. Tuttavia la L.240 configura un equilibrio di poteri tra Senato, Consiglio di Amministrazione e rettore che deve essere configurato in chiave dinamica. Si apre un grande spazio perché gli organi di vertice degli atenei sviluppino una vera e propria strategia di reclutamento. Credo dunque che sia corretto affermare che oggi il reclutamento non è più delegato alle comunità scientifiche, ma diventa una attività strategica a livello di ateneo.

Come gestire questo nuovo quadro in riferimento alla Abilitazione scientifica nazionale? Richiamiamo qui i principi di base, senza entrare nel merito della discussione sugli esiti delle commissioni, tema su cui ci pronunceremo in modo ufficiale al termine dell'intera procedura. L'ANVUR sta inoltre preparando un documento sui criteri con i quali, ai sensi della l.240, propone di valutare ex post il reclutamento svolto dagli atenei. Il criterio di fondo sarà: un buon reclutamento è quello che consente di migliorare le proprie performance di ricerca, aumenta la mobilità e favorisce la internazionalizzazione.

La Abilitazione configura un sistema a due livelli: a livello nazionale si assegna la abilitazione scientifica, a livello locale si decidono le chiamate. È essenziale ribadire che la abilitazione ha carattere esclusivamente scientifico ed i suoi criteri non devono essere confusi con altri criteri, spesso impropriamente chiamati in causa, come la didattica o la terza missione. La abilitazione attesta la maturità scientifica dei candidati, punto. Spetta invece ai singoli atenei, o ai dipartimenti se ad essi è delegata dall'ateneo, comporre un quadro di criteri più ampio, che includa non solo la ricerca ma anche l'insegnamento e, laddove rilevante, varie forme di terza missione.

È anche importante richiamare il fatto che l'abilitazione, in quanto non vincolata ad alcun parametro dimensionale di sistema, genera un numero di abilitati superiore alle disponibilità e quindi induce di fatto una competizione tra gli abilitati ai fini delle chiamate. La abilitazione non attribuisce alcun diritto: essa è una condizione necessaria ma non sufficiente per le chiamate. Dalla combinazione tra valutazione della ricerca, allocazione della quota premiale e abilitazione emerge con chiarezza che gli atenei hanno interesse a competere per reclutare i ricercatori migliori.

In primo luogo occorre che si definiscano criteri o linee guida a livello di ateneo. Se i dipartimenti sono lasciati liberi di procedere senza linee guida, ci si deve attendere che procederanno inerzialmente, "prenotando" a proprio vantaggio le chiamate dirette. In generale la sproporzione tra numero di candidati che hanno ricevuto la abilitazione e numero delle chiamate creerà inevitabilmente una tensione, che va governata e non subita. Ciò è richiesto anche dalla necessità di soddisfare i vincoli previsti, in particolare il non superamento del 50% delle risorse per chiamate dirette e il minimo del 20% di reclutamento dall'esterno.

Occorre in tutti i modi evitare gli automatismi. Non tutte le abilitazioni sono uguali. Credo che sia nell'interesse dell'ateneo, e se opportunamente sensibilizzati anche dei singoli dipartimenti, reclutare i migliori abilitati. L'ateneo deve stabilire cosa questo significhi. Intanto i dati della abilitazione forniscono una utile traccia di partenza: serve verificare se il giudizio è o meno all'unanimità, è utile verificare la posizione del commissario OCSE, è necessario leggere con attenzione i giudizi qualitativi.

In secondo luogo vi è la scelta tra chiamata diretta e procedura comparativa. Merita ricordare che la chiamata diretta per i professori associati e ordinari è un istituto derivato: la legge estende per un massimo di sei anni dalla entrata in vigore (quindi fino alla fine del 2016) una possibilità inizialmente prevista solo per i ricercatori di tipo b). Le chiamate dirette non possono impegnare più del 50% delle risorse. Inoltre per definizione non contribuiscono al raggiungimento del 20% di chiamate dall'esterno. L'intento del legislatore è chiaro: si ha chiamata diretta per una promozione interna di candidati meritevoli, già selezionati inizialmente con procedura comparativa. Da questo quadro normativo discende che la chiamata diretta non può essere usata in modo automatico (come accadrebbe ad esempio affermando il principio: "in tutti i SSD dove vi è un solo abilitato all'interno dell'ateneo si procede per chiamata diretta"). Occorre esercitarla come una vera e propria politica di promozione, che deve essere basata su criteri espliciti e procedure trasparenti. L'ateneo deve assumersi delle responsabilità, definire delle strategie, formulare dei criteri. Non è vietato fare le chiamate dirette, è vietato farle in modo automatico e senza assunzione di responsabilità.

Terzo, se questo avviene per le chiamate dirette, a maggior ragione per le procedure comparative. Qui credo che sia ancora più importante per l'ateneo indicare dei criteri ai quali chiedere alle commissioni di uniformarsi. Altrimenti si invocano le commissioni come una sorta di garanzia di imparzialità esterna, mentre invece ancora una volta serve una assunzione di responsabilità. È importante indicare anche dei criteri di composizione delle commissioni.

Termino con un riferimento storico. Ci avviamo verso un sistema in grado di gestire più elevati livelli di competizione, che devono essere impostati secondo rigore e trasparenza. Si tratta di un cambiamento importante, che richiederà del tempo per essere assorbito. Vorrei ricordare che il nostro paese ha vissuto epoche nelle quali un principio di competizione veniva sistematicamente adottato. Quando la città di Firenze assegnò a Brunelleschi l'incarico della cupola del Duomo, lo fece dopo un concorso di idee molto esteso e dopo aver esaminato numerose alternative. Trattandosi di un progetto molto audace, la città ritenne necessario che all'incarico per Brunelleschi fosse affiancato anche un incarico competitivo per Ghiberti, suo rivale, incaricato di controllare l'avanzamento dei lavori. Quindi non solo competizione ex ante, ma anche in itinere, durante lo svolgimento del cantiere. Poi la storia racconta come il geniale Brunelleschi brigò per ridimensionare il rivale. Ma la morale resta in vita: nelle epoche migliori della nostra storia la competizione è stata usata intensamente. Può essere una lezione da ricordare.

Andrea Bonaccorsi, Consiglio Direttivo ANVUR