IL CASO

L’AI generativa a supporto del project Manager per il PNRR: ecco le soluzioni



Indirizzo copiato

Prosegue il benchmark sui sempre più numerosi strumenti di generative AI oggi disponibili, continuando a simulare il loro utilizzo a supporto del project manager responsabile per un progetto ICT pubblico nell’ambito del PNRR: ora si è anche voluto esaminare l’evoluzione di alcune soluzioni

Pubblicato il 6 ott 2023

Federico Minelle

Honorary Fellow ISIPM (Istituto Italiano di Project Management), Past President P.R.S.

Franco Stolfi

Senior Partner P.R.S. (Planning Ricerche e Studi), Advisory Board ISIPM Professioni



software ai
(Immagine: https://pixabay.com/geralt)

Dopo la prima valutazione effettuata in primavera, in pieno dibattito sulla efficacia di questa tecnologia, sulla qualità di ChatGPT come personal assistant di un project manager responsabile per un progetto ICT pubblico nell’ambito del PNRR ed il successivo primo benchmark effettuato ad inizio estate, comparando alcuni chatbot allora selezionati, si è voluto ora confrontare (sempre rispetto a ChatGPT) altri nuovi chatbot che si sono presentati sul mercato. Vediamo gli esiti.

Il campo di indagine

Si è limitato, sempre per omogeneità di confronto, il campo di indagine ai tool teoricamente con funzionalità di interazione simili e sono stati selezionati i seguenti:

  1. ChatGPT, preso a riferimento;
  2. Perplexity, che fruisce come “motore” di generative AI dello stesso GPT realizzato nelle sue varie versioni da OpenAI, proprio per ChatGPT;
  3. Claude, acceduto attraverso la piattaforma Slack (con modalità di messaggistica simili alla posta elettronica), non essendo alla data ancora attivo in Italia il collegamento web diretto;
  4. Bard, accessibile anche in Italia solo da metà luglio.

Per i primi due è stata utilizzata la versione con GPT-3.5, come nel precedente benchmark, in modo da mantenere una omogeneità nel confronto. Identicamente per gli altri strumenti, che utilizzano differenti “motori” di generative AI, le configurazioni selezionate sono state tutte ad accesso gratuito, anche se con limiti sulla finestra temporale o sulla quantità di informazioni (token) scambiata nella conversazione.

Piano di benchmark

Nei mesi di giugno/luglio, in sessioni appositamente dedicate a ciascuno dei chatbot (1, 2, 3, 4), sono state poste le stesse domande formulate per ChatGPT nel mese di marzo (ripetute anche nel mese di maggio per il primo benchmark effettuato), nel loro possibile ruolo come personal assistant del Project Manager responsabile di un “progetto campione”: in effetti lo stesso progetto utilizzato per l’assessment di qualità di ChatGPT nel contesto citato.

Si ricorda che le 30 domande, in formato aperto, sono relative alla gestione del progetto campione, posizionandole temporalmente in successivi momenti del suo ciclo di vita:

1. ad avvio progetto (Fase 1: principale focus su approccio metodologico),

2. dopo 1 mese da inizio progetto (Fase 2: principale focus su situazione/azione richiesta),

3. ad 1 settimana dalla fine del progetto (Fase 3: principale focus su lezioni apprese).

Questo ha consentito di ottenere risposte tra loro comparabili e valutabili, paragonandole anche con quelle ottenute nel primo benchmark.

Specificità degli strumenti esaminati

L’effettuazione di questo secondo benchmark ha consentito di rilevare, mediante le risposte fornite, alcune caratteristiche salienti dei vari strumenti, attraverso una analisi sulla evoluzione “longitudinale” nel tempo (dove possibile) o sulle modalità di fornire riferimenti e link a documenti/esperienze reali:

  1. ChatGPT: considerando il tempo trascorso dal primo test (marzo), si sono nuovamente sottoposte le stesse domande, per verificare una eventuale evoluzione nelle risposte fornite: i contenuti sono abbastanza simili, alcuni più chiaramente ed estesamente esposti, ma non sempre più significativi o completi, i riferimenti a documenti/esperienze reali in Italia e nel PNRR sono ridotti al minimo e senza alcun link diretto, mentre più esteso appare il riferimento (con relativi link) a manuali “standard” del mondo anglosassone. In sintesi, sembra avere appreso la lezione per evitare le “allucinazioni” prima presenti, ma non si evidenziano particolari miglioramenti/peggioramenti.
  2. Perplexity: poiché è stata la prima occasione di utilizzo, si è notato che lo strumento evidenzia, per ogni sequenza di domande, una serie di riferimenti e link, parzialmente appropriati. Per esempio, alla domanda introduttiva sulla sua disponibilità/capacità di fornire supporto sul progetto specifico, il primo riferimento fornito è stato quello di una sessione su “Il Project Management per la corretta gestione del PNRR”, tenuta al convegno ForumPA del 2022 (Screenshot 1), che ha coinvolto anche uno degli autori del presente articolo, mostrando quindi la capacità di accedere autonomamente al web (senza il limite di aggiornamento dei link web posto da ChatGPT a fine 2021). Inoltre, altri link alla documentazione MEF per le regole di gestione progetti PNRR sono abbastanza generici e addirittura altri sono di carattere “promozionale”. I link a manuali/lezioni universitarie sul project management (oggetto del benchmark), pur se validi in termini didattici, non affrontano la specificità del PNRR.
Screenshot 1 – Riferimenti forniti dal chatbot Perplexity sul project management di progetti PNRR

3. Claude: l’interesse per questo strumento (realizzato dai due fratelli italo-americani Amodei e particolarmente promettente secondo la stampa specializzata, anche in recenti ricerche, ha spinto gli autori ad effettuare separatamente il test, a distanza di qualche giorno:

  • le risposte sono sostanzialmente equivalenti, anche se spesso con parole/formato diversi,
  • la richiesta di fornire le fonti (riferimenti/link) a supporto delle risposte fornite è stata più completa e puntuale nel secondo test,
  • in ogni caso la lista fornita presenta spesso link generici o non agevolmente accessibili (Screenshot 2, Screenshot 3), comunque sempre seguita da un disclaimer sulla loro attendibilità.
Screenshot 2 – Riferimenti forniti dal chatbot Claude sul project management di progetti PNRR (fase 3 di chiusura)

Screenshot 3 – Link forniti dal chatbot Claude sul project management di progetti PNRR (fase 3 di chiusura)
  • lo strumento sembra essere in grado di reagire positivamente alla segnalazione di link non accessibili o generici, proponendo un approccio di soluzione almeno parziale del problema, anche se l’impegno di verificare i link forniti non è stato poi mantenuto, almeno entro i 30 giorni di validità dell’accesso tramite la piattaforma Slack.

4. Bard: il tanto atteso strumento di Google ha fornito:

  • risposte generalmente più complete (pur se ottenute dopo qualche mese) rispetto al principale competitor ChatGPT,
  • la risposta alla richiesta di fornire le fonti (riferimenti/link) a supporto delle risposte fornite è stata solo parzialmente precisa, meglio per i riferimenti a manuali metodologici anglosassoni (qui non esposti),
  • in ogni caso, la lista fornita presenta spesso riferimenti generici (Screenshot 4, Screenshot 5) e dichiarata incapacità di evidenziarne i link (v. ultime righe Screenshot 5)!
Screenshot 4 – Riferimenti forniti dal chatbot Bard sul project management di progetti ICT

Screenshot 5 – Riferimenti forniti dal chatbot Bard su progetti ICT nel PNRR

Il modello di qualità applicato nel benchmark

Le risposte ottenute alle domande poste sono state valutate dagli autori secondo il modello di qualità applicato nell’assessment di ChatGPT e per il primo benchmark, di cui nel riquadro si ricordano le caratteristiche salienti.

Modello di qualità (ß test)
Caratteristiche esaminate
Adeguatezza: risposte coerenti con le domande poste e verificabili, precise e di lunghezza adeguata, contenuti adeguati a soddisfare le esigenze informative esposte, conoscenza delle esigenze tipiche del project manager, … Completezza: risposte esaurienti (basate su più fonti), riferimenti a bibliografia/esperienze specifiche (rintracciabili), indicazioni su affidabilità risposte o presenza di alternative, … Originalità e capacità apprendimento: evidenza di elaborazione autonoma rispetto alle fonti, linguaggio (appropriato al contesto) e allineato alle domande, capacità di imparare dai feedback e dalle esperienze passate, … Usabilità: facilità di accesso e d’uso, tempestività (tempi di attesa accettabili per l’utente), comprensibilità domande/risposte, mantenimento della sequenza della conversazione (anche in più sessioni), …
Valutazione delle risposte
Per ciascuna delle sotto-caratteristiche (qui non riportate per brevità): scala crescente da 0 (totalmente non soddisfacente) a 3 (totalmente soddisfacente) Livello di soglia richiesto per ciascuna caratteristica di qualità: pari a 2 (parzialmente soddisfacente) Valutazione aggregata: somma pesata delle valutazioni per caratteristica di qualità.

Valutazione risultati del benchmark

In questa sessione di benchmark non si sono riscontrate difficoltà di comunicazione, salvo la necessità, sopra ricordata, di dover utilizzare la piattaforma Slack per accedere a Claude e di dover attendere metà luglio per accedere a Bard. Questo ha penalizzato solo parzialmente i chatbot indicati nella caratteristica “usabilità”.

Il chatbot con la valutazione complessiva più alta (Figura 1) è risultato essere Claude, per il quale è stata premiata la coerenza e completezza delle risposte in tutte le fasi e la capacità di fornire i riferimenti a documenti/manuali attinenti (anche se talvolta di tipo generico o di accesso non agevole). Da notare che Claude utilizza un proprio “motore” di AI generativa!

Immagine che contiene testo, schermata, numero, DiagrammaDescrizione generata automaticamente
Figura 1 – Valutazione cumulata caratteristiche di qualità complessive (su tutte le fasi) per chatbot

Nella valutazione mediata sulle diverse caratteristiche di qualità per fase (Figura 2), si nota che tutti i chatbot valutati mostrano una sostanziale accettabilità per le risposte fornite nel momento di avvio (Fase 1), risultando Claude il migliore. Invece, nei momenti successivi (Fasi 2 e 3) la valutazione si pone sopra o pari alla soglia solo per Claude, mentre gli altri raggiungono valori vicini alla sufficienza, salvo ChatGPT (tra sufficienza e insufficienza).

Figura 2 – Valutazione caratteristiche di qualità complessive (su ogni fase) per chatbot

L’analisi comparata delle valutazioni sulle caratteristiche di qualità dei chatbot nelle varie fasi (Figura 3, Figura 4, Figura 5) fa emergere alcune costanti nelle risposte ottenute per i diversi momenti simulati nel ciclo di vita del progetto:

  1. Adeguatezza: più che accettabile sia per il supporto nella Fase 1 (momento di avvio) che nelle fasi successive per Claude, generalmente accettabile in tutte e tre le fasi per Perplexity e Bard, mentre per ChatGPT risulta più che accettabile solo nella Fase 1;
  2. Completezza: generalmente insufficienti, leggermente migliori per il supporto nella Fase 1 per Claude;
  3. Originalità e capacità apprendimento: generalmente inaccettabili, accettabili solo per Claude;
  4. Usabilità: più che accettabile per tutti i chatbot nella Fase 1, Claude e Bard anche nelle altre Fasi 2 e 3, Perplexity solo nella Fase 2, mentre ChatGPT risulta di poco insufficiente nelle altre successive Fasi.

La valutazione generalmente insufficiente di ChatGPT risente dell’essere stata ottenuta tramite un test effettuato mesi fa (marzo), mantenuto per avere un riferimento fisso nel benchmark. Gli altri chatbot hanno potuto usufruire di un maggior tempo di esperienza (facendo forse anche tesoro degli errori emersi sullo stesso ChatGPT). Come detto però, anche lo stesso test effettuato su ChatGPT nel mese di agosto ha mostrato solo limitati miglioramenti, particolarmente orientati ad evitare le “allucinazioni”. Si ricorda che si è mantenuto l’utilizzo della versione supportata dal “motore” GPT-3.5, mentre ora è disponibile (a pagamento) la versione GPT-4.

Immagine che contiene testo, schermata, linea, diagrammaDescrizione generata automaticamente
Figura 3 – Valutazione caratteristiche di qualità complessive (sulla Fase 1) per chatbot

Immagine che contiene testo, schermata, diagramma, lineaDescrizione generata automaticamente
Figura 4 – Valutazione caratteristiche di qualità complessive (sulla Fase 2) per chatbot

Immagine che contiene testo, schermata, linea, diagrammaDescrizione generata automaticamente
Figura 5 – Valutazione caratteristiche di qualità complessive (sulla Fase 3) per chatbot

Conclusioni

I chatbot oggetto del benchmark, tutti supportati da “motori” di generative AI (ma solo due dal modello GPT di OpenAI), mostrano tuttavia caratteristiche simili: buoni risultati sulle questioni di carattere metodologico, ma minore efficacia nel rispondere a quesiti che richiedono una maggiore comprensione della situazione e previsione della possibile evoluzione del progetto, in grado di fornire un efficace supporto alle decisioni o generare alert per il Project Manager. Per questo motivo tutti i chatbot ricevono valutazioni positive per le risposte relative alla Fase 1 (avvio progetto), mentre solo l’outsider Claude mantiene una valutazione accettabile anche per le fasi successive, dove la situazione emergente richiederebbe risposte più puntuali e orientate alla azione.

In effetti, questo sarebbe proprio il ruolo che ci si attende da un personal assistant al Project Manager: non solo quello di fornire un supporto metodologico/didattico, che sarebbe comunque utile (soprattutto per i meno esperti), specie se i riferimenti/link fossero sempre puntuali ed agevolmente accessibili.

Forse questo è, almeno per ora, il prezzo da pagare per ridurre i casi di “allucinazioni” . In generale, si confermano le potenzialità e limiti della tecnologia generative AI, già chiariti in ambito accademico, anche italiano.

Nello specifico contesto, salvo le poche eccezioni evidenziate, sembra ancora lungo il cammino da fare per ottenere un efficace supporto dalla AI (generative o di altro tipo) nel campo del project management.

Tuttavia, da tempo i più noti “guru” del settore pubblicano i loro proclami sulle riviste internazionali di management che prevedono una imminente rivoluzione nel project management, guidata dalla AI.

Tale visione è stata anche confermata da un gran numero di “addetti ai lavori” distribuiti in tutto il mondo, che esprimono, a seguito di una apposita survey appena completata, la convinzione che si otterranno a breve significativi vantaggi nella selezione/gestione dei progetti e nei benefici effettivamente conseguibili, senza che questo produca il temuto effetto di ridurre il fabbisogno di lavoro qualificato.

Sicuramente, gli stessi guru sono già al lavoro per realizzare strumenti più evoluti, proprio basati sulla AI, a supporto dei Project Manager di tutto il mondo!

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video
Iniziative
Social
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati