Benchmark sulla Qualità

L’IA a supporto del Project Manager per il PNRR: tool a confronto



Indirizzo copiato

L’utilizzo della Intelligenza Artificiale (AI) a supporto del Project Manager (PM) sembra vicino, ma già oggi è efficace? Abbiamo provato a fare un benchmark considerando alcuni degli altri strumenti simili oggi disponibili. Ecco i risultati

Pubblicato il 26 lug 2023

Federico Minelle

Honorary Fellow ISIPM (Istituto Italiano di Project Management), Past President P.R.S.

Franco Stolfi

Senior Partner P.R.S. (Planning Ricerche e Studi), Advisory Board ISIPM Professioni



I tre punti di singolarità dell'IA generativa: le criticità da affrontare

L’utilizzo della Intelligenza Artificiale (AI) a supporto del Project Manager (PM) sembra vicino, ma già oggi è efficace? Dopo aver effettuato una prima valutazione sulla qualità su ChatGPT, come “personal assistant” di un project manager responsabile per un progetto ICT pubblico nell’ambito del PNRR, si è provato a fare un benchmark considerando alcuni degli altri strumenti simili oggi disponibili.

L’opportunità è stata stimolata dal temporaneo blocco di ChatGPT da parte del Garante della Privacy, poi superato, che ha portato molti dei suoi utilizzatori a trovare soluzioni alternative. I chatbot oggetto del benchmark sembrano ad una prima analisi comportarsi in modo abbastanza analogo: buoni risultati sulle questioni di carattere metodologico, ma meno efficaci nel rispondere a quesiti che richiedono una maggiore comprensione della situazione. Resta assente del tutto un richiamo concreto al contesto PNRR, salvo ripetere “a pappagallo” alcune frasi fatte. Probabilmente dovremo attendere ancora per altro tempo prima di avere un personal assistant del Project Manager che risulti ben attrezzato tramite la AI, almeno con la tecnologia esaminata finora.

Ambito del benchmark

Dopo aver effettuato una prima valutazione sulla qualità di ChatGPT, come personal assistant di un project manager responsabile per un progetto ICT pubblico nell’ambito del PNRR, si è effettuato un benchmark considerando alcuni degli altri chatbot paragonabili, oggi disponibili. L’opportunità è stata stimolata dal temporaneo blocco di ChatGPT da parte del Garante della Privacy (poi superato), che ha portato molti dei suoi utilizzatori a cercare soluzioni alternative. Si sono considerati alcuni dei tool in competizione con ChatGPT, che le pubblicazioni specializzate (tipicamente sul web) hanno subito indicato come potenziali sostituti/alternative.

Per limitare, almeno ora, il campo di indagine ai tool teoricamente con funzionalità di interazione simili, sono stati selezionati i seguenti, tra quelli che fruiscono proprio di GPT come “motore” di generative AI, che è stato realizzato nelle sue varie versioni (GPT-3 GPT3.5, GPT-4) da OpenAI, proprio per ChatGPT:

  1. Youcom
  2. ChatSonic
  3. HypoChat

da confrontare con lo stesso ChatGPT .

Per omogeneità, le configurazioni dei tool selezionati sono tutte ad accesso gratuito, anche se con limiti sulla finestra temporale o sulla quantità di informazioni (token) scambiata nella conversazione.

Piano di benchmark

Nel mese di maggio, in sessioni appositamente dedicate a ciascuno dei chatbot (1, 2, 3), sono state poste le stesse domande formulate per ChatGPT nel mese di marzo, nel loro possibile ruolo come personal assistant del Project Manager responsabile di un “progetto campione”: in effetti lo stesso progetto utilizzato per l’assessment di qualità di ChatGPT nel contesto citato.

Si ricorda che le 30 domande, in formato aperto, sono relative alla gestione del progetto campione, posizionandole temporalmente in successivi momenti del suo ciclo di vita:

  • ad avvio progetto (Fase 1: principale focus su approccio metodologico),
  • dopo 1 mese da inizio progetto (Fase 2: principale focus su situazione/azione richiesta),
  • ad 1 settimana dalla fine del progetto (Fase 3: principale focus su lezioni apprese).

Questo ha consentito di ottenere risposte tra loro comparabili e valutabili, paragonandole anche quelle ottenute a suo tempo da ChatGPT.

Le risposte ottenute

Nelle sessioni di conversazione con il singolo tool, alle domande per ciascuno dei momenti del ciclo di vita del progetto, sono state ottenute le relative risposte, delle quali uno stralcio (rappresentato dalla prima e ultima domanda per ciascuna fase) è riportato nelle Tabelle 1, 2 e 3. Per un primo confronto con ChatGPT (preso a riferimento), le risposte degli altri tool sono state sinteticamente evidenziate con un colore: molto peggio, peggio, equivalente, meglio, molto meglio rispetto a ChatGPT.

Fase 1 – Approccio Metodologico (ad avvio progetto)
Domanda 1: Quale metodologia utilizzeresti per valutare la complessità del progetto?
ChatGPTPer valutare la complessità del progetto, utilizzerei una metodologia di analisi dei rischi per identificare i fattori critici che potrebbero influire sulla riuscita del progetto. Inoltre, valuterei anche la dimensione del progetto, la complessità tecnologica, la disponibilità delle risorse e il grado di innovazione del progetto.
YoucomPer valutare la complessità del progetto potrei utilizzare il metodo PMI (Project Management Institute) denominato Project Complexity Classification, in cui si analizzano diversi fattori come la tecnologia, l’organizzazione, le interfacce e il rischio.
ChatSonicPer quanto riguarda la valutazione della complessità del progetto, la metodologia suggerita è di considerare la quantità di risorse richieste per completare il progetto e la quantità di interdipendenze tra le attività del progetto [1].
[1] Using project complexity determinations to establish …
HypoChatUtilizzerei la metodologia del Project Management Institute (PMI) per valutare la complessità del progetto, che considera fattori come le dimensioni del progetto, la tecnologia utilizzata, le risorse coinvolte e i vincoli temporali.
Domanda 12: Quale metodologia utilizzeresti per valutare la complessità del progetto?
ChatGPTAlcuni indicatori che potrebbero essere utilizzati per definire e valutare i benefici del progetto potrebbero essere: il numero di servizi offerti tramite la piattaforma, il numero di utenti che utilizzano i servizi della piattaforma, il tempo medio di attesa per la fruizione dei servizi offerti, la riduzione del carico di lavoro per gli operatori dell’amministrazione, la riduzione del tempo di gestione dei pagamenti, il risparmio sui costi di gestione dei pagamenti, il miglioramento della qualità del servizio offerto.
YoucomPer la valutazione dei benefici, potremmo utilizzare indicatori come il ROI (Return on Investment), il TCO (Total Cost of Ownership), il payback period e il VAN (Value Added Net).
ChatSonicGli indicatori di benefici potrebbero includere il ROI (ritorno sull’investimento), il TCO (costo totale di proprietà), la qualità del prodotto e la soddisfazione del cliente [3].
[3] Overview – Project Management: A Strategic Approach
HypoChatGli indicatori suggeriti per la definizione e valutazione dei benefici possono includere:
a)Percentuale di adesione delle strutture dell’Amministrazione al sistema
b)Aumento del numero di transazioni effettuate tramite il sistema di pagamenti via web e l’app di interazione
c)Riduzione dei tempi di attesa per i servizi erogati
d)Soddisfazione degli utenti e delle parti interessate.

Tabella 1 – Domande/Risposte (Fase 1 – estratto) per chatbot

Fase 2 – Situazione/Azione (dopo 1 mese da inizio progetto)
Domanda 1: Le stime di tempo riviste a inizio progetto individuano sia necessario 1 mese in più rispetto alla deadline richiesta dalla Direzione: che azioni specifiche dovrei intraprendere?
ChatGPTLa prima azione da intraprendere è quella di comunicare la nuova stima di tempo rivista alla Direzione, evidenziando le cause del ritardo e le conseguenze sul progetto. Insieme alla Direzione, si dovrà valutare se ci sono dei margini di flessibilità sulla deadline o se sarà necessario ridurre il numero di attività previste o aumentare le risorse disponibili. Si potrebbe anche valutare l’opzione di implementare tecniche di compressione del tempo per ridurre la durata complessiva del progetto.
YoucomNel caso in cui le stime di tempo riviste a inizio progetto indichino la necessità di un mese in più rispetto alla deadline richiesta dalla Direzione, ti consiglio di intraprendere azioni specifiche come la riduzione di alcune attività meno prioritarie o l’assegnazione di maggiori risorse per accelerare il processo.
ChatSonicSe le stime di tempo riviste indicano un mese in più rispetto alla deadline richiesta, le azioni da intraprendere potrebbero includere l’aggiornamento del piano di progetto, la riorganizzazione delle risorse, la rinegoziazione con il cliente, la ri-prioritizzazione dei lavori e il riesame dei requisiti di progetto. [1]
[1] Project Management MINDTAP Assignment Questions
HypoChatLe azioni specifiche da intraprendere per affrontare un mese di ritardo rispetto alla deadline potrebbero includere: rivalutare le priorità del progetto, ridistribuire le risorse, accelerare alcune attività e, se necessario, negoziare una proroga con la Direzione.
Domanda 10: Sulla base delle variazioni da te proposte, come dovrei evidenziare le conseguenti modifiche alla documentazione per la gestione del progetto (p.e. sulla misura dell’avanzamento, sulle stime a finire, giustificazione extra-costi/tempi)?
ChatGPTLe modifiche alla documentazione dovrebbero essere evidenziate in modo chiaro e trasparente, includendo le ragioni del cambiamento e le conseguenze sull’avanzamento del progetto. Si potrebbe aggiornare il piano di progetto con nuove stime a finire, una nuova pianificazione delle attività rimanenti e una valutazione del budget a disposizione. Sarà anche importante documentare le giustificazioni degli extra-costi e degli extra-tempi, per consentire una tracciabilità delle decisioni prese e per facilitare la rendicontazione del progetto. In generale, la documentazione dovrebbe essere modificata in modo coerente con le nuove stime di tempo e di costo, per consentire un’adeguata gestione del progetto da parte del team e della Direzione.
YoucomLe modifiche apportate al progetto dovrebbero essere documentate e integrate nella documentazione di project management, come la pianificazione, la misurazione del progresso e il bilancio. Inoltre, dovreste aggiornare il piano di lavoro con i nuovi obiettivi e le nuove date d’inizio e d fine delle attività e condividere queste informazioni con tutte le parti interessate nelle riunioni di progetto o attraverso la documentazione elettronica o cartacea.
ChatSonicLe modifiche alla documentazione per la gestione del progetto dovrebbero essere evidenziate in base alla loro importanza, utilizzando indicatori come ROI, TCO, qualità del prodotto e soddisfazione del cliente. Le stime a finire e le giustificazioni extra-costi/tempi dovrebbero essere indicate in modo chiaro e trasparente.
HypoChatNella documentazione per la gestione del progetto, dovresti evidenziare le modifiche nelle seguenti aree: aggiornamento del piano del progetto per riflettere il nuovo approccio Agile, revisione delle stime a finire, documentazione delle giustificazioni per eventuali extra-costi e tempi aggiuntivi e aggiornamento dei report di avanzamento per riflettere le nuove milestone e le sfide affrontate.

Tabella 2 – Domande/Risposte (Fase 2 – estratto) per chatbot

Fase 3 – Lezioni apprese (ad 1 settimana da fine progetto)
Domanda 1: Il consuntivo di tempo indica che è stato necessario 1 ulteriore mese in più rispetto alla deadline concordata con la Direzione: che azioni specifiche dovrei ora intraprendere?
ChatGPTSe il consuntivo di tempo indica che è stato necessario un ulteriore mese rispetto alla deadline concordata, le azioni che dovresti intraprendere sono: Analizzare le cause del ritardo e identificare le attività che hanno richiesto più tempo del previsto Valutare se il piano del progetto è ancora valido o se è necessario modificarlo per il futuro Informare la Direzione del ritardo e delle azioni che stai intraprendendo per gestirlo
YoucomNel caso in cui il consuntivo di tempo indicasse la necessità di un mese in più rispetto alla deadline concordata con la Direzione, dovresti intraprendere delle azioni immediate come l’assegnazione di ulteriori risorse, la riduzione delle attività meno prioritarie o il ridimensionamento del progetto stesso
ChatSonicIn caso di mancato rispetto della deadline concordata, dovresti intraprendere azioni specifiche per mitigare i rischi del progetto. Una strategia comune potrebbe essere quella di valutare le attività del progetto che richiedono un’ulteriore ottimizzazione o riduzione del tempo impiegato. Inoltre, potresti considerare l’opzione di coinvolgere il team per individuare soluzioni alternative per recuperare il tempo perso [1]. [1] The Risk Management Process in Project Management
HypoChatOra che il progetto ha richiesto un mese in più rispetto alla deadline concordata, dovresti intraprendere le seguenti azioni specifiche: comunicare apertamente con la Direzione riguardo al ritardo, analizzare le cause del ritardo e identificare le lezioni apprese, e sviluppare un piano per evitare ritardi simili in futuro.
Domanda 8: In previsione della conclusione del progetto mi potresti indicare i contenuti del Report di chiusura del progetto?
ChatGPTInoltre, puoi considerare di integrare le lezioni apprese nella documentazione per la gestione del progetto, come la pianificazione, il budget e la gestione dei rischi. Ad esempio, potresti aggiornare le stime a finire per tenere conto delle lezioni apprese e includere un’analisi dei rischi maggiormente dettagliata per progetti futuri. Per quanto riguarda la misura dell’avanzamento del progetto, potresti considerare di utilizzare metriche più adeguate, tenendo conto delle esperienze maturate in questo progetto. Inoltre, potresti includere una sezione specifica nella documentazione del progetto che descrive le lezioni apprese e le azioni intraprese per risolvere le criticità
YoucomCertamente, ecco alcuni dei contenuti che potresti includere nel Report di Chiusura del Progetto:
Breve presentazione del progetto, inclusi scopo, obiettivi e risultati ottenuti
Dettagli sulle attività svolte e sui tempi di attuazione del progetto
Descrizione dei problemi incontrati durante lo sviluppo del progetto e delle relative soluzioni implementate
Revisione dei costi e delle eventuali ripianificazioni del budget
Analisi del livello di soddisfazione del cliente e dei risultati rispetto ai requisiti iniziali
Descrizione dei processi di controllo e di verifica del progetto
Valutazione delle lezioni apprese e delle eventuali azioni di miglioramento future
Presentazione delle conclusioni e raccomandazioni per azioni future.
Naturalmente, i contenuti precisi del report di chiusura dipendono dal tipo di progetto e dalle esigenze della Direzione.
ChatSonicIl report di chiusura del progetto dovrebbe includere una panoramica generale del progetto, le attività svolte, i risultati ottenuti, i problemi incontrati e le soluzioni adottate. Inoltre, dovrebbe essere inclusa una valutazione complessiva del progetto, compresi i benefici ottenuti e le lezioni apprese. Infine, il report dovrebbe includere una presentazione dei prossimi passi da intraprendere per il progetto [1]. [1] The Risk Management Process in Project Management
HypoChatIl Report di chiusura del progetto dovrebbe includere: Un riassunto del progetto, compresi obiettivi, vincoli e risultati Un’analisi delle differenze tra il piano iniziale e il risultato finale (tempistiche, budget, obiettivi raggiunti) Le lezioni apprese durante il progetto Una valutazione della soddisfazione degli stakeholder e del gruppo di lavoro Raccomandazioni per il supporto post-progetto e le eventuali fasi future.

Tabella 3 – Domande/Risposte (Fase 3 – estratto) per chatbot

Il modello di qualità applicato nel benchmark

Le risposte ottenute alle domande poste sono state valutate dagli autori secondo il modello di qualità applicato nell’assement per ChatGPT, di cui nel riquadro si ricordano le caratteristiche di qualità salienti.

Modello di qualità (ß test)
Caratteristiche esaminate
Adeguatezza: risposte coerenti con le domande poste e verificabili, precise e di lunghezza adeguata, contenuti adeguati a soddisfare le esigenze informative esposte, conoscenza delle esigenze tipiche del project manager, … Completezza: risposte esaurienti (basate su più fonti), riferimenti a bibliografia/esperienze specifiche (rintracciabili), indicazioni su affidabilità risposte o presenza di alternative, … Originalità e capacità apprendimento: evidenza di elaborazione autonoma rispetto alle fonti, linguaggio (appropriato al contesto) e allineato alle domande, capacità di imparare dai feedback e dalle esperienze passate, … Usabilità: facilità di accesso e d’uso, tempestività (tempi di attesa accettabili per l’utente), comprensibilità domande/risposte, mantenimento della sequenza della conversazione (anche in più sessioni), …
Valutazione delle risposte
Per ciascuna delle sotto-caratteristiche (qui non riportate per brevità): scala crescente da 0 (totalmente non soddisfacente) a 3 (totalmente soddisfacente) Livello di soglia richiesto per ciascuna caratteristica di qualità: pari a 2 (parzialmente soddisfacente Valutazione aggregata: somma pesata delle valutazioni per caratteristica di qualità.

Valutazione risultati del benchmark

Preliminarmente si è notato che, a differenza di ChatGPT (forse in quel periodo “stressato” dalle molte interazioni concorrenti), per gli altri chatbot le conversazioni sono fluite regolarmente, salvo che per HypoChat dove i tempi di risposta alle singole domande sono stati sempre superiori ai 10-15 secondi. Questo ha portato a qualche miglioramento sulla “adeguatezza” dei contenuti, ma non in modo significativo, penalizzando invece la sua “usabilità”.

Il chatbot con la valutazione complessiva (di poco) più alta è risultato essere ChatSonic, per il quale è stata premiata la peculiarità di indicare per ogni riposta i riferimenti a documenti/manuali attinenti (Figura 1). Da notare che è stato utilizzato nella versione supportata da GPT-3: nello specifico contesto sembra che la evoluzione del “motore” di AI generativa non porti particolari vantaggi!

Figura 1 – Valutazione cumulata caratteristiche di qualità complessive (su tutte le fasi) per chatbot

Nella valutazione mediata sulle diverse caratteristiche di qualità per fase (Figura 2), si nota che tutti i chatbot valutati mostrano una sostanziale accettabilità per le risposte fornite nel momento di avvio (Fase 1), risultando ChatGPT il migliore. Invece, nei momenti successivi (Fasi 2 e 3) la valutazione si pone sotto la soglia, con valori intermedi tra l’insufficienza e la sufficienza, come già visto per ChatGPT. Per alcuni (Chatsonic e Hypochat) la valutazione per la fase 3 risulta leggermente migliore che per la fase 2!

Questo risultato, che a prima vista può sembrare controintuitivo, trova una spiegazione nel fatto che alcune domande della fase 3 hanno ottenuto risposte di natura metodologica e non di tipo situazionale, ma comunque pertinenti. Pertanto, la adeguatezza della risposta porta a valori valutativi leggermente superiori.

Figura 2 – Valutazione caratteristiche di qualità complessive (su ogni fase) per chatbot

L’analisi comparata delle valutazioni sulle caratteristiche di qualità dei chatbot nelle varie fasi (Figura 3, Figura 4, Figura 5) fa emergere alcune costanti nelle risposte ottenute per i diversi momenti simulati nel ciclo di vita del progetto:

  1. Adeguatezza: generalmente accettabile, più che accettabile per il supporto nella Fase 1 (momento di avvio) e per alcuni (Youcom, HypoChat) anche nelle fasi successive;
  2. Completezza: generalmente inaccettabili, leggermente migliori per il supporto nella Fase 1;
  3. Originalità e capacità apprendimento: generalmente inaccettabili, senza significative differenze nelle varie fasi
  4. Usabilità: come prima evidenziato, più che accettabile per ChatSonic e inaccettabile per HypoChat, mentre per gli altri generalmente accettabile, generalmente migliore nella Fase 1.

Figura 3 – Valutazione caratteristiche di qualità complessive (sulla Fase 1) per chatbot

Figura 4 – Valutazione caratteristiche di qualità complessive (sulla Fase 2)) per chatbot

Figura 5 – Valutazione caratteristiche di qualità complessive (sulla Fase 3)) per chatbot

Si notano alcuni casi di positiva segnalazione di riferimenti bibliografici (non di casi specifici), ma sempre relativi a questioni generali e talvolta “datati”. Come già notato nel precedente assessment su ChatGPT, anche ora sembra mancare una qualche capacità di apprendimento dei diversi tool, pur nell’ambito della stessa conversazione e in relazione alla autonoma capacità di elaborazione di proposte di soluzione delle tematiche poste di volta in volta. Invece, rimane frequente il fenomeno delle “allucinazioni” per riferimenti non esistenti o non rintracciabili, relativi ad eventuali effettivi progetti comparabili con il “progetto campione”.

Conclusioni

I chatbot oggetto del benchmark, tutti supportati da “motori” di generative AI del tipo pre-trained transformers (GPT) di OpenAI, sembrano ad una prima analisi comportarsi in modo abbastanza analogo: buoni risultati sulle questioni di carattere metodologico, ma meno efficaci nel rispondere a quesiti che richiedono una maggiore comprensione della situazione. Talvolta viene elusa la specificità della domanda, fornendo spesso risposte di tipo solo metodologico: proprio come ChatGPT, preso a riferimento del benchmark. Si notano alcuni casi di positiva segnalazione di riferimenti bibliografici (ma non di casi specifici), sempre relativi a questioni generali. Quello che non si percepisce è la capacità di apprendimento del tool in riferimento allo svolgimento della conversazione e in relazione alla autonoma capacità di elaborazione di proposte di soluzione delle tematiche poste di volta in volta. Invece, rimane frequente il fenomeno delle “allucinazioni” per riferimenti non esistenti o non rintracciabili, relativi ad eventuali effettivi progetti comparabili con il “progetto campione”.

Resta assente del tutto un richiamo concreto al contesto PNRR, salvo ripetere “a pappagallo” alcune frasi fatte: gli esperti del settore lo avevano già previsto.

Probabilmente dovremo attendere ancora per altro tempo prima di avere un personal assistant del Project Manager che risulti ben attrezzato tramite la AI, almeno con la tecnologia esaminata finora. Anche perché si conferma la convinzione che, senza un insieme ordinato ed integrato di informazioni sulla pianificazione ed evoluzione progettuale – tramite un adeguato PMIS (Project Management Information System) – non è possibile fornire al sistema di AI gli elementi dettagliati ed integrati sullo stato dello specifico progetto, su cui possa esprimere adeguatamente i suoi suggerimenti (reattivi) o alert (proattivi).

Ovviamente lieti se ci sarà una prossima smentita!

Nel frattempo, si attende di effettuare analoghe prove su tool supportati da altri “motori” di generative AI, come Google Bard, da poco sbarcato anche in Italia.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati