Nell’economia digitale di oggi, le organizzazioni devono investire in Data Management Platform (DMP) che migliorino visibilità, affidabilità, sicurezza e scalabilità e, al contempo, consentano di sfruttare appieno il potenziale dei dati per prendere decisioni aziendali informate e strategiche.
La nostra società è sempre più caratterizzata dalla proliferazione dei dati che devono essere gestiti e l’automazione è il modo migliore per gestirli dato che può ridurre al minimo le ridondanze e risparmiare costi e tempo. Le DMP, come già sottolineato, non si limitano a svolgere un ottimo lavoro con l’archiviazione, ma analizzano e monitorano i dati e guidano nel prendere le giuste decisioni aziendali.
Data management platform, le caratteristiche da considerare
Di seguito le caratteristiche principali delle DMP:
- Sono progettate per gestire enormi volumi di dati.
- Gli utenti autorizzati possono accedere ai dati da qualsiasi destinazione. Inoltre, questa funzionalità basata su cloud è preziosa per coloro che lavorano in remoto. Aiuta anche a sincronizzare le informazioni tra fusi orari.
- Aiutano anche a eliminare le ridondanze di dati.
- Dati specifici possono essere facilmente individuati, esportati in qualsiasi formato e condivisi rapidamente, risparmiando un sacco di tempo.
- Gli strumenti sono sicuri ed efficienti e garantiscono la privacy.
- Forniscono la generazione di backup e opzioni per il ripristino dei dati storici.
Di fatto, una strutturata gestione dei dati garantisce una maggiore conformità, maggiore sicurezza, migliori strategie di vendita e marketing, una migliore classificazione dei prodotti, oltre a una migliore governance dei dati per ridurre i rischi organizzativi.
La scelta di una DMP
Sebbene ogni organizzazione abbia esigenze specifiche, è importante tenere presente una serie di fattori comuni quando si seleziona una DMP. In primis è importante comprendere la capacità della DMP di integrarsi con altri sistemi nello stack di dati, inclusi CMS, CRM, strumenti di analisi ed altre piattaforme. Anche la raccolta dei dati, l’archiviazione, la scalabilità e le capacità di elaborazione della piattaforma influiranno notevolmente sulla scelta. Inoltre, alcune DMP forniscono funzionalità di segmentazione granulare per lo sviluppo di profili di pubblico. Altre DMP si caratterizzano per l’estensibilità e la personalizzazione, consentendo di adattarsi alle esigenze specifiche di ogni organizzazione.
Inoltre, la maggior parte delle piattaforme sul mercato offre API e strumenti di reporting per fornire approfondimenti sui vari segmenti del business. Anche il costo, l’usabilità, il supporto e la formazione sono fattori significativi da considerare quando si seleziona una DMP, senza dimenticare l’importanza sempre più critica delle funzionalità di privacy, conformità e sicurezza della piattaforma, a fronte della galassia normativa vigente.
Principali Data management platform
Di seguito si fornisce un elenco di alcune delle principali DMP disponibili sul mercato
Amazon Web Services (AWS)
AWS è il più grande fornitore di servizi cloud al mondo in termini di fatturato, con una presenza internazionale e una base di clienti globale in tutti i principali settori. Il suo focus operativo è rivolto sia ai carichi di lavoro transazionali che analitici e ai clienti di tutte le dimensioni.
Punti di forza
- Presenza leader sul mercato: AWS è il più grande fornitore di servizi di database cloud al mondo in termini di fatturato e dispone dell’infrastruttura sottostante per sostenere la sua posizione di leader.
- Ampiezza di servizi: AWS crede nella filosofia del miglior adattamento, offrendo più servizi mirati a casi d’uso specifici secondo necessità di varie applicazioni e microservizi. Questa attenzione ha portato allo sviluppo di oltre una dozzina di servizi di gestione di database. Collettivamente, questi servizi offrono una serie di funzionalità senza precedenti.
- Progressi verso la roadmap di integrazione: la roadmap di AWS è cambiata per offrire soluzioni che affronteranno l’integrazione sia della sua vasta gamma di servizi che del mondo esterno ad AWS a più livelli dello stack. La tendenza di AWS a concentrarsi solo sulla propria piattaforma è stata un danno in passato, ma il suo cambiamento di direzione sta affrontando direttamente questo problema per trasformarlo in un punto di forza.
Avvertenze
- Focus incentrato su AWS: AWS tradizionalmente non si è occupata dei dati al di fuori del proprio cloud. Ma poiché il multicloud diventa uno standard per le imprese, la tradizionale mancanza di attenzione di AWS sui sistemi non AWS nell’ecosistema dei dati può essere una preoccupazione per i clienti che guardano l’attuale stack di prodotti.
- Integrazione dei servizi: AWS utilizza un approccio ottimale ai servizi di database, che gli consente di fornire soluzioni mirate per diversi tipi di casi d’uso. Ma più servizi richiedono anche l’integrazione di tali servizi, quindi AWS deve offrire una soluzione più solida per riunire i diversi servizi nella sua offerta attuale.
- Complessità di configurazione e gestione: le offerte AWS possono essere complesse per mantenere sincronizzate tutte le parti, soprattutto nella configurazione iniziale. Tuttavia, AWS mira a fornire la migliore cassetta degli attrezzi sul mercato, con un approccio ottimale per la flessibilità.
Cloudera
È un altro leader del mercato. Cloudera Data Platform (CDP), disponibile in locale e come servizi gestiti in AWS, Azure e GCP, include CDP Data Hub, CDP DataFlow, CDP Data Engineering, CDP Operational Database, CDP Data Warehouse e CDP Machine Learning per uso operativo e analitico casi. CDP Shared Data Experience (SDX) fornisce sicurezza, governance e gestione dei metadati unificati ibridi, intercloud e multicloud.
Le operazioni globali di Cloudera sono più forti in Nord America ed Europa, principalmente nei servizi finanziari, nella sanità, nella vendita al dettaglio e nei servizi di pubblica utilità. Il posizionamento di Cloudera si concentra sulla fornitura di una piattaforma multicloud ibrida, aperta e multifunzione che consenta la gestione portatile dei dati e l’analisi dei dati ovunque.
Punti di forza
- Continua innovazione open source: Cloudera ha aggiunto Apache Iceberg al suo portafoglio di oltre 30 componenti open source come Apache Hive, Impala, HBase, Phoenix, OMID, Spark, Flink e Kafka. Il suo unico set di binari e l’astrazione comune di Kubernetes stanno rafforzando la sua capacità di fornire una piattaforma containerizzata portatile, ibrida e multicloud.
- Avanzamento della migrazione al cloud: Cloudera afferma che oltre il 50% dei suoi oltre 2.000 clienti locali hanno completato la migrazione al cloud, con espansioni significative in molte di queste implementazioni.
- Maggior focus sulle industrie: Cloudera si è concentrata sullo sviluppo di relazioni, partnership e contenuti per i principali mercati verticali con offerte e modelli mirati a specifici casi d’uso aziendali trasformativi. I suoi prototipi di machine learning applicati consentono ai clienti di concentrarsi sull’implementazione delle soluzioni piuttosto che sui complessi dettagli di engineering, favorendo un’adozione più semplice.
Databricks
Databricks occupa una posizione leader del mercato ed offre la piattaforma Databricks Lakehouse su Microsoft Azure (Azure Databricks), AWS, Alibaba e GCP. Databricks offre anche Unity Catalog, un catalogo di metadati e un hub di governance per i dati in Databricks e repository esterni, mentre Delta Live Tables semplifica l’acquisizione e l’ETL con lo sviluppo di pipeline dichiarative per dati in streaming e batch.
Databricks SQL fornisce un data warehouse serverless che consente agli analisti di dati di eseguire applicazioni SQL e BI su larga scala direttamente nel data Lake.
È doveroso ricordare che Lakehouse Platform è costituita da dati archiviati in un data Lake, inclusi formati open source. Il data Lake può essere utilizzato anche tramite Delta Lake, che aggiunge metadati e strutture ai dati sottostanti per fornire alcune delle funzionalità di un data warehouse tradizionale.
Punti di forza
- Concetto e implementazione di Lakehouse: Databricks è il principale sostenitore del concetto di Lakehouse, in cui i dati in un data Lake vengono archiviati nello stesso repository dei dati utilizzati per i casi d’uso del data warehouse. Il mercato ha reagito con entusiasmo a questa architettura convergente data la semplicità della Lakehouse e la sua capacità di consentire implementazioni multicloud.
- Open Source: Databricks crede nell’apertura praticamente in tutte le parti delle sue offerte. Delta Lake è il formato di archiviazione Lakehouse open source a cui è possibile accedere in modo trasparente indipendentemente dalla piattaforma di elaborazione. Unity Catalog applica la governance dei dati per qualsiasi cliente o tramite Delta Sharing, che è il protocollo aperto per lo scambio di set di dati di grandi dimensioni tra varie piattaforme. La filosofia aperta di Databricks offre vantaggi ora e in futuro come protezione contro i vincoli proprietari.
- Visione per Unity Catalog e Delta Live Tables: Unity Catalog o Delta Live Tables offrono una visione forte, che aiuterà nel passaggio agli ecosistemi di dati. Offrono approcci innovativi e produttivi a un catalogo di metadati, accesso virtualizzato ai dati ed esigenze di ETL e governance in evoluzione.
Avvertenze
- Funzionalità relazionali relativamente nuove: l’architettura Lakehouse fornisce funzionalità relazionali oltre allo storage del Data Lake. Pertanto, considerando la relativa novità di questa architettura, i clienti e i potenziali clienti dovrebbero assicurarsi che le loro esigenze siano adeguatamente soddisfatte da Databricks.
- Crescente concorrenza per lo spazio Lakehouse: man mano che il concetto di Lakehouse ha guadagnato terreno, altri fornitori si sono affrettati a sviluppare questa architettura e diventare competitivi.
- Verifica delle Funzionalità disponibili: i clienti devono assicurarsi che qualsiasi funzionalità richiesta per le loro esigenze di produzione sia disponibile a livello generale.
Google Cloud Platform (GCP)
È una piattaforma di soluzioni di gestione dei dati che offre un’ampia gamma di strumenti per la gestione dei dati basata su cloud. Google è leader in questo quadrante magico. Funziona a livello globale e affronta casi d’uso sia transazionali che analitici. Google ha clienti in tutto il mondo, in un’ampia gamma di settori e di tutte le dimensioni.
Google Cloud Platform supporta molti prodotti di piattaforma di database distribuita come servizio (dbPaaS), tra cui Google Cloud SQL, Cloud Spanner, Cloud Bigtable, BigQuery, Dataproc, Cloud Firestore, Firebase Realtime Database e BigLake, con Dataplex come struttura dati. Google ha recentemente aggiunto anche AlloyDB, che fornisce un database PostgreSQL nativo del cloud iperscale front-end. Ciò contribuisce alla tendenza dei front-end di database open source che formano l’interfaccia per l’iperscalabilità e altri sistemi nel cloud.
Punti di forza
- Aumento del supporto degli ecosistemi: il supporto di Google per gli ecosistemi di dati si è ampliato con il suo concetto di Data Cloud aperto e unificato, basandosi su offerte precedenti come BigQuery Omni, BigLake e Google Dataplex. Google sta inoltre implementando un livello di accesso semantico comune compatibile con PostgreSQL tra motori e casi d’uso. Ciò consentirà a AlloyDB, Cloud SQL, BigQuery e Cloud Spanner di avere tutti un’API comune, promuovendo una visione per motori distribuiti su storage unificato.
- Impostazione predefinita serverless: Google utilizza un approccio serverless, che consente la fluidità dei prezzi e delle risorse. Sebbene non tutti i prodotti abbiano ancora questo approccio misto, BigQuery è un ottimo esempio. Ciò consente prezzi flessibili per i clienti e posiziona bene Google per l’ottimizzazione basata sull’intelligenza artificiale.
- Infrastruttura cloud e archiviazione unificata: Google Colossus fornisce un livello di archiviazione unificato e molto potente su cui ospitare i servizi Google Cloud. Sebbene l’infrastruttura sia generalmente considerata invisibile nel cloud, le differenze nella progettazione dell’infrastruttura di Google e del backbone di rete possono rendere l’implementazione dei servizi cloud più efficiente o efficace. Le prestazioni di Google Cloud Spanner e la sua coerenza globale sono un buon esempio. Google Cloud offre uno SLA con tempo di attività del 99,999% leader del settore per prodotti, tra cui Cloud Spanner, Bigtable e Firestore.
Avvertenze
- Ampiezza del portafoglio: attualmente alcuni servizi, come le serie temporali e i database grafici, vengono forniti tramite l’integrazione con i partner anziché essere forniti da Google. Tuttavia, Google continua ad espandere il numero di servizi cloud-native nel suo portafoglio, di cui BigLake e AlloyDB sono esempi recenti.
- Quota di mercato più piccola ma in crescita: Google attualmente ha una quota di mercato inferiore rispetto ad altri importanti fornitori di cloud, sebbene abbia stabilito una presenza importante nel mercato con una crescita elevata. I valutatori dovrebbero assicurarsi che i loro team non pensino che Google si occupi principalmente di scienza dei dati: le sue capacità si estendono a un’ampia gamma di soluzioni.
- Percezione aziendale: Google è percepito come meno presente nelle grandi imprese. Anche se è vero che Google ha tardato ad affrontare questo settore del mercato, ora ha molti grandi clienti aziendali globali con investimenti significativi in soluzioni e team di settore verticali.
MarkLogic
Si concentra sulla risoluzione di problemi relativi ai dati complessi. Il suo servizio MarkLogic Data Hub è offerto principalmente sui cloud AWS e Azure ed è supportato su Openshift, GCP, Docker Hub e Kubernetes. MarkLogic si concentra sulla gestione dei dati ed è costruito attorno a una piattaforma dati multi-modello e un hub di integrazione. Sia l’hub di integrazione che la piattaforma consentono agli utenti di accedere ai dati archiviati in remoto attraverso un indice universale, che consente di ridurre lo spostamento di dati remoti attraverso l’ottimizzazione dell’accesso remoto.
Le attività di MarkLogic sono principalmente in Nord America ed Europa. Ha clienti in una vasta gamma di settori e, in particolare, nei settori pubblico/governativo, finanziario/assicurativo, manifatturiero high-tech e sanitario/scienze della vita.
Punti di forza
- Affronta in modo univoco il problema chiave dell’integrazione: MarkLogic si è concentrato sull’implementazione del suo data hub come approccio unico all’integrazione dei dati che gli consente di includere dati in origini remote non solo nel suo catalogo, ma anche nell’indice chiave utilizzato per accedere ai dati. Inoltre, gli utenti possono spostare i dati da origini remote a MarkLogic senza modificare alcuna delle loro applicazioni.
- Integrazione e gestione dei metadati migliorate: MarkLogic ha acquisito la società di software di gestione dei metadati Smartlogic nel novembre del 2021. Aggiungendo la gestione dei metadati e l’interfaccia semantica Semaphore con Smartlogic, MarkLogic approfondisce la sua portata e il suo valore nello spazio di integrazione a cui si rivolge.
- Combinazione di capacità operative e analitiche: le origini di MarkLogic erano un database di documenti transazionali incentrato principalmente su casi d’uso operativi. L’aggiunta di più funzionalità di dati, come grafici, relazionali, geografici, di oggetti e SQL, nonché altre operazioni analitiche, rende MarkLogic una buona scelta per i casi d’uso che richiedono una combinazione di questi tipi di funzionalità che lavorano insieme.
Avvertenze
- Quota di mercato: sebbene i clienti siano spesso molto soddisfatti delle capacità uniche del prodotto, la quota di mercato di MarkLogic è limitata dato che non è ancora molto conosciuto.
- Disponibilità limitata di competenze: il servizio MarkLogic ha un’impressionante profondità di funzionalità. I professionisti esperti possono creare funzionalità straordinarie utilizzando le capacità del prodotto. Tuttavia, è doveroso evidenziare che questi professionisti qualificati possono essere difficili da trovare sul mercato, limitando il potenziale dell’adozione di MarkLogic.
Microsoft Azure
È un fornitore leader di servizi cloud e fornisce un’ampia gamma di offerte DMS cloud. Questi includono Azure SQL, database di Azure per PostgreSQL, database di Azure per MySQL, database di Azure per MariaDB, cache di Azure per Redis, Istanza gestita di Azure per Apache Cassandra e Azure Cosmos DB. Le alternative di distribuzione includono Azure SQL Edge, SQL Server locale, SQL containerizzato per Linux e Kubernetes, macchine virtuali e Azure Arc, nonché SQL Server su Alibaba Cloud, AWS, Google Cloud Platform e Oracle Cloud Infrastructure.
Le operazioni di Microsoft sono geograficamente diversificate e i suoi clienti sono distribuiti in un’ampia gamma di settori e dimensioni di distribuzione in tutto il mondo.
Punti di forza
- Visione completa dell’ecosistema dei dati: Microsoft Azure Synapse Analytics include sicurezza end-to-end e supporto dei metadati, potenti strumenti di sviluppo e funzionalità BI e integrazione con offerte ISV di terze parti. L’aggiunta di Dataverse fornisce un collegamento diretto alla serie di applicazioni Microsoft Dynamics 365. L’attuazione di questa visione è ancora nelle fasi iniziali.
- Presenza e distribuzione globali: in qualità di fornitore leader di CSP e DBMS, la presenza globale di Microsoft e l’ampia copertura del settore lo rendono interessante sia per la considerazione locale che globale. Può supportare e connettere clienti e partner in tutto il mondo con risorse locali. Le piattaforme cloud di settore per servizi finanziari, sanità, produzione, organizzazioni non profit e vendita al dettaglio sfruttano le dimensioni dell’azienda per aggiungere maggiore valore contestuale ai clienti.
- Ricco supporto per gli sviluppatori: Microsoft Visual Studio fornisce supporto per il suo ampio portafoglio di motori DBMS. Microsoft Power Apps fornisce una piattaforma low-code per lavorare con i dati sia in Azure SQL che nel DBMS CosmosDB non relazionale di punta di Microsoft, che include API compatibili con open source per MongoDB, Apache Cassandra, PostgreSQL e Apache Gremlin.
Avvertenze
- Sfide relative ai prezzi: secondo i clienti i costi non sono competitivi e risultano complessi, pertanto, rimangono un’area da razionalizzare e ottimizzare.
- Supporto e sfide di implementazione: Microsoft è in ritardo rispetto alla maggior parte dei concorrenti in termini di servizio e supporto. I clienti si lamentano spesso per la complessità della configurazione e della sicurezza, l’impossibilità di scegliere le finestre di manutenzione e la difficoltà nella migrazione tra Azure e SQL Server in locale.
Conclusione
La proliferazione dei dati è una delle sfide principali che le organizzazioni devono affrontare, ed è per questo che hanno bisogno dei migliori strumenti di gestione dei dati per affrontare le problematiche correlate oltre alla difficoltà di comprendere e organizzare i loro grandi volumi di dati e come utilizzarli. Pertanto, l’utilizzo di uno strumento di gestione dei dati di alta qualità può contribuire a sviluppare obiettivi chiari di gestione dei dati e implementarli per migliorare il business.