Com està transformant sense servidor les bases de dades de gràfics • El registre

Funció patrocinada Amazon ha passat els últims anys creant bases de dades que permeten als seus clients processar i analitzar les seves dades de diferents maneres. Un d’aquests és Neptune, el seu servei de base de dades de gràfics nadiu del núvol.

Amb les recents incorporacions al seu suport de llenguatge de consulta i l’arribada de la funcionalitat sense servidor per a Neptune aquest mes, Amazon espera avançar més en el que ha identificat com un mercat de ràpid creixement. Amb un servidor sense servidor, els usuaris tenen una escalabilitat instantània alhora que redueixen els costos en comparació amb el subministrament tradicional.

Anunciat per primera vegada a la conferència re:Invent d’Amazon el 2017, Neptune va entrar en disponibilitat general el maig del 2018. Tanmateix, no era la primera base de dades de gràfics. Aquest honor és per a les primeres bases de dades de models de xarxa que van sorgir a la dècada de 1960, i n’hi ha hagut moltes des d’aleshores. Tanmateix, Neptune fa diverses coses de manera diferent als seus predecessors, explica Brad Bebee, director general de Neptune a Amazon Web Services (AWS).

“L’entrada de Neptune com a servei de gràfics totalment gestionat es va veure com una cosa molt positiva a la comunitat de gràfics”, diu. “Ara que la nostra base de clients inclou alguns dels serveis de seguretat de programari basats en SaaS de més ràpid creixement i nombroses empreses Fortune 500, sabíem que havíem de fer que Neptune sigui encara més empresarial, per això hem afegit sense servidor”.

Les bases de dades de gràfics han crescut des de prestar-se a casos d’ús específics, com ara traçar gràfics de relacions socials, fins a donar suport a una nova generació de solucions de seguretat i clients 360. La firma d’investigació Gartner ha predit que impulsarà una tendència que donarà forma a les dades i l’anàlisi (D&A) durant els propers anys. AWS vol posicionar-se com a líder en aquest espai i ajudar les organitzacions a ampliar el seu ús inicial de bases de dades de gràfics des de l’etapa pilot fins a l’etapa de producció.

“Molts clients ens diuen que comencen amb una base de dades de gràfics d’edició gratuïta o comunitària. Els funciona molt bé en un projecte de prova de concepte”, diu Bebee. “Quan necessiten posar alguna cosa en producció amb alta disponibilitat, han de llicenciar l’edició Enterprise i subministrar maquinari addicional”.

“Amb Amazon Neptune sense servidor, no només no hi ha necessitat de subministrar, sinó que la sobrecàrrega administrativa és bàsicament nul·la, permetent als usuaris centrar-se en el disseny de noves aplicacions de gràfics enfront de preocupar-se per configurar l’entorn per executar-les”, afegeix.

Elecció del desenvolupador mitjançant el suport de múltiples gràfics

Amb aquesta finalitat, Neptune ofereix als clients una selecció de models que abasten dues categories: gràfics de propietats i gràfics de coneixement. Els gràfics de propietats utilitzen nodes que representen diferents entitats de dades que tenen relacions entre elles (conegudes com a vores). Aquests nodes també tenen propietats relacionades amb l’entitat de dades. Una persona pot tenir propietats com el nom i l’edat. Són útils en espais de coneixement limitats i de món tancat centrats en una única base de dades, on els tipus d’informació que s’emmagatzemen s’entenen bé i estan restringits.

Per contra, els gràfics de coneixement aborden estructures de dades més obertes que poden incloure totes les dades que una empresa ha d’emmagatzemar. Preveu que voleu reunir conjunts de dades de diferents fonts. La seva estructura també és diferent, utilitzant triples en lloc d’enllaços de vora directe entre nodes. Un triple comprèn un subjecte (per exemple, ‘Publicació’), juntament amb un predicat (‘Nom-és) i un objecte (‘Registre’). Tots els nodes tenen identificadors globals que es poden utilitzar de manera universal per combinar diferents gràfics.

Mentre que els esquemes de dades no formen part d’un gràfic de propietats, un gràfic de coneixement inclou un esquema ric que defineix les relacions de dades i les regles per governar-les. Es basen en el Resource Description Framework (RDF) introduït originalment pel W3C per donar suport a la idea de la web semàntica.

El concepte de web semàntica va articular una xarxa de coneixement en què els elements de dades “sabien” què eren, gràcies a un teixit de relacions que els donava context. Els defensors van etiquetar això com el Web 3.0 original en aquell moment, però mai va fer el salt del nínxol acadèmic a l’ús general.

Tot i que mai hem vist que la informació semàntica redefinia tot el web, els gràfics de coneixement encara són aplicables en casos d’ús específics. Per exemple, el Yahoo Knowledge Graph s’executa globalment en gràfics Neptune RDF.

Els propis gràfics de propietats i coneixements no s’exclouen mútuament. Algunes empreses estan utilitzant tots dos per abordar casos d’ús amplis. Un exemple és Siemens, que utilitza Neptune per al seu projecte Building Twins.

L’empresa volia combinar diferents tipus de dades, que anaven des de models d’edificis i esquemes de construcció fins a esquemes elèctrics i de fontaneria. “Però també volen diferents API que la gent pugui crear contra ella que serveixin al gràfic de propietats”, diu Bebee.

Ampliació dels llenguatges de consulta de Neptune

Neptune dóna suport a més clients potencials oferint aquests dos tipus de gràfics, explica Bebee. Per fer-ho, també ha de suportar els llenguatges de consulta que els sustenten.

Per als gràfics RDF, els desenvolupadors utilitzen SPARQL, un llenguatge de consulta de dades de gràfics que utilitza clàusules SELECT i WHERE per trobar dades.

Al costat del gràfic de propietats, Neptune admet dos llenguatges de consulta. Originalment, donava suport a Gremlin, que és un llenguatge de recorregut de gràfics de l’Apache Software Foundation, desenvolupat per al seu marc informàtic de bases de dades de gràfics de codi obert TinkerPop.

Gremlin és un llenguatge imperatiu, més semblant a un llenguatge de programació que a un de consulta com SQL. Proporciona un control detallat quan es manipulen gràfics. “És bo per als desenvolupadors que volen escriure codi de manipulació”, explica Bebee. “Però és difícil per a persones que provenen d’un fons SQL”.

Per facilitar la consulta als usuaris des d’un llenguatge de consulta, AWS va anunciar la disponibilitat general del suport d’openCypher a l’abril d’aquest any. Aquest és un llenguatge declaratiu amb declaracions de selecció i concordança, més semblant a l’SQL al qual estaran acostumats molts desenvolupadors.

Cosa d’AWS per fer que openCypher i Gremlin funcionin amb el mateix model de dades, explica Bebee. “Per tant, si teniu un gràfic de propietats, podeu optar per utilitzar Gremlin o openCypher, o podeu utilitzar tots dos alhora”, diu. “Creiem que amb el temps, els clients optaran per utilitzar tots dos, perquè hi ha casos en què volen un control detallat del seu gràfic amb Gremlin, i hi ha casos en què troben que és més ràpid i fàcil utilitzar alguna cosa com openCypher. “

Això ofereix un grau d’elecció de desenvolupadors que Bebee espera que ajudi Neptune a conèixer un públic més ampli. AWS també s’està centrant molt en el model de desplegament i operacions de la base de dades de gràfics gestionats per convertir-lo en una proposta més atractiva per als usuaris “curiosos de gràfics”.

Més barat i més senzill de gestionar

L’aspecte gestionat ja ofereix diversos avantatges, assenyala, inclòs un menor cost total de propietat als models més tradicionals locals o virtuals d’elevació i canvi. Un factor és l’eliminació de les taxes de llicència i les compres de maquinari que poden impedir que un projecte pilot faci el següent pas.

Un servei gestionat és elàstic, eliminant les tarifes de llicència a favor dels càrrecs d’ús. Tradicionalment, això passa mitjançant càrrecs de màquines virtuals, que permeten als clients escalar l’ús a demanda. Ha ajudat clients com NBC Universal, que va migrar el seu catàleg de contingut i les interaccions amb els clients a Neptune. Aquesta aplicació té una càrrega volàtil, perquè esdeveniments com els debats presidencials, The Voice i America’s Got Talent poden augmentar l’ús temporalment.

La seguretat és un altre cas d’ús amb càrregues imprevisibles. Els usuaris de seguretat solen utilitzar gràfics per investigar problemes de seguretat, el que significa que han d’escalar la seva potència de càlcul al llarg del temps. Aquesta és una àrea de creixement per a Neptune, diu Bebee, que ha vist com emergeixen més clients en aquest espai durant els últims sis mesos. Els gràfics són tan útils per modelar la postura de seguretat de les aplicacions com per detectar fraus, explica.

Neptune també ha presentat capacitats d’escala automàtica que admeten regles per afegir-se per llegir rèpliques de lectura de baixa latència per a temps de resposta més ràpids. Això ajuda a reduir els costos, però encara deixa als clients definir la mida del seu servidor.

Juntament amb les despeses d’E/S, emmagatzematge (en Gb al mes) i còpies de seguretat més enllà d’una còpia de seguretat gratuïta per clúster, els clients també paguen per exemple hores en intervals de cinc minuts.

Sense servidor afegeix escalabilitat i flexibilitat

AWS va fer un altre pas endavant en l’escalabilitat i la gestió de costos introduint la funcionalitat sense servidor per a Neptune l’octubre de 2022. L’empresa ha anat fent créixer de manera agressiva la seva cartera sense servidor i Neptune és ara el quart servei de base de dades que aconsegueix una actualització. Neptune sense servidor és una opció sota demanda que ajusta automàticament la capacitat de la base de dades en funció de les necessitats de l’aplicació. “Amb la nova opció sense servidor, les càrregues de treball de la base de dades de gràfics poden escalar a l’instant centenars de milers de consultes”, diu Bebee.

En lloc d’un cost horari fix, la capacitat sense servidor cobra per l’ús de les unitats de capacitat de Neptune (NCU). Aquestes unitats, que incorporen l’ús de la CPU, la memòria RAM i l’ample de banda de la xarxa, són més fines, cosa que permet als usuaris pagar només pel que utilitzen.

Els clients continuen pagant per emmagatzematge, IO i còpia de seguretat en un model sense servidor. Tanmateix, aquests representen al voltant d’una cinquena part de la factura mitjana, i la resta es troba en l’ús d’instàncies, diu Bebee. Els servidors augmentaran les NCU que utilitzen simultàniament per adaptar-se a la demanda volàtil, però els clients només paguen per les NCU que utilitzen. Això elimina la necessitat de pagar els cicles de càlcul de màquines virtuals inactivas alhora que allibera els clients d’haver de gestionar la capacitat de la base de dades

“Creiem que els clients que utilitzen aquest model de pagament per consum poden estalviar fins a un 90 per cent sobre el seu excedent de costos de subministrament, de manera que els seus estalvis poden ser molt significatius”, diu Bebee.

Afegint més atraccions per als usuaris de Neptune

Per augmentar l’abast de Neptune, AWS també ha posat a disposició del sistema més de les seves capacitats existents. Al juliol, la companyia va ampliar la seva capacitat de base de dades global per donar suport a la base de dades de gràfics. Això permet als usuaris mantenir automàticament una còpia actualitzada d’un clúster de Neptune en una altra regió. Les rèpliques de lectura ja proporcionen escalabilitat de lectura de baixa latència en regions individuals, però aquesta característica amplia les lectures de baixa latència a diferents regions. També ofereix recuperació en cas de desastre de les interrupcions a tota la regió.

AWS també ha ampliat la seva capacitat d’aprenentatge automàtic per donar suport a Neptune amb Neptune ML. Això utilitza xarxes neuronals de gràfics, una tècnica per aplicar l’aprenentatge automàtic als gràfics i fer prediccions sobre les seves dades. Els casos d’ús van des de la predicció del frau fins a la comprensió de la qualitat d’un gràfic i quins aspectes n’han de millorar. Amazon l’utilitza internament per fer recomanacions de productes i detectar comptes maliciosos, que Bebee diu que ha estalviat a l’empresa desenes de milions de dòlars.

Les bases de dades de gràfics estan creixent en popularitat, diu Bebee, i vol que els usuaris potencials sàpiguen que AWS ofereix una opció sense servidor que es pot escalar a qualsevol mida de càrrega de treball de gràfics (aquí es pot trobar una prova gratuïta de Neptune). A mesura que AWS integra cada cop més la base de dades de gràfics amb els seus altres serveis, podríem veure més empreses connectant els punts.

Patrocinat per AWS.

Leave a Comment

Your email address will not be published. Required fields are marked *