8 idiomes per a la ciència de dades

Les dades segueixen arribant. La feina d’un científic de dades és convertir tots aquests interminables bits en anàlisis coherents perquè els usuaris de dades puguin començar a buscar respostes en el mar de la informació. La bona notícia és que hi ha molts bons llenguatges de programació per fer aquesta feina. Gol in’hi ha el millor?

Hi ha uns quants idiomes, com R i Python, que dominen el focus perquè sovint s’utilitzen per impartir els cursos. Són bones primeres eleccions, i ningú pot equivocar-se fent-les servir.

També hi ha una sèrie d’altres opcions que poden fer bé la feina. Els idiomes de propòsit general que ja són la base del flux de treball principal es poden estendre per filtrar i netejar les dades o fins i tot per gestionar algunes de les anàlisis. Les bones biblioteques poden recórrer un llarg camí.

Aquí teniu una llista d’alguns dels millors idiomes per a la ciència de dades-un és que facin bones eleccions per al vostre proper projecte. De vegades no n’hi ha prou amb un, i diversos idiomes són la resposta. Alguns científics de dades estan construint canalitzacions de dades amb diverses tecnologies diferents en cada etapa, cadascuna d’elles aprofitant les millors característiques d’un llenguatge en particular.

R

R es va crear per a l’anàlisi estadística i segueix sent un dels preferits per a molts científics de dades dedicats. Té Llenguatge R inclou estructures de dades com ara marcs de dades dissenyats per treballar amb grans blocs de dades tabulars. Al llarg dels anys, altres científics han escrit i distribuït biblioteques de codi obert molt bones que aborden molts dels algorismes estadístics i matemàtics més comuns. Fins i tot hi ha algunes biblioteques agradables com ara Teixir i teixir que converteixen les dades en informes polits i formats Làtex.

A molts científics de dades els agrada utilitzar entorns de desenvolupament integrats com ara Estudi R, que està optimitzat per a la tasca en qüestió. A altres els agrada treballar amb altres eines de desenvolupament com Eclipse o algunes interfícies de línia d’ordres perquè volen integrar codi d’altres idiomes que es puguin utilitzar per recollir o netejar prèviament les dades. R fa possible treballar fàcilment amb altres paquets.

Millor per a: Aquells amb una àmplia necessitat de ciència de dades i anàlisi estadística

Python

Aquest llenguatge va començar com un llenguatge de script amb una sintaxi neta, però s’ha convertit en un dels preferits als laboratoris de tot el món. Molts científics aprenen Python per fer tota la seva informàtica, des de la recollida de dades fins a l’anàlisi.

La veritable força del llenguatge és la gran col·lecció de biblioteques dedicades a la ciència de dades. Paquets com Numpy, SciPy, Pandes, i Keras són només alguns dels més destacats. Els científics també han integrat el llenguatge amb marcs de programació paral·lel com Apache Spark per ajudar a processar conjunts de dades especialment grans.

El llenguatge també és molt popular entre els científics d’intel·ligència artificial i això pot ser molt útil quan l’anàlisi de dades requereix ajuda d’IA. Frameworks com PyTorch i TensorFlow també poden aprofitar el maquinari especialitzat per accelerar molt l’anàlisi.

Millor per a: Principiants i amb necessitats generals àmplies

Júlia

Aquest llenguatge és una eina de propòsit general per crear programari que gestiona tasques bàsiques com ara IO, objectiu Júlia ha atret una sèrie de científics al llarg dels anys perquè fa una feina especialment bona amb tasques numèriques. Actualment, admet una bona col·lecció de rutines per a la visualització, la ciència de dades i l’aprenentatge automàtic (ML). Hi ha, per exemple, excel·lents biblioteques per explorar equacions diferencials, Transformades de Fourieri física quàntica. Hi ha més de 4000 paquets diferents per a diferents tasques de la informàtica científica.

La qualitat més atractiva de Julia pot ser la seva velocitat. El compilador és capaç d’orientar-se a múltiples arquitectures de xip; no és estrany que els científics trobin que el codi de Julia s’executa diverses vegades més ràpid que altres idiomes. Mentrestant, diversos entorns de desenvolupament integrats, com ara Jupyter Notebook, ofereixen una experiència interactiva per als programadors de Julia.

Millor per a: Ciència dura i anàlisi matemàtica

Java

Java es pot utilitzar per a molts propòsits generals, però algunes persones l’aprofiten per a la ciència de dades com a eina de preprocessament per netejar les dades. Funciona bé en combinació amb idiomes com R perquè ofereix funcions i biblioteques més generals que poden ser útils per a la neteja de baix nivell. Alguns dels marcs de processament de grans dades, com ara Hadoop i Spark, són altament compatibles amb Java. Per a algunes tasques bàsiques, hi ha una sèrie de tasques incorporades classes que pot calcular resums d’un conjunt de dades de manera eficient. Java també admet bones biblioteques per a ML, com ara MLib.

Millor per a: Informàtica de grans dades amb anàlisi de dades lleugeres, necessitats d’ús general

MATLAB

MATLAB es va crear per primera vegada per ajudar a fer malabars amb matrius grans i segueix sent popular entre els científics de dades que volen utilitzar alguns d’aquests mètodes numèrics per analitzar el seu treball. Els algorismes que funcionen amb vectors, matrius i tensors i que depenen de descomposicions o inversions estàndard poden ser senzills d’implementar.

Al llarg dels anys, MathWorks, l’empresa que admet el programari propietari de MATLAB, ha afegit funcions extenses que converteixen el paquet en un entorn de desenvolupament totalment integrat per a la ciència de dades. Hi ha biblioteques que admeten tots els mètodes estadístics importants, rutines d’IA i algorismes de ML. També hi ha paquets gràfics que poden produir visualitzacions de dades a partir dels resultats.

Millor per a: Ciències dures que es basen en l’anàlisi matricial i vectorial

COBOL

El llenguatge original per a la informàtica corporativa segueix sent una base sòlida per a la ciència de dades. El llenguatge es va crear per recopilar i processar dades empresarials i admet molts dels algorismes estadístics clàssics amb biblioteques. Hi ha un munt de piles de programari que s’executen a les grans empreses que estan escrites COBOL; sovint, la manera més senzilla d’integrar-hi ciència de dades és escriure algunes rutines addicionals a COBOL.

Millor per a: Bases de codi establertes i anàlisi de dades empresarials

SPSS

SPSS, llançat per primera vegada el 1968, originalment significava Statistical Package for the Social Sciences; això es va canviar a solucions de productes i serveis estadístics a mesura que el mercat s’ampliava. IBM posseeix i manté el Suite de programari SPSS ara, i forma part de la gran col·lecció de productes de programari d’IBM, com els que les empreses poden implementar per oferir ciència de dades.

Gran part del treball amb SPSS es pot fer directament sense molta programació, utilitzant menús desplegables i un entorn integrat. Quan això no és suficient, un llenguatge macro facilita l’ampliació de les rutines bàsiques. Recentment, s’ha fet possible escriure algunes d’aquestes rutines en R o Python. Recentment es va publicar la versió 29 de SPSS, que ofereix més opcions per a la regressió lineal i l’anàlisi de sèries temporals.

Millor per a: Estadística clàssica i anàlisi de dades

Matemàtica

Alguns matemàtics consideren Matemàtica una de les peces de programari més sorprenents que s’han creat mai, capaç d’abordar alguns dels problemes matemàtics més complexos. La majoria dels científics de dades no necessiten totes les característiques i biblioteques àmplies. Tot i així, les bases són sòlides, els gràfics són de primer nivell i les possibilitats són excel·lents per a qualsevol persona que vulgui explorar alguns algorismes més complexos.

Millor per a: Experiments complexos i científics de dades amb inclinació matemàtica, que gaudiran de tot el potencial

Un enfocament híbrid

Tot i que tots aquests idiomes tenen els seus fans i nínxols forts on dominen, no és estrany que els científics de dades uneixin codi de diversos idiomes diferents en un pipeline. Poden començar amb gran part del preprocessament i el filtratge fet per un llenguatge de propòsit general com ara COBOL i després canviar a un llenguatge amb un nucli estadístic fort com R per a algunes anàlisis. Al final, poden utilitzar un altre llenguatge per a la visualització de dades perquè admet una mena de gràfic que els agrada.

Cada pas aprofita les millors qualitats de la llengua. No cal que en trieu només un.

Millor per a: Equips amb càrregues de treball complexes o múltiples fonts i destinacions

Segueix aprenent

.

Leave a Comment

Your email address will not be published. Required fields are marked *