Les principals eines/plataformes de visió per ordinador el 2022

La visió per ordinador permet als ordinadors i als sistemes extreure informació útil de fotos digitals, vídeos i altres entrades visuals i dur a terme accions o oferir recomanacions en resposta a aquesta informació. La visió per ordinador dóna a les màquines la capacitat de percebre, observar i entendre, de la mateixa manera que la intel·ligència artificial els dóna la capacitat de pensar.

La visió humana té un avantatge sobre la visió per ordinador perquè fa més temps que hi ha. Amb una vida de context, la vista humana té l’avantatge d’aprendre a distingir entre coses, determinar la seva distància de l’espectador, determinar si es mouen i determinar si una imatge és correcta.

Amb càmeres, dades i algorismes en lloc de retines, nervis òptics i l’escorça visual, la visió per ordinador ensenya als ordinadors a executar tasques similars en molt menys temps. Un sistema entrenat per inspeccionar articles o supervisar un actiu de producció pot superar ràpidament els humans, ja que pot examinar milers de productes o processos per minut mentre detecta defectes o problemes imperceptibles.

Les indústries de l’energia, els serveis públics, la fabricació i l’automòbil utilitzen la visió per ordinador, i el mercat encara s’està expandint.

Alguns treballs típics per als quals es poden utilitzar els sistemes de visió per ordinador són els següents:

Classificació d’objectes. El sistema analitza les dades visuals abans de classificar un objecte en una foto o vídeo sota un encapçalament predeterminat. L’algoritme, per exemple, pot identificar un gos entre tots els elements de la imatge.

Identificació de l’element. El sistema analitza les dades visuals i reconeix un objecte específic en una imatge o vídeo. Per exemple, l’algoritme pot escollir un gos en particular del grup de gossos de la imatge.

Seguiment d’objectes. El sistema analitza el vídeo, identifica l’objecte (o objectes) que compleixen els criteris de cerca i segueix el progrés d’aquest objecte.

Les principals eines de visió per ordinador
OpenCV

Una biblioteca de programari per a l’aprenentatge automàtic i la visió per ordinador s’anomena OpenCV. OpenCV, desenvolupat per oferir una infraestructura estàndard per a aplicacions de visió per computador, ofereix als usuaris accés a més de 2.500 algorismes tradicionals i d’avantguarda.

Aquests algorismes es poden utilitzar per identificar cares, eliminar els ulls vermells, identificar objectes, extreure models 3D d’objectes, rastrejar objectes en moviment i unir nombrosos fotogrames en una imatge d’alta resolució, entre altres coses.

Suite Viso

Viso Suite, una plataforma completa per al desenvolupament, desplegament i supervisió de visió per ordinador, permet a les empreses crear aplicacions pràctiques de visió per ordinador. La millor pila de programari per a la visió per computador, que és la base de la plataforma sense codi, inclou CVAT, OpenCV, OpenVINO, TensorFlow o PyTorch.

L’anotació d’imatges, la formació de models, la gestió de models, el desenvolupament d’aplicacions sense codi, la gestió de dispositius, la comunicació IoT i els taulers de control personalitzats són només alguns dels 15 components que formen Viso Suite. Les empreses i els organismes governamentals d’arreu del món utilitzen Viso Suite per crear i gestionar la seva cartera d’aplicacions de visió per ordinador (per a automatització industrial, inspecció visual, monitorització remota i molt més).

Flux tensor

TensorFlow és una de les plataformes d’aprenentatge automàtic de codi obert d’extrem a extrem més conegudes, que ofereix una àmplia gamma d’eines, recursos i marcs. TensorFlow és beneficiós per desenvolupar i implementar aplicacions de visió per ordinador basades en l’aprenentatge automàtic.

Una de les eines de visió per ordinador més senzilles, TensorFlow, permet als usuaris crear models d’aprenentatge automàtic per a tasques relacionades amb la visió per ordinador, com ara el reconeixement facial, la categorització d’imatges, la identificació d’objectes i molt més. Igual que OpenCV, Tensorflow admet diversos idiomes, inclosos Python, C, C++, Java i JavaScript.

CUDA

NVIDIA va crear la plataforma de computació paral·lela i el model d’interfície de programació d’aplicacions (API) anomenat CUDA (abreviatura de Compute Unified Device Architecture). Permet als programadors accelerar els programes de processament intensiu utilitzant les capacitats de les GPU (Unitats de processament gràfic).

La biblioteca NVIDIA Performance Primitives (NPP), que ofereix operacions de processament d’imatges, vídeo i senyal accelerades per GPU per a diversos dominis, inclosa la visió per ordinador, forma part del conjunt d’eines. A més, diverses aplicacions com el reconeixement facial, l’edició d’imatges, la representació de gràfics en 3D i altres es beneficien de l’arquitectura CUDA. Per a les implementacions d’Edge AI, està disponible el processament d’imatges en temps real amb Nvidia CUDA, que permet la inferència d’IA al dispositiu en dispositius de punta com el Jetson TX2.

MATLAB

El processament d’imatge, vídeo i senyal, aprenentatge profund, aprenentatge automàtic i altres aplicacions poden beneficiar-se de l’entorn de programació MATLAB. Inclou una caixa d’eines de visió per ordinador amb nombroses funcions, aplicacions i algorismes per ajudar-vos a crear remeis per a problemes relacionats amb la visió per ordinador.

Keras

Un paquet de programari de codi obert basat en Python anomenat Keras serveix com a interfície per al marc TensorFlow per a l’aprenentatge automàtic. És especialment adequat per als novells perquè permet una construcció ràpida de models de xarxa neuronal alhora que ofereix ajuda de backend.

SimpleCV

SimpleCV és un conjunt de biblioteques i programari de codi obert que facilita la creació d’aplicacions de visió artificial. El seu marc us permet accedir a diverses biblioteques de visió per ordinador potents, com OpenCV, sense requerir una comprensió exhaustiva d’idees complexes com les profunditats de bits, els esquemes de colors, la gestió de memòria intermèdia o els formats de fitxers. SimpleCV basat en Python es pot executar en diverses plataformes, com ara Mac, Windows i Linux.

BoofCV

El programa de visió per ordinador basat en Java BoofCV es va crear explícitament per a aplicacions de visió per ordinador en temps real. És una biblioteca completa amb totes les capacitats fonamentals i sofisticades necessàries per desenvolupar una aplicació de visió per computador. És de codi obert i es distribueix sota la llicència Apache 2.0, la qual cosa el fa disponible tant per a ús comercial com acadèmic sense cap cost.

CAFÉ

Arquitectura convolucional per a funcions ràpides o CAFFE A la Universitat de Califòrnia, Berkeley, es va crear un marc d’aprenentatge profund i visió per ordinador anomenat incrustació. Aquest marc suportava una varietat d’arquitectures d’aprenentatge profund per a la segmentació i classificació d’imatges i es va fer en el llenguatge de programació C++. A causa de la seva increïble velocitat i capacitats de processament d’imatges, és beneficiós per a la investigació i la implementació de la indústria.

OpenVINO

Una eina integral de visió per ordinador, OpenVINO (Open Visual Inference and Neural Network Optimization), ajuda a crear programari que simuli la visió humana. És un conjunt d’eines multiplataforma gratuït dissenyat per Intel. A la caixa d’eines d’OpenVINO s’inclouen models per a nombroses tasques, com ara la identificació d’objectes, el reconeixement facial, la coloració, el reconeixement de moviments i altres.

DeepFace

La biblioteca de visió per ordinador de codi obert més popular per al reconeixement facial d’aprenentatge profund en aquest moment és DeepFace. La biblioteca proporciona un mètode senzill per utilitzar Python per dur a terme la visió per ordinador basada en el reconeixement facial.

YOLO

Una de les eines de visió per ordinador més ràpides el 2022 és You Only Look Once (YOLO). Va ser creat el 2016 per Joseph Redmon i Ali Farhadi per ser utilitzat per a la detecció d’objectes en temps real. YOLO, l’eina de detecció d’objectes més ràpida disponible, aplica una xarxa neuronal a tota la imatge i després la divideix en quadrícules. Aleshores, el programari prediu les probabilitats de cada graella simultàniament. Després del gran èxit YOLOv3 i YOLOv4, YOLOr va tenir la millor actuació fins que YOLOv7, publicat el 2022, el va superar.

FastCV

FastCV és una biblioteca de processament d’imatges de codi obert, aprenentatge automàtic i visió per ordinador. Inclou nombrosos algorismes de visió per ordinador d’avantguarda juntament amb exemples i demostracions. Com a biblioteca pura de Java sense dependències externes, l’API de FastCV hauria de ser molt fàcil d’entendre. Per tant, és perfecte per a principiants o estudiants que volen incloure ràpidament la visió per ordinador a les seves idees i prototips.

Per integrar fàcilment la funcionalitat de visió per ordinador a les nostres aplicacions i jocs mòbils, l’empresa també va integrar FastCV a Android.

Scikit-imatge

Una de les millors eines de visió per ordinador de codi obert per processar imatges a Python és el mòdul Scikit-image. Scikit-image us permet realitzar operacions senzilles com ara llindars, detecció de vores i conversions d’espai de color.

Tot i que no és un programa que utilitzeu amb freqüència, té diversos usos pràctics. Per exemple, amb una mica de configuració, podeu utilitzar scikit-image a la vostra càmera per fer una imatge amb llum infraroja o trobar filigranes a les fotos. Aquests són només alguns exemples del que es pot utilitzar scikit-image. Si tot falla, la manipulació d’imatges és una opció.

Referències:

  • https://xd.adobe.com/ideas/principles/emerging-technology/what-is-computer-vision-how-does-it-work/
  • https://www.ibm.com/in-en/topics/computer-vision
  • https://viso.ai/computer-vision/the-most-popular-computer-vision-tools/
  • https://analyticslearn.com/top-computer-vision-tools-in-the-21st-century
  • https://neptune.ai/blog/top-tools-to-run-a-computer-vision-project


Prathamesh Ingle és un escriptor de continguts de consultoria a MarktechPost. És enginyer mecànic i treballa com a analista de dades. També és un practicant d’IA i un científic de dades certificat amb interès en les aplicacions de la IA. Li entusiasma explorar noves tecnologies i avenços amb les seves aplicacions de la vida real


Leave a Comment

Your email address will not be published. Required fields are marked *