Algorismes i biblioteques principals de detecció d’objectes en intel·ligència artificial (IA)

La ciència de la visió per computador ha vist recentment canvis dramàtics en la identificació d’objectes, que sovint es considera una àrea d’estudi difícil. La localització i classificació d’objectes és una àrea difícil d’estudi en visió per ordinador a causa de la complexitat dels dos processos que treballen junts. Un dels avenços més significatius en l’aprenentatge profund i el processament d’imatges és la detecció d’objectes, la localització i l’etiquetatge d’objectes dins d’una imatge determinada. Un model de detecció d’objectes és adaptable, ja que es pot ensenyar a reconèixer i trobar diversos objectes. El procés de creació de localitzacions d’elements sovint fa ús de quadres delimitadors.

L’interès per la detecció d’objectes ha estat fort durant molt de temps, molt abans de l’arribada de les tècniques d’aprenentatge profund i les eines de processament d’imatges d’avantguarda. Sovint s’ensenya als models per a la detecció d’objectes a buscar coses molt particulars. Les imatges, les pel·lícules o els processos en temps real es poden beneficiar dels models creats. La detecció d’objectes utilitza les característiques dels objectes per determinar quin està buscant. El model de detecció d’objectes pot buscar quadrats buscant quatre angles rectes, formant un quadrat amb costats d’igual longitud. Si el model de detecció d’objectes intenta localitzar alguna cosa esfèrica, buscarà els centres a partir dels quals es pot construir aquesta forma. El reconeixement facial i el seguiment d’objectes són exemples d’aplicacions per a aquests mètodes d’identificació.

Alguns dels usos freqüents de la detecció d’objectes inclouen els automòbils amb conducció autònoma, el seguiment d’objectes, la detecció i identificació de cares, la robòtica i el reconeixement de matrícules.

Primer, fem una ullada als millors algorismes de detecció d’objectes disponibles actualment.

1. Histograma de gradients orientats (HOG)

En el processament d’imatges i en diverses formes de visió per ordinador, l’histograma de gradients orientats (HOG) s’utilitza com a descriptor de característiques per a la detecció d’objectes. L’algorisme HOG utilitza un procés d’orientació de gradient per identificar les característiques més crucials d’una imatge. En el mètode descriptor de l’histograma de gradients orientats, l’orientació del gradient es pot produir en determinades regions d’una imatge, com ara la finestra de detecció. La simplicitat de les característiques semblants a HOG fa que la informació que contenen sigui més fàcil de digerir.

Constriccions Encara que l’Histograma de Gradients Orientats (HOG) va ser un avenç significatiu en les primeres fases de la identificació d’objectes; va patir diverses deficiències greus. El càlcul complex de píxels a les fotos triga molt de temps i, per tant, no funciona bé en alguns casos de reconeixement d’objectes on l’espai és limitat.

2. R-CNN ràpid

La tècnica Fast R-CNN, o mètode Fast Region-Based Convolutional Network, és un algorisme d’entrenament per detectar objectes. Aquest mètode millora la velocitat i la precisió de R-CNN i SPPnet alhora que aborda els seus punts febles clau. Python i C++ creen un programari R-CNN ràpid (Caffe).

3. R-CNN més ràpid

Similar a R-CNN, Faster R-CNN és ​​un mètode de detecció d’objectes. En comparació amb R-CNN i Fast R-CNN, aquest mètode estalvia diners utilitzant la xarxa de propostes de regió (RPN), que comparteix funcions convolucionals d’imatge completa amb la xarxa de detecció.

El model Faster R-CNN és ​​una variant d’avantguarda de la família R-CNN que ofereix acceleracions significatives respecte als seus precursors. Els models R-CNN i Fast R-CNN utilitzen un algorisme de cerca selectiva per calcular les propostes de regió. Tanmateix, la tècnica Faster R-CNN s’actualitza a una xarxa de proposta regional més robusta.

4. Xarxes neuronals convolucionals basades en regions (R-CNN)

Les xarxes neuronals convolucionals basades en regions milloren significativament la detecció d’objectes en comparació amb HOG i SIFT. Utilitzem funcions seleccionades als models R-CNN per extreure les més importants (sovint unes 2000 funcions). Un mètode de cerca selectiva que pot aconseguir aquests suggeriments regionals més substancials es pot utilitzar en un procés computacional per determinar quines extraccions són les més significatives.

Per detectar objectes, els R-FCN utilitzen un detector basat en la regió. En lloc d’utilitzar una subxarxa costosa per regió com Fast R-CNN o Faster R-CNN, aquest detector basat en la regió és convolucional, amb pràcticament tots els càlculs compartits en tota la imatge. L’R-FCN, com el Faster R-CNN, es construeix a partir d’una col·lecció de dissenys totalment convolutius que es comparteixen a través de les diferents capes.

5. Xarxa totalment convolucional basada en regions (R-FCN)

Per detectar objectes, els R-FCN utilitzen un detector basat en la regió. L’R-FCN, com el Faster R-CNN, es construeix a partir d’una col·lecció de dissenys totalment convolutius compartits a través de les diferents capes. Totes les capes de pes entrenables d’aquesta tècnica són circumvolucions que separen les regions d’interès (ROI) les unes de les altres i els seus respectius antecedents.

6. Detector d’un sol tir (SSD)

Un dels enfocaments més ràpids per al càlcul en temps real de les tasques d’identificació d’objectes és el detector d’un sol tir per a prediccions multi-box. SSD significa Single Shot Detector i és una tècnica per a la detecció d’objectes en imatges que utilitzen una única xarxa neuronal profunda altament entrenada. El mètode SSD divideix l’espai de sortida del quadre delimitador en una col·lecció de mides i formes de caixa predefinides per utilitzar-les amb imatges de diferents proporcions d’aspecte. L’enfocament augmenta o baixa en funció de la seva posició després de la discretització quan s’aplica a un mapa de característiques.

SSD incorpora tota la informàtica en una única xarxa, eliminant la necessitat de fases intermèdies com la creació de propostes o el remuestreig de píxels/funcions. SSD proporciona un marc unificat per a la formació i la inferència i ofereix una precisió competitiva en comparació amb enfocaments que utilitzen una fase de proposta d’objecte diferent.

7. YOLO (Només mires una vegada)

Per a la detecció d’objectes, YOLO, o “Només mires una vegada”, és una tècnica comuna utilitzada pels científics de tot el món. El model YOLO estàndard, que utilitza aquesta tècnica, analitza imatges a una velocitat en temps real de 45 fotogrames per segon, mentre que Fast YOLO, que utilitza una versió més compacta de la xarxa, processa 155 fotogrames per segon i encara aconsegueix el doble del mAP de altres detectors en temps real.

A més de la seva velocitat, l’alta precisió general de l’algoritme YOLO prové de l’eliminació dels tipus d’errors de fons molestos que afecten altres enfocaments. Gràcies al seu disseny, YOLO pot aprendre i comprendre ràpidament molts elements. Tanmateix, reconèixer coses petites en una imatge o un vídeo disminueix la taxa de record.

8. RetinaNet

Un dels millors models amb capacitats d’identificació d’objectes d’un sol tir, RetinaNet es va llançar el 2017 i va superar ràpidament altres algorismes destacats de detecció d’objectes de l’època. Per a la detecció d’objectes, RetinaNet es troba actualment entre els millors algorismes. Es pot utilitzar en lloc d’un detector d’un sol tir per proporcionar resultats millors, més ràpids i més fiables mentre es processen les fotos.

9. Agrupació de piràmides espacials (SPP-net)

Una topologia de xarxa anomenada Spatial Pyramid Pooling (SPP-net) pot proporcionar una representació de longitud fixa d’una imatge independent de les seves dimensions o ampliació. Els investigadors poden utilitzar SPP-net per crear representacions de longitud fixa per entrenar els detectors agrupant característiques en àrees arbitràries (subimatges) després d’un únic càlcul dels mapes de característiques a partir de la imatge completa. Diuen que l’agrupació de piràmides és resistent a les deformacions d’objectes i que SPP-net millora tots els algorismes de classificació d’imatges basats en CNN.

La detecció d’objectes és un subcamp de la visió per ordinador i el processament d’imatges que busca exemples de classes predefinides d’elements semàntics en mitjans digitals. Vegem cinc biblioteques de reconeixement d’objectes personalitzades de codi obert útils que són menys conegudes però igual de útils.

L’objectiu principal de la biblioteca ImageAI és facilitar el desenvolupament d’estratègies eficients per a projectes d’identificació d’objectes utilitzant quantitats mínimes de codi. La biblioteca ImageAI Python és fàcil d’utilitzar per incorporar capacitats d’IA d’avantguarda al programari i maquinari actuals. El reconeixement d’objectes i el processament d’imatges són només dues àrees on la biblioteca ImageAI espera ajudar els desenvolupadors proporcionant una àmplia varietat d’algoritmes de visió per ordinador i enfocaments d’aprenentatge profund.

Moltes operacions relacionades amb la detecció d’objectes es poden realitzar amb l’ajuda de la biblioteca ImageAI. Aquests inclouen el reconeixement d’imatges, la detecció d’objectes d’imatge, la detecció d’objectes de vídeo, l’anàlisi de detecció de vídeo, l’entrenament i la inferència de reconeixement d’imatges personalitzats i l’entrenament i la inferència de detecció d’objectes personalitzats. Es poden identificar fins a mil elements diferents dins d’una imatge mitjançant la funció de reconeixement d’imatges. ImageAI ajudarà en diversos nínxols i usos generals de la visió per ordinador, com ara el reconeixement d’imatges en entorns i indústries específiques.

Mmdetection és una suite gratuïta de detecció d’objectes basada en Python. Desglossa el marc de detecció en les seves parts constitutives, permetent el muntatge senzill d’arquitectures de detecció d’objectes a mida mitjançant la combinació d’altres mòduls. El projecte OpenMMLab inclou aquesta eina.

Pel que fa a les tècniques d’aprenentatge profund utilitzades en visió per computador, GluonCV es troba entre els principals marcs de biblioteques amb la gran majoria d’implementacions d’avantguarda. Algunes de les seves qualitats més vitals són una col·lecció completa d’API, estratègies d’implementació i conjunts de dades de formació. L’objectiu principal d’aquesta col·lecció de recursos és ajudar a qualsevol persona interessada en aquesta àrea a assolir els seus objectius més ràpidament. Quan es tracta de models d’aprenentatge profund per a visió per computador, GluonCV us ofereix implementacions de mètodes SOTA.

Aquest marc ofereix tots els mètodes d’avantguarda disponibles actualment per dur a terme diverses activitats. És compatible amb MXNet i PyTorch i ofereix amplis recursos com tutorials i fitxers d’ajuda per ajudar-vos a començar amb una àmplia gamma de temes. Podeu utilitzar la gran col·lecció de models de formació de la biblioteca per adaptar un model d’aprenentatge automàtic a les vostres necessitats.

Una d’aquestes implementacions efectives és el paradigma YOLO v3. La biblioteca YOLOv3 TensorFlow és una implementació pionera de l’arquitectura YOLO per al processament i la computació de detecció d’objectes. Ofereix càlculs ràpids de la GPU, resultats eficients i canalitzacions de dades, conversions de pes, períodes d’entrenament reduïts i molt més. La biblioteca està disponible a l’enllaç de la secció següent, però el desenvolupament s’ha aturat en aquest marc (com amb la majoria d’altres) i ara s’utilitza PyTorch.

Com a equivalent de TensorFlow, Darkflow és la traducció del protocol darknet. Inspirat en el marc darknet, Darkflow és un port del codi original al llenguatge Python i a TensorFlow per fer-lo utilitzat per una varietat més àmplia de desenvolupadors i científics de dades. La instal·lació de l’arquitectura de flux fosc requereix uns quants components rudimentaris. Python3, TensorFlow, NumPy i Opencv són alguns exemples d’aquests fonaments imprescindibles.

Moltes coses són possibles amb la biblioteca de flux fosc. El marc de flux fosc admet models YOLO i els usuaris també poden obtenir pesos personalitzats específics del model. La biblioteca darkflow admet moltes tasques, com ara l’anàlisi d’anotacions, disseny de xarxa, traçat de gràfics amb el flux, entrenament del model, personalització del conjunt de dades, creació de fitxers de vídeo o en temps real, estalvi de models en format protobuf i ús del marc Darkflow per a aplicacions similars.

Fins i tot ara, la identificació d’objectes és un dels usos més crítics de l’aprenentatge profund i la visió per ordinador. Hi ha hagut diversos avenços i desenvolupaments en les tècniques de detecció d’objectes. La identificació d’objectes no es limita a les imatges fixes; també es pot fer amb precisió i eficàcia amb pel·lícules i enregistraments en directe. Probablement hi haurà molts més algorismes i biblioteques útils de detecció d’objectes desenvolupats en el futur.


no oblidis unir-te la nostra pàgina de Reddit i canal de discòrdiaon compartim les últimes notícies de recerca d’IA, projectes interessants d’IA i molt més.


Dhanshree Shenwai és un escriptor de continguts de consultoria a MarktechPost. És enginyera en informàtica i treballa com a gestora de lliurament al banc líder mundial. Té una bona experiència en empreses FinTech que cobreixen el domini financer, de targetes i pagaments i banca amb un gran interès en les aplicacions d’IA. Està entusiasmada amb l’exploració de noves tecnologies i els avenços en l’evolució del món actual.


Leave a Comment

Your email address will not be published. Required fields are marked *