Microsoft AI Research presenta DeepSpeed-MII, una nova biblioteca Python de codi obert de DeepSpeed ​​​​que accelera més de 20.000 models d’aprenentatge profund àmpliament utilitzats

Font: https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/

Tot i que el programari de codi obert ha fet que la intel·ligència artificial sigui accessible per a més persones, encara hi ha dues barreres importants per al seu ús generalitzat: el retard de la inferència i el cost.

Les optimitzacions del sistema han recorregut un llarg camí i poden reduir substancialment la latència i el cost de la inferència del model DL, però no són accessibles immediatament. Molts científics de dades no tenen l’experiència per identificar i implementar correctament el conjunt d’optimitzacions del sistema rellevants per a un model específic, cosa que fa que la baixa latència i la inferència de baix cost estiguin fora de l’abast. La naturalesa complexa del paisatge d’inferència del model DL, incloent àmplies variacions en la mida del model, l’arquitectura, les característiques de rendiment del sistema, els requisits de maquinari, etc., és la causa principal d’aquesta manca de disponibilitat.

Una recent investigació de Microsoft de codi obert DeepSpeed-MII, una nova biblioteca Python de codi obert desenvolupada per l’empresa per facilitar l’adopció generalitzada de la inferència de baixa latència i baix cost de models d’alt rendiment. MII proporciona accés a milers de models DL populars amb implementacions altament eficients.

MII utilitza moltes optimitzacions de DeepSpeed-Inference, com ara la fusió profunda per als transformadors, el tall de tensors automatitzat per a la inferència multi-GPU, la quantificació sobre la marxa mitjançant ZeroQuant i altres que proporcionen una inferència de baixa latència/cost. Permet el desplegament a baix cost d’aquests models a les instal·lacions i a Azure mitjançant AML amb només unes poques línies de codi, tot proporcionant un rendiment d’última generació.

DeepSpeed-Inference és el motor que impulsa el MII sota el capó. MII aplica automàticament les optimitzacions del sistema DeepSpeed ​​Inference per minimitzar la latència i maximitzar el rendiment en funció del tipus de model, la mida, la mida del lot i els recursos de maquinari disponibles. Per aconseguir-ho, MII i DeepSpeed-Inference utilitzen una de les moltes regles d’injecció de models preespecificades, que permeten determinar l’arquitectura del model PyTorch subjacent i la substitució posterior per una implementació optimitzada. Com a resultat, els milers de models compatibles de MII tenen accés instantani al conjunt d’optimitzacions de DeepSpeed-comprehensive Inference.

S’hi poden accedir milers de models de transformadors des de diversos dipòsits de models de codi obert, com Hugging Face, FairSeq, EluetherAI, etc. MII admet diverses aplicacions com la creació de text, resposta a preguntes, classificació, etc. Funciona amb models extremadament complexos amb centenars de milions de paràmetres, inclosos els basats en les arquitectures BERT, RoBERTa, GPT, OPT i BLOOM. A més, s’admeten mètodes moderns de creació d’imatges, com ara Stable Diffusion.

Les càrregues de treball d’inferència poden ser crítiques per a la latència, on l’objectiu principal és minimitzar la latència, o sensibles als costos, on l’objectiu principal és minimitzar el cost.

Hi ha dues variants de DeepSpeed-Inference que MII pot utilitzar. El primer, ds-public, s’inclou a la biblioteca pública DeepSpeed ​​​​i inclou la majoria de les millores esmentades. El segon, ds-azure, és accessible per a tots els usuaris de Microsoft Azure mitjançant MII i proporciona una connectivitat més profunda amb Azure. Les instàncies MII es poden cridar utilitzant les dues variacions de DeepSpeed-Inference MII-Public i MII-Azure.

En comparació amb la implementació de codi obert de PyTorch (Baseline), MII-Public i MII-Azure proporcionen una latència significativa i reduccions de costos. Tanmateix, per a càrregues de treball generatives específiques, poden tenir un rendiment diferent. MII pot reduir la latència fins a 6 vegades per a diversos models de codi obert en diverses càrregues de treball, el que el fa ideal per als casos crítics de latència en què s’utilitza habitualment una mida de lot d’1. L’equip va emprar una mida de lot gran que maximitza la línia de base i el rendiment MII per obtenir el cost més baix. Els resultats mostren que models de llenguatge cars com Bloom, OPT, etc., poden reduir dràsticament els costos d’inferència utilitzant MII.

MII-Public es pot executar localment o en qualsevol servei al núvol. MII desenvolupa un servidor GRPC mínim i proporciona un punt final d’inferència GRPC per a preguntes per ajudar en aquest desplegament. MII es pot utilitzar amb Azure mitjançant AML Inference.

Els investigadors esperen que el seu treball doni suport a una àmplia gamma de models. Creuen que MII permetrà una infusió més àmplia de poderoses habilitats d’IA en diverses aplicacions i ofertes de productes reduint instantàniament la latència i el cost de la inferència.

Github: https://github.com/microsoft/deepspeed-mii#supported-models-and-tasks

Referència: https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/


Tanushree Shenwai és una consultora en pràctiques a MarktechPost. Actualment està cursant el seu B.Tech a l’Institut Indi de Tecnologia (IIT), Bhubaneswar. És una entusiasta de la ciència de dades i té un gran interès en l’àmbit d’aplicació de la intel·ligència artificial en diversos camps. Li apassiona explorar els nous avenços en tecnologies i la seva aplicació a la vida real.


Leave a Comment

Your email address will not be published. Required fields are marked *