Investigadors de l’Allen Institute for AI proposen Līla, un punt de referència unificat per a l’avaluació integral de les habilitats de raonament matemàtic dels sistemes d’intel·ligència artificial

El raonament matemàtic és un requisit fonamental per als sistemes d’intel·ligència artificial de propòsit general. Aquestes tasques poden tenir un ampli ventall de complexitat i poden ser tan senzilles com comprar queviures o tan complicades com la modelització del clima. Investigadors de la Universitat Estatal d’Arizona i l’Institut Allen d’IA van proposar Līla, un punt de referència unificat per al raonament matemàtic, per avaluar i millorar els sistemes d’IA en aquest camp. El punt de referència consta de 23 activitats diferents en quatre dimensions: diversitat lingüística (sense llenguatge, llenguatge senzill), format lingüístic (preguntes-respostes, omplir els buits), habilitats matemàtiques (càlcul aritmètic) i coneixements externs (sentit comú, física).

Līla consta de 140.000 preguntes que abasten 23 tasques diferents en llenguatge natural que s’anoten amb programes Python i instruccions en altres idiomes. S’inclouen múltiples divisions del conjunt de dades, incloent Līla-IID (tren, dev, prova), Līla-OOD (tren, dev, prova) i Līla-Robust. El punt de referència es va crear ampliant 20 conjunts de dades recopilant instruccions i solucions de tasques en programes Python, obtenint tant la resposta correcta com les solucions explicables. A més, es van afegir dos conjunts de dades d’avaluació per avaluar la robustesa de la pertorbació del llenguatge i el rendiment fora de la distribució. L’equip també va presentar Bhaskara, un model de raonament matemàtic de propòsit general entrenat a Lila. Aquest model està disponible a HuggingFace. Segons les seves proves, el model multitasca funciona millor que el T5 i el GPT-Neo de mida comparable quan es perfeccionen noves tasques aritmètiques.

L’equip també va destacar algunes troballes clau de les seves experimentacions. El rendiment superior fora de la distribució (OOD) va ser un d’aquests resultats crucials. L’estudi va descobrir que el model de Bhaskara multitasca supera els seus companys d’una sola tasca en nous tipus de problemes matemàtics que no es troben durant l’entrenament mitjançant Līla-OOD, una divisió fora de distribució proporcionada al punt de referència. Līla-Robust, una divisió que conté preguntes amb variants lingüístiques sense canviar el contingut matemàtic, es va utilitzar per avaluar la robustesa dels models de raonament matemàtic. La diversitat del material de formació de Bhskara va contribuir a la robustesa general de la llengua davant la interrupció lingüística.

La investigació prèvia ha utilitzat LLM basat en transformadors per produir directament l’expressió algebraica donada la consulta matemàtica del llenguatge natural. D’altra banda, a Bhaskara se li va ensenyar a produir scripts de Python que, quan s’executen, produeixen la resposta correcta. Com que el referent de Lla té l’anotació requerida, això es va fer possible. Els investigadors també van observar com la síntesi del programa supera significativament la resposta directa tant en condicions d’afinació com de pocs tirs. Així, es va destacar encara més el valor conceptual i pràctic de reunir i produir programes intermedis interpretables per al raonament matemàtic.

Exploren encara més per què els sistemes de modelatge lingüístic d’avantguarda com GPT-3 funcionen malament a Līla i conclouen que ho fan. Una contribució significativa de l’equip és l’addició d’anotacions del programa als conjunts de dades existents per al raonament matemàtic, proporcionant tant la resposta correcta com una solució explicable. L’article d’estudi de l’equip també es presentarà a la prestigiosa conferència EMNLP 2022.

A través de la seva investigació, l’equip es va adonar que, tot i que la IA encara té un llarg camí per recórrer abans que pugui comprendre el pensament matemàtic de propòsit general, amb un avenç tan ràpid i un interès creixent, encara es pot aconseguir molt més. L’equip aspira per les seves contribucions a mesurar i promoure l’avenç dels sistemes de raonament matemàtic. Anticipen el treball futur que realitzarà la comunitat per canviar la manera com la gent s’acosta i resol diversos problemes matemàtics.

Consulteu el paper, conjunt de dades, modeli referència de l’article. Tot el crèdit d’aquesta investigació es destina als investigadors d’aquest projecte. A més, no us oblideu d’unir-vos-hi la nostra pàgina de Reddit i canal de discòrdiaon compartim les últimes notícies de recerca d’IA, projectes interessants d’IA i molt més.


Khushboo Gupta és consultor en pràctiques a MarktechPost. Actualment està cursant el seu B.Tech a l’Institut Indi de Tecnologia (IIT), Goa. És una apassionada dels camps de l’aprenentatge automàtic, el processament del llenguatge natural i el desenvolupament web. Li agrada aprendre més sobre l’àmbit tècnic participant en diversos reptes.


Leave a Comment

Your email address will not be published. Required fields are marked *