Incontra Chameleon: una spina | Gruppo di cavi patch Jilin

I recenti modelli linguistici di grandi dimensioni (LLM) per diversi compiti di PNL hanno fatto passi da gigante, con esempi degni di nota sono GPT-3, PaLM, LLaMA, ChatGPT e il più recentemente proposto GPT-4. Questi modelli hanno enormi promesse per pianificare e prendere decisioni simili a quelle umane poiché possono risolvere vari compiti in situazioni zero-shot o con l’aiuto di pochi casi. Le abilità emergenti, tra cui l'apprendimento in contesto, il ragionamento matematico e il pensiero basato sul buon senso, sono mostrate dai LLM. Tuttavia, gli LLM presentano vincoli incorporati, come l’impossibilità di utilizzare strumenti esterni, accedere a informazioni attuali o ragionare matematicamente con precisione.

Un'area di ricerca in corso si concentra sul miglioramento dei modelli linguistici con accesso a strumenti e risorse esterni e sull'analisi dell'integrazione di strumenti esterni e strategie modulari plug-and-play per risolvere questi vincoli dei LLM. La ricerca recente utilizza i LLM per costruire programmi complicati che completano in modo più efficiente i problemi di ragionamento logico e sfruttano forti risorse informatiche per migliorare le capacità di ragionamento matematico. Ad esempio, con l'aiuto di fonti di conoscenza esterne e motori di ricerca online, gli LLM possono acquisire informazioni in tempo reale e utilizzare conoscenze specifiche del dominio. Un'altra linea di ricerca attuale, tra cui ViperGPT, Visual ChatGPT, VisProg e HuggingGPT, integra diversi modelli di visione artificiale di base per fornire agli LLM le competenze necessarie per gestire i problemi di ragionamento visivo.

Nonostante i sostanziali progressi, gli odierni LLM potenziati dagli strumenti incontrano ancora grossi ostacoli nel rispondere alle richieste del mondo reale. La maggior parte delle tecniche attuali sono limitate a un insieme ristretto di strumenti o si basano su dispositivi particolari per un dato dominio, rendendo difficile generalizzarle a diverse indagini. La Figura 1 illustra quanto segue: "Qual è il principale elemento persuasivo utilizzato in questo annuncio?" 1) Supponiamo che un'immagine pubblicitaria abbia un contesto testuale e chiamiamo un decodificatore di testo per comprendere la semantica per rispondere a questa query; 2) trovare informazioni di base per spiegare cos'è il "fascino persuasivo" e in che modo differiscono i diversi tipi; 3) trovare una soluzione utilizzando i suggerimenti della domanda di input e i risultati provvisori delle fasi precedenti; e 4) infine, presentare la risposta in modo specifico per il compito.

D'altra parte, mentre si risponde alla domanda "Quale pelle di animale è adatta alla sopravvivenza in luoghi freddi", potrebbe essere necessario contattare moduli aggiuntivi, come un sottotitolo di immagini per analizzare le informazioni sull'immagine e un motore di ricerca web per raccogliere informazioni sul dominio da analizzare. comprendere la terminologia scientifica. I ricercatori dell'UCLA e Microsoft Research forniscono Chameleon, un quadro di ragionamento compositivo plug-and-play che utilizza enormi modelli linguistici per risolvere questi problemi. Chameleon può sintetizzare programmi per creare vari strumenti per rispondere a più domande.

Chameleon è un pianificatore del linguaggio naturale che si basa su un LLM. Contrariamente ai metodi convenzionali, utilizza vari strumenti, come LLM, modelli di visione artificiale predefiniti, motori di ricerca online, funzioni Python e moduli basati su regole progettati per un obiettivo particolare. Chameleon genera questi programmi utilizzando le capacità di apprendimento in contesto dei LLM e non necessita di alcuna formazione. Il pianificatore può dedurre l'ordine corretto degli strumenti da comporre ed eseguire per fornire la risposta finale alla richiesta dell'utente, indotta dalle descrizioni di ciascuno strumento e da esempi di utilizzo dello strumento.

Chameleon crea programmi che assomigliano al linguaggio naturale, a differenza dei precedenti sforzi che realizzavano programmi specifici per dominio. Questi programmi sono meno soggetti a errori, più semplici da eseguire il debug, più facili da usare per gli utenti con poca conoscenza di programmazione ed espandibili per includere nuovi moduli. Ogni modulo nel programma esegue, elabora e memorizza nella cache la query e il contesto, restituisce una risposta scelta dal modulo e modifica la query e il contesto memorizzato per le prossime esecuzioni del modulo. Componendo i moduli come un programma sequenziale, le query aggiornate e il contesto precedentemente memorizzato nella cache possono essere utilizzati durante l'esecuzione dei moduli successivi. In due attività, ScienceQA e TabMWP, dimostrano la flessibilità e la potenza di Chameleon.