Qualche giorno fa Nvidia e Microsoft hanno rivelato l’intelligenza artificiale più grande e potente creata fino ad oggi: Megatron–Turing Natural Language Generation (MT-NLG), completo di 530 miliardi di parametri costruiti insieme.
MT–NLG supera i precedenti sistemi basati su trasformatori di entrambe le società. MT–NLG è sostanzialmente più grande e più complesso del modello Turing-NLG di Microsoft e del Megatron-LM di Nvidia, con tre volte più parametri distribuiti su 105 livelli. Come successore di Turing NLG 17B e Megatron-LM, MT-NLG ha raggiunto un’accuratezza senza rivali in un’ampia gamma di compiti del linguaggio naturale come la previsione del completamento, la comprensione della lettura, le inferenze del linguaggio naturale e la disambiguazione del senso delle parole.
MLT-NLG è stato addestrato su Microsoft Azure NDv4 e sul supercomputer di apprendimento automatico Selene di Nvidia , composto da 560 server DGX A100, ciascuno con otto GPU A100 da 80 GB, su un enorme set di dati noto come The Pile. Il modello è composto da più set di dati più piccoli per un totale di 825 GB di testo ottenuto da Internet. Queste fonti vanno da articoli di Wikipedia e archivi di riviste accademiche a clip di notizie. Grazie a tutto ciò, MT–NLG supera i suoi predecessori in un’ampia gamma di attività in linguaggio naturale, tra cui il completamento automatico delle frasi, la risposta, la lettura e il ragionamento. Può anche completare attività simili con poca o nessuna messa a punto, un processo noto come apprendimento a colpo zero.
A causa della grande quantità di dati utilizzati per addestrare il modello, i ricercatori non sono stati in grado di cancellare il set di dati di parole che non dovrebbero ancora essere utilizzate. L’MT-NLG raccoglie stereotipi e pregiudizi dai dati su cui è formato, e questo significa che, purtroppo, MT-NLG può produrre output offensivi potenzialmente razzisti o sessisti. I ricercatori di Microsoft e NVIDIA si sono impegnati ad affrontare questo problema e, sebbene non sia noto se MT-NLG sarà disponibile in commercio, il comunicato stampa afferma fermamente che l’utilizzo di MT-NLG nelle impostazioni di produzione deve garantire che siano messi in atto i meccanismi necessari per ridurre e limitare possibili danni agli utenti.
“La qualità e i risultati che abbiamo ottenuto oggi sono un grande passo avanti nel viaggio verso lo sblocco della piena promessa dell’intelligenza artificiale nel linguaggio naturale. Le innovazioni di DeepSpeed e Megatron-LM andranno a beneficio dello sviluppo del modello di intelligenza artificiale esistente e futuro e renderanno grandi modelli di intelligenza artificiale più economico e veloce da addestrare“