Nous pouvons désormais former de grands réseaux de neurones sur de petits appareils

Nouvelles

MaisonMaison / Nouvelles / Nous pouvons désormais former de grands réseaux de neurones sur de petits appareils

Jun 13, 2024

Nous pouvons désormais former de grands réseaux de neurones sur de petits appareils

Les gadgets qui nous entourent apprennent constamment sur nos vies. Les montres intelligentes détectent nos signes vitaux pour suivre notre santé. Les haut-parleurs domestiques écoutent nos conversations pour reconnaître nos voix.

Les gadgets qui nous entourent apprennent constamment sur nos vies. Les montres intelligentes détectent nos signes vitaux pour suivre notre santé. Les haut-parleurs domestiques écoutent nos conversations pour reconnaître nos voix. Les smartphones jouent à la grammairienne, surveillant ce que nous écrivons afin de corriger nos fautes de frappe idiosyncrasiques. Nous apprécions ces commodités, mais les informations que nous partageons avec nos gadgets ne sont pas toujours conservées entre nous et nos gardiens électroniques. L'apprentissage automatique peut nécessiter du matériel lourd, de sorte que les appareils « de pointe » comme les téléphones envoient souvent des données brutes aux serveurs centraux, qui renvoient ensuite des algorithmes entraînés. Certains aimeraient que cette formation ait lieu localement. Une nouvelle méthode de formation à l’IA étend les capacités de formation des appareils plus petits, contribuant ainsi potentiellement à préserver la confidentialité.

Les systèmes d'apprentissage automatique les plus puissants utilisent des réseaux de neurones, des fonctions complexes remplies de paramètres réglables. Pendant l'entraînement, un réseau reçoit une entrée (comme un ensemble de pixels), génère une sortie (comme l'étiquette « chat »), compare sa sortie avec la bonne réponse et ajuste ses paramètres pour faire mieux la prochaine fois. Pour savoir comment régler chacun de ces boutons internes, le réseau doit se souvenir de l'effet de chacun, mais ils se comptent régulièrement par millions, voire par milliards. Cela nécessite beaucoup de mémoire. La formation d’un réseau neuronal peut nécessiter des centaines de fois la mémoire sollicitée lors de la simple utilisation d’un seul réseau (également appelée « inférence »). Dans ce dernier cas, la mémoire est autorisée à oublier ce que chaque couche du réseau a fait dès qu'elle transmet les informations à la couche suivante.

Pour réduire la mémoire demandée pendant la phase d’entraînement, les chercheurs ont utilisé quelques astuces. Dans l'une d'elles, appelée pagination ou déchargement, la machine déplace ces activations de la mémoire à court terme vers un type de mémoire plus lent mais plus abondant tel qu'une mémoire flash ou une carte SD, puis la ramène si nécessaire. Dans une autre, appelée rematérialisation, la machine supprime les activations, puis les recalcule ultérieurement. Auparavant, les systèmes de réduction de mémoire utilisaient l'une de ces deux astuces ou, explique Shishir Patil, informaticien à l'Université de Californie à Berkeley et auteur principal de l'article décrivant l'innovation, ils étaient combinés à l'aide d'« heuristiques » qui sont « sous-optimale », nécessitant souvent beaucoup d’énergie. L'innovation rapportée par Patil et ses collaborateurs formalise la combinaison de la pagination et de la rematérialisation.

"Prendre ces deux techniques, les combiner dans ce problème d'optimisation, puis le résoudre, c'est vraiment bien", déclare Jiasi Chen, informaticien à l'Université de Californie à Riverside, qui travaille sur l'informatique de pointe mais n'a pas été impliqué dans le projet. travail.

En juillet, Patil a présenté son système, appelé POET (private optimal energy training), lors de la Conférence internationale sur l'apprentissage automatique, à Baltimore. Il donne d'abord à POET les détails techniques d'un appareil et des informations sur l'architecture d'un réseau neuronal qu'il souhaite entraîner. Il précise un budget mémoire et un budget temps. Il lui demande ensuite de créer un processus de formation minimisant la consommation d'énergie. Le processus pourrait décider de paginer certaines activations qui seraient inefficaces à recalculer mais d'en rematérialiser d'autres qui sont simples à refaire mais nécessitent beaucoup de mémoire pour stocker.

L’une des clés de cette avancée a été de définir le problème comme un puzzle de programmation linéaire en nombres entiers mixtes (MILP), un ensemble de contraintes et de relations entre variables. Pour chaque appareil et architecture réseau, POET connecte ses variables au programme MILP conçu à la main de Patil, puis trouve la solution optimale. "L'un des principaux défis consiste à formuler ce problème de manière agréable afin que vous puissiez l'introduire dans un solveur", explique Chen. "Ainsi, vous capturez toutes les dynamiques réalistes du système, comme l'énergie, la latence et la mémoire."

L'équipe a testé POET sur quatre processeurs différents, dont la RAM variait de 32 Ko à 8 Go. Sur chacune d'entre elles, les chercheurs ont formé trois architectures de réseaux neuronaux différentes : deux types populaires en reconnaissance d'images (VGG16 et ResNet-18), plus un réseau de traitement du langage populaire (BERT). Dans de nombreux tests, le système a pu réduire l'utilisation de la mémoire d'environ 80 %, sans augmenter considérablement la consommation d'énergie. Des méthodes comparables ne pourraient pas faire les deux en même temps. Selon Patil, l'étude a montré que BERT peut désormais être formé sur les plus petits appareils, ce qui était auparavant impossible.