IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Programmation  : les ramasse-miettes (garbage collectors) sont effrayants
D'après Florian Weimer

Le , par Florian Weimer

99PARTAGES

6  0 
Les ramasse-miettes sont censés être invisibles : si les programmeurs (ou même les utilisateurs) les remarquent, c'est que quelque chose ne va pas. En général, ces problèmes sont des problèmes de performance, mais il peut aussi y avoir des problèmes de correction. C'est pourquoi leur mise en œuvre est un peu effrayante.

Dans le cadre de mes loisirs, je travaille sur une architecture de jeu d'instructions virtuelles, principalement pour mieux comprendre la nature de l'informatique et, éventuellement, les compromis dans la conception des langages de programmation.

Le projet a été bloqué pendant plusieurs mois parce que j'étais réticent à commencer à travailler sur un ramasse-miettes, que je considère comme nécessaire pour maintenir la sécurité de la mémoire.

J'étais un peu perplexe à ce sujet, mais je pense maintenant que c'est parce que les garbage collectors sont effrayants à utiliser. Non seulement ils sont censés être largement invisibles, mais ils doivent aussi calculer une propriété hautement non-locale : le fait qu'un objet soit vivant et ne puisse pas encore être désalloué dépend de l'état des pointeurs dans tous les autres objets du tas. Les garbage collectors de qualité industrielle sont également très complexes. Tout cela semblait donc très décourageant.

Cet article tente de documenter ce que j'ai fait pour m'en sortir. La plupart des idées ci-dessous visent à rendre l'opération du ramasse-miettes plus évidente.

Qu'est-ce qui peut être fait ?

Le choix du garbage collector est important. Un ramasse-miettes semi-spatial copiant, tel que l'algorithme de Cheney, semble être un excellent point de départ. (Voir C. J. Cheney, A nonrecursive list compacting algorithm, ou sa page Wikipedia, Cheney's algorithm). Un tel ramasse-miettes peut être très petit et très simple : sans compter le code d'identification des pointeurs d'objets racines et d'analyse des objets et des piles, une implémentation fonctionnelle du ramasse-miettes ne comporte que quelques dizaines de lignes de code (voire moins s'il existe déjà du code pour dupliquer les objets).


Le ramasse-miettes copie tous les objets d'une partie fromspace à une partie tospace du tas (d'où le nom de « semispace collector »). Cela a pour effet secondaire important de garantir que toutes les adresses d'objets changent au cours d'un cycle de garbage collection. Par conséquent, toute utilisation d'un pointeur d'objet qui a été oublié et qui n'a pas été traité pendant la collecte entraîne des problèmes très évidents (généralement un plantage, mais des données erronées peuvent également en résulter).

Avec un ramasse-miettes moins gourmand en mémoire qui essaie de travailler sur place, peut-être un qui ne déplace jamais aucun objet vivant, les pointeurs non traités peuvent passer inaperçus jusqu'à ce qu'un cas de test plus complexe se présente. Avec un ramasse-miettes qui copie, il est pratiquement nécessaire d'avoir le pointeur racine, la pile et le code de balayage des objets dès le départ.

Avec un tel semispace collector, la plage d'adresses du tas précédent (ce qui était auparavant le fromspace) peut être réservée au niveau du noyau et mappée avec le flag de protection PROT_NONE, de sorte qu'un déférencement accidentel par un pointeur obsolète qui n'a pas été mis à jour dans le cycle de garbage collection précédent est très susceptible d'échouer. Cela fonctionne même si les pointeurs sont stockés à l'extérieur (probablement par accident), dans des endroits qui ne sont pas censés être analysés par le ramasse-miettes.

Dans le cas d'interfaces avec un code C développé séparément, le problème des pointeurs non suivis peut être atténué par une conception soigneuse de l'interface. L'interface C contenue dans l'implémentation de référence du langage de programmation Lua utilise une pile virtuelle sur laquelle les pointeurs d'objets sont stockés (Section 4.1, The Stack, dans Roberto Ierusalimschy et al : Lua 5.4 Reference Manual (2023)). Les pointeurs d'objets ne sont jamais exposés. Les programmeurs C utilisent les indices des slots de la pile pour les manipuler. Comparez cela à l'approche de CPython, où les pointeurs d'objets réels sont exposés aux modules d'extension C. Avec un ramasse-miettes de copie, restreindre l'accès aux pointeurs d'objets à une petite partie de la machine virtuelle semble également raisonnable.

Mon ISA virtuel contient des entiers et des valeurs à virgule flottante de taille fixe, non alloués dans le tas, à la fois comme variables locales dans les procédures et comme champs dans les objets alloués dans le tas. L'assembleur effectue une vérification de type, de sorte qu'il sait déjà si un registre contient un pointeur d'objet au début de chaque instruction. (Une instruction ne peut utiliser un registre comme entrée que si tous les chemins d'exécution qui y mènent ont un type suffisamment compatible, mais le registre lui-même n'a pas un seul type fixe pendant l'exécution de la procédure).

Au moment de l'exécution, l'interprète de la machine virtuelle n'a pas besoin d'effectuer de vérification de type car, hormis les déplacements de registre à registre, des instructions distinctes sont utilisées pour les valeurs scalaires et les valeurs de pointeur. J'avais déjà un dérouleur de pile fonctionnel (pour la gestion des exceptions), mais je ne savais pas si l'encodage des informations de la trame de la pile aux instructions pertinentes (qui peuvent déclencher le garbage collection) sous la forme de cartes de pile fonctionnait. Bien qu'il n'y ait pas encore d'interface de débogage, j'ai ajouté une implémentation très basique de vidage de pile, qui montre le contenu de la pile et, pour les pointeurs d'objets identifiés à l'aide de cartes de pile, l'en-tête de l'objet à partir du tas. La suite de tests peut alors utiliser de simples expressions régulières pour vérifier que le dump contient des pointeurs aux endroits prévus pour un ensemble de cas de tests représentatifs.

En ce qui concerne les cartes de pointeurs pour les objets alloués au tas, il est possible de faire mieux : comparer les valeurs de pointeurs provenant de l'accès explicite à l'objet avec les résultats de la procédure d'analyse de l'objet qui utilise la même méthode d'identification des pointeurs que le ramasse-miettes. (Je ne vise explicitement pas un support général de la réflexion au moment de l'exécution, il s'agit donc d'une interface de test interne uniquement).

Cette approche basée sur des données redondantes (comparaison des résultats du ramasse-miettes avec les pointeurs connus pour être présents) permet de réaliser facilement des tests de bout en bout pour le code de balayage des objets. Des tests introspectifs similaires sont possibles pour les cartes de pile s'il existe un moyen de convertir les pointeurs d'objets en entiers, en perdant la propriété du pointeur. (Contre cela, il ne s'agit que de tests internes, car exposer l'adresse des objets de cette manière encourage la manipulation directe des objets, peut-être à partir d'un code C écrit séparément).

Le ramasse-miettes ne met plus à jour ces entiers, mais l'adresse de l'objet change. Le scénario de test sait quels registres contiennent des pointeurs et s'assure que le ramasse-miettes a mis à jour ces registres (en supposant que nous ayons un ramasse-miettes copiant).

En poursuivant le thème de l'utilisation de données redondantes pour le contrôle de cohérence, il est possible de garder le tas analysable à tout moment, ou au moins à des points sûrs : en partant de l'adresse basse du tas ou d'un segment, il est possible de trouver tous les objets précédemment alloués (qu'ils soient vivants ou non). Pour chaque objet, l'adresse de l'objet suivant peut être déterminée sur la base des informations d'en-tête trouvées dans l'objet actuel. Cela signifie que les en-têtes d'objets doivent exister, mais ils sont également utiles dans d'autres contextes (par exemple pour la mise en œuvre de la répartition dynamique, ou pour les downcasts vérifiés des pointeurs de classe de base vers les pointeurs de classe dérivée).

La traversée du heap peut être utilisée pour vérifier à certains moments (par exemple, juste après le garbage collection) que le heap est cohérent, sans dépendre d'une nouvelle traversée depuis les racines. Une première phase peut construire un tableau de bits contenant des bits de set pour toutes les adresses de départ des objets du tas, et une deuxième phase de la procédure de vérification peut alors vérifier que chaque pointeur identifié est soit nul, soit pointe vers le départ d'un objet du tas précédemment identifié.

Actuellement, cette procédure de vérification est très similaire à celle du ramasse-miettes de copie de style Cheney (sans les parties de copie d'objets), mais elle peut être utilisée sans modification avec n'importe quel autre ramasse-miettes qui maintient un tas analysable, même si ce n'est qu'artificiellement (en insérant des objets factices pour combler les lacunes du tas).

Une autre chose m'a permis d'obtenir une meilleure couverture avec les tests limités que j'ai jusqu'à présent : le déclenchement d'une garbage collection à chaque allocation, ou du moins beaucoup plus fréquemment que d'habitude. (Je pense que j'ai vu cela en premier dans Hotspot, qui a plusieurs flags GCALot dans les builds de débogage). Avec un tel mode d'exécution, les tests exercent le code de garbage collection beaucoup plus lourdement.

Cela en valait-il la peine ?

Jusqu'à présent, le ramasse-miettes semble bien fonctionner, ce qui n'est pas surprenant étant donné qu'il est si simple. Les problèmes spécifiques au ramasse-miettes que j'ai rencontrés sont liés à l'heuristique de dimensionnement du tas, et à la détermination de la limite du tas à partir de laquelle la prochaine garbage collection commence. Les calculs d'adresses pour cela (et les régions de mémoire à démapper, étant donné qu'elles ne seront pas nécessaires) se sont avérés assez délicats. Il y a eu quelques problèmes d'intégration au début avec les cartes de pile parce que l'assembleur et l'implémentation de la machine virtuelle n'étaient pas tout à fait en accord sur leur encodage, mais c'était déjà visible dans les dumps de débogage de pile que j'ai ajoutés pour les tests.

Source : "Garbage collectors are scary" (Florian Weimer)

Et vous ?

Qu'en pensez-vous ?

Voir aussi :

Un coprocesseur pour accélérer les ramasse-miettes, on pourrait gagner un facteur 4 en temps d'exécution sur les opérations de gestion de la mémoire

Le ramasse-miettes (garbage collector) pour les programmeurs systèmes, un tutoriel de Matt Kline

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de r0d
Expert éminent https://www.developpez.com
Le 25/11/2024 à 11:24
Citation Envoyé par Rep.Movs Voir le message
on constate toujours des mécanismes de redémarrage dans les programmes serveurs, en grande partie pour garantir le nettoyage des ressources
Oui mais le problème ne vient pas toujours de la RAM.

Citation Envoyé par Rep.Movs Voir le message
Une autre solution est le comptage de référence (Qt il me semble)
Effectivement, Qt propose sa propre implémentation des pointeurs intelligents. Mais ces pointeurs sont depuis longtemps dans le standard c++ (donc dans les compilateurs).
C++ offre plusieurs solutions simples (si elles sont correctement enseignées), élégantes et efficaces pour éviter les fuites mémoires.

J'avoue que je ne comprends pas trop l'intérêt du GC. Je code aujourd'hui essentiellement en C#, et pour moi qui ait l'habitude de gérer ma mémoire, c'est un enfer de ne pas savoir quand un objet va être détruit.
Par exemple avec RAII, l'aspect "destruction de l'objet qui libère la ressource" est un pattern ultra puissant, mais qui devient inutilisable avec un langage qui a un GC*.

À chaque fois que je réfléchis à ces histoires de GC, je me demande si les concepteurs de langages n’auraient pas mieux fait de trouver, à l'instar du c++, des façons simples et élégantes de permettre au développeur de gérer sa mémoire. Vu les usines à gaz que sont les GCs, leur conception, implémentation, évolution et maintenance doit demander une masse de travail faramineuse. Je me demande parfois si ce n'est pas finalement un énorme gâchis.

Car en plus d'empêcher au développeur d'accéder à des fonctionnalités puissantes, les GCs font globalement diminuer les performances d'un langage. Et dans certains cas, ça peut poser de graves problèmes de performances (ce n'est pas un hasard si c et c++ restent les langages de prédilection lorsque la vitesse d'exécution est un besoin critique).

* Contrairement à ce qu'on lit souvent, la véritable force de RAII est dans la libération des ressources. J'ai trouvé un article en français qui décrit assez bien et de façon simple ce dont je parle : https://nodatek.com/article10/tuto-cpp-le-raii
3  0 
Avatar de OuftiBoy
Membre éprouvé https://www.developpez.com
Le 07/10/2024 à 22:26
Florian,

Dans le cadre de mes loisirs, je travaille sur une architecture de jeu d'instructions virtuelles, principalement pour mieux comprendre la nature de l'informatique et, éventuellement, les compromis dans la conception des langages de programmation. Le projet a été bloqué pendant plusieurs mois parce que j'étais réticent à commencer à travailler sur un ramasse-miettes, que je considère comme nécessaire pour maintenir la sécurité de la mémoire.
Pourquoi partir d'un jeu d'instruction pour essayer de résoudre ce problème ? Quelles sont les avantages ? C'est plutôt au niveau du compilateur et d'un langage qu'il faudrait aborder le problème, non ? Le langage Rust n'a pas de garbage collector, mais utilise d'autres concepts pour sécuriser l'accès mémoire (lifetime et borrowing). Je ne suis pas un grand fan de cette solution, qui, pour moi, demande plus de travail qu'une solution manuel simple comme en C avec de malloc/free.

Mais je suis en train de développer un langage (et son compilateur) et je vais bientôt devoir aborder ce sujet. Mais ce sera le couple langage/compilateur qui s'occuperont de l'aspect "gestion mémoire", pour (tenter) d'offrir une solution où la gestion sécurisée de la mémoire se fait "automatiquement", comme en Python (et sans possibilité pour le développeur utilisant ce langage de pouvoir mal gérer la mémoire), et ceci par la nature du langage lui-même, et par le code généré par le compilateur du langage en question. J'ai quelques idées, mais je dois encore les expérimenter et y réflèchir.

J'étais un peu perplexe à ce sujet, mais je pense maintenant que c'est parce que les garbage collectors sont effrayants à utiliser. Non seulement ils sont censés être largement invisibles, mais ils doivent aussi calculer une propriété hautement non-locale : le fait qu'un objet soit vivant et ne puisse pas encore être désalloué dépend de l'état des pointeurs dans tous les autres objets du tas. Les garbage collectors de qualité industrielle sont également très complexes. Tout cela semblait donc très décourageant.
Avec un langage dynamique (comme Python), le garbage collector est complètement caché, "automatique" et le développeur n'a pas à s'en soucier.

Mais dans un langage compilé statiquement (comme Rust), il faut utiliser des concepts (que l'on trouvait déjà en partie dans le langage Ada) que le développeur doit maîtriser pour "aider" le langage à sécuriser la mémoire.

Avec le langage/compilateur que je développe, j'espère fournir une gestion de la mémoire sécurisée sans que le développeur ne doivent s'en soucier, et ce pour un langage compilé statiquement.

Il y aura sûrement des "restrictions" à mon langage/compilateur pour que le tout soit transparent pour le développeur. J'en dirais plus lorsque j'aurais "concrétisé" les quelques idées que j'ai en tête. Ce ne sera pas un garbage collector, mais un mécanisme simple (tranparent pour le développeur) qui s'occupera de la mémoire.

BàT. Et Peace & Love.
2  0 
Avatar de Rep.Movs
Membre actif https://www.developpez.com
Le 25/11/2024 à 9:43
Petit rappel sur les GC et leur utilité.

En gros, nous avons 3 types de programmes:
  • les programmes à mémoire statique
  • les programmes à allocation dynamique type C
  • les programmes à garbage collector


Un énorme enjeu pour les programmes sur les serveurs, c'est le uptime. Voici les problèmes que le GC a tendance à régler:
  • gestion dynamique de la mémoire (contrairement aux programmes à mémoire allouée statiquement)
  • compactage de la mémoire (pour éviter certaines situations de fragmentation mémoire - disparition de gros bloc allouables)
  • fuite mémoire


L'absence de fuite mémoire n'est bien sûr par garantie par le GC. Et les espaces mémoire actuels ont un peu gommé le problème de fragmentation. Toutefois, on constate toujours des mécanismes de redémarrage dans les programmes serveurs, en grande partie pour garantir le nettoyage des ressources (cf serveurs applicatifs type tomcat, serveurs HTTP).

Une autre solution est le comptage de référence (Qt il me semble) ou la double référence (anciennes implémentation Java, à priori proche de ce qui est proposé: un pointeur est stocké dans une table de pointeurs)
2  0 
Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 03/10/2024 à 20:12
Ce sont donc les langages qui ont besoin d'un ramasse-miettes qui seraient effrayants ?
0  0 
Avatar de Jules34
Membre émérite https://www.developpez.com
Le 07/10/2024 à 9:36
J'adore ces articles. Je n'y comprend rien de A à Z, si ce n'est que c'est ultra technique.

L'IA n'est pas prête de remplacer ces développeurs !!
0  0 
Avatar de Zeeraptor
Membre régulier https://www.developpez.com
Le 12/10/2024 à 21:42
@Jules34

Je suis un peu comme toi...C'est du langage d’ingénieur...Mais une parti de ton inconscient est influencé bénéfiquement en lisant ce genre de texte..C'est une profondeur de pensée qui t'influence dans le bon sens
0  0