Libérer de l’espace disque avec rdfind

La nature a horreur du vide, proverbe souvent vérifié à propos de nos bons vieux disques durs qui craquent et couinent sous le poids des gigaoctets de fichiers divers et variés. Pour Leeloo et moi, ce sont les photos qui représentent un encombrement notable. L’accumulation de photos numériques, vidéos, mais aussi et surtout de leurs dérivés (retouches, manipulations, redimensionnement, web-albums) occupent de l’espace disque à profusion.

En ce mois de décembre 2012 naissant, une rapide analyse de l’occupation du disque amène à 600 Go l’ensemble des données relatives à nos photos. Et cet espace n’est que le sommet de l’iceberg ! En effet nous craignons comme l’apocalypse la perte de ces précieuses images de nos vies qu’il nous sera impossible de reproduire ; les perdre signifierait oublier un peu de nos mémoires : photos d’enfance, évènement  mariage, et sous peu l’arrivée de notre petite Alice qui va sans doute demander, quoique bien jeune, une myriade de gigaoctets supplémentaires sous l’objectif affamé de sa jolie maman.

Pour protéger ces précieuses images, hors de question de graver CD ou DVD, moyens préhistoriques de sauvegarde, non fiables en plus d’être inutilisables. Ce sont donc plusieurs disques durs qui officient à leur préservation. La partition de la machine principale stockant les photos est donc en RAID1, c’est à dire que les données sont simultanément stockées sur deux disques, montant à 1.2 To l’espace requis. Mais je me souviens d’une alimentation morte dans un éclair de fumée en emportant TOUS les disques durs de la machine. Désormais, je me sens obligé de dupliquer ces photos sur une seconde machine, elle aussi avec ses disques en miroir, soit 2.4 To en tout.

Comme je suis de nature paranoïaque avec la sauvegarde de mes données, une troisième machine en RAID5 (cette fois-ci sur N disques un seul sert de sécurité, un bit de parité étant réparti sur les N disques, diminuant l’espace réellement disponible à N-1, dans notre cas, nous avons 5 disques de 300 Go pour un volume utile de 1200 Go) préserve elle-aussi nos précieux pixels, nous voilà donc à 3.1 To.

Bien sûr n’importe quelle catastrophe locale, incendie, cambriolage, pourrait supprimer d’un seul coup toutes ses données, alors il est indispensable d’avoir une copie à l’extérieur de la maison. Nous en avons deux, en l’occurrence, car elles se trouvent sur des disques non redondant.

Nos 600 Go de photos se trouvent donc la partie émergente d’un stockage dépassant 4.3 To, 7 fois plus (ce n’est finalement pas tout à fait un iceberg, mais encore une petite dose de flipette et nous y serons).

Avec les images brutes (autrement appelées raw), les images redimensionnées, retravaillées et autres, ces 600 Go concernent 960 000 fichiers. Autant vous dire que faire du tri la-dedans est une véritable gageure. Pourtant il est à peu près certain que de multiples doubles pullulent parmi ces fichiers. Photos mises de côtés pour impression, tris divers et variés de choses à montrer où non, images à retravailler, à envoyer sur tel ou tel autre site…

J’avais dans l’idée de faire un petit programme tout bête parcourant l’arborescence de fichiers à la recherche de doublons, en se basant sur le nom ainsi qu’une somme de contrôle car malheureusement ces idiots d’appareils photos modernes sont incapables de compter au delà de 10 000, et le nom seul d’une photo n’est pas fiable pour son unicité. C’est tout de même un comble quand il n’est pas rare d’afficher plusieurs dizaines de milliers de photos au compteur…

Bref, épris de cette entreprise, ma flemme dominicale me pousse tout de même à faire un petit apt-cache search duplicate sur ma debian wheezy. Et voilà comment je débusque cette petite merveille d’outil, rdfind.

Ce petit utilitaire qui ne paie pas de mine fait exactement ce que je voulais, il parcourt une arborescence à la recherche de doublons. De manière assez maline, il compare d’abord la taille, puis regarde les premiers octets seulement des fichiers, puis les derniers octets, et quand il a éliminé de sa liste de recherche les fichiers uniques, il termine par une somme de contrôle md5 (ou sha1 pour les ultra-paranos, dont je ne fais pas encore partie).

Au choix, rdfind affiche la liste des fichiers dupliqués, ou bien propose de remplacer ces doublons par des liens en dur (c’est à dire mettre le même fichier dans plusieurs répertoire mais en n’occupant la place qu’une seule fois) ou bien des liens symboliques (ou raccourcis).

Ultra-rapide, quelques minutes suffisent à ce petit outil pour libérer 60 Go d’espace dans l’ensemble de nos photos, c’est à dire plus de 400 Go d’économie avec la redondance !

Merci rdfind!

Laisser un commentaire

%d blogueurs aiment cette page :