Den Deduplizierungsprozess verstehen¶
Der Prozess der Entfernung redundanter Dateien und deren Ersetzung durch NTFS-Hardlinks mit TreeSize wird als Deduplication bezeichnet. Dies reduziert den Speicherplatz, der durch Ihre Duplikatdateien blockiert ist.
Anstatt dass jede der Dateien individuellen Speicherplatz auf Ihrer Festplatte einnimmt, entfernt TreeSize alle doppelten Dateien und behält nur eine von ihnen.
Die entfernten Dateien werden durch Hardlinks ersetzt, die dann auf die verbleibenden Daten verweisen (siehe: Hinweise zu NTFS).
Die Daten werden nun von allen Hardlinks für diese Datei gemeinsam genutzt, wie im Bild unten gezeigt.
Diese Hardlinks können wie jede normale Datei verwendet werden. Sie werden keinen Unterschied bemerken, außer dass die Daten jetzt zwischen den anderen Links geteilt werden. Tatsächlich unterscheiden sie sich nicht von einer normalen Datei, außer dass sie keinen eigenen Speicherplatz beanspruchen.
Verständnis von Hard Links¶
Ein Hardlink ist ein zusätzlicher Name für eine bestehende Datei. Jede Datei, die Sie im Windows Explorer sehen, hat bereits einen Namen - dieser Name ist selbst ein Hardlink. Wenn Sie einen zweiten Hardlink erstellen, geben Sie derselben Datei einen zweiten Namen, der sogar in einem anderen Ordner liegen kann. Hinter den Kulissen führt NTFS einen zentralen Index aller Dateien, die Master File Table (MFT). Stellen Sie sich die MFT wie ein Telefonbuch vor: jeder Hardlink ist wie ein anderer Eintrag, der dieselbe Nummer wählt.
Hardlinks sind keine Kopien¶
Ein Hardlink erstellt nicht eine Kopie der Datei. Es ist immer noch nur ein Datensatz auf der Festplatte gespeichert. Alle Hardlinks, die auf dieselbe Datei verweisen, haben alles gemeinsam: den Inhalt der Datei, ihre Zeitstempel, ihre Attribute und ihre Zugriffsberechtigungen. Wenn Sie die Datei über einen ihrer Hardlinks öffnen und Änderungen vornehmen, bearbeiten Sie dieselben Daten - jeder andere Hardlink wird diese Änderungen sofort übernehmen.
So funktioniert das Löschen¶
NTFS merkt sich, wie viele Hardlinks auf eine Datei verweisen. Durch das Löschen eines Hardlinks wird nur der betreffende Name entfernt. Die zugrunde liegenden Daten werden dabei nicht gelöscht. Die eigentlichen Dateidaten werden erst freigegeben, wenn der allerletzte Hardlink gelöscht wird und kein Name mehr übrig ist.
Einschränkungen¶
Bemerkung
Hard Links funktionieren nur innerhalb desselben Laufwerks oder derselben Partition. Sie können keinen Hardlink erstellen, der sich über zwei verschiedene Volumes erstreckt.
Harte Links können nur auf Dateien verweisen, nicht auf Ordner.
Eine einzelne Datei kann höchstens 1023 Hardlinks haben.
Alle Hardlinks auf dieselbe Datei haben denselben Security Descriptor (Zugriffsrechte). Wenn Sie die Berechtigungen für einen Hardlink ändern, werden sie für alle geändert.
Um einen Hardlink zu erstellen, muss der Benutzer über Schreibberechtigungen für die Dateiattribute im jeweiligen Ordnerzweig und auf dem Share verfügen, wenn das Laufwerk kein lokales Laufwerk ist.
Harte Links vs. symbolische Links vs. Verknüpfungen¶
Harte Links werden oft mit symbolischen Links (Symlinks) und Windows-Verknüpfungen verwechselt. Hier ist der Unterschied zwischen ihnen:
Ein hard link ist ein direkter Verweis auf die Daten der Datei. Er ist nicht vom „Original“-Dateinamen zu unterscheiden - beide sind gleichwertige Einträge, die auf die gleichen Daten verweisen. Harte Links bleiben erhalten, wenn der ursprüngliche Name umbenannt oder verschoben wird (innerhalb desselben Volumes), da sie nicht von einem Dateipfad abhängen.
Ein symbolischer Link (Symlink) ist eine spezielle Datei, die einen Pfad enthält, der auf eine andere Datei oder einen anderen Ordner zeigt. Wenn das Ziel verschoben, umbenannt oder gelöscht wird, wird der Symlink unterbrochen („dangling“). Im Gegensatz zu Hardlinks können Symlinks auf verschiedene Laufwerke und auch auf Ordner verweisen. Symlinks werden vom Betriebssystem transparent aufgelöst, so dass die meisten Anwendungen sie wie normale Dateien oder Ordner behandeln.
Eine Windows-Verknüpfung (.lnk-Datei) ist eine gewöhnliche Datei, die von der Windows Shell als Zeiger auf ein Ziel interpretiert wird. Verknüpfungen werden nicht auf Dateisystemebene aufgelöst - sie funktionieren nur im Explorer und in Anwendungen, die das .lnk-Format verstehen. Eine Verknüpfung hat immer eine eigene Dateigröße (typischerweise ein paar hundert Bytes) und einen eigenen Sicherheitsdeskriptor, unabhängig vom Ziel.
Welche der doppelten Dateien wird ersetzt?¶
Wenn Sie alle Dateien einer Duplikatgruppe markieren, wählt TreeSize die Datei mit dem neuesten „Zuletzt geändert“-Datum aus und verwendet sie als „Master“ für diese Gruppe. Alle anderen Dateien werden entfernt und durch Hardlinks ersetzt, die auf die Master-Datei verweisen.
Wenn Sie eine Master-Datei manuell auswählen möchten, können Sie eine der Dateien in einer Duplikatgruppe nicht markieren. Diese Datei wird dann nicht ersetzt, sondern stattdessen als Master verwendet.
Bemerkung
Leider zeigt der Windows Explorer nicht die Größenunterschiede für eine deduplizierte Datei oder den Ordner, in dem sie sich befindet. Lesen Sie unsere Wissensdatenbank für weitere Informationen.
Bemerkung
Sie können keine Hardlinks verwenden, um Dateien zu ersetzen, die sich auf verschiedenen Festplatten befinden.
Bemerkung
Alle Hardlinks, die auf dieselbe Datei verweisen, teilen sich die gleiche „Sicherheitsbeschreibung“ (Zugriffsberechtigungen). Die Deduplizierung wendet einen einheitlichen Satz von Berechtigungen auf die verbleibende physische Datei an.