Datensicherung für Fotografen

Die traurige Wahrheit gleich vorweg: Datenträger sind nicht unfehlbar. Festplatten sind nicht unfehlbar, SD-Karten sind nicht unfehlbar, optische Datenträger wie CDs, DVDs, BluRays etc. sowieso nicht und selbst Magnetbandspeicher wie LTO-Tapes halten nicht ewig. Headcrashes, ausgefallene Controller, beschädigte Dateisysteme, langsam verrottende Metalloxidschichten und Entmagnetisierung machen den Speichern zu schaffen und verursachen den sogenannten "bit rot", also willkürlich "verrottende" Bits, die irgendwann dazu führen, dass eine Datei nicht mehr lesbar ist. Wer digital fotografiert, für den sind seine Fotos aber nicht nur schöne Erinnerungen, sondern oft genug auch ihr Kapital. Grund genug, sich einmal genauer über Datensicherung Gedanken zu machen. Ich werde wieder versuchen, alles so zu erklären, dass auch Nicht-Techniker mitkommen und so die Möglichkeit bekommen, eine eigene Datensicherung umzusetzen. Für Fragen stehe ich aber gerne in den Kommentaren oder auf Twitter zur Verfügung.

 

Hard disk head crash
Headcrash bei einer Festplatte (Foto: Heinrich Pniok alias Alchemist-hp (www.pse-mendelejew.de) (Own work) [CC-BY-SA-3.0], via Wikimedia Commons)

Hardware

Zuerst wollen wir uns die Möglichkeiten der Hardware einmal ansehen. Je nach Größe des Geldbeutels, Backup-Strategie und persönlicher Vorliebe hat man hier mehrere Möglichkeiten:

Interne Festplatten

Wenn im heimischen PC noch Einschübe frei sind und das Mainboard des Computers noch über entsprechende Steckplätze verfügt, kann man sich einfach beim Elektronikhändlers seines Vertrauens eine neue Festplatte kaufen. Diese schraubt man sich in das PC-Gehäuse, schließt Daten- und Stromkabel an, erstellt eine neue Partition (für die Linux-User: mountet die Festplatte an einen beliebigen Mountpunkt), formatiert sie und schon kann es los gehen. Wer sich nicht scheut, die Seitenverkleidung seines Computers zu öffnen und ein paar Schrauben einzuschrauben, für den ist eine neue interne Festplatte eine preisgünstige Möglichkeit, freien Speicherplatz für die Datensicherung zur Verfügung zu stellen.

Externe Festplatten

Sollte das PC-Gehäuse schon voll sein, alle Anschlüsse schon belegt sind oder man ganz einfach ein Notebook benutzen, dann sind interne Festplatten keine Option. Stattdessen kann man sich die entsprechende Technik im eigenen Gehäuse auch als externe Lösung kaufen und per USB, eSATA, Firewire, Thunderbolt etc. an den Rechner anschließen. Der PC wird die Festplatte dann in den meisten Fällen automatisch als Laufwerk zur Verfügung stellen, so dass man bequem darauf zugreifen kann.

Externe Festplatten sind in allen möglichen Größen, Speichervolumina und Schnittstellen erhältlich, so dass jeder das richtige Modell für sich finden kann. Sie haben jedoch den Nachteil, dass sie meist mehr bewegt werden oder auch zu selten verwendet werden und deshalb meist eher ausfallen als eine interne Festplatte. Außerdem gehen die Kabelanschlüsse oft schnell kaputt, so dass eine externe Festplatte schnell mehr Kummer verursachen kann, als sie Vorteile bringt. Dazu kommt, dass durch ihre einfache Ausführung die mögliche Speichergröße auf das Volumen einer einzigen Festplatte (derzeit bis zu 4TB) begrenzt ist.

NAS-Systeme

Wer gehobene Ansprüche an seine Datensicherung stellt, sollte die Anschaffung eines Network Attached Storage (NAS, engl. für "Speicherlösung mit Netzwerkanschluss") erwägen. Darunter versteht man im Heimbereich Geräte mit zwei bis fünf Festplatten, die in einem eigenen Gehäuse verbaut sind und als separates Gerät an den heimischen Internetrouter angeschlossen werden. Dadurch kann jeder Computer, jedes Notebook und jedes Mobilgerät im Netzwerk auf die Daten in diesem Gerät zugreifen. Die Festplatten sichern sich dabei wahlweise gegenseitig gegen Ausfälle ab, so dass auch bei einem Defekt einer einzelnen Festplatte im Gerät keine unmittelbare Gefahr für die Daten besteht. Diese Geräte sind jedoch durch die Mehrfachausführung ("Redundanz") und die zusätzliche Technik auch teurer als einzelne Festplatten. Dafür bieten sie gesteigerte Sicherheit, hohe Zugriffsgeschwindigkeiten auch für mehrere Teilnehmer und große Speichergrößen bis zu derzeit ca. 16TB. Außerdem sind die Daten immer zugreifbar, unabhängig davon, ob gerade ein bestimmter PC läuft.

 

IMG_7663
Festplatten in einem professionellen Speichersystem

 

Webspace / Cloud / ownCloud / ...

Sofern man ein paar Gigabyte Webspace sein Eigen nennt, kann man natürlich immer auch seine Daten außerhalb lagern. Entweder lädt man dafür die Daten klassisch per FTP-Client (File Transfer Protocol, engl. für "Dateiübertragungsprotokoll") hoch oder nutzt einen der zahlreichen Clouddienste wie Tresorit oder Dropbox (bitte unbedingt verschlüsseln!). Meist ist hier zwar der Speicherplatz ziemlich eingeschränkt, kann jedoch für ein paar Euros im Monat erweitert werden.

IT-affinere Menschen können auf ihrem Webspace auch ownCloud installieren. Das ist eine freie Software ("frei" sowohl wie in "freie Rede" als auch wie in "Freibier"), die wie andere kommerzielle Anbieter Clouddienste zur Verfügung stellt. So kann man in erster Linie seine eigenen Dateien hochladen, aber auch Kontakte, Kalendereinträge, Memos und Anderes in der Cloud speichern, ohne den Nachrichtendiensten den Zugriff darauf zu einfach zu machen.

Bei allen Cloudlösungen gilt, dass man einen Highspeed-Internetanschluss sein Eigen nennen sollte, damit die Dateiübertragungen einigermaßen schnell vor sich gehen.

 

Software

Für diejenigen, die Adobe Photoshop Lightroom einsetzen, gibt es immerhin eine gute Nachricht: Lightroom sichert wöchentlich den Bilderkatalog und schreibt eine komplette Kopie auf die Festplatte. Sollte der aktuelle Katalog also einen Defekt erleiden, kann man immerhin den Stand von vor einer Woche wiederherstellen. Damit ist immerhin ein Schritt in die richtige Richtung getan. Die gesicherten Kataloge kann man dann auf einem separaten Speichermedium sichern.

NAS-Systeme bringen oft eigene Softwarelösungen zum Erstellen von Sicherungen mit. Diese haben den Vorteil, dass sie bereits auf die Hardware zugeschnitten sind und oft Zusatzfunktionen mitbringen.

Auch die Hersteller der meisten aktuellen Betriebssysteme bringen von Haus aus Werkzeuge zur Datensicherung mit. Ab Windows 7 gibt es das Werkzeug "Sichern und Wiederherstellen" in der Systemsteuerung, mit dem man regelmäßige Sicherungen auf separate Medien planen kann, Mac OS X bietet Sicherungen per Time Machine und unter Linux kann man einfache Sicherungen schon mit rsync und Cron planen.

Wem diese Optionen nicht zusagen, für den gibt es im Internet zahlreiche freie und kommerzielle Backuplösungen.

Sicherungskonzepte

Egal für welche Backup-Strateegie man sich jedoch entscheidet, es müssen letztendlich immer mindestens zwei Kopien der zu sichernden Daten entstehen. Es reicht also nicht, die Daten zu sichern und dann vom Originaldatenträger zu löschen.

Full Backup

Bei einem Full Backup (engl. für "Vollsicherung") wird per se alles gesichert, was sich in einem bestimmten Speicherbereich (z. B. ein Laufwerk, eine Partition, ein Ordner, ...) befindet. Dabei wird nicht berücksichtigt, wie alt eine bestimmte Datei in diesem Speicherbereich ist oder wie oft sie schon gesichert wurde. Entsprechend groß ist auch der Speicherbedarf für solche Sicherungen. Dafür kann man aber sicher sein, dass alle Daten in Sicherheit sind.

FullBackupSchema

Incremental Backup

Incremental Backups (engl. für "inkrementelle Sicherung") können nicht für sich allein funktionieren. Um ein inkrementelles Backup durchzuführen, muss es bereits ein Full Backup geben. Von diesem Full Backup aus prüft man, welche der gesicherten Dateien sich seit der Sicherung geändert haben, und sichert nur diese Dateien (oder sogar nur Dateiteile). Die folgenden inkrementellen Backups sichern dann jeweils nur die Änderungen seit dem vorhergehenden inkrementellen Backup. Mittels geeigneter Software kann man später das Full Backup und die inkrementellen Backups wieder zusammensetzen, um Dateien oder ganze Ordner wieder herzustellen oder einfach Platz zu sparen. Dazu braucht man aber zwingend ALLE inkrementellen Backups, weil nur alle zusammen wieder einen konsistenten Zustand ergeben.

InkBackupSchema

Differential Backup

Differential Backups (engl. für "differenzielle Sicherung") funktionieren so ähnlich wie inkrementelle Backups. Man sichert zuerst ein Full Backup und macht nach einiger Zeit ein differenzielles Backup. Dieses Backup enthält wieder nur die Änderungen seit dem Full Backup. Alle folgenden differenziellen Backups bilden jedoch nicht die Änderungen seit dem vorhergehenden differenziellen Backup ab, sondern alle Änderungen seit dem letzten Full Backup. Dadurch vergrößert sich zwar der Speicherbedarf, weil mit jedem differenziellen Backup alle Änderungen seit dem letzten Full Backup gespeichert werden müssen, dafür sind aber für eine Wiederherstellung nur das Full Backup und genau ein differenzielles Backup nötig.

DiffBackupSchema

Wie hält man die Datenmenge klein?

Je nach verfolgter Backup-Strategie kann das Datenvolumen schnell bedrohlich anwachsen und das Sicherungslaufwerk füllen. Außerdem dauert die Sicherung natürlich auch länger, je mehr Daten gesichert werden müssen. Daher sollte man sich ggf. darüber Gedanken machen, wie man die zu sichernde Datenmenge möglichst klein hält.

So könnte man beispielsweise nur bestimmte Dateitypen in die Sicherung einschließen. Dafür bieten sich die digitalen Negative an. Außerdem ist es unter Umständen ratsam, nur die Dateien zu sichern, die man auch bearbeitet hat, und alle aussortierten Dateien nicht mit zu sichern. Das DNG-Format, das ich bereits in Kleine Formatlehre und  in RAW – oder “Warum sich der zusätzliche Aufwand digitaler Negative lohnt” beschrieben hatte, bringt von sich aus bereits ZIP-Kompression mit, so dass die Dateigrößen sich im Rahmen halten, und auch PNG- oder TIFF-Dateien kann man mit verlustfreier Kompression abspeichern. Einen zusätzlichen Vorteil bieten die in DNG eingebauten Prüfsummen, mit denen man jederzeit prüfen kann, ob die Datei vielleicht beschädigt wurde.Einige Backup-Programme bieten zusätzlich auch an, das komplette Backup zu komprimieren. Kompression spart zwar einerseits einigen Speicherplatz, macht aber die Daten immer auch anfälliger für Beschädigungen, weil dann ganze Blöcke von Bytes von der Beschädigung betroffen sind.

Was ist KEIN Backup?

Es gibt einige Technologien, die landläufig oft als Backup-Möglichkeiten aufgeführt werden, aber eigentlich kein Backup darstellen. Auch wenn sie durchaus die Sicherheit erhöhen können und daher ihre Berechtigung haben, können sie ein echtes Backup NICHT ersetzen.

Die bekannteste dieser Technologien ist sicherlich RAID (Redundant Array of Independent Disks, engl. für "Redundante Anordnung unabhängiger Festplatten"). Dabei werden mehrere Festplatten zu einem Verbund zusammengeschlossen und die Daten zusammen mit künstlicher Redundanz über alle beteiligten Festplatten verteilt. Damit können zwar wirkungsvoll Hardwareausfälle abgefangen werden, weil aus den verbleibenden Festplatten die Daten rekonstruiert werden können; Schäden am Dateisystem oder die versehentliche Löschung einer Datei kann aber auch RAID nicht verhindern.

Ähnlich verhält es sich mit synchronisierten Ordnern: die Dateien in diesen Ordnern liegen zwar mehrfach vor, Beschädigungen oder Löschungen werden aber gnadenlos über alle Kopien repliziert.

Digitale Negative sichern für Paranoide

Die oben beschriebenen Methoden mögen für die üblichen Sicherheitsbedürfnisse von Privatpersonen oder auch Kleinunternehmern ausreichen. Anwender mit einem höheren Sicherheitsbedürfnis können aber noch weiter gehenden Aufwand treiben, um die Sicherheit der eigenen Daten zu erhöhen.

Zuerst einmal reichen zwei Kopien nicht aus, um im Fehlerfall automatisiert festzustellen, welche Datei beschädigt und welche intakt ist. Dazu benötigt man immer mindestens drei Kopien, so dass es immer eine Mehrheit an korrekten Dateien gibt. Wenn man will, kann man sich dafür zwei NAS-Systeme anschaffen, von denen man z. B. eines im Ladengeschäft neben den Router und eines zu Hause aufstellt und, eine schnelle Internetverbindung vorausgesetzt, die Daten "off-site", also geographisch von den Produktivdaten getrennt, aufbewahrt.

Auch die Auswahl der Dateiformate hat Einfluss auf die Datensicherheit. DNGs, die digitalen Negative nach Adobe-Spezifikation, besitzen interne Speicherfelder ("Attribute") für Prüfsummen, mit denen man die Unversehrtheit der Rohdaten überprüfen kann. Diese Attribute heißen "RawImageDigest" und "OriginalRawFileDigest" und enthalten MD5-Prüfsummen zu den DNG-Rohbilddaten bzw. den Rohbilddaten aus der proprietären RAW-Datei (Näheres in der Spezifikation auf Seite 62ff.). Sollte entweder die Prüfsumme oder aber der Datenteil (oder auch beide) beschädigt werden, dann passt die gespeicherte Prüfsumme nicht mehr zur frisch Berechneten und man sieht sofort, dass etwas nicht stimmt. Dann sollte die Datei aus einer Sicherung wiederhergestellt werden. Software wie Lightroom würde die Prüfsummen beim Öffnen der Dateien überprüfen, aber mit dem Perl-Modul Image::ExifTool kann man, Programmierkenntnisse vorausgesetzt, direkt auf die Prüfsummen zugreifen und sich so automatisierte und maßgeschneiderte Lösungen selbst bauen.

Die internen DNG-Prüfsummen decken ausschließlich den Rohdatenteil der Datei ab. Was aber, wenn man die Integrität der ganzen Datei überprüfen oder Dateien ablegen will, die keine Prüfsummen unterstützen? In diesem Fall hat man zwei Möglichkeiten. Bevorzugt sollte man ein Dateisystem einsetzen, das regelmäßig Prüfsummen mitführt und überprüft, wenn die Systemlast es zulässt. Hier empfiehlt sich ZFS, das unter anderem vom BSD-basierten Betriebssystem FreeNAS unterstützt wird. Steht einem diese Option nicht zur Verfügung kann man sich, auch hier Programmierkenntnisse vorausgesetzt, mit ein wenig Mühe auch selbst behelfen. Dazu schreibt man ein Perl-Script, das über alle zu sichernden Dateien ordnerweise die Prüfsummen berechnet und diese zeilenweise nach dem Muster "Dateiname.ext md5summe" in eine separate Datei schreibt. Diese Prüfsummendatei wird zusammen mit den eigentlichen Nutzdaten gesichert. Will man die Dateiintegrität prüfen, liest man einfach die Prüfsummendatei zeilenweise wieder aus und überprüft für jede Datei die Prüfsummen.

Die errechneten Prüfsummen sollten in jedem Fall regelmäßig geprüft werden, um Ausfälle frühzeitig zu erkennen. Prüft man zu selten, bemerkt man womöglich den drohenden Datenverlust nicht, bis es zu spät ist. Prüft man jedoch zu häufig, belastet man die Speichermedien unnötig und treibt die Systemlast in die Höhe. Hier muss jeder für sich eine geeignete Balance finden. Langzeitarchivierungsprojekte gehen derzeit von Prüfintervallen zwischen einem und sechs Monaten aus.

 

IMG_7668
LTO-Magnetbänder und Bandroboter in einer professionellen Tape Library

 

Komplettkonzept

Zum Abschluss möchte ich ein kleines Backupkonzept vorstellen, wie ich es in meiner eigenen Umgebung demnächst umsetzen möchte. Ich arbeite hier mit einem Desktop-PC und einem Netbook in einem 100MBit-Ethernet-Netzwerk. Der Desktop-PC hält derzeit alle Fotos gemeinsam auf der gleichen Partition in einem Ordner mit Unterordnern, die über ihren Dateinamen nach dem Datum sortiert sind. Die darunter liegende Festplatte ist 3TB groß und momentan noch relativ neu, so dass sich die Angst vor Datenverlusten momentan fahrlässigerweise noch in Grenzen hält. Ich habe außerdem noch eine zweite Festplatte mit einer Partition, die alle meine Fotos fassen könnte. Über das Netzwerk könnte ich die Daten außerdem auch auf einem NAS-Gerät speichern, das ich aber noch nicht besitze.

Der erste Schritt wäre also, die geplante Backup-Partition frei zu räumen und über das Windows-Sicherungswerkzeug ein monatliches Vollbackup (im Sinne von "immer nach 30 Tagen") meines Fotoverzeichnisses auf diese Partition einzurichten. Bei meinem Datenaufkommen sollte ein häufigeres Vollbackup nicht nötig sein.

Im zweiten Schritt würde ich, um Speicherplatz zu sparen, ein inkrementelles Backup einrichten, das beispielsweise alle 3 Tage läuft.

BackupKonzept

Außerdem wäre im dritten Schritt natürlich noch der Lightroom-Katalog zu sichern, der auf einer dritten Partition liegt und von Lightroom selbst schon regelmäßig gesichert wird. Da dieser Katalog relativ klein ist, würde ich hier ein wöchentliches Vollbackup der aktuellen Katalogdatei und der von Lightroom gesicherten Vorgängerversion einrichten.

Wenn man ein NAS oder einen zweiten PC mit ausreichend Speicher zur Verfügung hat, kann man jetzt noch für mehr Sicherheit das Backup auf das NAS kopieren.

Der letzte Schritt ist, sein Backup auch zu testen. Unter IT-Fachleuten kursiert der Spruch: "Ein Backup nützt dir gar nichts, wenn der Restore nicht klappt.". Das heißt, dass man natürlich sichergehen sollte, dass die Datenwiederherstellung so funktioniert, wie man sie ursprünglich geplant hat. Dazu kann man einfach einen kleinen Teil der Daten aus dem Backup in einen temporären Ordner wiederherstellen und überprüfen, ob alles gut gegangen ist.

Fazit

Sicher gibt es einiges, das man beim Thema Datensicherung falsch machen kann. Der größte Fehler wäre jedoch, gar nicht erst anzufangen.

3 Gedanken zu „Datensicherung für Fotografen“

  1. Danke für den Beitrag.
    ZFS ist natürlich spannend, ich hatte aber noch nie die Gelegenheit/das Bedürfnis ein BSD aufzusetzen :)

    Ich lade alle Bilder immer direkt auf meinen Server (von den Handys direkt, DSP dann manuell spaeter).
    Da mein Heim-NAS ein Linux ist und auch Cronjobs beherrscht, lasse ich dort taeglich einen Rsync-Cron laufen, der dann inkrementell ja nur recht wenig machen muss.
    Damit habe ich ein recht gutes Gefühl was die Bilder angeht :)
    Dokumente in der Owncloud und genauso auf das NAS synchronisiert. Weitere relevante Daten besitze ich dann eigentlich nicht.

    Mit Rsnapshot hatte ich auch mal experimentiert, das mittels Hardlinks z.B. tägliche, wöchentliche, monatliche Backups speichersparend anlegt. Für Bilder sehe ich da aber keinen Anwendungsbedarf, da ja i.d.R. nur Sachen dazukommen, selten alte Bilder bearbeitet werden.

    Jeder sollte sich fragen: Was ist wenn mein Computer/Laptop plötzlich kaputt oder gestohlen ist? Und dementsprechend vorbereitet sein.

    1. Danke für das Kommentar ^^
      Bei mir sieht das Ganze ein bisschen aus, weil ich im Wesentlichen nur Windows-PCs im Netzwerk habe. Hier wird wohl (ich bin da noch beim Einrichten) Robocopy meine Daten auf ein CIFS-Share auf dem NAS sichern. Da meine Uploadbandbreite ins Internet eher schmal ist, kommt für mich die Sicherung größerer Datenmengen auf ownCloud bei meinem Hoster nicht in Frage.
      Wenn du mal das Bedürfnis hast, einen Blick auf ein BSD zu werfen, weißt du ja jetzt, wo du hinkommen musst ;-)

Kommentare sind geschlossen.