ComputerClub 2
Sitemap Kontakt
  Wolfgang Back & Wolfgang Rudolph
Suche:   Wolfgang Back & Wolfgang Rudolph
  Aktuelle Sendung
  Nächste Sendung
  Sendungsarchiv
  Downloads


SENDUNGSARCHIV

05.10.2009
Folge 188

Deduplication oder Deduplizierung - Kampf den Speicherfressern

Doppelte Dateien auf Festplatten sind keine Seltenheit. Mit Programmen und Strategien kann man diesen Speicherfressern auf die Spur kommen. Professionelle Systeme reduzieren den Plattenbedarf auf den Hälfte oder weniger. dazu nutzen die Hersteller verschiedenen Strategien. Lösungen für den Rechner zu Hause finden sich auch als Open Source oder Freeware Programme.


Heinz Schmitz berichtet

Diese Programme für den Arbeitsplatzrechner finden doppelte Files. Diese werden in Listen aufgeführt und es obliegt dem Anwender Sie manuell oder automatisch zu löschen. Hilfreiche Programme sind zum Beispiel Anti Twin, AllDup, dupeGuru,  AcuteFinder, Dup Detector, Filedup oder DoubleKiller. Auch in Kaufprogrammen, wie den Norton Utilities finden sich Dienstprogramme zur Optimierung des Plattenplatzes.

In den Backuplösungen von Symantec  wird die so genannte PureDisk Deduplication eingesetzt. Mit dieser Option wird sichergestellt, dass redundante Backup-Daten nur einmal innerhalb der gesamten Backup-Umgebung gespeichert werden. Setzt man solche Lösungen Firmenweit ein, können die  Datenvolumen um Faktor 50 bis 500 reduziert werden. Dabei wird während des Backupvorgangs untersucht, ob eine Datei schon vorhanden ist. Wenn ja, werden nicht die Daten gespeichert, sondern nur ein Verweis auf die schon gespeicherten Datenblöcke. Beim Zurücksichern werden dann die Files wieder vollständig auf die Platte geschrieben.

Eine andere Technik verwendet Netapp bei ihren Netzspeichersystemen. Dort werden die doppelte Dateiblöcke schon auf der Platte gefunden und durch Verweise, die so genannten Pointer, ersetzt. Einlaufende Daten werden zunächst normal abgelegt. In einem nachgelagerten Batchprozess werden die Datenblöcke, aus denen Dateien ja bestehen, untersucht und wenn sich schon vorhanden sind, werden sie durch einen Pointer ersetzt. So finden sich auf den platten Datenblöcke und Pointer, über die die Files beim auslesen in Echtzeit wieder zusammengesetzt werden. Dabei werden keinen Doppelten Dateien  gelöscht, sondern Datenblocks werden nur einmal gespeichert. Datenblocks, auf die kein Pointer mehr verweist, werden bei dem Batchlauf dann auch gelöscht. Vor allem bei virtuellen Maschinen, bei denen es viele „leere“ Blocks gibt, also solche die auf den virtuellen Platten als freier Plattenplatz angezeigt werden, ergeben sich Einsprangen von bis zu Faktor 50.

Eine Schritt weiter geht Data Domain, die nach einem Bieterkampf zwischen EMC und Netapp bei EMC gelandet sind. Hier werden doppelte Daten in Echtzeit gefunden. Beim Einlaufen der Daten werden diese in Blöcke zerlegt. Davon wird ein so genannter Hash, eine Art Quersumme, erzeugt. In einer Tabelle sind alle bis jetzt erzeugt Hashcodes gespeichert. In dieser Tabelle wird nach dem gerade berechneten Code gesucht. Ist er nicht vorhanden, wird der Datenblock gespeichert, der Hashcode wird in die Tabelle aufgenommen, zusammen mit dem Pointer, also der Adresse des Datenblocks. Ist ein Hashcode schon vorhanden, wird nur die Adresse des Datenblocks abgelegt. Eine Datei ist also nur eine Sammlung von Pointern. beim Auslesen werden die Datenblocks wieder zusammengesetzt und es entsteht wieder die Ursprüngliche Datei.

Hier noch einige Web-Adressen zu den Freeware Programmen und weiteren Informationen:

Wikipedia: http://de.wikipedia.org/wiki/Deduplizierung
Anti Twin: http://www.aidex.de/software/antitwin/
AllDup: http://www.alldup.de/
dupeGuru: http://dupeguru.softonic.de/
AcuteFinder: http://acutefinder.softonic.de/
dupDetector: http://dup-detector.softonic.de/
Filedup: http://filedup.pro.de/
DoubleKiller: http://www.bigbangenterprises.de/de/doublekiller/
Norton Utilities: http://norton-2010.com/product.php?locale=de-DE&product=nu  
PureDisk: http://www.symantec.com/de/de/about/news/release/article.jsp?prid=20070613_02
Netapp: http://www.netapp.com/de/products/platform-os/dedupe-de.html
Data Domain: /http://www.datadomain.com  


Datenerhebung außer Kontrolle

Wissenschaftler des Karlsruher Instituts für Technologie (KIT) und der Universität Regensburg haben Dienste im Internet analysiert und massive Defizite aufgedeckt. Ihr Ergebnis: Zwar existieren meist hinreichende Datenschutzgesetze, doch niemand kümmert sich darum, dass sie eingehalten werden.

In einer interdisziplinären Untersuchung des Datenschutzverhaltens von 100 Dienstanbietern im Internet ist die Forschergruppe um die
Professoren Klemens Böhm und Jürgen Kühling auf große Mängel gestoßen. Anhand verschiedener juristischer Bewertungskriterien haben die Wissenschaftler Online-Shops, Auktionsplattformen, Informationsportale und Suchmaschinen unter die Lupe genommen. Die Resultate der Studie deuten auf ein klares Vollzugsdefizit beim Datenschutz hin: "Gerade einmal fünf Anbieter von 100 verhalten sich vollständig gesetzeskonform", so Kühling. Besondere Relevanz haben die Ergebnisse der Studie bei der Diskussion um neue Gesetze. Kühling weiter: "Die Ergebnisse werfen die Frage auf, welchen Sinn neue Gesetze machen, wenn grundlegende rechtliche Anforderungen zur Wahrung des Rechts auf informationelle Selbstbestimmung praktisch nicht erfüllt werden".


Prof. Klemens Böhm

Ausgewählt haben die Wissenschaftler die untersuchten Anbieter anhand der Anzahl registrierter Nutzer, der Unternehmensgröße und der vom Anbieter adressierten Altersgruppe. Die Bewertung der Anbieter erfolgte auf der Basis des Telemediengesetzes von 2007 und des Bundesdatenschutzgesetzes.
Im Mittelpunkt der Studie stand die Frage, inwieweit es für den Kunden transparent ist, was mit seinen persönlichen Daten geschieht. "Ein Kunde sollte wissen dürfen, wer welche Daten wann zu welchem Zweck nutzt", so Professor Klemens Böhm.

Wie die Studie deutlich zeigt, ist die Realität weit von diesem Ideal entfernt. Zwar ist die obligatorische Datenschutzerklärung bei fast allen untersuchten Anbietern leicht zugänglich, doch ist ihr Inhalt oft unvollständig oder gar falsch. 31 Anbieter geben nur grob an, welche Daten erhoben werden, sechs schweigen sich diesbezüglich vollständig aus. Ein Drittel der Anbieter gibt laut der Studie keine Auskunft, wie lange die Daten gespeichert werden, 15 geben den Zweck
der Datenerhebung gar nicht erst an. Arbeitet die Technik im Verborgenen, zum Beispiel bei Cookies, Einträgen im Dateiverzeichnis von Computern, so ist es gesetzliche Vorschrift, über Art, Umfang und
Zweck der erhobenen Daten zu informieren. Ein Viertel der Anbieter macht keine Angaben zu genutzten Cookies, von den verbleibenden
Anbietern informieren nahezu alle unzureichend, einige auch falsch.

Per Gesetz erfordert die Weiterverarbeitung von Daten über den Zweck der Diensterbringung hinaus außerdem die Zustimmung des Nutzers. Dies
betrifft beispielsweise die Erstellung personenbezogener Profile. Zwar verarbeiten mehr als zwei Drittel der Anbieter Daten über die Diensterbringung hinaus, zwölf davon holen aber keine Zustimmung des Nutzers ein. 18 Anbieter weisen nicht auf das Recht hin, die Einwilligung zu widerrufen.

Untersucht haben die Wissenschaftler auch, ob der Nutzer erkennen kann, an wen seine persönlichen Daten weitergegeben werden. Laut der Studie geben mehr als zwei Drittel der Anbieter Daten weiter. Während dies in einigen Fällen zur Diensterbringung erforderlich ist, gibt mehr als ein Viertel die Gründe der Datenweitergabe nicht an. An wen die Daten überhaupt weitergegeben werden, ist bei 20 Prozent der Anbieter nicht ersichtlich.

Das Datenschutzrecht sieht vor, dass Kunden bei ihren Anbietern nachfragen können, welche personenbezogenen Daten über sie gespeichert und an wen diese weitergegeben wurden. Außerdem sollen die Daten auf Wunsch des Nutzers gelöscht werden können.

"Ein sehr nützlicher und wie die Studie zeigt, leider nur unzureichend beachteter Mechanismus", findet Jürgen Kühling. Mehr als 35 Prozent der Anbieter ignorieren die Auskunftspflicht gegenüber ihrer Kundschaft und löschen die personenbezogenen Daten nicht. Als erschreckend empfindet Klemens Böhm die Begründungen der Internetdienstleister. Einige behaupten, die Löschung der Daten sei technisch nicht möglich, andere sagen, man sei bei ihnen gar nicht registriert.


zurück zum Archiv
Anhören:


Audiodatstream
Download 128 Kbit/s (~27 MB)
Download 32 Kbit/s (~7 MB)
Ogg Vorbis 56 Kbit/s (~12 MB)
RSS Feed (Audiocast, letzte 5 Sendungen)
RSS Feed (Audiocast, alle Sendungen)

Druckversion Impressum Haftungsausschluss