Ich habe bei meinem Nebenjob die tolle Aufgabe bekommen, Dateien miteinander vergleichen. Bzw. wir müssen es, da wir bei Abrufen bei Drittanbietern ggf. die gleiche Datei mehrere Male bekommen können. Das i-Tüpfelchen dabei ist, dass es sich dabei meistens um nicht gerade kleine PDF's handelt. Hat jemand damit Erfahrung und weiß vllt. einen effizienten Weg? Ich dachte daran, die Dateien Chunk-Weise einzulesen und dann Byte-Weise zu vergleichen. Dann spare ich mir zumindest einen Riesen-Batzen Speicher, da ich immer nur einen Chunk von, sagen wir, 4096 Bytes habe, dessen Speicher ich ja auch wiederverwenden kann.
Allerdings haben wir festgestellt, dass PDF's mindestens zwei Stellen haben, an denen sie sich immer unterscheiden: Die Meta-Informationen von \Creation-Date und \ID die noch dazu (meines Erachtens jedenfalls) irgendwie mitten in der Datei stehen. Deswegen ist der Quick-and-Dirty Weg zur Zeit, die komplette Datei einzulesen, die besagten Stellen mittels eine Regex zu ermitteln und zu eliminieren und dann den Rest zu vergleichen. Leider fällt mir derzeit auch keine wirklich bessere Idee ein. Hat jemand einen klugen Ansatz?
Der einfachste Weg eine Kopie zu entfernen ist sie zu löschen.
- Stephan Schmidt -