x-kom hosting

Wyszukiwanie i porównywanie plików PDF / wyszukiwarka duplikatów

forCeblack
utworzono
utworzono

Witam.


Szukam pilnie programu do wyszukiwania plików PDF i automatycznego ich porównywania.
Otóż mam kilkanascie tysiecy PDFow. Wiele z nich jest duplikatami w stu lub mniej %.
Potrzebuje narzedzie, ktore przeszuka mi caly komputer i wylapie mi wszystkie takie same lub podobne pdfy.

 

Wyzwanie?

 

Muszę mieć skuteczny program, nie musi być free.

 

Ktoś pomoże mi w tej kwestii?

 

Dzięki 

  • 1 miesiąc później...

MasterYoghourt
komentarz
komentarz (edytowane)

To nie jest taki pikuś. Moim zdaniem, należałoby zaprząc do tego jakąś aplikację zdolną do wyświetlania PDF w konsoli Linux. Tutaj dyskusja na ten temat: https://stackoverflow.com/questions/3570591/cli-pdf-viewer-for-linux

Następnie treść przekierować na programy typu sed lub awk. Stworzyć dla tych programów pętle, które porównują po kolei zdania z jednego dokumentu z innymi, a wyniki zapisuje w jakiejś bazie. To jest robota dla ogarniętego programisty.

Edytowane przez MasterYoghourt
BaruEM
komentarz
komentarz (edytowane)

Próbowałeś czymś takim? Nie wiem jakie dokładne filtry tam są, ale skoro można porównać różnice, to pewnie można znaleźć duplikaty.

PS. Nie wiem czy da się porównać wiele plików czy tylko 2. To już do przetestowania.

Edytowane przez BaruEM

Wciąż szukasz rozwiązania problemu? Napisz teraz na forum!

Możesz zadać pytanie bez konieczności rejestracji - wystarczy, że wypełnisz formularz.

×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Strona wykorzystuje pliki cookies w celu prawidłowego świadczenia usług i wygody użytkowników. Warunki przechowywania i dostępu do plików cookies możesz zmienić w ustawieniach przeglądarki.