Fuzzy Duplicate File Finder?

Существует ли какое-либо приложение с графическим интерфейсом (для Windows или Linux), которое реализует алгоритмы нечеткого хеширования, такие как ssdeep или sdhash, чтобы найти рядом дублирующиеся файлы (в основном текстовые файлы)?

3 ответа

Вы можете попробовать возле поиска дубликатов. Это не совсем то, что вы просите, но оно основано на Java, поэтому оно будет работать на любой платформе, где работает Java (включая Windows, OS X и Linux). У него нет графического интерфейса, но он найдет почти одинаковые текстовые файлы, такие как TXT, DOC, HTML, PDF и т. Д.

Пример использования

Near Duplicates Finder v.0.1.0
Usage: java com.softcorporation.neardup.DuplicatesFinder parameters ...

Parameters format: -parameter [value]
    -start filename[,filename]  directory / file(s) to search for duplicates (mandatory)
    -report filename            report file (by default report goes to ./report.log file)
    -score                      the score to report the duplicate (default is 0.6)
    -onlynew                    find the duplicates only for new documents
    -gram                       number of words in a phrase
    -purge                      clear files list from past runs
    -db                         location of db directory with files list
    -delete criteria            remove duplicates by criteria (old, new, small, large)
    -deletepath pattern         remove only matching pattern files (mandatory for delete)
    -verbose                    display progress information (on standard output)

Example: Find duplicates from text files in directory 'docs' and save report in 'report.log'
    java com.softcorporation.neardup.DuplicatesFinder -start docs -report report.log

For more information visit web site: http://www.softcorporation.com/products/neardup

Я нашел SSDeepFE для ssdeep.

Кроме того, sdhash, похоже, имеет веб-интерфейс, но он пока не очень полезен.

Я думаю, что это искатель дубликатов файлов, который вы ищете. Существует режим сходства, который очень хорошо работает и с файлами исходного кода (текстовыми файлами), но он доступен в коммерческой версии PRO.

Другие вопросы по тегам