Это заголовок файла / магический номер?
У меня есть 120000 файлов (на самом деле больше, это просто произвольное подмножество) неизвестного типа. Linux file
не идентифицирует их (не обязательно, что они являются файлами Linux), и не делает никаких других методов, которые я пробовал. Есть только две подсказки о них, которые у меня есть на данный момент. Во-первых, я подозреваю, что используется какое-то сжатие - у меня есть метаданные, которые утверждают, что размеры файлов всегда на несколько больше, чем я наблюдаю.
Другое дело, что в 100000 из этих файлов первые 16 байтов всегда:
ff ee ee dd 00 00 00 00 01 00 00 00 00 00 00 00
Это действительно похоже на заголовок файла / магическое число для меня, но я просто не могу его разместить. Кто-нибудь знает, какие файлы это будет указывать? Кроме того, может ли кто-нибудь убедить меня, что эти подозрительно распространенные байты, безусловно, не указывают на определенный тип файла?
ОБНОВИТЬ
Я не знаю точных деталей обратного проектирования, но большинство файлов в нашем случае - это почтовые индексы после того, как первые 29(или около того) байтов игнорируются. Таким образом, на практике проблема решена (мы знаем, как обрабатывать файлы), но в теории вопрос все еще остается без ответа - я не знаю, какое приложение обычно добавляет около 29 байтов к своим zip-файлам. [Я не уверен, должен ли я оставить вопрос открытым или нет.]
1 ответ
Может быть, вы пытаетесь использовать TrID на некоторых из этих файлов
http://mark0.net/soft-trid-e.html
С сайта TrID:
TrID - это утилита, предназначенная для идентификации типов файлов по их двоичным сигнатурам. Хотя есть подобные утилиты с жестко закодированной логикой, у TrID нет фиксированных правил. Вместо этого он расширяемый и может быть обучен распознавать новые форматы быстрым и автоматическим способом.
TrID имеет множество применений: определить, какой тип файла был отправлен вам по электронной почте, помощь в проведении криминалистического анализа, поддержка в восстановлении файлов и т. Д.
TrID использует базу данных определений, которые описывают повторяющиеся шаблоны для поддерживаемых типов файлов. Поскольку это очень частое обновление, оно доступно в виде отдельного пакета. Просто скачайте TrID и этот архив и распакуйте в одну папку...
...
...
Обновить
После прочтения вашего обновления о том, что это Zip-файлы с добавленными перед ними 29 байтами, возможно, эти предварительно добавленные байты взяты из какого-то "сбоя" из-за способа получения этих файлов.
Пример 1:
Возможно, эти файлы были извлечены из резервной копии большого отдельного файла файлового сервера (например, если вы делаете резервное копирование сервера, используя NTBackup в одном файле, NTBackup может добавить некоторые данные атрибута перед данными, фактически содержащимися в файлы)
Пример 2:
может быть, эти файлы были извлечены из БД, где они хранились как объекты BLOB
Пример 3:
возможно, эти файлы были извлечены из образа RAW CD/DVD (предварительно добавленные байты могут исходить из неправильной интерпретации смещения файла / файловой системы)
Существует бесконечное количество гипотез... возможно, если вы знаете, откуда эти файлы, вы можете провести тест / проверку, чтобы проверить, есть ли утилита / программное обеспечение / инструмент / БД / сервер, который архивирует ZIP-файлы в некоторых другая структура файла / данных, предваряющая эти 29 байтов.