Это заголовок файла / магический номер?

У меня есть 120000 файлов (на самом деле больше, это просто произвольное подмножество) неизвестного типа. Linux file не идентифицирует их (не обязательно, что они являются файлами Linux), и не делает никаких других методов, которые я пробовал. Есть только две подсказки о них, которые у меня есть на данный момент. Во-первых, я подозреваю, что используется какое-то сжатие - у меня есть метаданные, которые утверждают, что размеры файлов всегда на несколько больше, чем я наблюдаю.

Другое дело, что в 100000 из этих файлов первые 16 байтов всегда:

ff ee ee dd 00 00 00 00  01 00 00 00 00 00 00 00

Это действительно похоже на заголовок файла / магическое число для меня, но я просто не могу его разместить. Кто-нибудь знает, какие файлы это будет указывать? Кроме того, может ли кто-нибудь убедить меня, что эти подозрительно распространенные байты, безусловно, не указывают на определенный тип файла?

ОБНОВИТЬ

Я не знаю точных деталей обратного проектирования, но большинство файлов в нашем случае - это почтовые индексы после того, как первые 29(или около того) байтов игнорируются. Таким образом, на практике проблема решена (мы знаем, как обрабатывать файлы), но в теории вопрос все еще остается без ответа - я не знаю, какое приложение обычно добавляет около 29 байтов к своим zip-файлам. [Я не уверен, должен ли я оставить вопрос открытым или нет.]

1 ответ

Может быть, вы пытаетесь использовать TrID на некоторых из этих файлов
http://mark0.net/soft-trid-e.html
С сайта TrID:

TrID - это утилита, предназначенная для идентификации типов файлов по их двоичным сигнатурам. Хотя есть подобные утилиты с жестко закодированной логикой, у TrID нет фиксированных правил. Вместо этого он расширяемый и может быть обучен распознавать новые форматы быстрым и автоматическим способом.

TrID имеет множество применений: определить, какой тип файла был отправлен вам по электронной почте, помощь в проведении криминалистического анализа, поддержка в восстановлении файлов и т. Д.

TrID использует базу данных определений, которые описывают повторяющиеся шаблоны для поддерживаемых типов файлов. Поскольку это очень частое обновление, оно доступно в виде отдельного пакета. Просто скачайте TrID и этот архив и распакуйте в одну папку...
...
...

Обновить
После прочтения вашего обновления о том, что это Zip-файлы с добавленными перед ними 29 байтами, возможно, эти предварительно добавленные байты взяты из какого-то "сбоя" из-за способа получения этих файлов.

Пример 1:
Возможно, эти файлы были извлечены из резервной копии большого отдельного файла файлового сервера (например, если вы делаете резервное копирование сервера, используя NTBackup в одном файле, NTBackup может добавить некоторые данные атрибута перед данными, фактически содержащимися в файлы)

Пример 2:
может быть, эти файлы были извлечены из БД, где они хранились как объекты BLOB

Пример 3:
возможно, эти файлы были извлечены из образа RAW CD/DVD (предварительно добавленные байты могут исходить из неправильной интерпретации смещения файла / файловой системы)

Существует бесконечное количество гипотез... возможно, если вы знаете, откуда эти файлы, вы можете провести тест / проверку, чтобы проверить, есть ли утилита / программное обеспечение / инструмент / БД / сервер, который архивирует ZIP-файлы в некоторых другая структура файла / данных, предваряющая эти 29 байтов.

Другие вопросы по тегам