Проблема с разархивированием дампа Википедии
Мой вариант использования: мне нужно проанализировать текст из статей в Википедии. По адресу https://dumps.wikimedia.org/enwiki/20221001/ доступен дамп , содержащий нужные мне файлы. По сути, статьи разбиваются на несколько пар сжатых файлов: XML-документ, состоящий из подмножества статей Википедии, и текстовый файл, содержащий метаданные, относящиеся к XML-документу. Обычно XML-документы сжаты до 200 МБ, а текстовые файлы — менее 1 МБ.
Например, вот пара файлов на странице дампа, упомянутой выше:
enwiki-20221001-pages-articles-multistream1.xml-p1p41242.bz2 251.7 MB
enwiki-20221001-pages-articles-multistream-index1.txt-p1p41242.bz2 221 KB
Используя WinZip (пробную версию), я могу извлечь текстовые файлы. Однако когда я пытаюсь извлечь XML-файл из файла статей, WinZip сообщает, что файл поврежден, и предлагает сохранить то, что удалось извлечь. Независимо от того, какой сжатый XML-файл я пытаюсь извлечь, он всегда сохраняет один и тот же объем — примерно 3 КБ.
Я подумал, что проблема может быть в размере файла, поэтому я сжал файл размером 4 ГБ и попытался извлечь его, и это сработало.
Я не уверен, куда идти с этим.