Как открыть подмножество большого (35MB) файла.xlsx?
У меня Ubuntu 10.04 работает на Dell Optiplex с 4 ГБ памяти и двумя процессорами 3,16 ГГц.
Я получил таблицу размером 35 МБ. Он открылся в Gnumeric через 5 минут с ошибками и не открывался в Open Office (убил через 20 минут) даже после того, как я присвоил процессу "soffice" высший приоритет (niceness = -20).
Каков наилучший способ справиться с таким файлом? Можно ли извлечь подмножество первых нескольких сотен строк, чтобы я смог разработать сценарий, который мне понадобится для анализа всего файла?
Обновить:
Функция командной строки ssconvert BigFile.xlsx BigFile.csv
выдает те же ошибки, что и Gnumeric (неудивительно, потому что Gnumeric использует ssconvert
)
1 ответ
Возможно, но вам понадобится ручная работа.
Файлы xslx на самом деле являются файлами ZIP с данными XML. ТАК просто распакуйте файл и загляните внутрь. Формат - это не то, что здравомыслящий ум легко поймет, но должна быть возможность открыть файлы листов, ищите Row
элементы и лишить все после первых нескольких сотен.
Кроме того, вы можете попробовать открыть файл с помощью Apache POI; просто дайте Java 1 ГБ оперативной памяти, и это может работать.