Как читать большие zip-файлы в pyspark

У меня есть n файлов.zip на s3, которые я хочу обработать и извлечь из них некоторые данные. ZIP-файлы содержат один JSON-файл. В spar мы можем читать файлы.gz, но я не нашел способа прочитать данные в файлах.zip. Может кто-нибудь, пожалуйста, помогите мне, как я могу обработать большие почтовые файлы по искры, используя python. Я сталкивался с некоторыми опциями, такими как newAPIHadoopFile, но мне не повезло с ними, и я не нашел способа реализовать их в pyspark. Обратите внимание, что файлы zip>1G, некоторые из них также имеют размер 20G.

0 ответов

Другие вопросы по тегам