Как запустить mogrify для 3 миллионов файлов JPG?

У меня есть 3 миллиона файлов JPG, хранящихся на сервере Linux CentOS 6.

Я хочу изменить качество на%50 размер файла более 1 мегабайта. Я написал эту команду, но получил ошибку "список аргументов слишком длинный":

$ find -type f -name "*..jpg" -size +1M | xargs mogrify -quality 50 *.jpg
bash: /usr/bin/xargs: Argument list too long

Как я могу изменить качество миллионов файлов?

4 ответа

xargs поддерживает -n аргумент, чтобы ограничить количество аргументов, передаваемых тем, что он вызывает:

find -type f -name '*.jpg' -size +1M -print0 | xargs -0 -n1 mogrify -quality 50

Это запустит mogrify один раз за изображение. Так как mogrify может обрабатывать только один файл за раз, это путь.

Когда используешь find а также xargsвам не нужно называть файлы для xargs, Он получит список файлов из find:

find -print0 -type f -name '*.jpg' -size +1M | xargs -0 -n100 mogrify -quality 50

-n100 обработает изображения на 100 с. -print0 а также -0 заставит трубу работать, даже если имена файлов содержат пробелы.

Вы также можете позвонить mogrify непосредственно из поиска, в идеале, если он поддерживает + окончание для exec:

find  -type f -name '*.jpg' -size +1M -exec mogrify -quality 50 {} +

Кроссплатформенное решение с Python+convert: оно преобразует все PDF-файлы текущего каталога в PNG-файлы (вы можете изменить на JPG, если хотите) многопоточно.

from __future__ import print_function
import os
import glob
import multiprocessing      

def convert_to_png(pdf_filepath):
    '''
    Convert PDF file to PNG file
    '''
    png_filepath = '{0}.png'.format(pdf_filepath[:-4])
    print('pdf_filepath: {0}'.format(pdf_filepath))
    print('png_filepath: {0}'.format(png_filepath))
    command = 'convert -background white -alpha off -geometry 1600x1600 -density 200x200 -quality 100 -resize 800x {0} {1}'.format(pdf_filepath, png_filepath)
    print(command)
    os.system(command)

def main():
    pdf_filepaths = glob.iglob(os.path.join('.','*.pdf'))
    pool = multiprocessing.Pool(processes=4)
    pool.map(convert_to_png, pdf_filepaths)
    pool.close()
    pool.join()   
    print('done')

if __name__ == "__main__":
    main()
    #cProfile.run('main()') # if you want to do some profiling

Для этого требуется установить Imagemagick и Ghostscript. Работает на Linux/Mac OS X/Microsoft Windows.

Если вы предпочитаете добавлять имя файла на каждом изображении, вы можете заменить команду в convert_to_png() от:

command = 'convert  -background white -alpha off -geometry 1600x1600 -density 200x200 -quality 100 -annotate +50+50 {2} -resize 800x {0} {1}'.format(pdf_filepath, png_filepath, os.path.basename(pdf_filepath))

(См. -Аннотировать документацию)

Как упоминалось в SO, вы также можете сделать:

$ find -type f -name "*..jpg" -size +1M > my_jpeg.txt
$ mogrify -quality 50 @my_jpegs.txt
Другие вопросы по тегам