Было бы здорово отправить большой файл в AWS EC2

Фон:

Я некоторое время боролся за установку сервера rstudio на AWS EC2 (с ноября). Это было похоже на отслоение лука, всегда очередное препятствие. Для пользователей Windows документация по AWS, которую они публикуют сами, ужасна. Мне удалось создать экземпляры rstudio, но у меня возникли проблемы, на которые, я уверен, есть простые ответы, но мне не повезло в их разработке, и я пробовал много вещей. Я просто пытаюсь загрузить файл в rstudio, прочитать его и сохранить где-нибудь. Рассматривая чтение в файле сначала, у меня были следующие проблемы.

Чтение в файл:

Кнопка загрузки не принимает большие файлы. Для небольших файлов это работает нормально, но все, что требует анализа сервера, не работает через эту кнопку. Я также попробовал через четыре разных браузера, чтобы увидеть, если это проблема браузера, это не так. Небольшие файлы работали без проблем (например, 40 КБ).

Помещение файлов в dropbox и затем синхронизация с rstudio не работали. Синхронизация была хороша для небольших файлов (например, 200 КБ), но файлы ГБ не появлялись или были повреждены.

Я попытался соединиться через Winscp и filezilla через putty. Это был успешный запуск команд

sudo chown -R ubuntu /home/rstudio

sudo chmod -R 755 /home/rstudio

и я мог бы загрузить в rstudio. К сожалению, после этого момента я больше не мог получить доступ к экземплярам. Я мог получить к ним доступ через AWS, но не смог пройти мимо экрана входа в rstudio. Я пробовал это много раз, перезапускал и во многих разных случаях. Я также нанял фрилансера, чтобы он помог мне, и он выполнил несколько других команд, копию которых я сохранил для доступа к rstudio таким же образом. Успешно файлы могли быть загружены (хотя и очень медленно), но затем доступ к входу в систему через браузер к экземпляру больше не был доступен, поэтому эффективно он забрал мои экземпляры (я мог запускать экземпляры, только не запускать rstudio).

Я также пробовал код в замазке, такой как

rsync -avz myHugeFile.csv amazonusername@my.amazon.host.ip:

Но может случиться так, что я не знал, как разместить myHugeFile.csv на моем компьютере (хотя я много чего пробовал), но это не сработало.

Мне удалось загрузить в папку tmp на корневом диске AWs EC2 и затем можно использовать замазку для перемещения файлов, но загрузка файла 10 ГБ заняла 36 часов. Я думаю, что это не нормально. Когда файлы приходят, они намного меньше, чем они были изначально, и они были повреждены.

Я использую AMI от louis aslett на rstudio, который вы получаете, если при настройке своего экземпляра вы вводите rstudio в разделе AMI сообщества на платформе amazon.

Это не проблема размера экземпляра, так как у нас были большие инстансы объемом 244 ГБ, а в основном 120 ГБ.

Если есть возможность загружать большие файлы в dropbox и получать их с сервера rstudio, это было бы здорово (на данный момент синхронизируются только маленькие файлы). Или возможность использовать кнопку загрузки. Или почти любое решение было бы потрясающим. Я создал корзину S3, так как это может быть проще, я подозреваю, что amazon может ограничить возможность загрузки в EC2 по другим маршрутам. Но это кажется мне безумным.

Пожалуйста, дайте мне знать, если у вас есть какие-либо мысли о том, чтобы заставить работать любой из этих шагов.

1 ответ

Хорошо, так что я понял, что здесь происходит. Размер домашнего каталога по умолчанию для AWS составляет менее 8-10 ГБ независимо от размера вашего экземпляра. Так как это пыталось загрузить на дом, тогда не хватило места. Опытный пользователь Linux не попал бы в эту ловушку, но, надеюсь, это увидят другие пользователи Windows, не знакомые с этой проблемой. Если вы загрузите на другой диск экземпляр, это можно решить. Поскольку Louis Aslett Rstudio AMI базируется на этом пространстве объемом 8-10 ГБ, вам придется установить свой рабочий каталог вне этого, домашнего каталога. Неочевидно из интерфейса сервера Rstudio. Хотя это продвинутый форум и это ошибка новичка, я надеюсь, что никто не удалит этот вопрос, поскольку я потратил месяцы на это, и я думаю, что кто-то еще тоже. Если у кого-то есть лучший способ обойти это, пожалуйста, не стесняйтесь добавлять его:)

Другие вопросы по тегам