Пользуется ли Hadoop только одним диском?

Если я использую настройки одного узла с Hadoop где он имеет только один диск, я могу легко использовать его для Hadoop и прочее, но будет ли какая-то польза от использования Hadoop в этом случае по другой парадигме (обработка в Python без использования mapreduce и т. д.)

2 ответа

Преимущество Hadoop заключается в том, что он использует распределенную файловую систему (HDFS) и модель распределенного программирования (MapReduce). Обработка не может быть распараллелена в одном узле кластера с одним диском, поэтому - из-за накладных расходов Hadoop - более простые парадигмы, вероятно, будут быстрее.

Даже при использовании полноценного кластера вы не увидите преимущества Hadoop, если набор дат слишком мал или алгоритм не подходит для распределенной обработки (например, поиск медианного значения).

Hadoop полностью основан на распределенной файловой системе (HDFS), и здесь кроется настоящая сила.

Но в то же время важно изучить структуру и понять ее компоненты. Именно поэтому Hadoop предлагает 3 режима установки.

Отвечая на ваш точный вопрос, один диск не извлекает выгоду из HDFS-части hadoop. Но опять же это поможет в понимании MapReduce Компонента Hadoop.

Если у вас есть система настройки goof, я бы предложил перейти к настройке псевдо-кластера, чтобы две виртуальные машины взаимодействовали друг с другом.

Другие вопросы по тегам