Скачивание Википедии

Как я могу загрузить определенный набор базы данных Википедии? В частности, я заинтересован в загрузке всех статей, которые попадают под портал математики и, возможно, портал компьютерных наук. Как я могу это сделать?

4 ответа

Вы можете использовать программу под названием Kiwix, которая действительно проста в использовании.

РЕДАКТИРОВАТЬ

Википедия предоставляет инструмент для извлечения подмножества его контента. Вы можете найти "Математика" здесь, а затем экспортировать каждую статью в этой категории. Вы получите файл.xml, который вы можете просмотреть с помощью одного из перечисленных здесь инструментов.

Вы можете использовать Media Wiki API.

Вы можете взять *-pages-articles.xml.bz2 с сайта Викимедиа сделайте резервную копию дампов и обработайте их с помощью WikiTaxi (скачать в левом верхнем углу). Wikitaxi Import tool создаст .taxi (около 15 Гб для Википедии) файл из .bz2 файл. Этот файл будет использоваться программой WikiTaxi для поиска статей. Этот опыт очень похож на работу браузера: все статьи доступны на момент создания дампа, но без изображений.

Или вы можете использовать Kiwix быстрее для установки, потому что база данных уже создана (но довольно старая), но WikiTaxi имеет то преимущество, что вы можете иметь последнее обновленное содержимое.

Перейдите на en.wikipedia.org на левой боковой панели, в разделе "Инструменты", нажмите "Специальные страницы".

На новой странице в разделе "Инструменты страницы" нажмите "Экспортировать страницы".

на новой странице введите название каждой категории, которую вы хотите. например, введите математика (как показано на рисунке ниже) и нажмите добавить.

введите описание здесь

Затем вы должны установить Mediawiki и перейти по аналогичному пути и выбрать "импортировать страницы".

Другие вопросы по тегам