Запишите URL в текстовый файл, соответствующий шаблону
Я пытаюсь проанализировать сайт nickjr.com, в частности URL http://www.nickjr.com/paw-patrol/videos/ для полных эпизодов.
Сайт nickjr.com размещен по названию шоу, затем по играм или видео, по крайней мере, с помощью патруля лапы, поэтому URL-адрес останется прежним, пока я не нажму кнопку воспроизведения видео. На сайте есть несколько видео, но в полных эпизодах есть слово "полный эпизод" в URL.
Пример, который не полный эпизод:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/
Пример это полный эпизод:
http://www.nickjr.com/paw-patrol/videos/paw-patrol-410-mission-paw-pups-save-the-royal-throne-s4-ep410-full-episode/
Моя идея - использовать youtube-dl, который работает на их сайте (проверено), для загрузки эпизодов, но я не хочу загружать все их эпизоды, потому что некоторые из них не являются полными эпизодами. Итак, что я делаю сейчас, так это иду к каждому видео и копирую URL, а затем копирую его в youtube-dl. Это работает, но сайт nickjrs отстой, пытаясь перемещаться по нему.
Я знаю, что веб-пауки существуют, но я не смог найти именно то, что искал, и это не имело особого смысла. Но мой план заключается в том, чтобы выполнить поиск по сайту и использовать регулярные выражения в URL, но только для записи URL-адресов, соответствующих строке полного эпизода, в текстовый файл, который я затем мог бы импортировать в youtube-dl.
Поэтому мне действительно нужна помощь в разборе сайта только для полных эпизодов, которые можно сохранить в текстовом файле.
Кроме того, я бы предпочел, чтобы программа была совместима с Ubuntu 16.04, но я также могу использовать Windows 10, если это необходимо.
1 ответ
Если вы используете Chrome, вы можете нажать F12, чтобы вызвать инструменты разработчика, а затем запустить следующий небольшой фрагмент в консоли, чтобы написать список ссылок:
$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})
Это может работать и в других браузерах, но я проверял это только на Chrome.