Соскоб в Интернете / сканирование определенного веб-сайта
Я пытаюсь очистить 1265 html-файлов за раз, чтобы получить названия и описания предметов, которые есть у меня на сайте.
У меня есть разрешение от оптовика на то, чтобы скопировать эти данные, но я не хочу тратить дни только на то, чтобы получить описания, так есть ли способ очистить данные в следующем формате?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
а также
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
что я хочу сделать, это скопировать информацию между
<div id="CWproductInfo"> and <p class="CWcontShop">
так что я остался с
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
но с нескольких страниц одновременно, даже лучше, если он может быть вставлен в электронную таблицу
1 ответ
Я бы попробовал для этого надстройку Power Query - она может перебирать страницы веб-сайта и извлекать из них данные, если страницы и их URL-адреса совпадают.
Вот пример:
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/