Как я могу использовать функцию Power Query From Web для Excel, чтобы извлекать заголовки новостей с различных сайтов и сохранять данные в режиме реального времени?

Я знаком с тем, как этот инструмент может извлекать данные из таблиц на таких сайтах, как Википедия, но я столкнулся с несколькими проблемами. Вот что мне нужно, если возможно, с Excel или любым другим программным обеспечением:

Это было достигнуто с помощью простого формата копирования и вставки в соответствие с целевым форматом, но он не будет динамичным. Когда я использую редактор запросов, я сразу же замечаю, что он не будет работать так, как мне хотелось бы, если только таблицы не являются реальными HTML-таблицами. Можно детализировать, пока я не найду текст, но у меня нет жизнеспособного способа понять, куда я иду.

Нет возможности выбрать области, содержащие данные, которые я бы хотел видеть в таблице, если только он не соответствует вышеупомянутому формату. Кроме того, некоторые страницы, которые обычно позволяют это, имеют проблему совместимости IE, которую я не знаю, как обойти. Если бы я мог использовать Chrome или Edge, это было бы полезно.

1 ответ

Решение

Этот инструмент плохо работает на большинстве современных коммерческих сайтов, поскольку их страницы невероятно сложны и динамичны. Например, они попытаются определить ваше местоположение и браузер и предоставить вам различный контент. Большинство других инструментов также борются на этих страницах.

Вы получите лучшие результаты, извлекая из каналов RSS, а не пытаясь разобрать всю домашнюю страницу. RSS - это стабильный, машиночитаемый стандарт для новостных сайтов, публикующих статьи / статьи. Например, для Reuters у них есть много каналов, доступных с:

https://www.reuters.com/tools/rss

Используйте URL-адрес для того, который вам нужен, и Power Query быстро предоставит вам вложенный документ. Нажмите на ячейки таблицы, чтобы перейти, например, к содержанию, а затем к элементу.

Другие вопросы по тегам