Использование SQL для объединения файла.xlsx и более 1 000 000 строк?

У меня возникли проблемы с операцией, которая, по моему мнению, ограничена размером сдвига данных - операция представляет собой объединение и фильтрацию двух рабочих книг Excel, каждая из которых содержит более 1 миллиона строк.

Возможно, здесь есть кто-то, кто хочет проявить мастерство, чтобы помочь мне понять маршрут, по которому я должен идти. Я хотел бы использовать SQL в Microsoft Access.

Две рабочие книги - это данные об автомобиле и данные об авариях. Они оба содержат информацию, связанную с дорожно-транспортными происшествиями в Великобритании. В книге по транспортным средствам содержится информация, касающаяся каждого транспортного средства (идентификационный номер ДТП, тип транспортного средства, скорость транспортного средства...). Рабочая тетрадь с информацией о происшествии содержит информацию о происшествии (идентификационный номер аварии, длинный, лат, потери...).

Я хочу объединить две рабочие книги в одну рабочую книгу, используя данные об автомобиле в качестве основной рабочей книги. Таким образом, добавьте информацию в строки книги транспортного средства из строк книги аварии, используя уникальные номера идентификаторов аварии. Примечание: оба они имеют уникальные идентификационные номера ДТП, однако в рабочей книге транспортного средства часто перечислены уникальные идентификационные номера ДТП несколько раз, поскольку в дорожно-транспортных происшествиях часто встречается несколько транспортных средств (28 транспортных средств являются самыми крупными в этом наборе данных). Поэтому в строках необходимо будет вызывать и впоследствии перечислять информацию о книге происшествий более одного раза.

Я думаю, что было бы лучше изучить SQL, потому что я считаю, что SQL может выполнять мою вторую задачу синонимично.

Задача 2. Я хотел бы изолировать конкретное транспортное средство от набора данных после его объединения. Я хотел бы изолировать данные о велосипедах, которые включают всю информацию в одну строку для построения сводных таблиц и подключения к QGIS.

Таким образом, конечный продукт будет представлять собой единую таблицу данных о ДТП с велосипедом, в которой есть все данные для каждого инцидента, полученные из двух рабочих книг.

Может ли кто-нибудь помочь мне начать?

Из того, что я понимаю, мне нужно объединить два сервера в качестве связанных, использовать TSQL для выполнения фильтрации.

1 ответ

Вы можете использовать Microsoft Power Add-In Query для объединения нескольких файлов.

В Power Query есть некоторые ограничения. Однако вы должны иметь возможность объединить более 1 млн. строк в зависимости от свободной памяти в вашей системе (для большого набора данных вы должны использовать 64-битную версию).
Окончательный набор данных должен быть ниже 1 млн. строк, если вы экспортируете таблицу на лист Excel.

Другие вопросы по тегам