Какой самый быстрый способ проанализировать и отобразить файл `.csv`?
В настоящее время я использую Python с Matplotlib для отображения 440+ K строк .csv
но это занимает 11 sec
отображать только один столбец. мой .csv
всегда один и тот же формат. Есть ли способ разобрать это быстрее? Я решил сохранить все столбцы в списки, а затем отобразить их.
Вот код, который я сделал:
csv_path = "C:/Users/mydata.csv"
csv_database = open(csv_path, delimiters=";")
data_dict = csv.DictReader(csv_database, delimiter=";")
current_row = 0
number_list = []
for row in data_dict:
current_row += 1 # Skip heading row
if current_row == 1:
continue
# Here I add to a list of strings already created
name_list.append(row["Name"]) # Assuming the header of the column is "Name"
# Here I add to a list of integer
if row['Number'] == 'NULL':
int_list.append(0)
elif row['Number'] != " ":
int_list.append(int(row['Number'])) # Assuming the header is "Number"
else:
int_list.append(0)
1 ответ
Решение
Выглядит нормально для меня. Это будет работать для ваших мелких CSV (под пару тысяч строк).
Когда у меня был tp анализ огромных CSV-файлов (100 тыс. Строк +) - я использовал модуль Cassava, который долгое время выполнял нативные модули.
Взгляните на http://hackage.haskell.org/package/cassava
Надеюсь это поможет