Parquet vs CSV: почему формат решает всё

14-02-2026 17:05 (МСК)

ApacheSparkКакРаботаютДанные

Parquet vs CSV: почему формат решает всё Сегодня рассказываю и показываю, как колоночное хранение (Parquet) ускоряет аналитику до 100+ раз по сравнению с классическим CSV. В чём разница? • CSV хранит данные по строкам: чтобы взять одну колонку, парсим всю строку целиком • Parquet хранит по колонкам: читаем только нужный блок, остальное физически пропускаем. И конечно, не забываем про структуру и оптимальное хранение. Когда что выбрать: • Разовая выгрузка, отладка, небольшие данные: CSV • Дашборды, регулярная аналитика, фильтрация: Parquet Помни, формат задаёт потолок эффективности. Самый умный алгоритм не спасёт, если данные лежат в неподходящем формате. 📹 Смотреть: • YouTube: https://youtu.be/zaKU0Shx9dU • VK: https://vkvideo.ru/video-231048746_456239045 Код + презентация: https://github.com/MaratNotes/marat_notes/tree/master/how_data_works-practice_cases/20_parquet В следующей лекции: Работа с данными через DataFrame API P.S. Пишите свои истории об использовании CSV в расчетах и аналитике в различных отраслях и сферах, о своем опыте рассказал в начале видео☺️ #КакРаботаютДанные #ApacheSpark

Перейти к источнику