Changing Large Tables
A propos du talk
Tout change et rien ne reste pareil. Pourtant, lorsqu’il s’agit de gérer un Dataset, nous considérons souvent le changement comme une réflexion secondaire. Cependant, le monde évolue rapidement, et le Dataset doit suivre le rythme pour rester utile. Des lignes doivent être insérées, supprimées ou mises à jour. Dans un environnement de gestion des données, gérer le changement n’est donc pas optionnel. Cependant, bien le faire est difficile. Il est trop courant de voir des collections éparses de fichiers CSV et Parquet qui sont d’une manière ou d’une autre dérivés les uns des autres. Nous pouvons faire mieux.
Des avancées récentes, comme les formats de type Lakehouse et diverses initiatives de gestion de schémas, visent à améliorer cet état de choses, mais la direction exacte de cette évolution reste incertaine. Dans ma présentation, je discuterai des avantages et des défis de l’intégration des sémantiques transactionnelles traditionnelles dans des flux de travail d’analyse de données à grande échelle. Nous verrons en action des changements de données et de schémas, et même de véritables voyages dans le temps.