课程视频
B 站高清观看:12 - Lecture 12 - Cost Models Statistics
学习重点
本讲对应官网 Lecture #12:Cost Models: Statistics。学习时重点关注:
- 统计信息如何支撑选择率估计、基数估计和代价估计。
- 直方图、采样和 sketch 如何在精度、维护成本和存储成本之间折中。
- 列相关性、数据倾斜和陈旧统计信息为什么会放大估计误差。
核心问题
- 这个主题解决了查询优化器中的哪一类搜索、估计或工程实现问题?
- 它依赖哪些输入信息,例如统计信息、代价模型、物理属性或历史反馈?
- 它如何影响最终生成的物理执行计划,以及失败时会造成什么性能问题?
学习记录
- [ ] 看完课程视频或完成对应阅读。
- [ ] 整理本讲涉及的关键算法、数据结构和系统实现。
- [ ] 记录和现有数据库系统相关的实现例子。
参考资料
EQOP Book (Chapter 5.1-5.3) (Primary)
Every Row Counts: Combining Sketches and Sampling for Accurate Group-By Result Estimates (M. Freitg et al., CIDR 2019) (Optional)
Effective Use of Block-Level Sampling in Statistics Estimation (S. Chaudhuri et al., SIGMOD 2004) (Optional)
