开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021 数仓必修课:MaxCompute Tunnel 技术原理及开发实战】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/55/detail/1062
MaxCompute Tunnel 技术原理及开发实战
简介:
1、MaxCompute Tunnel- 技术原理
2、MaxCompute Tunnel -丰富的生态
3、MaxCompute Tunnel -功能简介
4、MaxCompute Tunnel - 基础配置
5、MaxCompute Tunnel - 批量上传
6、MaxCompute Tunnel- 流式上传
7、MaxCompute Tunnel - 批量下载
8、MaxCompute Tunnel- 最佳实践
1、MaxCompute Tunnel- 技术原理
l 产品定位
MaxCompute API 层组件
数据通道服务
l 基础功能
MC 对外数据读写的唯一接口
完善的权限校验及格式检查
高性能存储层直接读写
2、MaxCompute Tunnel -丰富的生态
l SDK
Java SDK,链接
Python SDK,链接
l 工具
MC客户端,链接
MaxCompute Studio,链接
MMA2.0 迁移工具,链接
3、MaxCompute Tunnel -功能简介
l 批量数据通道,链接
批量上传
批量下载
l 流式数据通道,链接
流式上传
4、MaxCompute Tunnel - 基础配置
l Access lD
l Access Key
l Odps Endpoint,链接
l Tunnel Endpoint,链接
可选参数(自动路由)
l Default Project
5、MaxCompute Tunnel -批量上传((示例)
l 功能点
有状态并发 (Block ID)
Commit 成功数据可见
支持 InsertInto 语义
支持 InsertOverwrite 语义
l 使用限制
UploadSession 内 20000 Block
Block ID 重复会导致数据覆盖
UploadSession 24小时过期
空闲连接 120 秒超时
6、MaxCompute Tunnel-流式上传(示例)
l 功能点
无状态并发
RecordPack Flush 成功数据可见
仅支持 InsertInto 语义
增量数据异步 zorder by 排序
l 使用限制
表/分区加锁(停止写入 15-60 分钟解锁)
DDL(drop/rename) 感知延迟(0~60秒)
7、MaxCompute Tunnel -批量下载(示例)
功能点
有状态并发 (range)
record 粒度切分
支持列裁剪
支持查询结果下载
使用限制
DownloadSession 24 小时过期
空闲连接 120 秒超时
Project 级别并发限流
性能受碎片文件影响
8、MaxCompute Tunnel-最佳实践
高并发场景
批量上传有并发限流及 commit 抢锁
批量下载有并发限流
高 QPS 场景-小块写
批量上传会产生大量碎片文件,SQL 性能下降
其它
Transaction 语义–流式上传不支持 lnsert Overwrite 语义–流式上传不支持