MaxCompute Tunnel 技术原理及开发实战|学习笔记

开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021 数仓必修课:MaxCompute Tunnel 技术原理及开发实战】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1062


MaxCompute Tunnel 技术原理及开发实战

简介:

1、MaxCompute Tunnel- 技术原理

2、MaxCompute Tunnel -丰富的生态

3、MaxCompute Tunnel -功能简介

4、MaxCompute Tunnel - 基础配置

5、MaxCompute Tunnel - 批量上传

6、MaxCompute Tunnel- 流式上传

7、MaxCompute Tunnel - 批量下载

8、MaxCompute Tunnel- 最佳实践

 

1、MaxCompute Tunnel- 技术原理

产品定位

MaxCompute API 层组件

数据通道服务

基础功能

MC 对外数据读写的唯一接口

完善的权限校验及格式检查

高性能存储层直接读写

MaxCompute Tunnel 技术原理及开发实战|学习笔记


2、MaxCompute Tunnel -丰富的生态

SDK

Java SDK,链接

Python SDK,链接

工具

MC客户端,链接

MaxCompute Studio,链接

MMA2.0 迁移工具,链接

MaxCompute Tunnel 技术原理及开发实战|学习笔记


3、MaxCompute Tunnel -功能简介

批量数据通道,链接

批量上传

批量下载

流式数据通道,链接

流式上传

 

4、MaxCompute Tunnel - 基础配置

Access lD

Access Key

Odps Endpoint,链接

Tunnel Endpoint,链接

可选参数(自动路由)

Default Project

 

5、MaxCompute Tunnel -批量上传((示例)

功能点

有状态并发 (Block ID)

Commit 成功数据可见

支持 InsertInto 语义

支持 InsertOverwrite 语义

使用限制

UploadSession 内 20000 Block

Block ID 重复会导致数据覆盖

UploadSession 24小时过期

空闲连接 120 秒超时

 

6、MaxCompute Tunnel-流式上传(示例)

功能点

无状态并发

RecordPack Flush 成功数据可见

仅支持 InsertInto 语义

增量数据异步 zorder by 排序

使用限制

表/分区加锁(停止写入 15-60 分钟解锁)

DDL(drop/rename) 感知延迟(0~60秒)


7、MaxCompute Tunnel -批量下载(示例)

功能点

有状态并发 (range)

record 粒度切分

支持列裁剪

支持查询结果下载

使用限制

DownloadSession 24 小时过期

空闲连接 120 秒超时

Project 级别并发限流

性能受碎片文件影响

 

8、MaxCompute Tunnel-最佳实践

高并发场景

批量上传有并发限流及 commit 抢锁

批量下载有并发限流

高 QPS 场景-小块写

批量上传会产生大量碎片文件,SQL 性能下降

其它

Transaction 语义–流式上传不支持 lnsert Overwrite 语义–流式上传不支持

上一篇:优化婚恋app源码性能,首先要找到性能瓶颈


下一篇:关于高负载服务器Kernel的TCP参数优化