智能媒体管理产品文档转换/预览功能介绍(2)---转换原理

一、导语

智能媒体管理产品 提供了 Cloud Native 架构的文档转换/预览服务,本文介绍其中的转换原理和使用方法。

二、转换原理

正常情况下,文档需要专门的应用才能够打开进行浏览,比如 PPT 、DOC 、XLS 文档需要 OFFICE 应用打开,PDF 文档需要 Adobe 应用打开,并且可以进行编辑。
但现实生活中,大量的场景只需要浏览文档的内容,特别是智能终端时代,能够在浏览器里面预览文档就能实现信息的共享,就能满足绝大部分要求。
为了实现浏览器中预览文档内容,需要将文档进行格式转换(也就是业界常说的转码),转码后的内容就可以在浏览器中查看。

智能媒体管理产品文档转换/预览功能介绍(2)---转换原理

如上图所示,智能媒体管理产品 提供的文档转换服务是部署在云端,并且和云存储 OSS 同区域 就近部署,从而降低访问时延,并提升您预览的体验,同时也避免跨区域访问带来的额外费用。

2.1 转换过程

2.1.1 读取云存储 OSS 数据到转换服务

开通智能媒体管理产品 后,客户授权文档转换服务读取 OSS 的权限,基于该权限转换服务将 OSS 文档读取到内存中,启动转换。

2.1.2 解析原文档内容,基于文件格式分析进行转换

比如 OFFICE 文件格式 就提供了 Word、Excel 和 PowerPoint 的格式定义,通过解析内容,在内存中按输出格式生成转换文件。

2.1.3 将格式转换文件写到云存储 OSS

后续的预览请求,将直接读取 OSS 的数据。

2.2 转换规格

2.2.1 支持的原文件格式

演示文件(11种)。pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm 类型文件。
表格文件(10种)。xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm 类型文件。
文字文件(8种)。doc、dot、wps、wpt、docx、dotx、docm、dotm 类型文件。
其他格式文件(19种)。pdf、lrc、c、cpp、h、asm、s、java、asp、bat、bas、prg、cmd、rtf、txt、log、xml、htm、html 类型文件。

2.2.2 转换目标文件类型

1) VECTOR (向量)模式 ,需要使用对应的 Java Script 渲染引擎进行预览。
2) JPG 模式 ,按页生成 JPG 格式的图片。
3) PNG 模式 ,按页生成 PNG 格式的图片。
4) PDF 模式 ,生成一个PDF文件。

2.2.3 目标文件在 OSS 保存的命名规则

1) VECTOR 模式的命名规则
在转换目标文件类型为向量模式时,某 ppt 文档的输出如下图所示。

智能媒体管理产品文档转换/预览功能介绍(2)---转换原理

它的所有内容会保存在你指定位置的 doc 目录下,其中 meta.json 为整个文档的信息,fp1.json~fp6.json 表示转换出来的第一页到第六页的信息,I 子目录下的1~14文件表示向量模式下的对象信息。
然后前端使用 Java Script 渲染引擎完成预览,此模式下可以在浏览器中选择文字。

2) JPG 模式的命名规则
在转换目标文件类型为 JPG 模式时,某 ppt 文档的输出如下图所示。

智能媒体管理产品文档转换/预览功能介绍(2)---转换原理

它直接将 ppt 转换为 1.jpg~6.jpg 共6张图片,从而浏览器可以直接浏览 JPG 文件。

3) PNG 模式的命名规则
在转换目标文件类型为 PNG 模式时,某 ppt 文档的输出如下图所示。

智能媒体管理产品文档转换/预览功能介绍(2)---转换原理

它直接将 ppt 转换为 1.png~6.png 共6张图片,从而浏览器可以直接浏览 PNG 文件。

4) PDF 模式的命名规则
在转换目标文件类型为PDF模式时,某 ppt 文档的输出如下图所示。

智能媒体管理产品文档转换/预览功能介绍(2)---转换原理

它直接将 ppt 转换为 pdf 文件,从而浏览器可以直接预览、打印该文件。

三、API介绍

通过直接调用智能媒体管理服务的 文档格式转换 API 完成文档格式转换,文档路径为:阿里云 -> 智能媒体管理 -> API 手册 -> Office 文档格式转换 -> CreateOfficeConversionTask

四、使用场景介绍

4.1 文件预览

基于文档格式转换,可以有4种不同模式的输出格式,它们都可以提供给浏览器实现文档预览。
其中向量模式,通过阿里云智能媒体管理产品提供的 JavaScript 渲染,可以让您选择文档里面的文字。
如何使用前端进行渲染,请参考 智能媒体管理产品文档转换/预览功能介绍(3)---预览原理

4.3 多屏共享

当前视频会议共享文档时,大都采用推送视频流的方式,会带来较大的流量压力,特别是随着加入视频会议的端增多的场景。
而将文档转换为 JPG 格式,并保存在 OSS 上,然后在视频会议多屏共享时,只需要同步翻页的控制信息,便可以实现。
这种方案,用更少的流量就可以完成视频会议的多屏共享。

4.3 云打印

如果您希望提供文档的云打印,可以直接调用 智能媒体管理产品 的文档转换 API,并转换为 pdf 格式,通过该格式可以很方便的进行打印。

4.4 文档首页LOGO

在 Mac 或者 Windwos 机器上,您都体验过文档按照首页进行展示的功能。
通过调用 智能媒体管理产品 的文档转换 API,并转换为 jpg 格式,然后把首页作为 Logo,可以很方便的在您的应用(例如网盘、内容管理平台、文档管理平台)上实现文档首页 Logo 显示。

五、参考文档

  1. 智能媒体管理产品文档转换/预览功能介绍(1)---Cloud Native架构
  2. 智能媒体管理产品文档转换/预览功能介绍(3)---预览原理
  3. 智能媒体管理产品文档转换/预览功能介绍(4)--快速搭建
上一篇:文档预览功能使用技巧(4)---图片水印


下一篇:智能媒体管理产品文档转换/预览功能介绍(3)---预览原理