Mobi 转 HTML 方案

这段时间一直在弄 mobihtml,弄的好无语。
一开始,我找的是如何解析 mobi 文件,我希望通过解析文件然后转成 html 文件,很多人都说要到 https://wiki.mobileread.com/wiki/MOBI#Format 上根据这个内容要解析,我在 github 上找到了 mobi-api4javaphpMobi,然后根据上面的方式做了一套解析,但是解析出来的内容还是有很多问题:

  1. 文字乱码
  2. 无法完美实现图片和文字结合
  3. 有时会解析不了

但是也有很多优点:

  1. 获取电子书的各种信息,并做分析
  2. 可以对电子书做操作

后来我仔细分析了一下我想要的需求,其实我就是想将 mobi 转成 html,然后将 html 放到服务器上,后来我就在网上找了一下已经做好的 mobi 转成 html 的工具,发现转成功的方式有两种:

  1. 一种是将 mobi 直接转成 html,并且还有一套自己的 css 样式,还将图片分离出来了,我看了一下里面的源码,用到的是 calibre,这个是一个电子书管理工具,但是它提供了一套 shell 命令,我们可以根据这套命令来编程
  2. mobi 直接转成 pdf,我估计这个转换用的工具应该也是 calibre,然后再用 pdf2htmlEX,转成 html

这两者有很大的区别:

  1. calibre 直接转成 html 是将每一章转成了一个 html 文件,也就是说,如果有 10 章,就有 10 个 html 文件。但是通过 pdf 转成 html 文件,最后是合并成了一个很大的 html 文件,我尝试了一下,有一个电子书转成 html 后, html 文件有 50 多M,如果这个放到服务器上,估计打开都要半天
  2. 样式不同。calibre有一套自己的样式,但是也可以自定义。pdf的样式更好看一些,更适合习惯了 pdf 阅读的人群。

最后我打算采用 calibre 来转换,然后放到服务器*问

上一篇:字节跳动NLP算法面试题整理


下一篇:NLP复习总结