Hawk 5.1 数据导入和导出

除了一般的数据库导入导出,Hawk还支持从文件导入和导出,支持的文件类型包括:

  • Excel
  • CSV(逗号分割文本文件)
  • TXT (制表符分割文本文件)
  • Json
  • xml

Excel

目前来看,Excel使用最多,但导出到Excel有严重的性能问题, 受限于NPOI库,数据在几万条之后,会越导越慢。笔者也在积极寻找解决策略。
Excel本身对大数据量的支持也比较一般,在2013以上版本有所改善,早期版本在打开几万量级的表都非常慢。

CSV和TXT

注意编码格式的问题,同时还一定要留意文本中本身包含制表符或换行符的情况。这种情况下,系统会默认将所有文本内包含的特殊字符进行转义。CSV和TXT不存在性能问题,理论上可以支持无限大的文本写入。
您完全可以在写入CSV和TXT后,再将其手动导入Excel等应用。

Json和 XML

在大数据情况下Json的存储效率明显高很多,建议使用Json.

综上,如果您的数据不大,建议使用Excel,如果数据量较大,可以考虑TXT和Json.

并行模式下的文件写入

在并行模式下,数据会并行地写入到文件,但目前没有给文件句柄加锁[0],因此,建议先写入到数据管理器的表中,再在表上点击右键,导出为文件。

上一篇:【Spark】Spark常用方法总结1-创建编程入口(Python版本)


下一篇:linux中执行命令权限不够怎样处理