数据处理分析过程中,不可避免面对文本的处理,在Excel催化剂过往的功能中,也做了大量的相关功能,但仍未到尽头,此篇再补充最近网页数据采集功能开发过程中遇到的一些文本处理问题并继续不断地开发相关文本处理功能来实现,打造出目前为止能想到的任何文本相关的处理痛点的解决方案。
过往的文本处理功能回顾
在过往的功能中,简单罗列如下:,阅读过往文章最佳的阅读体验是到公众号后台回复:插件下载,获取其PDF或WORD版本的功能合集文章。
- 第25波-小白适用的文本处理功能 ,用于简单的中文、数字、英文等的提取和删除操作。同时还有文本转数字、文本前后和中间插入相同内容等高频操作。最后此处也有高阶的正则处理的功能开放给高级用户。
- 第39波-DotNet版的正则处理函数,使用自定义函数的方式,输出正则的能力给大家日常处理文本内容。正则表达式是笔者最推崇中高级用户去努力成长的知识点之一,无关编程语言环境,但使用场景非常广泛,例如Excel催化剂将其做到自定义函数上使用,非常方便,也是笔者自己最高频使用的自定义函数,没有之一。
- 第43波-文本处理类函数增强,这里再增加了一批区分于正则的高要求的文本函数,将正则里常见的中文、数字、英文等提取功能做成普通函数,傻瓜式调用。同时还有字符串拼接函数,非常刚需,不用追所谓的OFFICE高版本所提供的TEXTJOIN函数,Excel催化剂的自定义函数比Excel原生的新增函数还要强大,还要通用和兼容。
- 第101波-批量替换功能(增加正则及高性能替换能力),此功能着重用于批量性替换文本操作,较原生的替换功能,可以大大简化步骤,同时也是支持正则表达式的处理,正则在文本世界无处不在,总是能发挥无穷威力。
- 第108波-批量转换文本文件编码,文本文件容易出现乱码问题,此功能用于编码转换。
- 第110波-当前行占位符替换,用于当前行的内容替换,先用占位符构造好所需内容,一键替换,非常好用,已成为笔者的高频功能之一。
以上内容都是笔者自己通过WORD文档查找“文本处理”关键字回顾到的功能,连笔者作为开发者都已经不记得有多少的功能,所以使用Excel催化剂,必须要学会最大限度地搜索,无论是功能位置还是功能教程,都适用。
本轮的文本处理功能补充
- 正则处理函数的补充,原有的正则函数,未对文本文件进行提取,仅对单元格内容的提取为主,这次给补全了。
有FromFile结尾的函数,可以直接传入文本文件的全路径,直接不需要手动复制粘贴的方式来提取文本文件里的文本内容。
-
网页类的文本采集,这里定义的网页文本,除了常规的html格式,还有xml和json格式,同样地除了调用单元格内容外,还可以调用文本文件内容。
文本文件是一个宽泛的说法,不限于txt后缀结尾的文件,只要是仅保存为文本格式,可由记事本打开的文件都算如md、html、csv、json、xml等等。
-
文本文件读取函数新增,某些场景下,文本文件的文本需要批量导入到Excel单元格中,使用此函数,免于繁琐的复制粘贴。
有两个函数,一个是所有内容放到一个单元格内(Excel单元格存储有最大字符数限制,大概3万多个字符),一个是每行存储一个单元格。
-
文本文件字符串替换功能,前面许多对文本文件的操作,多数是提取的功能,此功能是对其改写的功能,方便整理自己的文本文件,还是那样,支持强大的正则匹配。
结语
上述如此多的针对文本处理的功能,到目前为止,是笔者所能想到的所有场景全覆盖,若有新的场景,欢迎提供,让Excel催化剂打造成极致化的文本处理能力,无需任何工具辅助,门槛也是最低。
近期会针对上述提及的所有功能,使用视频的直观方式给大家展示Excel催化剂的强大,人人都能学会的黑科技技术,等你来参与。
庆Excel催化剂两周年抽奖活动仍在进行中,后台回复【抽奖】二字,即可获得抽奖链接,奖品为13份视频教程,很厚道,中奖率也算是很高的。祝你好运!