参加阿里云开发者大会对于大数据与AI 的未来思考

应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考。

低代码的未来

低代码是目前即热门又有些争议的话题,典型的争论的点就是对于算法开发的替代性究竟会到哪个程度,是否随着低代码的推进,算法开发会逐步退出历史舞台。由于个人同时在阿里云PAI平台上进行过实验,平时主要还是采用Python和R语言研究自己的算法,因此对于这个问题觉得不要过于极端的偏向任何一种看法较好,写代码进行算法开发和低代码是完全可以融合的,不但可以面向不同的对象,哪怕同一个算法工程师或者数据科学家也可以同时采用两种方式,并不存在哪个较为有优势的问题。
算法的设计除了技术更是一门艺术,成品是算法模型和通过模型预测出的结果。我们的世界不管是商业还是工业,场景众多,数据种类也众多,面对这些千变万化的情况,绝对不敢说算法都已经开发完毕了或者说不会再产生新的算法了。这样低代码在应对这些复杂场景的时候因为它产生的原因就是高度封装所以缺乏灵活性是个不可避免的问题,核心就是低代码模式下封装的颗粒度,颗粒度太粗则虽然易于使用但是灵活性不佳的特点愈发明显,颗粒度太细则模块的数量太多最终又和写代码的方式越来越接近,最后使用者觉得还不如自己写代码比较方便。
个人觉得,对于低代码的定位需要清楚,它的优势就是高度封装,因此面向的是业务人员而不是开发人员或研究人员。当算法开发完毕已经能够被广泛的用于生产场景的时候,低代码其实优势就很明显,能够作为业务人员和开发人员之间的桥梁,也能让业务人员更多的参与到算法的设计和改进过程中来。特别是在工业互联网中,很多技术专家对于自己所从事的本专业极其精通,但是具体到大数据和AI怎么落地的时候,写代码成为了一道壁垒,而开发人员虽然有很熟练的开发技术,但是又无法说各类场景的原理和生产过程都十分了解。这使双方因为自身的短板无法很好的将个人擅长的东西糅合到一起从而让大数据算法和AI产生叠加的生产力,低代码的推广使这个壁垒有了打破的工具,业务人员通过模块形式搭建自己需要的算法逻辑,运行之后可以直接看到自己所设计的算法的结果,如果是因为模块的问题而造成的结果不理想,则开发和研究人员因为有了业务层面的第一手反馈而大幅度的提高了改进的效率和速度。最终,业务人员对于生产过程的宝贵技术经验真正的通过低代码工具能够沉淀下来,开发人员因为有了业务上的反馈避免了很多无意义的劳动。从这个角度上分析,低代码最大的意义不是取代开发工作和研究工作,而是一个让不同专业能够相互沟通的手段和桥梁,具有非常大的发展价值,甚至推进了大数据和AI在各领域落地的速度。

开发与算法的融合性

仔细学习了这次开发者大会上各位老师的演讲和资料,大部分集中于数据架构的改良和新的基于云上服务的形成。个人理解就是开发对于算法的支撑力越来越强,虽然严格从专业上看开发和算法是区别较明显的两个领域,但是从目标都是对于数据进行处理这个角度两者又必须进行融合才能让数据的价值体现出来。
一般在回答别人提问什么是大数据的时候其实这个问题因为范围过大,很难真正完全讲透,大部分情况下都是用大数据的4V特征来介绍,符合4V特征的就是大数据。那开发和算法就是分别从不同的角度来体现和解决4V特征,首先是数据的多样性,粗略的进行分类一般就是结构化、半结构化和非结构化,开发通过形成各个工具和面向不同种类数据的数据库确保这些异构数据能够被顺利接入,算法通过设计分析算法、挖掘算法从这些接入的数据中提取和挖掘价值,使数据成为信息,并且尽最大的努力让同样的一份数据能够产生更多的信息;其次是数据的体量大,这个方面开发的作用更大一些,事实上云计算的产生就是因为需要有海量数据的处理技术,计算力能够保证后才又推动了物联网的发展。随着机器学习和深度学习的大规模落地,巨大的计算量在缺少底层支持的情况下各类算法都无法快速的工作,这对于搜索、个性推荐、实时控制这些对于时间有严格要求的场景来说直接关系到存在的基础。充分体现了开发与算法发展有区别但又必须融合的思想,开发的意义本质上在于提高数据的处理能力和安全性,是对算法的底层支撑,而算法有了底层强大的基础后才有可能进一步推进算法的研究、开发和落地。毕竟机器学习和人工智能的很多算法和思想其实并不是这两年才有,过去虽然有这个想法甚至理论,但是计算力基础没有造成了很长一段时间研究工作陷于停顿,只能有限的范围内进行使用而无法大规模落地。

大数据和AI数据处理的未来发展

大数据和AI数据处理的未来上,其实很关注于对于数据清洗能力提升的方面。目前很多场景的问题不是缺乏数据,而是数据过多并且过杂,这从4V特征讲就是价值高但是价值密度低。从事过算法设计工作的都有直观理解,数据清洗的工作量占整个算法设计和开发工作量的70%并且只会更多而不会少,是个工作量很大,很繁琐但是又不得不做的工作。这个方面如果能不断的有更自动化和实用的工具出现自然是很受各方面欢迎的。对于AI来说,因为数据基本是非结构化的语音、图像、视频,因此数据清洗工具能力的提升直接关系到数据预处理和特征工程,进而影响整个算法的结果,这些问题随着数据量的变大只会越来越突出。中台一直各方都认为很强大,它的本质其实就是增加数据的处理能力,也是很大程度的关注于数据的清洗能力和预处理能力,这比计算力更难解决,而一旦解决,数据真正的成为数据资产的效率也就更高。这次开发者大会上,看到了平台不断的在增加这方面的处理能力也是非常的开心,期待这方面今后能有更多的发展,在有了数据、有了计算力后,不因清洗能力的落后而遗漏了可能会挖掘出的价值。

上一篇:NLP Evaluation Metric 分类问题


下一篇:每天五分钟linux(6)-rmdir