人工智能到底是什么?——一切都与数据集有关
本文作者为Boris Kontsevoi
当今许多新兴技术和产品严重依赖人工智能(AI)和机器学习(ML)。虽然有数百篇关于这个话题的文章,但很少有人能深入到真正为人工智能提供动力的本质——数据。
人工智能的定义取决于你问谁,即使在数据科学领域,人工智能究竟意味着什么也一直存在争议。根据你问谁,人工智能是好是坏。一些科学家将其视为抗击癌症和探索太空的重要工具,而另一些科学家则听到“人工智能”的字眼,联想起机器人接管世界的画面。在我看来,人工智能是一项关键技术,它能够并帮助我们完成许多事情。
人工智能的真正含义是什么?定义其实很简单:训练计算机完成人类任务的科学。这是最基本的也是最古老的定义,可以追溯到20世纪50年代,在当时计算机科学家Marvin Minsky 和John McCarthy开始研究人工智能。
目前,人工智能的定义已经扩展到包括更多的特殊性。例如,谷歌(Google)的人工智能研究员弗朗索瓦·乔利特(Francois Chollet)认为,人工智能与机器在新环境中适应和即兴发挥的能力有着特殊的联系。它还包括概括知识并在不熟悉的场景中加以利用的能力。他在2020年录制的一个播客中称:“智力是指人在以前没有准备的任务中获得新技能的效率。智力不是技能本身,不是能做什么,而是能学好新东西的程度和效率。”
虽然人工智能(AI)和机器学习(ML)经常互换使用,但在现实中,ML是一个科学领域,是实现人工智能的工具。ML模型寻找数据中的模式并试图得出结论,也就是说,它们训练机器如何学习。这就引出了AI和ML最基本的部分——数据。更具体地说:数据集。每个AI应用程序都需要一个合适的数据集。
用于机器学习的数据集是目前全球的主要商品。每个人都在谈论人工智能和人工智能应用程序,但也有一些人关注数据的准确性和正确性。数据收集需要深思熟虑,其预期应用的成功与否都取决于此。
数据科学领域的人都知道,建立机器学习项目需要数据集。数据集用于训练机器学习模型,是创建高效、准确系统的重要组成部分。像谷歌、亚马逊和推特这样的公司都有大量的数据愿意提供给别人。许多致力于人工智能和人工智能应用的在线网站都编制了免费的分类列表,这使得找到一个好的数据集将变得更加容易。*也有一个相当全面的可用数据集列表。
不过需要记住以下几点:
•追求“干净”的数据集。
•根据项目的规模,搜索没有大量行和列的数据集。行越少,就越容易处理。
•也许数据集搜索中最重要的部分:数据集中需要有一个有趣的发现。
另一种选择是从公司内部收集的记录中挖掘自己的数据。了解您试图解决的问题在发现阶段至关重要,这将有助于确定哪些数据可能更值得收集。同样重要的是要记住,人类收集数据通常是乏味的,员工很可能不会对手动输入数据感到兴奋。相反,考虑使用机器人过程自动化系统。RPA系统是基本的机器人,可以做重复和平凡的任务。
“大数据”这个词是近十年最流行的术语之一。但是,如果一家公司只是涉足AI和ML,那么最好还是使用更小、更不复杂的数据集。一旦掌握了一个小规模的ML系统,就可以处理大数据了。
虽然人们在人工智能和人工智能应用程序方面取得的进步是难以置信的,但仍存在一些主要的局限性和挑战。正如研究公司麦肯锡(McKinsey&Company)总结的那样:“虽然已经取得了很大的进展,但仍需要做更多的工作。关键的一步是使人工智能方法适合问题和数据的可用性。由于这些系统是经过“训练”的而不是经过编程的,因此各种过程通常需要大量的标注数据才能准确地执行复杂的任务。获取大型数据集可能很困难,尤其是在某些领域,数据可能根本不可用,但即使可用,标注工作也可能需要大量人力资源。”
人工智能和机器学习是近代史上最重要的两项科学突破。两者都将继续提升新兴技术,并在未来影响机器人技术和物联网(IoT)。在过去的10-20年里,我们在人工智能和数据集的科学上取得了巨大的进步,而我们仅仅触及了其表面。
数据集需求可以联系contact@surfingtech.cn 或者www.surfing.ai