我是一名由电气工程跨考到软件工程的研二学生,在最近的实习中,在对Hadoop的操作中,使用到了Linux,在实践里认识到了Linux的重要性,开始了Linux的学习,在视频课中,了解到了阿里云“飞天加速计划”对高校生的支持,使我萌生了申请云服务器进行Linux操作学习的想法,两周的学习时间宝贵并且短暂,在此对目前的学习进行简单总结,并对后续基于阿里云服务器的学习实验进行规划。
目前主要进行大数据相关的工作和研究,这离不开Hadoop集群,之前自己尝试使用虚拟机搭建Hadoop集群,遇到了很多困难,而且虚拟机占用内存大,使用不方便,最近实习时,每天使用公司搭建在docker容器中,部署在服务器上的Hadoop集群,通过编写shell脚本,使用xshell连接服务器,xftp上传本地的shell脚本,在Hadoop集群上运行脚本,完成海量数据的清理和融合。工作中,对最新技术的使用,让我感受到Hadoop,云计算,docker之于大数据工作和研究的意义,而xshell,xftp,阿里云服务器对于在校学习者的友好也让我有了机会在实习工作之余,有机会搭建自己的服务器和集群,以便学习实验使用。
最后,对后续基于阿里云服务器的学习和实验做初步的规划
1.利用服务器打好Linux基础
2.在服务器上安装docker,在docker容器中部署Mysql,Redis,jupyter等工具
3.尝试结合docker部署hadoop集群在服务器上
4.进行爬虫练习,将爬取数据通过Hadoop集群,完成数据的存储,清洗和转换预处理,借此过程熟悉Hadoop集群的使用,并为后续实验做准备
5.利用云服务器的计算资源,使用Hadoop集群将完成预处理的数据导出,进行实验。