本文章所用数据集:数据集
本文章所用源代码:源代码和训练好的模型
第1章 绪论
1.1研究背景及意义
随着社会经济的迅速发展和科技的飞速进步,数字艺术类专业正逐渐崛起,并呈现出蓬勃发展的势头。数字艺术作为创作、设计和表现形式的一种新兴领域,以其独特的艺术形式和技术手段吸引了越来越多的人才。然而,数字艺术类专业人才的供需状况至关重要,对于高校的人才培养和社会的发展具有重要意义。
首先,数字艺术类专业人才的供给存在着一定的问题。目前,中国的高校开始设置相关的数字艺术类专业,但由于该领域的专业发展相对较新,高校教师队伍的建设、教材的编写和教学资源的积累仍然不足。面对此种形势,既需要更多的学术研究来推动数字艺术类专业的发展,也要确保高校能够提供高质量的教育培养,培养出更多的高素质数字艺术人才。
其次,数字艺术类专业人才的需求也存在着一定的差异。随着科技的不断革新和社会的不断发展,各行各业对数字艺术类专业人才的需求也在不断增加。一方面,许多传统行业需要数字艺术人才进行产品设计、广告宣传和营销推广等工作;另一方面,数字艺术类行业的发展也直接带动了人才需求的增长,例如游戏、动漫、影视等数字艺术产业。然而,不同行业对数字艺术类专业人才的需求是多样化的,了解不同行业对人才的需求程度和技能要求,对数字艺术类专业人才的培养和行业发展都具有重要意义。
因此,本研究旨在通过获取和分析数字艺术类专业人才供需数据,深入了解当前数字艺术类专业人才的供需状况,并从多个维度进行分析,包括高校开设相关专业的数量和质量、人才培养模式、人才就业情况以及不同领域对数字艺术类专业人才的需求情况等。通过研究结果的分析,可以为高校的专业设置、人才培养和就业指导提供参考,推动数字艺术类专业的发展和人才培养质量的提升。同时,也有助于各行业更好地了解数字艺术类专业人才的现状和发展趋势,为行业发展提供科学依据和人才支持,促进数字艺术行业的蓬勃发展。
1.2国内外研究现状
1.2.1数字艺术类专业人才供需国内外研究现状
在国内高等教育的大环境下,高等教育大环境的供需关系问题主要表现为供需均衡的挑战和不平衡现象[1]。因此对供需关系的研究对解决目前国内大环境的问题便尤为重要,目前解决供需问题的大方针为结构调整要优先,规模放量要超前[2]。数字艺术类产业经过多年发展,对其供需关系现状的研究对相关产业具有相当重要的指导作用。王林林对292所高职院校、461所本科院校以及22061条招聘信息数据的分析,总结数字媒体人才供需侧在专业、区域、课程、就业行业等方面的特点从而分析出供需侧结构性矛盾[3]。夏宝红采用走访、观察等调研方法,通过多个招聘网的招聘信息以及14所开设数字媒体艺术设计专业的招生计划,分析总结出包括主要包括专业方向定位模糊、教育设备和师资不足、数字媒体信息更新速度快于本科院校的知识更新速度等方面原因导致的供需不平衡问题[4]。王志勇以民营企业为重点,对北京、上海、香港、江苏、长沙、杭州多地的多家数字视觉艺术企业进行了市场调研,反映了众多中小企业对数字视觉艺术培训的需求[5]。当前新工科技术的发展对数字媒体艺术人才培养提出了新的要求,技术革新对供给侧人才的培养做出了突出的贡献,助力数字艺术产业发展[6]。
从全球数字艺术品市场价值 48.5 亿美元,预计在预测期内将以 15.40% 的复合年增长率增长[7]看出,国外数字艺术专业发展迅速,其人才规模也将进一步扩大,并对数字艺术类人才提出了更高的要求。数字媒体艺术专业学生需获得美术或设计学士学位,掌握计算机软件技能,并通过实践经验提升创意和技术能力[8-10]。
1.2.2招聘信息抽取的国内外研究现状
招聘信息抽取是指从招聘广告中获取关于招聘实体的信息的过程,这些信息包括但不限于专业技能、能力素质等。根据抽取方法的不同,可分为两大类:手工抽取方法和自动抽取方法。手工抽取方法是指人工阅读广告文本并提取相关信息,而自动抽取方法则利用计算机技术自动从文本中提取所需信息。
手工抽取方法涉及人工分析网络招聘文本,以提取岗位要求的各种信息。例如,Kim等人[11]手动研究招聘信息,总结数学领域相关职业的专业和学历要求。Mauro等人[12]将大数据相关职位归类为四种工作类型,并评估大数据相关技能和熟练程度。然而,在大数据招聘环境下,这种手工方法难以满足信息抽取的需求,因此,许多研究开始专注于利用自动方法从招聘文本中提取有用信息。
自动抽取方法主要分为四类,分别是:基于规则的方法、基于机器学习的方法、基于统计模型的方法以及基于自然语言处理的方法。
(1)基于规则的方法是指依靠预先定义的规则和模式来抽取招聘信息,这些规则可以基于关键词匹配、语法结构等。梅杰等人[13]提出了一种名为DTH-Apriori的算法,它综合了数据集压缩、事务压缩和散列技术。这一算法利用传统的Apriori算法、FP-growth算法以及经过优化的Apriori算法,对互联网相关岗位的工资、学历要求等属性进行了关联程度分析。基于规则的方法往往不能恰如人意地准确的完成实体抽取的工作。
(2)基于机器学习的方法是指利用机器学习算法,如支持向量机(SVM)、随机森林(Random Forest)、或者深度学习模型,通过训练样本来自动学习如何从文本中抽取招聘信息。袁毅等人[14]采集招聘网站中与人工智能相关的职位招聘公告,综合对比CRF、BiLSTM-CRF、BERT等模型对招聘文本的实体抽取效果,并运用社会网络分析方法与学科数据进行关联分析。基于机器学习的方法往往在捕捉远程和短程的序列结构以及不同词语的权重方面存在局限。
(3)基于统计模型的方法是利用统计模型来分析文本中的模式和规律,例如词频统计、TF-IDF等方法。Bastian等人[15]通过利用逗号作为分割词进行技能匹配,从招聘文本中提取专业技能信息。相比之下,王等人[16]采用了描述专业技能熟练程度的词语(如“具备”、“熟悉”等)作为邻近词,以抽取岗位所需技能。然而,基于规则的抽取方法往往存在规则考虑不全面或制定过于简单的问题,导致信息抽取效果不佳,结果不尽如人意。
(4)基于自然语言处理的方法则更加注重于使用自然语言处理技术来理解和处理文本数据。在招聘信息抽取中,NLP技术可以帮助识别文本中的实体、关系和语义,从而精确地提取所需的招聘信息。张保理[17]对招聘数据信息抽取方法进行了探索,采用NER模型进行招聘数据中的技能抽取,并对比了传统的技能抽取方法,证明了该方案的有效性。
综上所述,基于规则的方法依赖于预先定义的规则和模式,但可能无法准确地完成实体抽取。机器学习方法利用算法如SVM、随机森林或深度学习模型,通过训练样本来学习抽取信息,但在序列结构和词语权重方面存在局限。统计模型方法利用统计模型分析文本模式和规律,但可能存在规则考虑不全面的问题。自然语言处理方法则注重使用NLP技术来理解和处理文本数据,以精确提取招聘信息。
1.3研究内容与技术路线
1.3.1 研究内容
本论文旨在深入探讨数字艺术类专业供需关系的研究现状,并结合数据科学领域的自动化数据采集技术、关联规则算法和数据可视化,进行全面的研究和分析。具体研究内容如下:
1.数字艺术类专业供需关系的研究现状: 通过对数字艺术类专业的供需关系进行文献综述和实地调研,分析当前数字艺术行业中人才供需的现状、特点和挑战,探讨数字艺术专业人才的培养需求与市场需求之间的关系,为后续研究提供理论和实践基础。
2.自动化数据采集技术的学习和应用:深入学习和探索自动化数据采集技术,包括网络爬虫、API接口调用等技术手段,实现对招聘数据的自动化采集和处理,为后续数据分析提供可靠的数据基础。
3.深度学习算法在招聘数据分析中的应用:运用关联规则算法对招聘数据进行深入分析,挖掘不同岗位之间的关联关系和规律性,发现招聘市场中的人才需求趋势和潜在规律,为人才培养和招聘决策提供数据支持和参考。
4.数据可视化技术的应用:运用数据可视化技术,将招聘数据呈现为直观、易理解的图表和图形,通过可视化手段展现招聘市场的整体情况和趋势变化,帮助研究者和决策者更好地理解数据,做出科学决策。
5.实验设计与实现:设计合理的实验方案,包括数据采集、预处理、关联规则分析和数据可视化展示等步骤,并实现自动化数据采集程序和数据处理工具,以验证研究假设和分析方法的有效性和可行性。
6.结果分析与讨论: 对实验结果进行深入分析和讨论,总结数据分析和挖掘的主要发现,探讨数字艺术类专业供需关系的特点、问题和解决方案,为相关领域的研究和实践提供新的视角和思路。
7.总结与展望: 总结论文的研究成果和经验,展望未来数字艺术类专业供需关系研究的发展方向和趋势,提出进一步深入研究的建议和展望,为数字艺术类专业的人才培养和招聘提供科学依据和参考意见。
1.3.2 技术路线
(一)自动化数据采集程序的编写
由于在程序运行的时候会出现访问频繁的问题,设计一个能够持续且自动化采集的程序便显得尤为重要。当程序运行时,将会向指定URL发起访问请求,若出现访问频繁程序则会休眠,否则会对网页进行解析并提取相关信息且保存到文件中,对采集到的数据进行存储。若抓取完成,则程序运行完毕否则重新向URL发起访问请求。
图 1.1 自动化数据采集程序流程图
(二)高效的数据清洗方法
为了获得具有特征性较突出的数据以便于数据分析,将对获取的数据进行数据清洗。核心步骤分别为:缺失数据的识别与处理、重复数据的识别和处理、特殊字符的去除和数据一致性处理。
图 1.2 数据清洗流程图
(三)数据分析和统计分析方法
在供需关系中,较难分析的是需求关系中对求职信息的数据分析和统计分析,为了厘清数据所揭示的信息,将会通过以下特征来对求职信息进行分析。
图 1.3 职位分析图
根据以上的几个方面进行分析,分别使用以下几个分析方法进行分析。
(1)描述统计分析
职位类型分布: 分析不同职位类型的分布情况,例如设计师、动画师、视频编辑等,计算各类职位的比例。
技能要求分析: 统计数字媒体艺术类专业相关职位对不同技能的需求频率,识别关键技能和工具。
薪资水平统计: 统计不同职位的薪资水平,包括平均值、中位数、薪资范围等。
(2)比较分析
比较不同地区的数字媒体艺术类专业职位的分布情况和薪资水平,分析地域间的差异性。
(3)知识图谱分析
使用深度学习模型依据文本生成实体间的知识图谱,通过招聘信息中的知识图谱来进行分析。
(四)供需关系分析以及培养方案优化
分析供应端时,应对教育、培训等方面进行分析,了解当前人才供给的情况。这包括对教育资源、技能培训机构、人才的供应趋势的分析。分析需求端时,通过调查招聘信息,可以了解当前企业的需求要素是什么,如技能、职位以及对人才的其他基本要素的需求。
通过对招聘数据和各院校的培养方案进行分析,对培养方案中开设的课程与招聘数据所揭示的对于数字艺术类人才的需求进行匹配,进而优化院校培养方案。
第2章 相关基础理论与技术
2.1 自动化数据采集技术
网络爬虫技术是一种自动化获取互联网上信息的技术。它通过编写程序模拟人类用户的行为,自动访问网页并提取所需的数据。在这个过程中,网络爬虫可以像浏览器一样发送 HTTP 请求来获取网页的内容,然后对获取到的页面进行解析和分析,从中提取出目标数据或链接。
网络爬虫的工作原理涉及几个关键步骤。首先,爬虫会从一个或多个起始 URL 开始,然后根据一定的规则和策略遍历网站。在访问网页的过程中,爬虫会收集页面的信息,包括文本、链接、图像等,并将这些信息传递给解析器。解析器负责分析页面的结构和内容,并提取出用户感兴趣的数据。最后,爬虫将提取的数据存储到本地数据库或其他存储介质中,以备后续的分析和使用。
网络爬虫通常由抓取器(Crawler)、解析器(Parser)和存储器(Storage)三部分组成。抓取器负责从互联网上抓取网页内容,它会遍历网站的不同页面,并将页面内容下载到本地。解析器则对抓取到的网页内容进行解析,识别其中的结构和数据,并提取出目标信息。存储器负责将提取的数据存储到本地数据库或文件系统中,以便后续的分析和使用。
网络爬虫技术在许多领域都有广泛的应用。在搜索引擎中,网络爬虫被用来收集和索引互联网上的信息,以提供给用户相关的搜索结果。在数据挖掘领域,网络爬虫可以用来收集和分析网络上的数据,从中发现隐藏的模式和规律。此外,网络爬虫还可以用于信息监测、竞争情报收集等领域,为用户提供及时、准确的信息支持。
2.2 命名实体识别(NER)
命名实体识别(Named Entity Recognition,NER)是一种关键的自然语言处理技术,其主要目标是在给定的文本中识别出命名实体,并将其分类为预定义的类别,例如人名、地名、组织机构名、日期和时间等。NER 的应用范围非常广泛,包括搜索引擎的信息提取、社交媒体监测以及智能客服等领域。NER 技术的实现通常经历以下几个步骤:
1.分词:将文本分割成单词或子字符串的过程。这一步可以使用分词工具(如 Jieba、NLTK)来完成。
2.预处理:对文本进行清洗,去除特殊字符、停用词和标点符号等无关信息。这一步骤可以借助正则表达式或其他文本处理工具完成。
3.特征提取:从文本中提取有用的特征,例如单词形态、上下文信息和词性等。这一步骤可以利用现有的特征提取工具(如 spaCy、NLTK)实现。
4.训练模型:使用标记的语料库训练机器学习模型,例如条件随机场(CRF)或递归神经网络(RNN)。训练模型的目的是使机器能够自动识别文本中的命名实体,并将其分类为预定义的实体类型。
5.标注实体:利用训练好的模型对文本中的实体进行标注,并将其分类为预定义的实体类型。
6.后处理:对识别结果进行必要的后处理,例如合并连续的实体和消除冗余实体。这一步骤可以根据具体情况进行自定义实现。
总的来说,NER 技术是一项重要的自然语言处理任务,它可以帮助机器理解文本中提到的命名实体,并将其分类为预定义的实体类型,从而更好地理解文本内容。随着自然语言处理技术的不断发展和创新,NER 的应用前景也将变得更加广阔。
2.3 知识图谱(Knowledge Graph)
知识图谱是一种用于表示和存储知识的图形化知识库,它将现实世界中的实体、概念和它们之间的关系以图的形式进行建模。知识图谱的目标是捕获和组织大量的结构化和半结构化数据,以便机器能够理解和推理这些数据之间的关联性。
(1)知识图谱的核心组成部分包括实体、关系和属性:
实体(Entities):代表现实世界中的具体事物或概念,可以是人物、地点、组织、事件等。每个实体都有唯一的标识符和一组属性。
关系(Relations):描述实体之间的连接或联系,表示不同实体之间的关联性。例如,人物之间的关系可以是“家庭关系”、“工作关系”等。
属性(Attributes):描述实体的特征或属性,例如人物的姓名、年龄、职业等。
(2)知识图谱的构建过程包括以下几个主要步骤:
知识抽取:从结构化、半结构化和非结构化数据源中提取有用的信息和知识,例如从文本中提取实体、关系和属性。
实体链接:将从不同数据源中抽取的实体标准化和统一,以确保它们的唯一性和一致性。
关系抽取:识别和提取实体之间的关系,并将其表示为图中的边。
知识表示:将抽取的实体、关系和属性以图的形式进行表示,构建起知识图谱的结构。
知识存储:将构建好的知识图谱存储在合适的数据库中,以便有效地进行查询和检索。
图 2.1 知识图谱生成步骤
知识图谱在许多领域都有广泛的应用,包括自然语言处理、信息检索、推荐系统、智能问答等。它可以帮助机器理解和推理现实世界中的知识,从而为各种智能应用提供支持和帮助。
2.4 BiLSTM-CRF模型原理及介绍
2.4.1 双向长短期记忆网络(BiLSTM)介绍
BiLSTM(双向长短期记忆网络)是一种循环神经网络(RNN)的变体,旨在处理序列数据,并能够捕获输入序列中的长期依赖关系。与传统的单向RNN相比,BiLSTM具有额外的双向结构,可以同时处理输入序列的正向和反向信息。LSTM是一种特殊的RNN,其在隐藏层h中加了三个门控结构,分别为:
图 2.2 LTSM结构图
Bi-LSTM由正向与逆向LSTM单元组成,将文本输入BERT后得到的编码向量输入至Bi-LSTM后,分别以正序和逆序输入至二者中进行特征提取,并将二者的输出向量进行拼接形成最终的特征表示H,从而使特征向量同时具有上下文信息。
图 2.3 BiLSTM结构图
2.4.2 条件随机场(CRF)介绍
CRF,即条件随机场(Conditional Random Field),是一种统计建模方法,常用于序列标注、结构化预测等任务中。它是一种概率图模型,用于描述一组随机变量的联合概率分布。CRF可以看作是在给定观测序列条件下,对标注序列进行建模的一种概率模型。以下是对CRF的简要介绍:
- 条件随机场的定义
CRF属于无向图模型,它描述了随机变量之间的依赖关系。在CRF中,通常使用了条件概率分布来表示标注序列(输出)给定观察序列(输入)的条件概率。条件随机场定义了给定输入序列条件下输出序列y的条件概率分布:
2.特征函数
CRF的建模依赖于特征函数的定义。特征函数是关于输入序列和输出标签序列的实值函数,用于捕捉输入序列和输出序列之间的相关性。它可以基于输入序列的局部特征、输出标签序列的局部特征以及全局特征。特征函数定义了局部特征与标注序列的关系,通常形式如下:
3.规范化因子
规范化因子是对所有可能的输出序列进行归一化的因子,其定义如下:
CRF模型中,输入是原始序列数据(如文本或时间序列),通常由特征表示;而输出则是对应输入序列的结构化标签序列,表示模型的预测或推断结果。
图 2.4 CRF模型结构
2.4.3 BiLSTM-CRF模型介绍
BiLSTM-CRF模型结合了双向长短期记忆网络(BiLSTM)和条件随机场(CRF),常用于序列标注任务,如命名实体识别、词性标注等。BiLSTM用于捕捉输入序列中的上下文信息和语义特征,而CRF则用于建模标签之间的依赖关系,使得模型能够输出符合整体序列结构的预测结果。
图 2.5 BiLSTM-CRF模型结构
具体而言,BiLSTM部分通过前向和后向两个LSTM网络分别处理输入序列,从而有效地捕捉到了序列数据中的上下文信息。然后,BiLSTM的输出被传递给CRF层,CRF层利用这些输出计算出每个标签序列的条件概率,以找到最可能的标签序列。
整个模型的训练过程涉及到了双向LSTM的参数优化和CRF层的参数学习,通常采用端到端的方式进行训练。BiLSTM-CRF模型在序列标注任务中取得了较好的性能,因为它能够充分利用上下文信息和标签之间的依赖关系,从而产生更加准确和连贯的标注结果。
2.5 Pyecharts
Pyecharts是一个功能强大的Python可视化库,它基于Echarts.js开发,提供了丰富的交互式图表类型和灵活的配置选项。用户可以通过简单易用的API快速创建各种类型的图表,包括折线图、柱状图、散点图、饼图、地图等,满足不同场景下的数据展示需求。Pyecharts生成的图表具有丰富的交互功能,如数据提示、数据缩放、图表切换等,用户可以通过鼠标操作与图表进行互动。同时,Pyecharts与Jupyter Notebook完美兼容,用户可以在Notebook中直接呈现图表,并通过Python代码动态修改和更新图表内容。总之,Pyecharts为用户提供了一个快速、简便、高效的数据可视化解决方案,助力用户更好地理解和展示数据。
2.6 本章小结
这一章详细介绍了网络爬虫技术、命名实体识别(NER)、知识图谱(Knowledge Graph)以及BiLSTM-CRF模型,并对Pyecharts进行了简要概述。网络爬虫技术是自动化获取互联网信息的重要技术,其工作原理和关键步骤被逐一讨论。随后,命名实体识别(NER)作为自然语言处理的关键技术,其流程和步骤也被详细说明。接着,知识图谱作为一种表示和存储知识的图形化知识库,其构建过程和核心组成部分得到了阐述。最后,BiLSTM-CRF模型作为结合了双向长短期记忆网络和条件随机场的序列标注模型,其原理和工作流程被深入解释。本章还简要介绍了Pyecharts作为一个功能强大的Python可视化库,能够帮助用户快速创建各种类型的交互式图表。这一章节介绍的理论与技术为后面的研究提供了基础。
第3章自动化数据采集程序设计
3.1 引言
在当今数字化信息时代,大数据已经成为了推动科学研究、商业发展以及社会进步的关键驱动力之一。而数字媒体艺术作为一个跨学科的领域,涵盖了艺术、设计、科技和社会等多个方面,其发展与创新对于推动当代文化和艺术的发展具有重要意义。然而,要深入了解和分析数字媒体艺术领域的发展趋势、人才需求以及市场情况,需要大量的相关数据支持。传统的数据收集方法往往效率低下、成本高昂,且难以满足大规模数据需求的快速更新和分析。
在这样的背景下,爬虫程序的设计与实现显得尤为重要。爬虫程序,作为一种自动化数据获取工具,通过模拟人的行为,自动访问网页、抓取信息,并将其保存到本地数据库或文件中。相比于传统的数据采集方法,爬虫程序具有效率高、成本低、可扩展性强等优势,能够大大提高数据的获取速度和精确度,极大地方便了研究人员和从业者对数字媒体艺术领域的了解和分析。
针对数字媒体艺术领域的特点和需求,本研究设计了一款针对数字媒体艺术相关职位信息的爬虫程序。通过该程序,我们可以自动抓取前程无忧网站上与数字媒体艺术相关的职位信息,包括职位标题、公司名称、薪资待遇、工作地点、公司规模等关键信息,从而为数字媒体艺术领域的人才培养、人才流动以及企业招聘提供了重要的数据支持。
3.2 自动化数据采集程序设计目标
3.2.1 目标网站及关键词描述
企业通常选择在企业官网或第三方招聘网站发布招聘信息。与企业官网相比,第三方招聘网站提供的招聘信息具有更统一的格式、更全面的信息覆盖,且更易于进行数据抓取。因此,第三方招聘网站是更为理想的招聘信息采集来源之一。本次实验主要爬取前程无忧网站(https://www.51job.com/),该网站是中国领先的人力资源服务供应商之一,提供各行业的招聘信息发布和求职服务。该网站汇集了大量的企业招聘信息,涵盖了各个行业和职位类型。
本研究中,招聘信息的关键词为“数字媒体艺术”。数字媒体艺术是一门结合了艺术与技术的学科,涵盖了数字艺术、数字音乐、数字电影等领域,与计算机图形学、数字媒体技术等密切相关。对于数字媒体艺术领域的求职者来说,通过抓取与该关键词相关的招聘信息,可以更快速地找到符合自己技能和兴趣的工作机会。
图 3.1 目标网站及关键词
3.2.2 招聘信息结构分析与提取
在图3.1中可知,招聘信息一般是由职位标题、公司名称、薪资、地点、工作要求等关键信息组成,其包含的招聘信息如表3.1所示。
表 3.1 前程无忧网站的招聘信息
部分 |
类型 |
内容 |
1 |
职位标题 |
招聘职位的名称,通常位于招聘信息的标题或摘要部分 |
2 |
公司名称 |
招聘公司的名称,即提供此招聘职位的企业或组织的名称。 |
3 |
薪资 |
该职位提供的薪资范围,通常以月薪、年薪或小时薪形式提供。 |
4 |
地点 |
表示工作地点,可以是城市、地区或具体的地址信息。 |
5 |
工作要求 |
包括工作职责、技能要求、学历要求、工作经验要求等详细信息。 |
6 |
标签 |
描述职位的特点或亮点,通常是一些关键词或短语,用于吸引求职者的注意。 |
7 |
所属行业 |
公司所处的行业领域,如IT、金融、制造业等 |
招聘数据通常以文本形式呈现在网页上,具有半结构化或非结构化的特点。为了获取这些数据,我们可以利用网络爬虫技术来实现。在本文中,选择使用 Python 工具进行网络爬虫的开发。
然而,需要注意的是,“前程无忧”网站采取了反爬措施以保护其数据的安全和完整性。这些反爬措施包括对请求头的筛选,如果检测到请求来自于 Python 程序,就会限制访问。为了绕过这一限制,我们需要伪装请求头,模仿浏览器行为,使服务器无法识别请求的真实来源。
另外,为了避免对服务器造成过大的负担和频繁访问的限制,我们还需要在爬取数据的过程中设置适当的访问间隔。这意味着需要在获取每一页数据之后,暂停一段时间再进行下一次爬取,以降低被服务器识别为异常访问的风险。
因此,在进行招聘数据的网络爬取过程中,我们需要综合考虑这些因素,以确保数据的准确性、时效性和代表性。通过合理设置请求头和访问间隔,我们可以有效地绕过反爬措施,获取到所需的招聘信息,为后续的数据处理和分析提供有力支持。
3.3 自动化数据采集程序结构
本文的爬虫结构包括四个关键步骤:
(1)通过向前程无忧网站发送请求,获取包含基本招聘信息的网页内容。在这个步骤中,爬虫程序会模拟浏览器行为,发送请求并获取服务器响应。
(2)爬虫程序会对获取到的基本信息网页内容进行解析,提取出招聘信息的相关内容,如职位标题、公司名称、薪资等。这些信息通常包含在网页的特定位置或标签中,爬虫程序会通过解析 HTML 结构来获取。
(3)爬虫程序还会解析基本信息网页中的详细页面 URL。这些 URL 指向包含更详细招聘信息的页面,如职位描述、要求等。解析这些 URL 是为了进一步获取更详细的招聘信息。
(4)爬虫程序会根据解析得到的详细页面 URL,发送请求获取详细页面的内容,并进行解析。获取到的详细招聘信息会保存至 CSV 文件中,以便后续处理和分析。
以上是大致步骤,具体如下:
前程无忧网站搜索关键字“数字媒体艺术”(如图 3.1),大部分数据可以在基本信息网页采集,另外一些数据如职位描述信息,需要先从基本信息网页的 HTML 内容中解析出详细信息网页的网址 URL,然后再从详细信息网页(如图 3.2)中爬取到职位描述等相关信息。
图 3.2 详情信息网页
3.4 数据采集结果
截止到 2024年4月,本文共采集了前程无忧的招聘信息,并经过初步筛选,总计获得了928条数据。在后续的数据处理过程中,包括去重、处理缺失值、识别专业、数据标准化等步骤,最终保留了890条高质量的数据。
这些数据涵盖了各个方面的招聘信息,包括职位名称、公司名称、公司属性、公司规模、公司所属行业、工作地点、薪资水平、学历要求、工作经验要求、工作福利、发布日期、招聘人数以及岗位要求等信息。其中由于招聘人数信息存在大量缺失值和异常值,因此也没有被纳入本次数据统计范围。
第4章 数据清洗与处理分析
4.1 结构化数据清洗
从“前程无忧”网站上采集到的数据普遍存在一些问题(如图4.1):①招聘信息有重复;②招聘信息中岗位信息的特征性较弱且有信息冗余,不利于模型训练;③数据的单位或格式不规范,如薪资水平;④地点信息不完善,不利于对地域信息进行数据可视化;⑤资历要求出现了杂糅,学历信息和经验要求混合在一起。针对以上问题,本文的解决方法如下文。
图 4.1 原始数据
4.1.1 去重和缺失值处理
使用 Python 中的 Pandas 库进行数据处理,对采集到的招聘信息进行了去重和缺失值处理。具体操作如下:
首先,根据职位名称、公司名称和工作地点这三个关键字段,对招聘信息进行去重操作,确保每条招聘信息的唯一性。这样做可以避免重复数据对分析结果的影响。
其次,针对缺失情况较多且重要的字段,如薪资水平、公司规模和岗位要求,进行了删除处理。这些字段的缺失数据可能会影响后续的分析结果,因此选择将这部分数据删除,以确保数据质量。
对于缺失较少的数据,采取了补充的策略。例如,对于公司属性这一字段,通过查阅工商登记信息来补充缺失的数据,使得公司属性信息更加完整。
通过以上操作,我们使得招聘数据更加清洗和完整,为后续的数据分析提供了可靠的基础。
4.1.2 数据标准化
(1)薪资标准化
薪资的表示方法存在多样化和不规范的情况,包括“万/月”、“万/年”、“元/天”、“千元/月”、“千-万/月”、“千-万·薪”等形式。为了统一处理这些不同格式的薪资数据,我们采用正则表达式方法来计算最高年薪、最低年薪和平均年薪。
针对以日计薪的情况,我们假设每年的最低工作天数为240天,最高天数为312天。在计算最低年薪和最高年薪时,我们将以日计薪的金额乘以相应的天数来得到年薪。
对于其他格式的薪资表示方法,我们将其统一转换为年薪,并计算最高年薪、最低年薪和平均年薪。其中,最高年薪取薪资范围的上限,最低年薪取薪资范围的下限,平均年薪则是最高年薪和最低年薪的算术平均值。
通过这种处理方式,我们能够有效地对不规范的薪资数据进行统一处理,得到更加清晰和可比较的薪资信息,为后续的分析和决策提供可靠的基础
(2)公司地点标准化
由于公司地点的形式为“省份-城市”和“城市”,都只取省份的部分,这样大大简化了数据处理和后续的数据可视化,并能取得较好的全国范围内的可视化结果。
(3)岗位名称标准化
虽然前程无忧网站制定了行业内职位的分类标准,但是在实际招聘中显然是由招聘信息发布方自行拟定岗位名称。在岗位名称中出现了如下两个问题:①岗位名称存在与岗位无关的内容;②同一岗位因语序改变、英文替代、字词省略等存在多个相似名称,需要进行合并。最终基于正则匹配和人工筛选的方法,清洗后岗位数明显降低,数据更加结构化,划分也更为科学。
图 4.2 数据清洗前岗位名称词云
图 4.3 数据清洗后岗位名称词云
(4)经验要求和学历要求
由图4.1所示,经验要求和学历要求杂糅在一起,但又有一定的规律,经验要求和学历要求中间用逗号隔开,可以使用pandas将单元格内的内容分割后生成两列数据,完成经验要求和学历要求的数据处理。
4.2 结构化数据可视化处理与分析
4.2.1 结构化数据可视化
利用经过数据清洗的结构化数据,进行了多项可视化分析。首先,使用了Pyecharts库生成了地区频次图(如图4.4),以清晰呈现不同地区在数据集中的出现频率,从而揭示了数据的地域分布情况。
图 4.4 数字媒体艺术岗位分布及频次图
其次,利用Matplotlib库生成了学历要求的饼图(如图4.5),将数据集中各种学历要求的比例直观地展示出来,帮助我们比较不同学历要求之间的相对重要性。
图4.5 数字媒体艺术学历数据饼图
最后,使用Matplotlib生成了各个学历的薪资水平折线图(如图4.6)。这张折线图反映了不同学历水平下的薪资变化趋势,为我们提供了对薪资水平的全面了解,并且能够比较不同学历之间的薪资差异。
图 4.6 数字艺术类人才岗位薪资范围
4.2.2 结构化数据可视化分析
(1)数字媒体艺术岗位分布分析
如图4.4所示,这幅地图展示了中国各省份的数字艺术类专业岗位招聘数量。从数据中可以看出,数字艺术类专业岗位在中国各地的分布存在明显的两极化趋势。首先,有一些省份,如上海、广东、江苏等,拥有较多的数字艺术类专业岗位招聘数量。上海市的招聘数量最高,达到了136个,而广东省则有313个,江苏省有63个,这些地区通常是中国数字艺术产业的主要发展中心,拥有较多的数字艺术相关企业和项目,因此需求量较大。另一方面,也有一些省份,如安徽、山东、贵州等,数字艺术类专业岗位的招聘数量相对较少。例如,安徽省只有3个岗位,山东省只有6个岗位,贵州省也只有3个岗位。这些地区可能在数字艺术产业的发展上相对较为落后,或者数字艺术相关的企业和项目相对较少,导致岗位招聘数量较少。这种两极化的现象可能反映了中国数字艺术产业的不均衡发展现状,一些地区数字艺术产业蓬勃发展,而另一些地区则相对滞后。
- 数字媒体艺术学历数据分析
图4.5提供了有关数字媒体领域招聘中学历要求。在这个数字化时代,数字媒体行业蓬勃发展,对于不同学历背景的人才需求也日益增长。让我们来深入了解这些数据背后所蕴含的信息。
首先,数据显示本科学历的需求占据了绝大多数。这反映了数字媒体行业对于扎实的学术基础和专业知识的需求。本科学历通常为求职者提供了深入理解数字媒体领域的机会,使他们能够应对行业的不断变化和挑战。
其次,大专学历虽然数量相对较少,但仍然占据着一定比例。这可能反映了数字媒体行业对于实践技能和操作经验的需求。大专学历的求职者通常在特定领域有着较为扎实的技能和经验,使他们成为了一线从业者的重要组成部分。
相较之下,对于硕士学历和中技/中专学历的需求相对较少。在数字媒体行业中,虽然对于高等教育背景的认可仍然存在,但实际的工作经验和专业技能往往更为重要。因此,对于这两个学历水平的需求可能相对较少。
而对于博士学历和初中及以下学历的需求几乎可以忽略不计。博士学历的求职者可能过于专业化,而初中及以下学历的求职者可能缺乏所需的学术背景和技能,这导致了这两个学历水平在数字媒体领域中的较低需求。
综上所述,这些数据揭示了数字媒体领域招聘中学历要求的普遍趋势。虽然学历仍然是一个重要因素,但实际的工作经验和专业技能对于在数字媒体行业中取得成功同样至关重要。
- 数字艺术类人才岗位薪资分析
从图4.6中可以看出,随着学历水平的提高,数字艺术类专业岗位的薪资水平也呈现出逐渐增加的趋势。一般来说,硕士学历的平均最高年薪最低,为8.5万元,本科和专科学历的平均最高年薪分别为9.58万元和9.74万元。
同样地,平均年薪和平均最低年薪也表现出类似的趋势。硕士学历对应的平均年薪为11.28万元,本科和专科学历的平均年薪分别为14.34万元和15.87万元。平均最低年薪方面,硕士学历的为9.89万元,本科和专科学历的分别为11.96万元和12.8万元。
这些数据显示了学历对数字艺术类专业岗位薪资水平的显著影响。通常来说,拥有更高学历的人士在同一职位上获得的薪资往往更高。这可能是因为高学历通常代表着更深厚的专业知识、技能和经验,而且在竞争激烈的就业市场上,高学历也可能成为招聘者在选拔人才时的重要考量因素之一。
这些数据也反映了不同学历背景对应的教育投资回报率。从平均年薪的角度来看,本科和专科学历相对于硕士学历,拥有更高的平均年薪,这意味着在某些情况下,选择接受本科或专科教育可能会比追求硕士学位更具吸引力,尤其是考虑到硕士学位可能需要更多的时间和金钱投入。
4.3 非结构化数据处理与分析
4.3.1 数据集准备
采用BRAT标注工具在linux系统上搭建标注实体框架,具体标注实体类型包括:软件、性格、经验、专业、学位、年龄、要求。其中一条标注示例如下所示:
图4.7 数据集标注实例
标注完成后转换为BIO标准格式,如图所示:
图 4.8 标准化数据集图
4.3.2 模型训练及其结果
命名实体识别框架采用BiLSTM-CRF,模型大约运行2000轮左右达到最好效果。对部分数据的测试结果如下所示:
学位、经验识别
图 4.9 学位、经验识别结果
要求识别
图 4.10 要求识别
性格识别
图 4.10 性格识别
学位、专业识别
图 4.11 学位、专业识别
专业、学位、经验识别
图 4.12 专业、学位、经验识别
由以上一系列图可知,该模型在招聘文本实体抽取方面表现良好,且其适用性不仅限于招聘领域。事实上,它可以根据输入的文本提取数字媒体艺术领域的各种要求。数字媒体艺术涉及软件、性格、经验以及专业等多个方面的要求,这些要求可以通过这个模型进行准确的实体抽取。因此,无论是招聘文本还是其他类型的文本,这个模型都能够为数字媒体艺术项目的需求分析和信息提取提供有力支持。
4.3.3 知识图谱生成以及对比分析
根据图4.3中的词云分析,我们可以观察到在某一领域中,编导、视觉设计师、美术主管和数字媒体艺术专业教师等职位占据了相对较大的比例。这种职位分布的特征表明了该领域内不同岗位之间的关联性和重要性。基于这些岗位信息,可以构建一个岗位信息知识图谱,通过对这些岗位的深入研究和关联分析,我们可以为人才培养、岗位匹配和职业规划提供更加全面和有效的指导,建立的知识图谱如下所示:
图 4.13 岗位数据知识图谱
从厦门大学官网获取厦门大学数字媒体艺术专业培养方案,并对培养方案进行实体抽取以及关系抽取,生成培养方案知识图谱,如图4.14所示。
图 4.14 培养方案知识图谱
图4.13(岗位知识图谱)以“数字艺术类岗位”为中心节点,涵盖编导、视觉设计师、美术主管和数字媒体艺术教师四个主要职业岗位。每个岗位强调不同的关键能力,例如编导需要具备本科及以上学历、团队合作意识和文字功底;视觉设计师注重审美、专业技能和40岁以下的年龄要求;美术主管强调艺术教育背景、组织能力和创新思维;而数字媒体艺术教师则要求具备本科及以上学历、美术专业技能和教学经验。
图4.14(培养方案知识图谱)以“数字媒体艺术专业培养方案”为中心节点,连接课程要求和品质要求两大模块。课程要求包含通识、专业、通修和选修课程等,为学生提供全面的学习框架,培养跨学科的知识和技能。品质要求则涵盖素质和能力两个部分,强调培养学生的国际视野、职业精神、团队合作、创新思维和沟通能力,确保学生具备适应数字媒体艺术行业需求的综合素养。
对以上两图对比可知,图4.13侧重于数字艺术类岗位的具体技能需求,明确了各个岗位的核心能力,例如编导重视文字功底、团队合作;视觉设计师强调审美和专业技能;美术主管需要组织管理和创新能力等。图4.14注重课程与素质的综合培养,通过通识、专业和跨学科课程模块,搭配素质和能力要求,帮助学生从知识、技能到素质方面具备应对多样职业的能力。
参考文献
[1]陈万明. 我国高等教育供需关系及发展政策的重新审视[J]. 中国高教研究,2009,(07):7-10.
[2]陈万明. 扩充与调控:我国高等教育供需关系的重新审视[A]. 中国教育学会教育经济学分会.2008年中国教育经济学年会会议论文集[C].中国教育学会教育经济学分会:中国教育学会教育经济学分会,2008:10.
[3]王林林. 数字媒体人才供需的结构性矛盾与对策研究[J]. 艺术教育,2020,(10):118-121.
[4]夏宝红. 职业本科教育数字媒体人才培养分析[J]. 天津电大学报,2021,25(04):39-44.
[5] Zhiyong Wang. Analysis on the demand of enterprises for the training of digital art talents[J].Academic Journal of Humanities & Social Sciences, 2022, 5(9).
[6] Yingfang Zhang. Exploration on Talent Ttraining of Digital Media Art under New Engineering[A]. 西南交通大学、Sri Eshwar College of Engineering.Proceedings of 2023 2nd International Conference on Science Education and Art Appreciation(SEAA 2023)[C].西南交通大学、Sri Eshwar College of Engineering:International Conference on Humanities and Social Science Research,2023:5.
[7] Polaris Macket Reseach. Digital Artwork Market Share, Size, Trends, Industry Analysis Report, By Type (Digital Collage, Digital Paintings, Digital Photographs, GIF Art, Generative Art, Others); By Medium; By Sales Channel; By End-User; By Region; Segment Forecast, 2024 - 2032[R/OL]. https://www.polarismarketresearch.com/industry-analysis/digital-artwork-market.
[8] Education World. Rising worldwide demand for digital artists.[/OL]. https://www.educationworld.in/rising-worldwide-demand-for-digital-artists/.
[9] Linked in. The Rising Demand of Digital Art and Illustrations in Near Future. [/OL]. https://www.linkedin.com/pulse/rising-demand-digital-art-illustrations-near-future-hoor-fatima-o9tnf.
[10] Vivian Wang, Dali Wang. The Impact of the Increasing Popularity of Digital Art on the Current Job Market for Artists[J]. Art and Design Review, 9, 242-253.
[11] Kim J Y, Lee C K. An empirical analysis of requirements for data scientists using online job postings[J]. International Journal of Software Engineering and Its Applications, 2016, 10(4): 161-172.
[12] De Mauro A, Greco M, Grimaldi M, et al. Beyond data scientists: a review of big data skills and job families[J]. Proceedings of IFKAD, 2016: 1844-1857.
[13] 梅杰. 基于关联规则的网络招聘信息挖掘与分析[D].贵州大学,2022.
[14] 袁毅,陶鑫琪,李瑾萱,刘娅娴,汪晓芸,景香玉. 基于招聘文本实体挖掘的人才供需分析——以人工智能领域为例[J]. 图书情报工作,2022,66(14):101-118.
[15] Bastian M, Hayes M, Vaughan W, et al. Linkedin skills: large-scale topic extraction and inference[C]//Proceedings of the 8th ACM Conference on Recommender systems. 2014: 1-8.
[16] 王召义,薛晨杰,刘玉林.基于邻近词分析的电子商务技能需求分析[J].信息资源管理学报,2018,8(02):113-121. DOI:10.13365/j.jirm.2018.02.113.
[17] 张保礼. 基于NLP的招聘数据分析平台的分析与实现[D].北京邮电大学,2021.