有的朋友可能看过今年初我写的《当Xeon核显遇上3ds Max、Solidworks:T30评测之二》。虽然是按照专业图形工作站应用软件来做的测试,但硬件上毕竟是台入门级服务器,显卡也是Intel集成、或者Quadro入门级,所以跑不出太快的速度和漂亮的成绩来。
这次就不同了,因为我拿到了一台比较发烧的专业工作站——Dell Precision Tower 5810,同时CPU和显卡的配置也都不低哦。
Quadro M4000:SPECviewperf测试轻松打卡过关
NVIDIA Quadro M4000专业显卡是本次测试的主角之一,由于它的功耗超过了75W,所以除了PCIe插槽还外接一个6pin 12V供电插头。
Quadro M4000定位于中高端,1664个流处理器,256bit GDDR5显存接口。关注前沿的朋友可能知道核心代号Pascal的Quadro P系列已经发布,而它的全面普及可能要等到下一代Intel Skylake平台工作站。而本文更多目的不是测试硬件本身的性能,而是通过测试来说明如何让一台图形工作站运行在最佳状态下,即调优的方法和要点。
在《图形工作站专业显卡测试:SPECviewperf12》一文中,我曾提到自己从2000年前后就开始使用专业图形测试软件,也就是说在15年前就经常修改显卡的“垂直同步”设置。该选项如果打开,则图形显示的帧速率无法超过显示器的刷新频率(通常为60Hz左右),以避免出现画面撕裂的可能,因此在性能测试之前通常要将其关闭。
多年前我曾经做过图形工作站/专业显卡测试、技术支持方面的工作,如今的NVIDIA Quadro设置界面与当年变化不大。而正是这一点麻痹了我,本文中踩的坑就是从这里开始的,不知有没有朋友发现点端倪?
NVIDIA Quadro显卡驱动,我使用了较高的376.84公版,一开始还有点别的用意。
有了这个界面截图,测试配置就不用多说了。这台Precision T5810工作站配置了Intel Xeon E5-1620 v4 3.5GHz四核CPU,高主频有利于显卡性能的发挥。
为了验证测试数值是否正常,我引用了www.spec.org官网上公布的两套Quadro M4000性能结果进行参考。对比系统的CPU配置更高,但其中的T5810使用Windows 10系统进行测试,而且三者之间的驱动版本不同。所以只要证明自己合格就好:)
Siemens NX、PTC Creo测试:哪里出了问题?
上一次跑Siemens NX BenchMark使用的还是NX4软件版本,去年我在DTF大会上与参展合作伙伴西门子的朋友聊天,又听到了UG这个名字。如今的SPECapc NX10基准测试跨越了几个版本,而CAD(计算机辅助设计)/PLM(产品生命周期管理)应用软件做的还是那些事情,有些模型还是那样熟悉。下面的测试都是在默认的FSAA(全屏幕反锯齿)模式下运行。
上面的图表注明了“优化前”,也就是我第一次运行,测试完感觉得分有点低,跟spec.org官网上的结果一比吓了一跳——图形测试居然差了这么多!可是之前的SPECviewperf数值很正常啊?
注:在这里我尽量找接近配置的成绩进行对比,由于影响图形性能的首要因素是显卡,其次是CPU单核性能,比较适合参考的是一套Precision T3620工作站。
测试截图:TLEngine_Cooling_Trans_wheels_full_scene_true_studio(真实着色显示模式)
上面视频建议在wifi下观看:我专门截取了一段SPECapc for NX中的测试脚本,在2种显示模式下对模型进行旋转、平移、缩放、剖切等操作,请先记下优化前的运行时间是22秒。
接下来我又运行了SPECapc for PTC Creo 3.0,也就是跑在“新版Pro/E”软件下的测试包,遇到了类似的情况,图形总分只有spec.org上配置Quadro K4200显卡参考系统的大约一半。(注:由于没有M4000找了最接近的)
上述结果中CPU总分和I/O总分“倒挂”的情况,我觉得应该是显卡不同造成。根据我对SPECapc Pro/E系列测试的了解,被统计入CPU的测试项目意味着它们相对更容易受CPU的性能影响,而不代表与显卡方面无关。毕竟Quadro M4000比K4200要新一代。
图形子项得分,Quadro M4000(优化前)测试结果全面落后K4200,显然不太正常。
ptc worldcar赛车模型,从Pro/E、Wildfire野火版到Creo测试被SPECapc沿用了超过十年,不断调整的是复杂度——顶点/多边形数量、特效、功能测试等。
建议在wifi下观看视频:我从SPECapc for PTC Creo测试中分别截取了5种显示模式下各5秒左右的模型移动、旋转操作,请大家先观察下优化前的运行速度,以便于下文中优化后的进行对比。
写到这里,当然我不会对上述测试结果就此罢休。怎样从坑里爬出来,使图形工作站发挥出应有的性能?通过排查分析,我采用了2种不同的优化途径。
踩坑不要怕,爬出来就是好汉
做为一名工作站“老司机”,我通过手工排查、修改配置最终找到了影响性能的“幕后黑手”;而如果换个解决问题的思路,还有另一种简单的办法——使用Dell工作站自带的Precision Optimizer(DPO)优化软件。
下面就看看这两种方法的效果对比:
使用Dell Precision Optimizer优化后运行同样测试只需要13秒,节省了9秒时间。
我们看到,两种优化途径均能使Siemens NX的测试结果大幅提高,在它们之间互有小胜负。而4.3x的图形总分与前面引用的spec.org参考系统对比一下,就能看出是否满意。
再来看看PTC Creo,优化效果过瘾吧?恢复满血之后的8.9x图形总分,终于让Quadro M4000在K4200面前扬眉吐气了。
由于微信文章的限制,第4段视频插不进来了。有兴趣的朋友可以访问以下网址观看,感受下速度提升。或者点击结尾处的“阅读原文”,那里面有合成后的对比视频。
https://v.qq.com/x/page/x0512y6gto7.html
关于CPU性能得分,PTC Creo再一次证明DPO软件要比我手动优化的效果略好。而I/O总分在这里的情况比较复杂,或者说优化调节的选项也并非十全十美,在个别的软件操作中可能也会带来负面影响。
在图形子项得分中,DPO与人工优化两种方式互有胜负,与优化前相比,这种差距已经微不足道。
应用工作流,是按照PTC Creo测试中的操作(项目)次序来分类,包括图形、重新生成、重新镶嵌、大量属性分析、加载-擦除-加载、车身图形、IGES导入导出,以及发动机引擎重绘(我的翻译可能不够准确,见谅)。可见其中不少操作的性能瓶颈应该在于计算和I/O子系统。
PPT并非空穴来风,工作站新手也能PK老司机
在所有测试完成之后,我想起自己曾经在《Dell_Precision_Optimizer_Whitepaper》文档中看到的下面这个对比。
由于搞过多年工作站,说实话当我一开始看到这种ppt宣传时也是有点半信半疑的。而本次测试结果证明,SPECapc NX性能提升68%、SPECapc Creo提升超过160%(后者存在M4000/K4200的不同)是客观存在的。这样讲的前提,是拿显卡驱动/操作系统默认设置,与开启DellPrecision Optimizer的优化之后做对比。
而我是在哪里踩的坑呢?上面挑一个比较重要的来说:尽管本文一开头就提到我在显卡设置中选择“3D App – Default Global Settings”全局预设,并关闭了垂直同步。如上图,右边“程序设置”中会检测到我安装的工作站图形设计软件,并加载对应的优化。
这都是很正常的,而“意外”出现在了垂直同步选项。今天的Quadro驱动似乎与8年前有些不同——调用的全局设置并不是“3D App – Default Global Settings”,而是“基本配置文件”。如何修改该选项并不难,我在主要是想说这里很容易被忽略。
垂直同步只是人工优化过程中的步骤之一,将各种系统、显卡电源管理等选项逐一照顾到对于专注图形设计的用户来说显得繁琐了些。而工作站与服务器的一个区别是,许多服务器建议设置最大性能模式,而工作站则偏向于性能与噪声/功耗的平衡。在这种情况下,我觉得像DPO这样能够在一定程度上动态加载优化配置的工具是值得肯定的。
DPO优化软件在所有Dell图形工作站上免费提供,通过简单点击就能启用,而性能优化只是它的一部分功能。虽然我现在的主业不是工作站了,但DPO仍然吸引我去进一步了解它的全貌,后面有机会我想继续讲讲:
- DPO性能优化的工作原理,是否会修改应用软件中的设置?
- DPO支持多少种软件、版本范围如何?同时开启多个优化配置会不会有冲突?
- DPO的更多功能及价值
- 从DPO中的建议谈不同CAD/DCC应用的工作站选型