对于群集实现(“ Beowulf群集”)如何与诸如MPI之类的通信协议相关联,我有些困惑.使用类似OpenMPI的“集群”需要什么软件组件?
解决方法:
如您所知,群集是一堆联网的计算机.进行此类配置后,通常将安装并使用以下配置:
> MPI,用于流程之间的通信
> NFS,以使网络磁盘可见并共享给所有节点
> NTP,以同步节点的时间,以便您可以比较日志事件和时间戳
> bootp从远程节点引导节点,以便每个节点以保证良好且统一的设置重新启动.
>一组集群实用程序,使您的生活更轻松,例如分布式ssh,可在所有节点上同时执行同一命令.
>任务计划程序或队列管理器,例如Condor,LFS或其他,可以让您确定作业提交的优先级,并最终对其进行限制/定价.
>看门狗,因此如果一个节点卡住,将自动重启它.
> UPS的软件控制(以便在长时间断电时自动关闭)
以及更多.所有这些东西完全是MPI之外的. MPI只是流程之间的通信渠道.单独的MPI并不能“制造集群”.