17.2.470. MPIX_Comm_get_failed
MPIX_Comm_get_failed - 获取通信器中列出故障进程的组。
这是用户级故障缓解ULFM扩展的一部分。
17.2.470.1. 语法
17.2.470.1.1. C语法
#include <mpi.h>
#include <mpi-ext.h>
int MPIX_Comm_get_failed(MPI_Comm comm, MPI_Group *failedgrp)
17.2.470.1.2. Fortran语法
USE MPI
USE MPI_EXT
! or the older form: INCLUDE 'mpif.h'
MPIX_COMM_GET_FAILED(COMM, FAILEDGRP, IERROR)
INTEGER COMM, FAILEDGRP, IERROR
17.2.470.1.3. Fortran 2008 语法
USE mpi_f08
USE mpi_ext_f08
MPIX_Comm_get_failed(comm, failedgrp, ierror)
TYPE(MPI_Comm), INTENT(IN) :: comm
TYPE(MPI_Group), INTENT(OUT) :: failedgrp
INTEGER, OPTIONAL, INTENT(OUT) :: ierror
17.2.470.2. 输入参数
comm: 通信器(句柄)。
17.2.470.3. 输出参数
failedgrp: 组(句柄)。ierror: 仅限Fortran:错误状态(整数)。
17.2.470.4. 描述
此本地操作返回通信器comm中已知本地已失败的进程组failedgrp。failedgrp可能为空,即等于MPI_GROUP_EMPTY。
对于在同一MPI进程中通过调用该例程获得的两个组,若使用相同的comm参数,则最大组与最小组的交集相对于最小组而言是MPI_IDENT的,也就是说,在不超过最小组规模的前提下,相同进程在这两个组中具有相同的排名。
17.2.470.5. 进程故障
MPI不对故障检测的异步进展做出任何假设。 一个有效的MPI实现可以选择仅在进入必须引发容错错误的函数时,才更新本地已知故障MPI进程的组。
可能只有调用MPI进程检测到了报告的错误。如果需要全局感知,检测到错误的MPI进程应调用MPIX_Comm_revoke来强制其他进程也产生错误。
17.2.470.6. 当通信器为跨通信器时
当通信器为跨通信器时,failedgrp的值包含已知在comm的本地组和远程组中都发生故障的成员。
17.2.470.7. 错误
几乎所有MPI例程都会返回一个错误值;C语言例程通过函数返回值返回,Fortran例程则通过最后一个参数返回。
在返回错误值之前,会调用与通信对象(如通信器、窗口、文件)关联的当前MPI错误处理程序。如果MPI调用未关联任何通信对象,则该调用被视为附加到MPI_COMM_SELF,并将调用关联的MPI错误处理程序。当MPI_COMM_SELF未初始化时(即在MPI_Init/MPI_Init_thread之前、MPI_Finalize之后,或仅使用会话模型时),错误会触发初始错误处理程序。初始错误处理程序可通过在使用世界模型时调用MPI_Comm_set_errhandler来修改MPI_COMM_SELF,或通过mpiexec的mpi_initial_errhandler命令行参数,或MPI_Comm_spawn/MPI_Comm_spawn_multiple的info键来设置。如果未设置其他适当的错误处理程序,则MPI I/O函数将调用MPI_ERRORS_RETURN错误处理程序,而其他所有MPI函数将调用MPI_ERRORS_ABORT错误处理程序。
Open MPI 包含三个可使用的预定义错误处理器:
MPI_ERRORS_ARE_FATAL导致程序中止所有连接的MPI进程。MPI_ERRORS_ABORT一个可在通信器、窗口、文件或会话上调用的错误处理程序。当在通信器上调用时,其行为类似于在该通信器上调用MPI_Abort。如果在窗口或文件上调用,则行为类似于在包含对应窗口或文件中进程组的通信器上调用MPI_Abort。如果在会话上调用,则仅中止本地进程。MPI_ERRORS_RETURN向应用程序返回一个错误代码。
MPI应用程序也可以通过调用以下方式实现自己的错误处理程序:
请注意,MPI不保证MPI程序在出现错误后能够继续运行。
有关更多信息,请参阅MPI-3.1标准中的错误处理部分。