17.2.468. MPIX_Comm_ack_failed
MPIX_Comm_get_failed - 确认通信器中已失效的进程。
这是用户级故障缓解ULFM扩展的一部分。
17.2.468.1. 语法
17.2.468.1.1. C语法
#include <mpi.h>
#include <mpi-ext.h>
int MPIX_Comm_ack_failed(MPI_Comm comm, int num_to_ack, int *num_acked)
17.2.468.1.2. Fortran语法
USE MPI
USE MPI_EXT
! or the older form: INCLUDE 'mpif.h'
MPIX_COMM_ACK_FAILED(COMM, NUM_TO_ACK, NUM_ACKED, IERROR)
INTEGER COMM, NUM_TO_ACK, NUM_ACKED, IERROR
17.2.468.1.3. Fortran 2008 语法
USE mpi_f08
USE mpi_ext_f08
MPIX_Comm_ack_failed(comm, num_to_ack, num_acked, ierror)
TYPE(MPI_Comm), INTENT(IN) :: comm
INTEGER, INTENT(IN) :: num_to_ack
INTEGER, INTENT(OUT) :: num_acked
INTEGER, OPTIONAL, INTENT(OUT) :: ierror
17.2.468.2. 输入参数
comm: 通信器(句柄)。num_to_ack: comm 中需确认的最大进程故障数(整数)
17.2.468.3. 输出参数
num_acked: comm中已确认的故障数量(整数)。ierror: 仅限Fortran:错误状态(整数)。
17.2.468.4. 描述
这个本地操作为用户提供了一种方式来确认在comm上本地通知的故障。该操作确认comm上前num_to_ack个进程故障,也就是说,它确认了在对相同comm并发调用MPIX_Comm_get_failed时产生的组中排名低于num_to_ack的成员故障。
该操作还会将num_acked的值设置为当前comm中已确认的进程故障数量,也就是说,当且仅当进程在后续调用MPIX_Comm_get_failed所生成的组中的排名低于num_acked时,该进程的故障才会被视为在comm上被确认。
当进程故障已在之前调用MPIX_Comm_ack_failed时被确认,num_acked可能会大于num_to_ack。
17.2.468.5. 确认故障的影响
当comm上的MPI进程故障被确认后,同一comm上未匹配的MPI_ANY_SOURCE接收操作(原本会引发MPIX_ERR_PROC_FAILED_PENDING类错误)将继续执行,不再因这个已确认的故障而引发额外错误。
此外,同一comm上的MPIX_Comm_agree不会因这个已确认的故障而引发MPI_ERR_PROC_FAILED类错误。
17.2.468.6. 使用模式
可以通过在num_to_ack中传入0值,无副作用地查询当前已确认的进程故障数量comm。
相反,可以通过在num_to_ack中提供comm组的规模,无条件地确认当前已知的所有进程故障。
请注意,num_acked中返回的已确认进程数可能小于或大于num_to_ack中提供的值;但该值绝不会超过后续调用MPIX_Comm_get_failed返回的组大小。
17.2.468.7. 对集体操作的影响
在包含失效MPI进程的通信器上调用MPIX_Comm_ack_failed对集合操作没有影响(除了MPIX_Comm_agree)。如果由于通信器包含失效进程而导致集合操作报错,即使在确认故障后该操作仍会继续报错。为了在包含失效MPI进程的通信器中继续使用MPI进程间的集合操作,用户应当创建一个新的通信器(例如通过调用MPIX_Comm_shrink)。
17.2.468.8. 当通信器为跨通信器时
当通信器为跨通信器时,comm的本地组和远程组中成员的故障都会被确认。
17.2.468.9. 错误
几乎所有MPI例程都会返回一个错误值;C语言例程通过函数返回值返回,Fortran例程则通过最后一个参数返回。
在返回错误值之前,会调用与通信对象(如通信器、窗口、文件)关联的当前MPI错误处理程序。如果MPI调用未关联任何通信对象,则该调用被视为附加到MPI_COMM_SELF,并将调用关联的MPI错误处理程序。当MPI_COMM_SELF未初始化时(即在MPI_Init/MPI_Init_thread之前、MPI_Finalize之后,或仅使用会话模型时),错误会触发初始错误处理程序。初始错误处理程序可通过在使用世界模型时调用MPI_Comm_set_errhandler来修改MPI_COMM_SELF,或通过mpiexec的mpi_initial_errhandler命令行参数,或MPI_Comm_spawn/MPI_Comm_spawn_multiple的info键来设置。如果未设置其他适当的错误处理程序,则MPI I/O函数将调用MPI_ERRORS_RETURN错误处理程序,而其他所有MPI函数将调用MPI_ERRORS_ABORT错误处理程序。
Open MPI 包含三个可使用的预定义错误处理器:
MPI_ERRORS_ARE_FATAL导致程序中止所有连接的MPI进程。MPI_ERRORS_ABORT一个可在通信器、窗口、文件或会话上调用的错误处理程序。当在通信器上调用时,其行为类似于在该通信器上调用MPI_Abort。如果在窗口或文件上调用,则行为类似于在包含对应窗口或文件中进程组的通信器上调用MPI_Abort。如果在会话上调用,则仅中止本地进程。MPI_ERRORS_RETURN向应用程序返回一个错误代码。
MPI应用程序也可以通过调用以下方式实现自己的错误处理程序:
请注意,MPI不保证MPI程序在出现错误后能够继续运行。
有关更多信息,请参阅MPI-3.1标准中的错误处理部分。