17.2.468. MPIX_Comm_ack_failed

MPIX_Comm_get_failed - 确认通信器中已失效的进程。

这是用户级故障缓解ULFM扩展的一部分。

17.2.468.1. 语法

17.2.468.1.1. C语法

#include <mpi.h>
#include <mpi-ext.h>

int MPIX_Comm_ack_failed(MPI_Comm comm, int num_to_ack, int *num_acked)

17.2.468.1.2. Fortran语法

USE MPI
USE MPI_EXT
! or the older form: INCLUDE 'mpif.h'

MPIX_COMM_ACK_FAILED(COMM, NUM_TO_ACK, NUM_ACKED, IERROR)
     INTEGER COMM, NUM_TO_ACK, NUM_ACKED, IERROR

17.2.468.1.3. Fortran 2008 语法

USE mpi_f08
USE mpi_ext_f08

MPIX_Comm_ack_failed(comm, num_to_ack, num_acked, ierror)
     TYPE(MPI_Comm), INTENT(IN) :: comm
     INTEGER, INTENT(IN) :: num_to_ack
     INTEGER, INTENT(OUT) :: num_acked
     INTEGER, OPTIONAL, INTENT(OUT) :: ierror

17.2.468.2. 输入参数

  • comm: 通信器(句柄)。

  • num_to_ack: comm 中需确认的最大进程故障数(整数)

17.2.468.3. 输出参数

  • num_acked: comm中已确认的故障数量(整数)。

  • ierror: 仅限Fortran:错误状态(整数)。

17.2.468.4. 描述

这个本地操作为用户提供了一种方式来确认comm上本地通知的故障。该操作确认comm上前num_to_ack个进程故障,也就是说,它确认了在对相同comm并发调用MPIX_Comm_get_failed时产生的组中排名低于num_to_ack的成员故障。

该操作还会将num_acked的值设置为当前comm中已确认的进程故障数量,也就是说,当且仅当进程在后续调用MPIX_Comm_get_failed所生成的组中的排名低于num_acked时,该进程的故障才会被视为在comm上被确认。

当进程故障已在之前调用MPIX_Comm_ack_failed时被确认,num_acked可能会大于num_to_ack

17.2.468.5. 确认故障的影响

comm上的MPI进程故障被确认后,同一comm上未匹配的MPI_ANY_SOURCE接收操作(原本会引发MPIX_ERR_PROC_FAILED_PENDING类错误)将继续执行,不再因这个已确认的故障而引发额外错误。

此外,同一comm上的MPIX_Comm_agree不会因这个已确认的故障而引发MPI_ERR_PROC_FAILED类错误。

17.2.468.6. 使用模式

可以通过在num_to_ack中传入0值,无副作用地查询当前已确认的进程故障数量comm

相反,可以通过在num_to_ack中提供comm组的规模,无条件地确认当前已知的所有进程故障。

请注意,num_acked中返回的已确认进程数可能小于或大于num_to_ack中提供的值;但该值绝不会超过后续调用MPIX_Comm_get_failed返回的组大小。

17.2.468.7. 对集体操作的影响

在包含失效MPI进程的通信器上调用MPIX_Comm_ack_failed对集合操作没有影响(除了MPIX_Comm_agree)。如果由于通信器包含失效进程而导致集合操作报错,即使在确认故障后该操作仍会继续报错。为了在包含失效MPI进程的通信器中继续使用MPI进程间的集合操作,用户应当创建一个新的通信器(例如通过调用MPIX_Comm_shrink)。

17.2.468.8. 当通信器为跨通信器时

当通信器为跨通信器时,comm的本地组和远程组中成员的故障都会被确认。

17.2.468.9. 错误

几乎所有MPI例程都会返回一个错误值;C语言例程通过函数返回值返回,Fortran例程则通过最后一个参数返回。

在返回错误值之前,会调用与通信对象(如通信器、窗口、文件)关联的当前MPI错误处理程序。如果MPI调用未关联任何通信对象,则该调用被视为附加到MPI_COMM_SELF,并将调用关联的MPI错误处理程序。当MPI_COMM_SELF未初始化时(即在MPI_Init/MPI_Init_thread之前、MPI_Finalize之后,或仅使用会话模型时),错误会触发初始错误处理程序。初始错误处理程序可通过在使用世界模型时调用MPI_Comm_set_errhandler来修改MPI_COMM_SELF,或通过mpiexec的mpi_initial_errhandler命令行参数,或MPI_Comm_spawn/MPI_Comm_spawn_multiple的info键来设置。如果未设置其他适当的错误处理程序,则MPI I/O函数将调用MPI_ERRORS_RETURN错误处理程序,而其他所有MPI函数将调用MPI_ERRORS_ABORT错误处理程序。

Open MPI 包含三个可使用的预定义错误处理器:

  • MPI_ERRORS_ARE_FATAL 导致程序中止所有连接的MPI进程。

  • MPI_ERRORS_ABORT 一个可在通信器、窗口、文件或会话上调用的错误处理程序。当在通信器上调用时,其行为类似于在该通信器上调用MPI_Abort。如果在窗口或文件上调用,则行为类似于在包含对应窗口或文件中进程组的通信器上调用MPI_Abort。如果在会话上调用,则仅中止本地进程。

  • MPI_ERRORS_RETURN 向应用程序返回一个错误代码。

MPI应用程序也可以通过调用以下方式实现自己的错误处理程序:

请注意,MPI不保证MPI程序在出现错误后能够继续运行。

查看MPI手册页获取完整的MPI错误代码列表。

有关更多信息,请参阅MPI-3.1标准中的错误处理部分。