故障排除#

本故障排除指南为您提供了处理AEN安装过程中可能出现问题的方法。

一般故障排除步骤#

  1. 清除浏览器 cookies。当您更改 AEN 配置或升级 AEN 时,浏览器中残留的 cookies 可能会导致问题。清除 cookies 并重新登录可以帮助解决问题。

  2. 确保 NGINX 和 MongoDB 正在运行.

  3. 确保在所有节点上,AEN服务设置为启动时启动

  4. 确保服务按预期运行。如果有任何服务未运行或缺失,重新启动它们

  5. 检查并移除多余进程

  6. 检查节点之间的连接性.

  7. 检查配置文件语法.

  8. 检查文件所有权.

  9. 验证POSIX ACLs是否已启用

浏览器错误:重定向过多#

原因#

浏览器cookie已过期。

解决方案#

  1. 登出。

  2. 清除浏览器的cookies。

  3. 清除浏览器缓存。

  4. 登录。

浏览器错误:启动项目应用时重定向过多#

当用户尝试启动应用程序时,浏览器显示“重定向过多”。

原因#

项目的计算资源无效或已被删除。

解决方案#

将项目移动到有效的计算资源

异常:exceptions.TypeError: ‘NoneType’ 对象没有属性 ‘__getitem__’#

当项目未分配计算资源时,此异常会出现在管理 > 异常页面上。

原因#

项目的计算资源无效或已被删除。

解决方案#

将项目移动到有效的计算资源

错误:unix:////opt/wakari/wakari-server/etc/supervisor.sock 没有这样的文件#

这是一个supervisorctl错误。

原因#

supervisord 未在服务器上运行。

解决方案#

确保在crontab中包含supervisord。然后手动重启supervisord。

错误:删除项目时出现“数据中心未找到”#

原因#

数据中心已被移除。

解决方案#

以root身份运行:

/opt/wakari/wakari-server/bin/wk-server-admin remove-project --db-only <user> <project>

忘记管理员密码#

  1. 使用ssh以root身份登录服务器。

  2. 运行:

    /opt/wakari/wakari-server/bin/wk-server-admin reset-password -u SOME_USER -p SOME_PASSWORD
    

    注意:将SOME_USER替换为管理员用户名,将SOME_PASSWORD替换为密码。

  3. 使用新密码以管理员用户身份登录AEN。

或者您可以添加一个管理员用户:

  1. 使用ssh以root身份登录服务器。

  2. 运行:

    /opt/wakari/wakari-server/bin/wk-server-admin add-user SOME_USER --admin -p SOME_PASSWORD -e YOUR_EMAIL
    

    注意:将SOME_USER替换为用户名,将SOME_PASSWORD替换为密码,并将YOUR_EMAIL替换为您的电子邮件地址。

  3. 使用新密码以管理员用户身份登录AEN。

日志文件被删除#

日志文件正在被删除。

注意:每个进程和应用程序的AEN日志文件的位置显示在Concepts中的节点部分。

原因#

AEN 安装程序登录到 /tmp/wakari\_{server,gateway,compute}.log。如果日志文件 变得太大,它们可能会被删除。

解决方案#

为了使日志更加详细或简洁,Jupyter Notebooks 使用了 Application.log_level

为了使日志比默认设置更简洁,但仍然保持信息性,将 Application.log_level 设置为 ERROR。

错误:此套接字已关闭#

当你尝试启动应用程序时,会收到“此套接字已关闭”的错误消息。

原因#

当supervisord进程被终止时,发送到标准输出stdout和标准错误stderr的信息会被保留在一个管道中,最终会填满。

一旦满了,尝试启动任何应用程序都会导致“此套接字已关闭”错误。

解决方案#

为了防止这个问题:

  • 按照管理服务中的说明来停止和重启进程。

  • 在停止wk-compute和任何其他使用它的进程之前,请不要停止或终止supervisord。

要解决“此套接字已关闭”错误:

  1. 通过运行 sudo kill -9 来停止 wk-compute。

  2. 重新启动supervisord和wk-compute进程:

    sudo /etc/init.d/wakari-compute stop
    sudo /etc/init.d/wakari-compute start
    

服务错误 502: 无法连接到应用程序管理器#

网关节点显示“服务错误502:无法连接到应用程序管理器。”

原因#

计算节点没有响应,因为wk-compute进程已停止。

解决方案#

停止然后重新启动supervisord和wk-compute进程:

sudo /etc/init.d/wakari-compute stop
sudo /etc/init.d/wakari-compute start

亚马逊网络服务(AWS)上的502通信错误#

您收到“502 通信错误:此网关无法与 Wakari 服务器通信”的错误消息。

原因#

AEN网关无法与AWS上的Wakari服务器通信。可能是Wakari服务器的IP地址有问题。

解决方案#

配置您的AEN网关以使用服务器的DNS主机名。 在AWS上,这是Amazon Elastic Compute Cloud (EC2)实例的DNS主机名。

无效的用户名#

原因#

用户名不符合以下一个或多个规则:

  • 必须至少3个字符且不超过25个字符。

  • 第一个字符必须是字母(A-Z)或数字(0-9)。

  • 其他字符可以是字母、数字、句点(.)、下划线(_)或连字符(-)。

  • POSIX标准规定这些字符是可移植文件名字符集,并且可移植用户名具有相同的字符集。

解决方案#

遵循上述用户名规则。

笔记本错误:无法通过LaTeX下载笔记本为PDF#

原因#

LaTeX 未正确安装。

CentOS/6 解决方案#

  1. TUG网站安装TeXLive。 按照描述的步骤进行操作。安装可能需要一些时间。

  2. 将安装添加到文件 /etc/profile.d/latex.sh 中的 PATH。根据需要替换年份和架构,添加以下内容:

    PATH=/usr/local/texlive/2017/bin/x86_64-linux:$PATH
    
  3. 重新启动计算节点。

CentOS/7 解决方案#

  1. 安装缺失的包,运行以下命令:

    yum install texlive texlive-xetex texlive-xetexconfig texlive-xetex-def texlive-adjustbox texlive-upquote texlive-ulem
    

无错误消息的wk-server线程无响应#

原因#

两件事可能导致wk-server线程冻结而不显示错误信息:

  • LDAP冻结

  • MongoDB 冻结

如果LDAP或MongoDB配置了较长的超时时间,Gunicorn可能会先超时并终止LDAP或MongoDB进程。然后,LDAP或MongoDB进程会在没有记录超时错误的情况下终止。

解决方案#

  1. 检查冻结的LDAP或MongoDB服务器进程。

  2. 您可能还希望将Gunicorn的超时时间配置为超过30秒。

无响应的 wk-gateway 线程没有错误信息#

原因#

如果TLS配置了带有密码保护的私钥, wk-gateway 将会冻结且没有任何错误信息。

解决方案#

更新TLS配置,使其不使用受密码保护的私钥。

启动项目时出错#

项目的状态页面显示“启动此项目时出错”。

原因#

计算节点中磁盘空间不足会阻止项目启动。

解决方案#

  1. 验证项目节点是否符合系统要求

  2. 检查计算节点分区上是否有足够的可用空间,其中 /projects 所在的位置:

    df -h /projects
    
  3. 释放一些磁盘空间以满足系统要求。

  4. 重新启动项目。

.condarc 文件的更改被忽略#

.condarc所做的更改会被conda忽略。

原因#

Conda通过将多个文件合并在一起来加载其配置。

解决方案#

检查您是否正在将更改应用到正确的文件。

要显示conda当前正在使用的合并状态:

conda config --show

要显示conda当前正在读取的所有配置文件:

conda config --show-sources