故障排除#
本故障排除指南为您提供了处理AEN安装过程中可能出现问题的方法。
一般故障排除步骤#
清除浏览器 cookies。当您更改 AEN 配置或升级 AEN 时,浏览器中残留的 cookies 可能会导致问题。清除 cookies 并重新登录可以帮助解决问题。
确保在所有节点上,AEN服务设置为启动时启动。
浏览器错误:重定向过多#
原因#
浏览器cookie已过期。
解决方案#
登出。
清除浏览器的cookies。
清除浏览器缓存。
登录。
浏览器错误:启动项目应用时重定向过多#
当用户尝试启动应用程序时,浏览器显示“重定向过多”。
原因#
项目的计算资源无效或已被删除。
解决方案#
异常:exceptions.TypeError: ‘NoneType’ 对象没有属性 ‘__getitem__’#
当项目未分配计算资源时,此异常会出现在管理 > 异常页面上。
原因#
项目的计算资源无效或已被删除。
解决方案#
错误:unix:////opt/wakari/wakari-server/etc/supervisor.sock 没有这样的文件#
这是一个supervisorctl错误。
原因#
supervisord 未在服务器上运行。
解决方案#
确保在crontab中包含supervisord。然后手动重启supervisord。
错误:删除项目时出现“数据中心未找到”#
原因#
数据中心已被移除。
解决方案#
以root身份运行:
/opt/wakari/wakari-server/bin/wk-server-admin remove-project --db-only <user> <project>
忘记管理员密码#
使用ssh以root身份登录服务器。
运行:
/opt/wakari/wakari-server/bin/wk-server-admin reset-password -u SOME_USER -p SOME_PASSWORD
注意:将SOME_USER替换为管理员用户名,将SOME_PASSWORD替换为密码。
使用新密码以管理员用户身份登录AEN。
或者您可以添加一个管理员用户:
使用ssh以root身份登录服务器。
运行:
/opt/wakari/wakari-server/bin/wk-server-admin add-user SOME_USER --admin -p SOME_PASSWORD -e YOUR_EMAIL
注意:将SOME_USER替换为用户名,将SOME_PASSWORD替换为密码,并将YOUR_EMAIL替换为您的电子邮件地址。
使用新密码以管理员用户身份登录AEN。
日志文件被删除#
日志文件正在被删除。
注意:每个进程和应用程序的AEN日志文件的位置显示在Concepts中的节点部分。
原因#
AEN 安装程序登录到
/tmp/wakari\_{server,gateway,compute}.log
。如果日志文件
变得太大,它们可能会被删除。
解决方案#
为了使日志更加详细或简洁,Jupyter Notebooks 使用了 Application.log_level。
为了使日志比默认设置更简洁,但仍然保持信息性,将 Application.log_level 设置为 ERROR。
错误:此套接字已关闭#
当你尝试启动应用程序时,会收到“此套接字已关闭”的错误消息。
原因#
当supervisord进程被终止时,发送到标准输出stdout
和标准错误stderr
的信息会被保留在一个管道中,最终会填满。
一旦满了,尝试启动任何应用程序都会导致“此套接字已关闭”错误。
解决方案#
为了防止这个问题:
按照管理服务中的说明来停止和重启进程。
在停止wk-compute和任何其他使用它的进程之前,请不要停止或终止supervisord。
要解决“此套接字已关闭”错误:
通过运行
sudo kill -9
来停止 wk-compute。重新启动supervisord和wk-compute进程:
sudo /etc/init.d/wakari-compute stop sudo /etc/init.d/wakari-compute start
服务错误 502: 无法连接到应用程序管理器#
网关节点显示“服务错误502:无法连接到应用程序管理器。”
原因#
计算节点没有响应,因为wk-compute进程已停止。
解决方案#
停止然后重新启动supervisord和wk-compute进程:
sudo /etc/init.d/wakari-compute stop
sudo /etc/init.d/wakari-compute start
亚马逊网络服务(AWS)上的502通信错误#
您收到“502 通信错误:此网关无法与 Wakari 服务器通信”的错误消息。
原因#
AEN网关无法与AWS上的Wakari服务器通信。可能是Wakari服务器的IP地址有问题。
解决方案#
配置您的AEN网关以使用服务器的DNS主机名。 在AWS上,这是Amazon Elastic Compute Cloud (EC2)实例的DNS主机名。
无效的用户名#
原因#
用户名不符合以下一个或多个规则:
必须至少3个字符且不超过25个字符。
第一个字符必须是字母(A-Z)或数字(0-9)。
其他字符可以是字母、数字、句点(.)、下划线(_)或连字符(-)。
POSIX标准规定这些字符是可移植文件名字符集,并且可移植用户名具有相同的字符集。
解决方案#
遵循上述用户名规则。
笔记本错误:无法通过LaTeX下载笔记本为PDF#
原因#
LaTeX 未正确安装。
CentOS/6 解决方案#
从TUG网站安装TeXLive。 按照描述的步骤进行操作。安装可能需要一些时间。
将安装添加到文件
/etc/profile.d/latex.sh
中的PATH
。根据需要替换年份和架构,添加以下内容:PATH=/usr/local/texlive/2017/bin/x86_64-linux:$PATH
重新启动计算节点。
CentOS/7 解决方案#
安装缺失的包,运行以下命令:
yum install texlive texlive-xetex texlive-xetexconfig texlive-xetex-def texlive-adjustbox texlive-upquote texlive-ulem
无错误消息的wk-server
线程无响应#
原因#
两件事可能导致wk-server
线程冻结而不显示错误信息:
LDAP冻结
MongoDB 冻结
如果LDAP或MongoDB配置了较长的超时时间,Gunicorn可能会先超时并终止LDAP或MongoDB进程。然后,LDAP或MongoDB进程会在没有记录超时错误的情况下终止。
解决方案#
检查冻结的LDAP或MongoDB服务器进程。
您可能还希望将Gunicorn的超时时间配置为超过30秒。
无响应的 wk-gateway
线程没有错误信息#
原因#
如果TLS配置了带有密码保护的私钥,
wk-gateway
将会冻结且没有任何错误信息。
解决方案#
更新TLS配置,使其不使用受密码保护的私钥。
启动项目时出错#
项目的状态页面显示“启动此项目时出错”。
原因#
计算节点中磁盘空间不足会阻止项目启动。
解决方案#
验证项目节点是否符合系统要求。
检查计算节点分区上是否有足够的可用空间,其中
/projects
所在的位置:df -h /projects
释放一些磁盘空间以满足系统要求。
重新启动项目。
.condarc 文件的更改被忽略#
对.condarc
所做的更改会被conda忽略。
原因#
Conda通过将多个文件合并在一起来加载其配置。
解决方案#
检查您是否正在将更改应用到正确的文件。
要显示conda当前正在使用的合并状态:
conda config --show
要显示conda当前正在读取的所有配置文件:
conda config --show-sources