[步骤] Linux Kdump 的开启 (用于收集内核崩溃时的信息) (SLES 版)

正文:

步骤一:确保 kdump 软件包已安装

# rpm -qa | grep kdump || zypper install kdump

(注意:此方法只有 openSUSE & SLES 可以使用)

步骤二:给 Kdump 预留内存

2.1 计算给 Kdump 预留的内存大小

2.1.1 使用 kdumptool calibrate 命令获取推荐的 Kdump 预留大小
# kdumptool calibrate
config option KDUMP_COPY_KERNEL is deprecated, ignoring
Total: 1023
Low: 0
High: 342
MinLow: 0
MaxLow: 325
MinHigh: 0
MaxHigh: 325

(补充:这里的 Low 值为 0,High 值为 342)

(注意:这里数字的单位是兆 “M”)

2.1.2 查看 /proc/scsi/scsi 文件获取多路径设备数
# cat /proc/scsi/scsi | grep Lun | wc -l
2

(补充:这里显示的多路径设备数是 2)

(注意:这里需要排除掉多路径的设备,因为系统会忽略这些设备)

2.1.3 计算给 Kdump 预留的内存大小
2.1.3.1 计算给 Kdump 预留的 Low 内存大小

1) 当 kdumptool calibrate 命令执行的结果中 Low 值小于或等于 72M 时,Low 值应该设置为 72M
2) 当 kdumptool calibrate 命令执行的结果中 Low 值大于 72M 时,Low 应该设置为和kdumptool calibrate 命令执行的结果中的 Low 值一样

例如步骤 2.1.1 中的 Low 值为 0,所以这里的 Low 内存值为 72M

(补充:Low 值表示 DMA 32 区域中的内存预留值,是仅支持 32 位设备所需要的内存量,即 4GB 以内的全部内存。其值的设置应该注意以下两点)

(注意:在没有任何仅支持 32 为设备的情况下,为 Low 指指定 72M 的默认分配大小可确保一切正常,但 NUMA 系统似乎需要更多的 Low 内存。所以建议使用 numa=off 引导 Kdump 内核以去报常规内核分配不使用 Low 内存)

2.1.3.2 计算给 Kdump 预留的 High 内存大小
SIZE_HIGH = RECOMMENDATION + (LUNs / 2)

例如步骤 2.1.1 中的 High 值为 342,步骤 2.1.2 中获取到的数字是 2,所以这里的 High 内存值为 343

2.1.3.3 计算给 Kdump 预留的内存大小

根据步骤 2.1.3.1 和步骤 2.1.3.2 可计算出这次需要给 KDUMP 预留的内存大小如下:

crashkernel=343M,high crashkernel=72M,low

2.2 给 Kdump 预留内存

2.2.1 在 /etc/default/grub 配置文件里修改 crashkernel 参数
# vim /etc/default/grub

在这一行里:

.....
GRUB_CMDLINE_LINUX_DEFAULT="......"
.....

确保有:

.....
GRUB_CMDLINE_LINUX="crashkernel=343M,high crashkernel=72M,low......"
.....

并确保此文件其他地方没有和 crashkernel= 相关的参数

(补充:这里的 crashkernel=343M,high crashkernel=72M,low 是由步骤 2.1 计算得到的)

2.2.2 让刚刚修改的内核参数生效
2.2.2.1 生成新的 /boot/grub2/grub.cfg 文件
# grub2-mkconfig -o /boot/grub2/grub.cfg
2.2.2.2 重启系统
# reboot

步骤三:让 Kdump 加载刚刚设置的预留的内存大小

# systemctl enable kdump.service ; systemctl restart kdump.service

步骤四:测试 Kdump

4.1 手动触发内存奔溃

# echo c > /proc/sysrq-trigger

4.2 查看系统奔溃的记录

# last | grep crash

4.3 系统重启后查看 Kdump 有没有在系统奔溃时创建系统的日志

# ls /var/crash

(注意:如果 Kdump 没有生成的话,可以适当增加 crashkernel=,high 的值,之后再执行相印的步骤,之后再测试)

参考文献:

https://documentation.suse.com/sles/15-SP7/html/SLES-all/cha-tuning-kexec.html#sec-tuning-kexec-crashkernel
https://documentation.suse.com/zh-cn/sles/15-SP7/html/SLES-all/cha-tuning-kexec.html#sec-tuning-kexec-crashkernel

[排错] Linux 解决 SSSD 用户导致本地用户无法创建的问题 (本地用户名称和 SSSD 里的用户名称冲突导致本地用户名称无法被创建)

报错现象

创建这个用户时报错这个用户已经创建
删除这个用户时报错这个用户不存在
使用 id 命令检查这个用户时会显示此用户

确认方法:检查某个用户名有没有被域名占用

# getent passwd -s sss mingyuzhu

(补充:这里以检查某个用户名有没有被域名占用为例)

解决方法方法一:临时禁用 SSSD 解析

1.1 修改 /etc/nsswitch.conf 配置文件

# vi /etc/nsswitch.conf

将以下内容:

......
passwd:     files systemd
......

修改为:

......
#passwd:     files systemd
......

1.2 让刚刚修改的配置文件生效

# systemctl restart sssd

解决方法二:在 SSSD 服务中忽略某用户

2.1 修改 /etc/sssd.conf 配置文件

# vi /etc/sssd.conf

添加以下内容:

......
[nss]
filter_users = mingyuzhu

(补充:这里以忽略 mingyuzhu 用户为例)

2.2 让刚刚修改的配置文件生效

# systemctl restart sssd

参考文献

https://access.redhat.com/solutions/3442161

[命令] Linux 命令 findmnt 的使用 (显示目前挂载的文件系统)

案例一:显示目前挂载的文件系统

# findmnt

案例二:显示目前挂载的文件系统并取消过滤器 (显示所有挂载的文件系统)

# findmnt -A

或者:

# findmnt --all

案例三:显示目前挂载的文件系统并以 df 命令的输出格式显示出来 (可以和 -A 或者 –all 选项和作用一起使用)

# findmnt -D

或者:

# findmnt --df

或者:

# findmnt -I

或者:

# findmnt --dfi

案例四:显示目前挂载的文件系统并取消显示文件系统之间的上下级关系

# findmnt -l

或者:

# findmnt --list

案例五:显示目前挂载的文件系统但是指定要显示的文件系统

# findmnt -t xfs

或者:

# findmnt --types xfs

(补充:这里以只显示 xfs 文件系统为例)

案例六:显示目前挂载的文件系统并以 tree 命令的输出格式显示出来

# findmnt --tree

案例七:显示目前挂载的文件系统但是去掉重复的挂载点

# findmnt -U

或者:

# findmnt --uniq

[命令] Linux 命令 zless 的使用 (显示压缩文本的行同时不用解压文件)

内容一:zless 命令的格式

# zless <options> <file>

内容二:zless 命令的选项

1) -n 或者 –line-numbers,在显示压缩文件的同时显示行号
2) -p 或者 –pattern=PATTERN,在压缩的文件中搜索内容

内容三:zless 命令的使用案例

# zless -p "eternalcenter" test.gz

(补充:这里以在 test.gz 压缩文件中搜索内容 eternalcenter 为例)