今朝も再びサーバが不調となった。
不調時のkernel log
改めて、不調となる時間帯の syslog, messages あたりを眺めてみると、 異常動作が始まる前に、共通して以下のようなLOGが出力されている。 どうも、kernel の cron あたりで発生。
Sep 10 09:33:50 perrine kernel: [231581.206381] cron D ffff880077456900 0 4305 1169 0x00000000 Sep 10 09:33:50 perrine kernel: [231581.206387] ffff880070e60050 0000000000000018 ffff8800744d2a20 ffffffff81466362 Sep 10 09:33:50 perrine kernel: [231581.206391] ffff880072bb8000 ffffffff8185f644 ffff880070e60050 00000000ffffffff Sep 10 09:33:50 perrine kernel: [231581.206395] ffffffff8185f648 0000000000000074 ffffffff81571eef ffffffff8185f640 Sep 10 09:33:50 perrine kernel: [231581.206398] Call Trace: Sep 10 09:33:50 perrine kernel: [231581.206409] [<ffffffff81466362>] ? __kmalloc_reserve.isra.27+0x32/0x90 Sep 10 09:33:50 perrine kernel: [231581.206415] [<ffffffff81571eef>] ? schedule+0x2f/0x80 Sep 10 09:33:50 perrine kernel: [231581.206418] [<ffffffff8157220e>] ? schedule_preempt_disabled+0xe/0x20 Sep 10 09:33:50 perrine kernel: [231581.206422] [<ffffffff81573df5>] ? __mutex_lock_slowpath+0x95/0x110 Sep 10 09:33:50 perrine kernel: [231581.206427] [<ffffffff814a750b>] ? __netlink_lookup+0xab/0xe0 Sep 10 09:33:50 perrine kernel: [231581.206430] [<ffffffff81573e8b>] ? mutex_lock+0x1b/0x30 Sep 10 09:33:50 perrine kernel: [231581.206435] [<ffffffff81107be8>] ? audit_receive+0x18/0xa0 Sep 10 09:33:50 perrine kernel: [231581.206438] [<ffffffff814a9847>] ? netlink_unicast+0x107/0x1a0 Sep 10 09:33:50 perrine kernel: [231581.206441] [<ffffffff814a9dce>] ? netlink_sendmsg+0x4ee/0x610 Sep 10 09:33:50 perrine kernel: [231581.206447] [<ffffffff8145e3bc>] ? sock_sendmsg+0x3c/0x50 Sep 10 09:33:50 perrine kernel: [231581.206451] [<ffffffff8145e82b>] ? SYSC_sendto+0xdb/0x170 Sep 10 09:33:50 perrine kernel: [231581.206455] [<ffffffff8145bb8a>] ? sock_alloc_file+0x9a/0x120 Sep 10 09:33:50 perrine kernel: [231581.206461] [<ffffffff811e7a42>] ? set_close_on_exec+0x32/0x70 Sep 10 09:33:50 perrine kernel: [231581.206466] [<ffffffff811dc5d5>] ? SyS_fcntl+0x3d5/0x600 Sep 10 09:33:50 perrine kernel: [231581.206469] [<ffffffff8145efea>] ? SyS_socket+0x8a/0xd0 Sep 10 09:33:50 perrine kernel: [231581.206475] [<ffffffff81576132>] ? system_call_fast_compare_end+0xc/0x6b
一応 xfs の repair も実行
最近の不調3回のうち、2回については、上記LOGの前に、XFS の unmount のメッセージも出ていた。
XFSを使っているのは、外付け USB-HDD なので、一応、fsck.xfs を実行させておく方がいいかな...
ただ、実行させたら、代わりに xfs_repair コマンドを使えとの警告。
# umount /dev/sdc1 # xfs_repair /dev/sdc1 Phase 1 - find and verify superblock... Phase 2 - using internal log - zero log... - scan filesystem freespace and inode maps... - found root inode chunk Phase 3 - for each AG... - scan and clear agi unlinked lists... - process known inodes and perform inode discovery... - agno = 0 - agno = 1 - agno = 2 - agno = 3 - process newly discovered inodes... Phase 4 - check for duplicate blocks... - setting up duplicate extent list... - check for inodes claiming duplicate blocks... - agno = 1 - agno = 0 - agno = 2 - agno = 3 Phase 5 - rebuild AG headers and trees... - reset superblock... Phase 6 - check inode connectivity... - resetting contents of realtime bitmap and summary inodes - traversing filesystem ... - traversal finished ... - moving disconnected inodes to lost+found ... Phase 7 - verify and correct link counts... done
ひとまず、カーネルのバージョンを落とす
前述のメッセージをみるからに、kernel の問題も考えられる。 そこで、linux-image-4.1.x を使っていたが、linux-image-4.0.x にバージョンを落とす。
i A linux-image-4.0.0-2-amd64 p linux-image-4.1.0-2-amd64
不調、治ったかな...
最初はマザーボードの不調かと思っていたけど、カーネルの問題っぽくって、バージョンを落としていたけど、 色々と新しい update を適用していたら、異常停止の症状が出ていない。 多少不安はあったけど、改めて linux-image-4.1 を入れてみた。 その後は、ひとまず安定している様子だ。