ホーム » コンピュータ » Linux » Debian » サーバの不調(part2)

システム

最近の投稿

アーカイブ

カテゴリー

サーバの不調(part2)

今朝も再びサーバが不調となった。

不調時のkernel log

改めて、不調となる時間帯の syslog, messages あたりを眺めてみると、 異常動作が始まる前に、共通して以下のようなLOGが出力されている。 どうも、kernel の cron あたりで発生。

Sep 10 09:33:50 perrine kernel: [231581.206381] cron            D ffff880077456900     0  4305   1169 0x00000000
Sep 10 09:33:50 perrine kernel: [231581.206387]  ffff880070e60050 0000000000000018 ffff8800744d2a20 ffffffff81466362
Sep 10 09:33:50 perrine kernel: [231581.206391]  ffff880072bb8000 ffffffff8185f644 ffff880070e60050 00000000ffffffff
Sep 10 09:33:50 perrine kernel: [231581.206395]  ffffffff8185f648 0000000000000074 ffffffff81571eef ffffffff8185f640
Sep 10 09:33:50 perrine kernel: [231581.206398] Call Trace:
Sep 10 09:33:50 perrine kernel: [231581.206409]  [<ffffffff81466362>] ? __kmalloc_reserve.isra.27+0x32/0x90
Sep 10 09:33:50 perrine kernel: [231581.206415]  [<ffffffff81571eef>] ? schedule+0x2f/0x80
Sep 10 09:33:50 perrine kernel: [231581.206418]  [<ffffffff8157220e>] ? schedule_preempt_disabled+0xe/0x20
Sep 10 09:33:50 perrine kernel: [231581.206422]  [<ffffffff81573df5>] ? __mutex_lock_slowpath+0x95/0x110
Sep 10 09:33:50 perrine kernel: [231581.206427]  [<ffffffff814a750b>] ? __netlink_lookup+0xab/0xe0
Sep 10 09:33:50 perrine kernel: [231581.206430]  [<ffffffff81573e8b>] ? mutex_lock+0x1b/0x30
Sep 10 09:33:50 perrine kernel: [231581.206435]  [<ffffffff81107be8>] ? audit_receive+0x18/0xa0
Sep 10 09:33:50 perrine kernel: [231581.206438]  [<ffffffff814a9847>] ? netlink_unicast+0x107/0x1a0
Sep 10 09:33:50 perrine kernel: [231581.206441]  [<ffffffff814a9dce>] ? netlink_sendmsg+0x4ee/0x610
Sep 10 09:33:50 perrine kernel: [231581.206447]  [<ffffffff8145e3bc>] ? sock_sendmsg+0x3c/0x50
Sep 10 09:33:50 perrine kernel: [231581.206451]  [<ffffffff8145e82b>] ? SYSC_sendto+0xdb/0x170
Sep 10 09:33:50 perrine kernel: [231581.206455]  [<ffffffff8145bb8a>] ? sock_alloc_file+0x9a/0x120
Sep 10 09:33:50 perrine kernel: [231581.206461]  [<ffffffff811e7a42>] ? set_close_on_exec+0x32/0x70
Sep 10 09:33:50 perrine kernel: [231581.206466]  [<ffffffff811dc5d5>] ? SyS_fcntl+0x3d5/0x600
Sep 10 09:33:50 perrine kernel: [231581.206469]  [<ffffffff8145efea>] ? SyS_socket+0x8a/0xd0
Sep 10 09:33:50 perrine kernel: [231581.206475]  [<ffffffff81576132>] ? system_call_fast_compare_end+0xc/0x6b

一応 xfs の repair も実行

最近の不調3回のうち、2回については、上記LOGの前に、XFS の unmount のメッセージも出ていた。 XFSを使っているのは、外付け USB-HDD なので、一応、fsck.xfs を実行させておく方がいいかな…
ただ、実行させたら、代わりに xfs_repair コマンドを使えとの警告。

# umount /dev/sdc1
# xfs_repair /dev/sdc1
Phase 1 - find and verify superblock...
Phase 2 - using internal log
- zero log...
- scan filesystem freespace and inode maps...
- found root inode chunk
Phase 3 - for each AG...
- scan and clear agi unlinked lists...
- process known inodes and perform inode discovery...
- agno = 0
- agno = 1
- agno = 2
- agno = 3
- process newly discovered inodes...
Phase 4 - check for duplicate blocks...
- setting up duplicate extent list...
- check for inodes claiming duplicate blocks...
- agno = 1
- agno = 0
- agno = 2
- agno = 3
Phase 5 - rebuild AG headers and trees...
- reset superblock...
Phase 6 - check inode connectivity...
- resetting contents of realtime bitmap and summary inodes
- traversing filesystem ...
- traversal finished ...
- moving disconnected inodes to lost+found ...
Phase 7 - verify and correct link counts...
done

ひとまず、カーネルのバージョンを落とす

前述のメッセージをみるからに、kernel の問題も考えられる。 そこで、linux-image-4.1.x を使っていたが、linux-image-4.0.x にバージョンを落とす。

i A linux-image-4.0.0-2-amd64
p   linux-image-4.1.0-2-amd64

不調、治ったかな…

最初はマザーボードの不調かと思っていたけど、カーネルの問題っぽくって、バージョンを落としていたけど、 色々と新しい update を適用していたら、異常停止の症状が出ていない。 多少不安はあったけど、改めて linux-image-4.1 を入れてみた。 その後は、ひとまず安定している様子だ。

Google 検索

My Google   Yahoo

Microsoft

ファンサイト