Показать сообщение отдельно
Старый 31.05.2016, 17:08   #1349
Меню пользователя mudanzan
Старожил
  
Добрый день, господа. Я к вам с просьбой о помощи.
Даже не знаю с чего начать, поэтому начну сначала.

Конфиг
Intel i7-5820k
MSI X99S SLI plus
Noctua NH-D15
4 x 8GB Crucial CT8G4DFD8213
be quiet! Pure Power L8 630W CM
Gigabyte gv-n960g1 gaming-2gd

Пару недель назад я переезжал из комнаты в комнату, перекладывал сеть и таскал системники. Не могу сказать на сто процентов что с этого всё началось, но после этого проблема стала очевидна. Начались рандомные зависания намертво посреди работы. Независимо от нагружености. Комп может спокойно простоять в рендере три часа не повиснув, а может издохнуть через полчаса при одном включённом плеере (ну и торрент всегда что-нибудь грузит-раздаёт, замечу ради справедливости). Сначала я грешил на недавно установленную десятку, но после установки семёрки проблема осталась. Из одного прецедента удалось изловить дамп

дамп
Crash Dump Analysis provided by OSR Open Systems Resources, Inc. (http://www.osr.com)
Online Crash Dump Analysis Service
See http://www.osronline.com for more information
Windows 7 Kernel Version 7601 (Service Pack 1) MP (12 procs) Free x64
Product: WinNt, suite: TerminalServer SingleUserTS
Built by: 7601.23418.amd64fre.win7sp1_ldr.160408-2045
Machine Name:
Kernel base = 0xfffff800`03219000 PsLoadedModuleList = 0xfffff800`0345b730
Debug session time: Tue May 31 05:40:31.287 2016 (UTC - 4:00)
System Uptime: 0 days 0:53:18.454
************************************************** *****************************
* *
* Bugcheck Analysis *
* *
************************************************** *****************************

WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000000, Machine Check Exception
Arg2: fffffa8019b45028, Address of the WHEA_ERROR_RECORD structure.
Arg3: 00000000be200000, High order 32-bits of the MCi_STATUS value.
Arg4: 00000000000c110a, Low order 32-bits of the MCi_STATUS value.

Debugging Details:
------------------

TRIAGER: Could not open triage file : e:\dump_analysis\program\triage\modclass.ini, error 2

BUGCHECK_STR: 0x124_GenuineIntel

CUSTOMER_CRASH_COUNT: 1

DEFAULT_BUCKET_ID: WIN7_DRIVER_FAULT

PROCESS_NAME: System

CURRENT_IRQL: f

STACK_TEXT:
fffff880`0371fc58 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KeBugCheckEx


STACK_COMMAND: kb

FOLLOWUP_NAME: MachineOwner

MODULE_NAME: GenuineIntel

IMAGE_NAME: GenuineIntel

DEBUG_FLR_IMAGE_TIMESTAMP: 0

FAILURE_BUCKET_ID: X64_0x124_GenuineIntel_PROCESSOR_CACHE

BUCKET_ID: X64_0x124_GenuineIntel_PROCESSOR_CACHE

Followup: MachineOwner

Открыв его и погуглив немного, сделал вывод что проблема в процессоре. Но точно ли в нём? Может в материнке? После этого я стал копать и последовательно проверял следующие вещи:
1. Убрал разгон и обновил биос. Разгон это громко сказано: на материнке кнопочка "oc-genie", которая поднимает частоту с 3.3 до 3.8, увеличивая питание процессора всего на 0.05В (1,1В). Сам я разгонял до 4.4 и поднимал питание до 1.3В когда надо было много считать. Последний раз занимался этим зимой, в остальное время стоял этот "оптимизированный прирост" от материнки. С разгоном проблем никогда не было, температура выше 70 редко когда поднималась даже на максимальной загрузке. Сейчас же вообще до пятидесяти никогда не дотягивает. В общем, несмотря на возвращение в штатный режим и новый биос проблема осталась.
2. Разобрал-собрал-почистил весь системник, сменил терпомасту, потёр тёрочкой контакты памяти и видеокарты =) Проблема осталась.
3. Отключил hdd и sdd, загрузил с флешки ubuntu. Проблема осталась. Поскольку в линуксе я не спец, то выковырять какую-нибудь информацию о краше мне не по силам.
4. Поставил другой блок питания. Проблема осталась. Тут надо уточнить, что этот БП слабоват, не могу сейчас точно сказать модель, но это какой-то дженерик кулермастер на 500 Вт, из которых реальных даже не знаю сколько.
4.1. Притащил питание с заземлённой розетки на кухне. Думал может обилие блоков питания подключённых к удлиннителю от всяких роутеров-телефонов мешают жить. Проблема осталась.
5. Поменял видеокарту, жду пока повиснет.
Если повиснет — то последний шанс это проверить память по одной планке, но до этого я уже недавно гонял memtest и никаких ошибок не нашёл. Ещё замечу что до обновления биоса при загрузке профилей оверлокинга комп без предупреждения уходил в ребут.

Самое хреновое в этой ситуации то, что гарантия на процессор и материнку с памятью истекают через три недели, всё это было куплено в разных магазинах; и пока я не выясню что конкретно и куда отправлять — остаюсь в подвешенном состоянии, при этом стоит работа. Вся надежда на то, что каким-то образом полетел БП, его замена будет сравнительно безболезненна, с остальным сложнее. Непохоже на то, чтобы проц так выборочно проявлял глюк. Тогда материнка? Но как проверить?

В общем я зашёл в тупик, прошу любых советов, уже третий день ковыряюсь безрезультатно.
mudanzan вне форума   Ответить с цитированием