Perché si rompe un SSD

Perché si rompe un SSD? I componenti che cedono davvero

Gli SSD hanno una reputazione di affidabilità superiore agli hard disk meccanici, e in parte è meritata: niente testine, niente dischi in rotazione, niente parti che si consumano per attrito. Ma si rompono lo stesso — e spesso in modo più subdolo e meno prevedibile di un HDD.

 

Dopo anni passati a smontare, diagnosticare e recuperare dati da unità flash di ogni tipo, ecco quello che vediamo davvero quando un SSD arriva in laboratorio.

Il firmware: il guasto che non ti aspetti

Il firmware è il software integrato nel controller che gestisce tutta la logica dell’unità: lettura, scrittura, wear leveling, gestione degli errori. È il cervello dell’SSD.

Quando il firmware va in crash — per un aggiornamento andato male, un’interruzione di corrente nel momento sbagliato, un bug latente nel codice — il disco può diventare improvvisamente invisibile al sistema. Non risponde, non si inizializza, non viene rilevato dal BIOS. I dati fisicamente ci sono ancora, ma il controller non è in grado di accedervi.

Questo tipo di guasto è tra i più comuni che vediamo, ed è anche uno dei più fraintesi: l’utente pensa che il disco sia “morto”, ma spesso è solo bloccato in uno stato di stallo logico.

Il controller: il componente più a rischio

Il controller è un chip dedicato che gestisce tutte le operazioni dell’unità. Coordina le scritture sulle celle NAND, gestisce la traduzione degli indirizzi logici in fisici (FTL), esegue il garbage collection, controlla la temperatura.

È anche il componente che lavora di più, che dissipa più calore, e che — su certi modelli e certi produttori — presenta tassi di guasto non trascurabili. Un controller difettoso o surriscaldato può bloccare l’unità in modo permanente, rendere inaccessibili le tabelle di traduzione o causare corruzione silenziosa dei dati.

La qualità del controller varia enormemente tra i produttori. Non è un caso che certi modelli di SSD abbiano storie di guasti ben documentate, legate proprio al chip di controllo.


 

La NAND flash: l’usura che avanza ciclo dopo ciclo

Le celle NAND — che fisicamente immagazzinano i dati — hanno un numero finito di cicli di scrittura. Ogni volta che scrivi e cancelli dati, l’isolante che circonda il floating gate si degrada un po’. Quando si degrada abbastanza, la cella non riesce più a trattenere la carica in modo affidabile.

Quanto velocemente si consuma dipende dal tipo di NAND:

SLC (Single Level Cell): una sola bit per cella, cicli di scrittura nell’ordine delle 100.000. Praticamente indistruttibile nell’uso normale, usata quasi solo in ambito industriale.
MLC (Multi Level Cell): due bit per cella, 3.000–10.000 cicli. Buon compromesso tra durata e densità.
TLC (Triple Level Cell): tre bit per cella, 1.000–3.000 cicli. Il formato dominante nel consumer.
QLC (Quad Level Cell): quattro bit per cella, 100–1.000 cicli. Alta capacità, bassa endurance. Adatto per archivi, non per uso intensivo.

Gli SSD consumer moderni usano quasi tutti TLC o QLC. Su unità entry-level usate per lavoro intensivo (macchine virtuali, database, editing video), l’usura della NAND può essere il vero limite della vita utile del disco.


Il condensatore e l’alimentazione: guasti violenti

Una tensione instabile o un’interruzione improvvisa durante una scrittura può fare danni seri. Gli SSD consumer non hanno condensatori di backup (a differenza di certe unità enterprise) e non sono progettati per gestire power loss istantanei in modo elegante.

Cosa può succedere: corruzione della tabella FTL, dati a metà scrittura non completati, o — nei casi peggiori — danno fisico ai componenti di alimentazione. I MOSFET e i regolatori di tensione sulla scheda sono vulnerabili agli spike di corrente, soprattutto su alimentatori di bassa qualità o sistemi con problemi elettrici.

La NAND flash: l’usura che avanza ciclo dopo ciclo
Le celle NAND — che fisicamente immagazzinano i dati — hanno un numero finito di cicli di scrittura. Ogni volta che scrivi e cancelli dati, l’isolante che circonda il floating gate si degrada un po’. Quando si degrada abbastanza, la cella non riesce più a trattenere la carica in modo affidabile.

Quanto velocemente si consuma dipende dal tipo di NAND:

SLC (Single Level Cell): una sola bit per cella, cicli di scrittura nell’ordine delle 100.000. Praticamente indistruttibile nell’uso normale, usata quasi solo in ambito industriale.
MLC (Multi Level Cell): due bit per cella, 3.000–10.000 cicli. Buon compromesso tra durata e densità.
TLC (Triple Level Cell): tre bit per cella, 1.000–3.000 cicli. Il formato dominante nel consumer.
QLC (Quad Level Cell): quattro bit per cella, 100–1.000 cicli. Alta capacità, bassa endurance. Adatto per archivi, non per uso intensivo.

Gli SSD consumer moderni usano quasi tutti TLC o QLC. Su unità entry-level usate per lavoro intensivo (macchine virtuali, database, editing video), l’usura della NAND può essere il vero limite della vita utile del disco.

 


 

Il condensatore e l’alimentazione: guasti violenti

Una tensione instabile o un’interruzione improvvisa durante una scrittura può fare danni seri. Gli SSD consumer non hanno condensatori di backup (a differenza di certe unità enterprise) e non sono progettati per gestire power loss istantanei in modo elegante.

Cosa può succedere: corruzione della tabella FTL, dati a metà scrittura non completati, o — nei casi peggiori — danno fisico ai componenti di alimentazione. I MOSFET e i regolatori di tensione sulla scheda sono vulnerabili agli spike di corrente, soprattutto su alimentatori di bassa qualità o sistemi con problemi elettrici.


 

La DRAM cache: quando il buffer si rompe

Molti SSD di fascia media e alta montano un chip DRAM separato che funge da cache per la tabella di traduzione (FTL cache). Questo chip accelera enormemente le operazioni, ma aggiunge un componente che può guastarsi in modo indipendente dal resto.

Un guasto alla DRAM si manifesta spesso con comportamenti strani: prestazioni che crollano, errori casuali in lettura, oppure semplicemente un disco che non si avvia più. I modelli “DRAM-less” di fascia bassa non hanno questo problema, ma pagano dazio in velocità.


 

Il connettore e i contatti: il guasto meccanico che nessuno considera

Particolarmente rilevante per gli M.2 e i moduli SSD per laptop. I connettori M.2 non sono progettati per essere inseriti e rimossi decine di volte. I contatti si ossidano, si piegano, si usurano. Un SSD che sembra guasto può semplicemente avere un problema di contatto — che però, se ignorato, porta a scritture parziali e corruzione.

Anche le viti di fissaggio contano: un M.2 non fissato correttamente vibra leggermente sotto carico, causando contatti intermittenti che producono errori difficilissimi da diagnosticare.


 

Cosa accelera il guasto

Alcuni fattori che riducono la vita di un SSD in modo significativo:

Temperatura elevata. Il calore degrada la NAND e stessa il controller. Gli SSD NVMe ad alte prestazioni senza dissipatore possono superare gli 80°C sotto carico. A quelle temperature, sia le prestazioni che la longevità soffrono.

Riempire il disco oltre il 90%. Meno spazio libero significa meno margine per il wear leveling. Il controller è costretto a riscrivere in continuazione le stesse celle, accelerando l’usura.

Scritture intensive continue. Backup, macchine virtuali, database transazionali: carichi che generano scritture costanti consumano la NAND molto più velocemente rispetto a un uso normale da ufficio.

Interruzioni di corrente frequenti. Come detto, gli SSD consumer non sono progettati per
questo. Su sistemi senza UPS o con alimentazione instabile, il rischio di corruzione logica è reale.


 

Una nota su cosa significa “recuperare i dati da un SSD rotto”

Non tutti i guasti sono uguali, e la possibilità di recupero dipende molto da quale componente ha ceduto.

Un guasto firmware o controller — se i chip NAND sono intatti — lascia spesso i dati fisicamente presenti e potenzialmente recuperabili, ma richiede strumentazione professionale per accedere direttamente ai chip e ricostruire la struttura dati. Un guasto da usura avanzata della NAND, invece, può significare celle con dati irrecuperabili perché le cariche si sono disperse nel tempo.

La cosa peggiore da fare con un SSD che non risponde è tentare riavvii ripetuti o software di recupero da consumer: in certi stati di guasto, ogni accesso peggiora la situazione.

 


 

Se il tuo SSD non viene rilevato, mostra errori o ha smesso di funzionare improvvisamente, il prima possibile è meglio. I dati su un SSD guasto non migliorano con il tempo.