Data Science & ML

RNN e Sequenze

RNN, LSTM, GRU, vanishing gradient, serie temporali, previsioni, sequence-to-sequence

22 domande da colloquio·
Senior
1

Qual è la caratteristica principale che distingue una RNN da una rete neurale feedforward classica?

Risposta

Una RNN ha connessioni ricorrenti che mantengono un hidden state che evolve nel tempo. Questo hidden state agisce come una memoria che cattura le informazioni dagli input precedenti nella sequenza. A differenza delle reti feedforward dove ogni input è elaborato indipendentemente, le RNN possono modellare le dipendenze temporali tra gli elementi di una sequenza.

2

Come viene calcolato l'hidden state h_t in una RNN semplice (vanilla RNN) ad ogni time step?

Risposta

In una vanilla RNN, l'hidden state h_t è calcolato applicando una funzione di attivazione (di solito tanh) alla combinazione lineare dell'input attuale x_t ponderato da W_xh e dell'hidden state precedente h_{t-1} ponderato da W_hh, più un bias. Questa formula permette alla rete di combinare le nuove informazioni con la memoria dei time step precedenti.

3

Qual è il principale problema del vanishing gradient nelle RNN e quando si manifesta?

Risposta

Il vanishing gradient si verifica durante la backpropagation through time (BPTT) quando i gradienti vengono moltiplicati molte volte per valori inferiori a 1. Su sequenze lunghe, questi gradienti diventano esponenzialmente piccoli, impedendo alla rete di apprendere dipendenze a lungo termine. I pesi dei primi layer temporali sono a malapena aggiornati.

4

Quali sono i tre gate che compongono una cella LSTM e qual è il loro ruolo rispettivo?

5

Come l'LSTM risolve il problema del vanishing gradient rispetto alla vanilla RNN?

+19 domande da colloquio

Padroneggia Data Science & ML per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis