Data Science & ML

RNN & Chuỗi

RNN, LSTM, GRU, vanishing gradient, chuỗi thời gian, dự báo, sequence-to-sequence

22 câu hỏi phỏng vấn·
Senior
1

Đặc điểm chính phân biệt RNN với mạng nơ-ron feedforward cổ điển là gì?

Câu trả lời

RNN có các kết nối hồi quy duy trì trạng thái ẩn (hidden state) phát triển theo thời gian. Trạng thái ẩn này hoạt động như bộ nhớ thu thập thông tin từ các đầu vào trước đó trong chuỗi. Không giống mạng feedforward nơi mỗi đầu vào được xử lý độc lập, RNN có thể mô hình hóa các phụ thuộc thời gian giữa các phần tử của chuỗi.

2

Trạng thái ẩn h_t được tính như thế nào trong một RNN đơn giản (vanilla RNN) tại mỗi time step?

Câu trả lời

Trong vanilla RNN, trạng thái ẩn h_t được tính bằng cách áp dụng một hàm kích hoạt (thường là tanh) cho tổ hợp tuyến tính của đầu vào hiện tại x_t có trọng số W_xh và trạng thái ẩn trước đó h_{t-1} có trọng số W_hh, cộng với một bias. Công thức này cho phép mạng kết hợp thông tin mới với bộ nhớ từ các time step trước đó.

3

Vấn đề vanishing gradient chính trong RNN là gì và khi nào nó xảy ra?

Câu trả lời

Vanishing gradient xảy ra trong backpropagation through time (BPTT) khi gradient được nhân nhiều lần với các giá trị nhỏ hơn 1. Trên các chuỗi dài, các gradient này trở nên nhỏ theo cấp số nhân, ngăn mạng học các phụ thuộc dài hạn. Trọng số của các lớp thời gian ban đầu hầu như không được cập nhật.

4

Ba gate cấu thành một ô LSTM là gì và vai trò tương ứng của chúng là gì?

5

LSTM giải quyết vấn đề vanishing gradient như thế nào so với vanilla RNN?

+19 câu hỏi phỏng vấn

Nắm vững Data Science & ML cho lần phỏng vấn tiếp theo

Truy cập tất cả câu hỏi, flashcards, bài kiểm tra kỹ thuật, bài tập code review và mô phỏng phỏng vấn.

Bắt đầu miễn phí