순환 신경망 (RNN) 개요

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

기본 RNN에서 상태(state) $h_t$는 무엇과 동일합니까?

  • 활성화 함수 $\phi$
  • 파라미터 (W, b)
  • 출력 $y_t$ (correct)
  • 입력 $x_t$

BPTT는 기본적인 순환 신경망(RNN)을 학습시키는 데 사용될 수 있다.

True (A)

기본적인 RNN 학습 과정에서 나타나는 기울기 소실(Vanishing gradient) 문제를 해결하기 위한 가장 일반적인 방법은 무엇입니까?

  • 학습률 증가
  • 시간 단계 (T) 줄이기 (correct)
  • 입력 데이터 정규화
  • 더 많은 레이어 추가

Truncated BPTT의 주요 단점은 모델이 ______ 패턴을 학습할 수 없다는 것입니다.

<p>장기</p> Signup and view all the answers

다음 용어를 해당 정의와 매칭하시오:

<p>기본 RNN = 상태가 출력을 직접 저장하는 RNN BPTT = 시간을 통해 오류를 전파하여 RNN을 학습하는 방법 기울기 소실 = 장기 의존성을 학습하는 RNN의 어려움을 야기하는 문제 Truncated BPTT = 기울기 소실을 줄이기 위해 시간 단계를 줄이는 기술</p> Signup and view all the answers

LSTM 셀의 주요 아이디어는 무엇입니까?

<p>상태를 단기 상태와 장기 상태로 분리 (C)</p> Signup and view all the answers

LSTM 셀은 기본적인 셀보다 더 나은 성능을 제공하며, 학습 속도가 빠르고 데이터의 의존성을 더 잘 감지한다.

<p>True (A)</p> Signup and view all the answers

LSTM 셀이 네트워크가 학습할 수 있도록 설계된 것은 무엇입니까?

<p>어떤 정보를 버릴지, 기억할지, 읽을지 (C)</p> Signup and view all the answers

LSTM의 단순화된 버전으로, 두 상태가 하나로 병합된 것은 ______입니다.

<p>GRU</p> Signup and view all the answers

다음 LSTM 구성 요소를 그 역할과 매칭하세요:

<p>단기 상태 (Short-term state) = 최근 정보 저장 장기 상태 (Long-term state) = 오랜 기간에 걸쳐 중요한 정보 유지 망각 게이트 (Forget gate) = 어떤 정보를 삭제할지 결정 입력 게이트 (Input gate) = 어떤 새로운 정보를 상태에 추가할지 결정</p> Signup and view all the answers

의사 결정 트리에서 지니 불순도(Gini Impurity)는 무엇을 측정합니까?

<p>노드 내 클래스 레이블의 불균일성 (D)</p> Signup and view all the answers

의사 결정 트리에서 max_depth는 가장 중요한 하이퍼파라미터 중 하나이며, 과적합을 제어하는 데 도움이 됩니다.

<p>True (A)</p> Signup and view all the answers

의사 결정 트리 학습 알고리즘 (CART)의 주요 목표는 무엇입니까?

<p>각 노드에서 불순도를 최소화하는 최적의 분할 찾기 (B)</p> Signup and view all the answers

의사 결정 트리에서 분할을 중지하는 기준은 노드를 더 분할해도 불순도를 크게 ______ 수 없거나, 미리 설정된 최대 깊이에 도달하는 경우입니다.

<p>줄일</p> Signup and view all the answers

다음 의사 결정 트리 용어를 해당 정의와 일치시키세요:

<p>지니 불순도 = 노드에서 클래스 레이블의 불균일성의 측정 CART = 최적의 분할을 재귀적으로 찾는 데 사용되는 의사 결정 트리 학습 알고리즘 max_depth = 의사 결정 트리의 최대 깊이에 대한 하이퍼파라미터 과적합 = 모델이 훈련 데이터에 너무 잘 맞는 현상</p> Signup and view all the answers

앙상블 학습의 주요 목표는 무엇입니까?

<p>다양한 모델의 예측 결합 (C)</p> Signup and view all the answers

앙상블 방법에서 랜덤 포레스트는 결정 트리만 사용하는 것은 아니다.

<p>False (B)</p> Signup and view all the answers

랜덤 포레스트에서 '랜덤 서브스페이스' 방법은 무엇을 의미합니까?

<p>각 트리를 학습하기 위해 기능의 랜덤 하위 세트 선택 (C)</p> Signup and view all the answers

앙상블 학습에서 여러 예측값의 결합된 예측을 결정하는 데 사용되는 기술은 ______ 투표와 소프트 투표입니다.

<p>하드</p> Signup and view all the answers

다음 앙상블 학습 용어를 그 역할과 매칭하세요:

<p>앙상블 = 예측기의 컬렉션 하드 투표 = 가장 많은 표를 얻는 예측기를 선택하는 전략 소프트 투표 = 정답을 예측하기에 가장 높은 평균 확률과 함께 예측기를 선택하는 전략 랜덤 서브스페이스 = 각 예측기를 학습할 때 기능의 랜덤 하위 집합을 선택하는 방법</p> Signup and view all the answers

차원 축소의 주된 목적은 무엇입니까?

<p>기능의 수를 줄이는 것으로, 과적합 방지 (B)</p> Signup and view all the answers

PCA는 비선형 차원 축소 기술이다.

<p>False (B)</p> Signup and view all the answers

PCA에서 '주성분'은 무엇을 나타냅니까?

<p>데이터에서 분산의 양이 최대인 방향 (A)</p> Signup and view all the answers

데이터 세트에 적용할 PCA의 주성분 수를 선택하기 위해 데이터에서 캡처할 분산의 ______을 나타내는 EVR (설명된 분산 비율)을 검사할 수 있습니다.

<p>비율</p> Signup and view all the answers

차원 축소 기술을 그 주된 역할과 일치시키세요:

<p>PCA = 선형 차원 축소 수행 커널 PCA = 비선형 차원 축소 수행 t-SNE = 고차원 데이터를 시각화 EVR = 모델의 복잡성 감소</p> Signup and view all the answers

T-SNE의 가장 주된 사용 사례는 무엇입니까?

<p>고차원 데이터 시각화 (B)</p> Signup and view all the answers

T-SNE는 임의의 차수 d로 쉽게 일반화할 수 있는 반면 PCA는 d=2 및 d=3으로 특화되는 경향이 있다.

<p>False (B)</p> Signup and view all the answers

T-SNE가 데이터를 투영하는 동안 주로 유지하려는 것은 무엇입니까?

<p>원래 공간의 지역 구조, 유사점이 가까이 유지 (D)</p> Signup and view all the answers

T-SNE는 학생의 t 분포에 의존하므로 이름에 ______이(가) 포함된다.

<p>t</p> Signup and view all the answers

다음 t-SNE 개념을 해당 설명과 일치시키세요:

<p>원래 공간 = 표시된 데이터의 고차원 공간 축소된 공간 = t-SNE에 의해 투영된 데이터의 낮은 차원 공간 유사도 = 원래 고차원 공간에서 데이터 포인트가 정확히 얼마나 유사한 수준인지를 측정한 값 지역 구조 = 더 낮은 차수로 유지하고 보존하기 위해 노력하는 고차원 공간의 가까운 관계</p> Signup and view all the answers

클러스터링의 주된 용도는 무엇입니까?

<p>모델의 일반화 능력 향상 (B)</p> Signup and view all the answers

실루엣 점수가 1에 가까울수록 클러스터링은 일반적으로 더 나쁘다.

<p>False (B)</p> Signup and view all the answers

K-평균은 몇 개의 평균을 가진 데이터 포인트를 기반으로 함으로써 데이터 세트에서 그룹을 식별하는 데 중점을 둡니까?

<p>평균 (B)</p> Signup and view all the answers

K-평균은 각 클러스터에 대한 새 대표를 중심점 대신 데이터 세트의 실제 객체인 ______으로 설정합니다.

<p>중앙값</p> Signup and view all the answers

다음은 클러스터링 방법 특징과 관련된 용어들을 일치합니다.

<p>K-평균 클러스터링 = 고정된 수의 클러스터를 찾음 K-중앙값 클러스터링 = 이상치가 있는 데이터에 강력한 클러스터를 찾음 계층적 클러스터링 = 클러스터의 계층 구조를 구축 실루엣 점수 = 클러스터링 솔루션의 품질을 측정</p> Signup and view all the answers

신경망은 이상이 감지될 수 있는 정상 데이터를 사용하여 인코딩/디코딩이 이루어집니다. [blank]이(가) 학습되면 [blank]을(를) 초과하는 데이터 샘플이 비정상이라고 합니다.

<p>자동 인코더 (C)</p> Signup and view all the answers

VAE는 엔터티의 기본 통계를 확인할 목적으로 훈련된 변형을 추가하는 데 사용됩니다. 따라서 전체 코드를 잘 보존하는 데 권장되지만 세부 사항으로 세分화할 필요는 없습니다.

<p>True (A)</p> Signup and view all the answers

적은 수의 예가 있는 데이터를 사용할 수 있는 이유는 무엇입니까?

<p>정상적인 클래스 데이터용 (C)</p> Signup and view all the answers

자동 인코더 내의 잠금 기능은 ______ 축소 기술 역할을 수행합니다.

<p>치수</p> Signup and view all the answers

다음과 같이 기능이 많은 다양한 데이터 세트와 일치시킵니다.

<p>반지도 학습 = 레이블 및 레이블이 지정되지 않은 데이터에서 학습 생성 모델 = 진짜 데이터와 인위적으로 유사한 사기성 데이터를 생성 행렬 완료 = 행렬에서 누락된 엔트리 채우기 이상 감지 = 데이터 내의 특이점 식별</p> Signup and view all the answers

기본 RNN에서 상태(state)는 무엇과 동일합니까?

<p>출력 (A)</p> Signup and view all the answers

기본 RNN은 기본 셀이 없는 신경망입니다.

<p>False (B)</p> Signup and view all the answers

기본 RNN 훈련의 주요 과제는 ______ 문제가 발생하는 것입니다.

<p>gradient 소실</p> Signup and view all the answers

BPTT란 무엇입니까?

<p>역전파를 통한 시간 경과</p> Signup and view all the answers

기본 RNN 교육에서 긴 시퀀스는 소멸하는 그래디언트 문제를 악화시킬 수 있습니다.

<p>True (A)</p> Signup and view all the answers

장기 패턴을 학습할 수 없는 truncated BPTT 문제를 해결하기 위해 도입 된 셀 유형은 무엇입니까?

<p>LSTM 셀 (A)</p> Signup and view all the answers

LSTM 셀에서 상태는 어떻게 나뉩니까?

<p>단기 상태와 장기 상태 (C)</p> Signup and view all the answers

LSTM 셀은 버릴 내용을 결정하는 메커니즘을 사용합니다. 이 메커니즘을 흔히 ______라고 합니다.

<p>잊기</p> Signup and view all the answers

LSTM 셀의 기능을 요약하십시오.

<p>잊기, 입력, 출력</p> Signup and view all the answers

GRU는 LSTM보다 복잡합니다.

<p>False (B)</p> Signup and view all the answers

다음 용어를 LSTM 셀에 해당하는 설명과 연결하십시오.

<p>Forget Gate = 버릴 내용을 결정합니다. Input Gate = 기억할 내용을 결정합니다. Output Gate = 읽을 내용을 결정합니다. Cell State = 시간 경과에 따른 장기 기억을 보관합니다.</p> Signup and view all the answers

다음 중 LSTM 또는 그 변형이 적합한 응용 프로그램은 무엇입니까?

<p>위의 모든 것 (D)</p> Signup and view all the answers

LSTM은 시계열 데이터에만 사용되는 모델입니다.

<p>False (B)</p> Signup and view all the answers

LSTM의 목적은 네트워크가 ______할 수 있도록 셀을 설계하는 것입니다.

<p>배우기</p> Signup and view all the answers

LSTM와 GRU를 비교

<p>GRU, 단순화 된 버전</p> Signup and view all the answers

붓꽃 식물 분류에서 setosa를 다른 변종과 구별하는 중요한 기능은 무엇입니까?

<p>꽃잎 길이 (A)</p> Signup and view all the answers

결정 트리에서 setosa를 분류하기 위한 분할을 결정하기 위한 꽃잎 길이의 임곗값은 3.0cm입니다.

<p>False (B)</p> Signup and view all the answers

CART 알고리즘에서 노드의 불순도를 최소화하는 특징과 임곗값을 찾는 데 사용하는 순서입니다. 이 불순도 측정은 ______라고 합니다.

<p>Gini 지수</p> Signup and view all the answers

결정 트리에서 하이퍼파라미터의 역할을 설명하십시오.

<p>정규화</p> Signup and view all the answers

Truncated BPTT가 기본 RNN 학습에서 직면하는 문제를 해결할 때 발생하는 문제는 무엇입니까?

<p>truncated BPTT로 훈련 된 기본 RNN은 장기 패턴을 배울 수 없습니다. (D)</p> Signup and view all the answers

트리 알고리즘에서 min_samples_split, 5로 설정되면 노드에 4개 샘플만 있는 경우 추가 불순도 없이도 노드를 분할할 수 있습니다.

<p>False (B)</p> Signup and view all the answers

CART 알고리즘에서는 불순도를 최소화하도록 특징값과 임곗값을 찾는 과정이 ______가 될 때까지 반복됩니다.

<p>중단 조건</p> Signup and view all the answers

결정 트리의 앙상블 학습을 사용하면 일반적으로 어떤 이점이 있습니까?

<p>변동 민감도 감소</p> Signup and view all the answers

다음과 같은 하이퍼파라미터는 데이터 세트 정규화에 더 중점을 둘까요?

<p>max_leaf_node 감소 (B)</p> Signup and view all the answers

앙상블 학습은 많은 예측변수를 집계하고 최고의 독립 예측변수를 정확하게 반영하지 못하는 경향이 있습니다.

<p>False (B)</p> Signup and view all the answers

랜덤 하위 공간 방법은 앙상블에 도움이 됩니다. 훈련 데이터를 ______하는 데 사용합니다.

<p>부분 특징</p> Signup and view all the answers

랜덤 포레스트를 간단히 정의하십시오.

<p>앙상블 기술, 랜덤 하위 공간</p> Signup and view all the answers

다음 기능은 RF 모델이 가장 일반적일 것으로 예상되는 모델로, 일종으로 제공되어 다양한 하이퍼파라미터를 조정하는 데 도움이 되나요?

<p>위의 모든 것 (B)</p> Signup and view all the answers

RF 기능 중요성은 훈련 세트 기능의 중요도를 알려주는 관련 척도를 캡처하는 측정입니다.

<p>True (A)</p> Signup and view all the answers

데이터에 결함이 있는데 분류 성능이 여전히 불만족스럽다면 다음과 같은 방법을 사용하는 것이 좋습니다.

<p>차원 축소 (C)</p> Signup and view all the answers

다음 측정 도구를 적절한 설명별로 정렬하세요.

<p>PCA = 데이터 점이 가장 널리 퍼져있는 벡터를 식별합니다. Ensemble learning = 많은 예측 변수를 기반으로 집계된 예측을 기반으로 더 나은 예측을 구성합니다. K- means = 데이터 포인트를 K개의 클러스터로 그룹화하기 위한 매우 간단한 클러스터링 방법입니다. Autoencoder = 데이터를 줄여 재구성하거나 데이터의 차원을 줄이는 것으로 표현 방식을 학습합니다.</p> Signup and view all the answers

데이터가 좁으면 다음을 사용하는 것이 바람직합니다.

<p>클러스터링 (D)</p> Signup and view all the answers

PCA는 비선형 기술입니다.

<p>False (B)</p> Signup and view all the answers

차원 축소가 있는 경우 기능을 줄여 모델의 ______을(를) 방지할 수 있습니다.

<p>과적합</p> Signup and view all the answers

데이터의 차원 축소에 사용되는 다른 방법 이름이 필요합니다.

<p>t-SNE</p> Signup and view all the answers

차원 축소를 위한 비선형 기술인 것은 무엇입니까?

<p>커널 PCA (D)</p> Signup and view all the answers

T-SNE 기술로 더 높은 차원을 얻을 수 있습니다.

<p>False (B)</p> Signup and view all the answers

데이터 세트 차원을 줄인 후 적절한 모델을 학습하기 위해 ______이(가) 발생합니다.

<p>클러스터링.</p> Signup and view all the answers

군집화

<p>관련 데이터</p> Signup and view all the answers

데이터 내의 그룹과 분리를 평가하는 메트릭은 다음과 같습니다.

<p>실루엣 득점 (C)</p> Signup and view all the answers

저차원 임베딩에 가장 적합한 기술은 다음과 같습니다.

<p>K-means = 무작위로 K개의 지점을 선택하고 각 데이터 지점을 가장 가까운 군집 중심에 할당한 후 군집 중심을 업데이트합니다. K-Medoids = K-means와 유사하지만 군집에 대해 medoid(이상치에 덜 민감한 실제 데이터 지점)를 사용합니다. Hierarchical clustering = 계층적 방식으로 클러스터링을 수행하여 각 단계에서 군집이 병합됩니다.</p> Signup and view all the answers

자동 인코더는 무엇으로 구성됩니까?

<p>인코더 및 디코더 (D)</p> Signup and view all the answers

자동 인코더는 비지도 기술입니까?

<p>True (A)</p> Signup and view all the answers

연결 가중치를 사용하여 학습을 향상하는 접근 방식이라고 하는 것은?

<p>매듭 가중치</p> Signup and view all the answers

재구성 손실을 줄이는 방법

<p>기본 방법</p> Signup and view all the answers

다음 중 비선형 차원 축소에 중요한 역할로 사용할 수 있는 것은 무엇입니까?

<p>자동 인코더 학습 (D)</p> Signup and view all the answers

기본 RNN에서 상태(state)는 무엇과 동일하게 저장됩니까?

<p>출력 (A)</p> Signup and view all the answers

BPTT는 기본 RNN을 훈련하는 데 사용되는 방법입니다.

<p>True (A)</p> Signup and view all the answers

기본 RNN 훈련 시 발생하는 주요 문제는 무엇입니까?

<p>Vanishing Gradient 문제</p> Signup and view all the answers

Truncated BPTT는 ______을 줄이는 기술입니다.

<p>T</p> Signup and view all the answers

다음 RNN 관련 용어를 해당하는 설명과 연결하십시오.

<p>memory cell = 시간에 따른 정보를 보존하는 엔터티 BPTT = RNN을 훈련하는 데 사용되는 알고리즘 LSTM = 긴 시퀀스에서 vanishing gradient 문제를 해결하는 데 도움이 되는 셀 유형 기본 RNN = 기본 셀을 사용하는 RNN</p> Signup and view all the answers

GRU는 LSTM보다 복잡한 RNN 아키텍처입니다.

<p>False (B)</p> Signup and view all the answers

LSTM 셀에서 네트워크가 학습할 수 있도록 설계된 세 가지 사항은 무엇입니까?

<p>잊을 대상, 기억할 대상, 읽을 대상</p> Signup and view all the answers

LSTM 셀에는 ______ 상태와 장기 상태의 두 가지 상태가 있습니다.

<p>단기</p> Signup and view all the answers

다음 LSTM 레이어의 구성 요소를 해당 기능과 연결하십시오.

<p>Forget Gate = 셀 상태에서 어떤 정보를 버릴지 결정합니다. Input Gate = 셀 상태에 어떤 새로운 정보를 저장할지 결정합니다. Output Gate = 셀 상태를 기반으로 어떤 정보를 출력할지 결정합니다. 셀 상태 = 장기 메모리를 유지합니다.</p> Signup and view all the answers

의사결정 트리(DT)를 사용하여 Iris 식물을 분류하기 위한 분할 결정을 내리는 데 중요한 역할을 하는 특징은 무엇입니까?

<p>꽃잎 길이 (B)</p> Signup and view all the answers

CART 알고리즘에서 지니 지수가 낮을수록 해당 분할이 더 순수함을 나타냅니다.

<p>True (A)</p> Signup and view all the answers

의사졀정 트리의 스플릿을 중단하는 두 가지 기준은 무엇입니까?

<p>임퓨리티를 더 줄이는 스플릿을 찾을 수 없음, 최대 깊이 도달</p> Signup and view all the answers

의사결정 트리 모델을 단순화하여 과적합도를 낮추고 일반화 능력을 높이는 기술을 ______이라 합니다.

<p>정규화</p> Signup and view all the answers

다음 의사결정 트리 하이퍼파라미터를 그 효과와 연결하세요.

<p>max_depth = 허용되는 트리 최대 깊이 min_samples_split = 노드가 분할되기 전에 노드에 있어야 하는 최소 샘플 수 min_samples_leaf = 리프 노드에 있어야 하는 최소 샘플 수 max_leaf_nodes = 최대 리프 노드 수</p> Signup and view all the answers

앙상블 학습의 주요 아이디어는 무엇입니까?

<p>성능 향상을 위해 여러 예측자의 예측을 집계합니다. (D)</p> Signup and view all the answers

무작위 하위 공간 방법에서 각 예측기는 전체 특징 집합에서 훈련됩니다.

<p>False (B)</p> Signup and view all the answers

앙상블 학습에서 하드 투표와 소프트 투표의 차이점은 무엇입니까?

<p>하드 투표는 투표를 가장 많이 받는 클래스를 선언하는 반면, 소프트 투표는 예측자 간의 평균된 최고 확률도르 선언합니다.</p> Signup and view all the answers

의사 결정 트리 앙상블의 한 유형인 무작위 포리스트는 ______ 메서드를 함께 사용하는 특징을 가지고 있습니다.

<p>무작위 하위 공간</p> Signup and view all the answers

다음 앙상블 학습 관련 용어를 해당하는 설명과 연결하십시오.

<p>앙상블 = 예측기 그룹 하드 투표 = 모스트 보트가 되는 원고 선언 소프트 투표 = 모델에 대한 평균 가장 높은 확률 선언 무작위 하위 공간 = 특징들을 선택합니다.</p> Signup and view all the answers

Flashcards

셀(Cell)이란?

상태(메모리)를 보존하는 개체

기본 셀(Basic cell)이란?

출력에 대한 모든 것을 저장하는 셀

기본 RNN이란?

기본 셀을 가진 RNN

피드백할 것은?

Wxxt + Whht-1 + b

Signup and view all the flashcards

훈련할 파라미터는?

(W, b)이며 W는 (Wx, Wh)로 구성

Signup and view all the flashcards

BPTT란?

시간에 따른 역전파

Signup and view all the flashcards

기본 RNN의 문제점은?

긴 그래디언트 곱셈 체인으로 인한 그래디언트 소실 문제

Signup and view all the flashcards

Truncated BPTT란?

기울기 소실 문제 해결을 위해 T를 줄임

Signup and view all the flashcards

Truncated BPTT의 문제점은?

모델이 장기적인 패턴을 학습할 수 없음

Signup and view all the flashcards

기억 용량 유지 방법은?

LSTM 셀

Signup and view all the flashcards

LSTM 셀 발명가는?

1997년 Sepp Hochreiter와 Jürgen Schmidhuber가 개발

Signup and view all the flashcards

LSTM 셀의 핵심 아이디어는?

단기 상태(ht)와 장기 상태(Ct)로 분리

Signup and view all the flashcards

LSTM 셀의 학습 목표는?

버릴 정보, 기억할 정보, 읽을 정보 학습

Signup and view all the flashcards

GRU란?

LSTM 셀의 간소화 버전

Signup and view all the flashcards

LSTM의 활용 분야는?

기계 번역, 텍스트 생성, 문법 교정

Signup and view all the flashcards

Decision Tree란?

의사 결정 기반의 트리 구조 모델

Signup and view all the flashcards

Decision Tree의 훈련 알고리즘은?

CART 알고리즘

Signup and view all the flashcards

Decision Tree의 주요 하이퍼파라미터는?

max_depth, min_samples_split

Signup and view all the flashcards

Decision Tree의 단점은?

훈련 데이터의 작은 변화에 민감함

Signup and view all the flashcards

Random Forest란?

여러 Decision Tree를 앙상블

Signup and view all the flashcards

Random Forest는 왜 무작위 subspace 방법을 사용할까?

결과의 다양성을 위해

Signup and view all the flashcards

Random Forest의 주요 하이퍼파라미터는?

결정 트리의 하이퍼파라미터 + max_features, n_estimators

Signup and view all the flashcards

Clustering이란?

사전 지식 없이 데이터에서 패턴을 찾는 방법

Signup and view all the flashcards

Clustering은 언제 유용할까?

데이터 분포가 넓을 때 유용

Signup and view all the flashcards

K-means 알고리즘이란?

데이터 포인트를 K개의 그룹으로 나눔

Signup and view all the flashcards

K-medoids 알고리즘의 장점은?

이상치에 덜 민감

Signup and view all the flashcards

계층적 군집화란?

계층적인 방법으로 군집화

Signup and view all the flashcards

Clustering 성능 측정 방법은?

실루엣 점수

Signup and view all the flashcards

차원 축소와 군집화, 어떻게 결합할까?

차원 축소 후에 군집화

Signup and view all the flashcards

Dimensionality reduction이란?

고차원 데이터를 저차원으로 표현

Signup and view all the flashcards

Dimensionality reduction의 장점은?

일반화 성능 향상, 훈련 속도 증가

Signup and view all the flashcards

가장 인기 있는 차원 축소 기법은?

PCA

Signup and view all the flashcards

데이터 시각화에 유용한 차원 축소 기법은?

T-SNE

Signup and view all the flashcards

PCA의 주요 특징은?

PCA는 선형 기법

Signup and view all the flashcards

PCA의 목표는?

데이터 포인트를 가장 잘 설명하는 벡터를 찾음

Signup and view all the flashcards

EVR이란?

데이터의 분산 비율

Signup and view all the flashcards

T-SNE의 핵심 아이디어는?

original space의 유사성을 보존

Signup and view all the flashcards

T-SNE의 단점은?

데이터 구조의 손실, 불안정성

Signup and view all the flashcards

Autoencoder는 무엇일까요?

비지도 학습

Signup and view all the flashcards

Autoencoder의 bottleneck layer는 무엇을 나타낼까요?

잠재 공간

Signup and view all the flashcards

Autoencoder 훈련 목표는 무엇일까요?

입력과 출력이 유사하도록 학습

Signup and view all the flashcards

Autoencoder는 어떤 역할을 할 수 있을까요?

비선형 차원 축소

Signup and view all the flashcards

Autoencoder를 Semi-Supervised Learning에 어떻게 활용할 수 있을까요?

잠재된 특징을 활용

Signup and view all the flashcards

Autoencoder의 Decoder는 어떤 역할을 할 수 있을까요?

생성 모델

Signup and view all the flashcards

Variational Autoencoder(VAE)은 무엇에 특화 되어 있을까요?

새로운 데이터 생성

Signup and view all the flashcards

Autoencoder를 활용한 이상 감지 방법은 무엇일까요?

재구성 손실

Signup and view all the flashcards

Autoencoder로 이상 감지 시 임계값은 어떻게 정해야 할까요?

최적의 임계값 설정

Signup and view all the flashcards

Study Notes

Recurrent Neural Networks 개요

  • 강의 목표는 기본적인 RNN을 파악하고, 훈련 방법과 관련된 어려움을 강조하는 것임

메모리 셀 (Memory Cell)

  • 메모리 셀은 상태(ht)를 보존하는 개체로 정의된다.

기본 셀 (Basic Cell)

  • 기본 셀은 상태 ht가 출력 yt와 같은 셀을 의미하며 상태 = 출력 (ht = yt)입니다.
  • 기본 RNN은 이러한 기본 셀들로 구성된 RNN.

기본 RNN (Basic RNN) 구조

  • X1, X2, ..., Xt는 각 시점의 입력을 나타낸다.
  • Y1, Y2, ..., Yt는 각 시점의 출력을 나타낸다.
  • h1, h2, ..., ht는 각 시점의 상태를 나타낸다.
  • 각 셀은 'basic cell'을 사용함

피드백할 정보

  • 상태(state)를 피드백한다.
  • yt = φ(Wxxt + Whht-1 + b)

훈련할 파라미터

  • 훈련할 파라미터는 (W, b)이며, W는 (Wx, Wh)로 구성된다.
  • yt = φ(Wxxt + Whht-1 + b)

훈련 방법

  • RNN은 레이어드 네트워크와 유사하게 구성되어 있다.

BPTT (BackProp Through Time)

  • BPTT는 시간 흐름에 따른 역전파를 통해 훈련을 수행하는 방법이다.
  • 이진 분류 문제에서 손실 함수 J(w,b)를 최소화하기 위해 사용한다.

BPTT의 문제점 및 해결책

  • gradient 곱셈이 길어지면 gradient 소실 문제가 발생할 수 있다.
  • 가장 간단하고 흔한 해결책은 truncated BPTT를 사용하여 시간 T를 줄이는 것이다.

Truncated BPTT의 문제점 및 해결책

  • truncated BPTT는 장기 패턴을 학습할 수 없다.
  • 장기 의존성 유지를 위해 LSTM(Long Short-Term Memory) 셀이 도입되었다.

LSTM (Long Short-Term Memory) 셀

  • LSTM 셀은 1997년에 Sepp Hochreiter와 Jürgen Schmidhuber가 발명했다.
  • 기본 셀을 대체함으로써 성능을 향상시키고, 빠른 훈련과 데이터 내 의존성 감지를 제공한다.

LSTM 셀의 주요 아이디어

  • 상태를 단기 상태 ht와 장기 상태 ct로 분리한다.
  • 네트워크가 버릴 정보(forget), 기억할 정보(input), 읽을 정보(output)를 학습하도록 설계되었다.

LSTM 셀의 구조

  • ht-1 (단기 상태) 및 ct-1 (장기 상태)를 입력으로 받는다.
  • ft (forget gate), gt, it (input gate), ot (output gate)를 포함합니다.
  • ht 및 ct를 계산하여 다음 시점으로 전달한다.

LSTM 셀의 수식 표현

  • ft = σ(Wxfxt + Whfht-1 + bf)
  • gt = tanh(Wxgxt + Whght-1 + bg)
  • it = σ(Wxixt + Whiht-1 + bi)
  • ct = ft ⊗ ct-1 + it ⊗ gt
  • ot = σ(Wxoxt + Whoht-1 + bo)
  • yt = ht = ot ⊗ tanh(ct)

GRU (Gated Recurrent Unit)

  • 2014년에 개발된 LSTM의 단순화 버전이다.
  • 두 상태를 하나로 병합했지만 성능은 비슷하다.

LSTM의 응용 분야

  • 기계 번역
  • 텍스트 생성
  • 문법 교정
  • 자연어 처리(NLP) 애플리케이션 전반

추가 질문사항

  • 아직 성능이 만족스럽지 않은 경우 작고 작은 데이터 체계를 위한 더 나은 접근 방식은 무엇입니까?
  • DNN의 해석 가능성은 어떻습니까?

오늘 강의 관련 사항

  • small data 체계에서 더 나은 성능을 가능하게 하고 모델 해석 가능성을 제공할 수 있는 기술을 살펴봅니다.
  • random forests (RF)가 업계에서 가장 강력한 ML 알고리즘입니다.

향후 학습 내용

  • Decision trees (DTs)
  • 앙상블 학습 (Ensemble learning)
  • Random forests (RFs)

Decision Trees (DTs)

  • 의사 결정 트리는 Overfitting 문제를 초래할 수 있으므로, DNN을 단순화하는 것이 좋다.

CNNs (합성곱 신경망)

  • CNN은 이미지 데이터에 특화된 모델입니다.
  • Conv layer는 인간 시각 피질의 뉴런을 모방하며, Pooling layer는 복잡성을 줄이는 역할을 한다.
  • Feature map 크기는 줄어들고, feature map 수는 증가하는 것이 일반적인 구조이다.

RNNs (순환 신경망)

  • RNN은 시계열 데이터에 특화된 모델이다.
  • Recurrent neurons (순환 뉴런)과 Memory cell (기억 셀)이 주요 빌딩 블록이다.
  • Basic RNN은 truncated BPTT 방식으로 학습되며 장기 기억 능력이 부족하고, LSTM은 뛰어난 성능과 빠른 훈련을 제공한다.

tensorflow코딩 내용

  • 텐서플로우를 사용한 RNN 코딩 예시가 제시되었다.
  • 기본 RNN과 LSTM 구현을 위한 코드를 제공한다.

오늘 강의 내용

  • 모델 해석 가능성을 제공하는 랜덤 포레스트(RF)를 살펴본다.
  • 랜덤 포레스트는 업계에서 가장 강력한 모델 중 하나이다.

오늘 강의 개요

  • 의사결정 트리(DT): RF의 기본 구성 요소, DT 분류기, DT 회귀
  • 앙상블 학습: RF를 특별한 예로 포함하는 일반적인 기술
  • RF 심층 분석

lecture 13 집중 내용

  • Decision trees (DTs)
  • 앙상블 학습 (Ensemble learning)
  • Random forests (RFs)

동기 부여 사례

  • 품종 분류 문제에서 꽃잎 길이와 폭을 특징으로 사용하여 Iris 식물을 분류한다.
  • setosa, versicolor, virginica 세 가지 클래스를 구분한다.

데이터 분포 관찰

  • 꽃잎 길이는 setosa를 다른 품종과 구별하는 데 중요한 역할을 한다.

분류를 위한 시도

  • 꽃잎 길이를 기준으로 2.45 cm로 구분하여 setosa 품종을 분류한다.
  • setosa 품종만 정확하게 분리된다.

추가 관찰

  • 꽃잎 폭을 활용하면 versicolor와 virginica를 구별할 수 있다.
  • 꽃잎 길이가 2.45 cm보다 큰 데이터에 대해 꽃잎 폭이 1.75 cm보다 작은 경우 versicolor로, 그렇지 않으면 virginica로 분류한다.

의사 결정 트리

  • 의사 결정 트리는 petal length ≤ 2.45를 기준으로 분할한다.
  • True branch는 setosa로, False branch는 petal width ≤ 1.75를 기준으로 다시 분할한다.
  • 최종적으로 versicolor와 virginica를 분류한다.

CART 알고리즘 (Classification And Regression Tree)

  • CART 알고리즘은 불순도(impurity)를 최소화하는 (k, tk)를 찾는 방식으로 작동한다.
  • impurity를 측정하는 지니 지수(Gini index)를 사용한다. (0~1)

CART 알고리즘 (Classification And Regression Tree) - 상세 내용

  • 각 분할(split)에 대해 Step 1을 반복한다.
  • 정지 기준(stopping criteria)을 충족할 때까지 반복한다.

정지 기준 (Stopping criteria)

  • 불순도를 더 이상 줄일 수 없는 경우
  • 최대 깊이(max_depth)에 도달한 경우

하이퍼파라미터 (Hyperparameters)

  • max_depth: 트리의 최대 깊이
  • min_samples_split: 노드를 분할하기 위한 최소 샘플 수
  • min_samples_leaf: 리프 노드가 가져야 하는 최소 샘플 수
  • max_leaf_nodes: 최대 리프 노드 수

하이퍼파라미터 vs. 정규화 (regularization)

  • max_depth가 감소하면 정규화가 증가한다.
  • min_samples_split가 증가하면 정규화가 증가한다.
  • min_samples_leaf가 증가하면 정규화가 증가한다.
  • max_leaf_nodes가 감소하면 정규화가 증가한다.

향후 학습 내용

  • 회귀 분석을 위한 의사 결정 트리 연구
  • 의사 결정 트리에서 발생하는 문제점 조사
  • 앙상블 학습을 통해 문제 해결 방법 탐색

회귀 분석을 위한 DT의 동기 부여 사례

  • x∈ R, y ∈ R인 데이터에 대해 회귀 모델을 구축한다.

분할 시 각 영역별 관찰

  • x값이 0.2보다 작은 영역과 큰 영역으로 분할했을 때 각 영역별 y값 분포는 집중되어 있다.

자연스러운 시도 결과

  • x ≤ 0.2 기준으로 데이터를 분할한다.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Use Quizgecko on...
Browser
Browser