Podcast
Questions and Answers
기본 RNN에서 상태(state) $h_t$는 무엇과 동일합니까?
기본 RNN에서 상태(state) $h_t$는 무엇과 동일합니까?
- 활성화 함수 $\phi$
- 파라미터 (W, b)
- 출력 $y_t$ (correct)
- 입력 $x_t$
BPTT는 기본적인 순환 신경망(RNN)을 학습시키는 데 사용될 수 있다.
BPTT는 기본적인 순환 신경망(RNN)을 학습시키는 데 사용될 수 있다.
True (A)
기본적인 RNN 학습 과정에서 나타나는 기울기 소실(Vanishing gradient) 문제를 해결하기 위한 가장 일반적인 방법은 무엇입니까?
기본적인 RNN 학습 과정에서 나타나는 기울기 소실(Vanishing gradient) 문제를 해결하기 위한 가장 일반적인 방법은 무엇입니까?
- 학습률 증가
- 시간 단계 (T) 줄이기 (correct)
- 입력 데이터 정규화
- 더 많은 레이어 추가
Truncated BPTT의 주요 단점은 모델이 ______ 패턴을 학습할 수 없다는 것입니다.
Truncated BPTT의 주요 단점은 모델이 ______ 패턴을 학습할 수 없다는 것입니다.
다음 용어를 해당 정의와 매칭하시오:
다음 용어를 해당 정의와 매칭하시오:
LSTM 셀의 주요 아이디어는 무엇입니까?
LSTM 셀의 주요 아이디어는 무엇입니까?
LSTM 셀은 기본적인 셀보다 더 나은 성능을 제공하며, 학습 속도가 빠르고 데이터의 의존성을 더 잘 감지한다.
LSTM 셀은 기본적인 셀보다 더 나은 성능을 제공하며, 학습 속도가 빠르고 데이터의 의존성을 더 잘 감지한다.
LSTM 셀이 네트워크가 학습할 수 있도록 설계된 것은 무엇입니까?
LSTM 셀이 네트워크가 학습할 수 있도록 설계된 것은 무엇입니까?
LSTM의 단순화된 버전으로, 두 상태가 하나로 병합된 것은 ______입니다.
LSTM의 단순화된 버전으로, 두 상태가 하나로 병합된 것은 ______입니다.
다음 LSTM 구성 요소를 그 역할과 매칭하세요:
다음 LSTM 구성 요소를 그 역할과 매칭하세요:
의사 결정 트리에서 지니 불순도(Gini Impurity)는 무엇을 측정합니까?
의사 결정 트리에서 지니 불순도(Gini Impurity)는 무엇을 측정합니까?
의사 결정 트리에서 max_depth
는 가장 중요한 하이퍼파라미터 중 하나이며, 과적합을 제어하는 데 도움이 됩니다.
의사 결정 트리에서 max_depth
는 가장 중요한 하이퍼파라미터 중 하나이며, 과적합을 제어하는 데 도움이 됩니다.
의사 결정 트리 학습 알고리즘 (CART)의 주요 목표는 무엇입니까?
의사 결정 트리 학습 알고리즘 (CART)의 주요 목표는 무엇입니까?
의사 결정 트리에서 분할을 중지하는 기준은 노드를 더 분할해도 불순도를 크게 ______ 수 없거나, 미리 설정된 최대 깊이에 도달하는 경우입니다.
의사 결정 트리에서 분할을 중지하는 기준은 노드를 더 분할해도 불순도를 크게 ______ 수 없거나, 미리 설정된 최대 깊이에 도달하는 경우입니다.
다음 의사 결정 트리 용어를 해당 정의와 일치시키세요:
다음 의사 결정 트리 용어를 해당 정의와 일치시키세요:
앙상블 학습의 주요 목표는 무엇입니까?
앙상블 학습의 주요 목표는 무엇입니까?
앙상블 방법에서 랜덤 포레스트는 결정 트리만 사용하는 것은 아니다.
앙상블 방법에서 랜덤 포레스트는 결정 트리만 사용하는 것은 아니다.
랜덤 포레스트에서 '랜덤 서브스페이스' 방법은 무엇을 의미합니까?
랜덤 포레스트에서 '랜덤 서브스페이스' 방법은 무엇을 의미합니까?
앙상블 학습에서 여러 예측값의 결합된 예측을 결정하는 데 사용되는 기술은 ______ 투표와 소프트 투표입니다.
앙상블 학습에서 여러 예측값의 결합된 예측을 결정하는 데 사용되는 기술은 ______ 투표와 소프트 투표입니다.
다음 앙상블 학습 용어를 그 역할과 매칭하세요:
다음 앙상블 학습 용어를 그 역할과 매칭하세요:
차원 축소의 주된 목적은 무엇입니까?
차원 축소의 주된 목적은 무엇입니까?
PCA는 비선형 차원 축소 기술이다.
PCA는 비선형 차원 축소 기술이다.
PCA에서 '주성분'은 무엇을 나타냅니까?
PCA에서 '주성분'은 무엇을 나타냅니까?
데이터 세트에 적용할 PCA의 주성분 수를 선택하기 위해 데이터에서 캡처할 분산의 ______을 나타내는 EVR (설명된 분산 비율)을 검사할 수 있습니다.
데이터 세트에 적용할 PCA의 주성분 수를 선택하기 위해 데이터에서 캡처할 분산의 ______을 나타내는 EVR (설명된 분산 비율)을 검사할 수 있습니다.
차원 축소 기술을 그 주된 역할과 일치시키세요:
차원 축소 기술을 그 주된 역할과 일치시키세요:
T-SNE의 가장 주된 사용 사례는 무엇입니까?
T-SNE의 가장 주된 사용 사례는 무엇입니까?
T-SNE는 임의의 차수 d로 쉽게 일반화할 수 있는 반면 PCA는 d=2 및 d=3으로 특화되는 경향이 있다.
T-SNE는 임의의 차수 d로 쉽게 일반화할 수 있는 반면 PCA는 d=2 및 d=3으로 특화되는 경향이 있다.
T-SNE가 데이터를 투영하는 동안 주로 유지하려는 것은 무엇입니까?
T-SNE가 데이터를 투영하는 동안 주로 유지하려는 것은 무엇입니까?
T-SNE는 학생의 t 분포에 의존하므로 이름에 ______이(가) 포함된다.
T-SNE는 학생의 t 분포에 의존하므로 이름에 ______이(가) 포함된다.
다음 t-SNE 개념을 해당 설명과 일치시키세요:
다음 t-SNE 개념을 해당 설명과 일치시키세요:
클러스터링의 주된 용도는 무엇입니까?
클러스터링의 주된 용도는 무엇입니까?
실루엣 점수가 1에 가까울수록 클러스터링은 일반적으로 더 나쁘다.
실루엣 점수가 1에 가까울수록 클러스터링은 일반적으로 더 나쁘다.
K-평균은 몇 개의 평균을 가진 데이터 포인트를 기반으로 함으로써 데이터 세트에서 그룹을 식별하는 데 중점을 둡니까?
K-평균은 몇 개의 평균을 가진 데이터 포인트를 기반으로 함으로써 데이터 세트에서 그룹을 식별하는 데 중점을 둡니까?
K-평균은 각 클러스터에 대한 새 대표를 중심점 대신 데이터 세트의 실제 객체인 ______으로 설정합니다.
K-평균은 각 클러스터에 대한 새 대표를 중심점 대신 데이터 세트의 실제 객체인 ______으로 설정합니다.
다음은 클러스터링 방법 특징과 관련된 용어들을 일치합니다.
다음은 클러스터링 방법 특징과 관련된 용어들을 일치합니다.
신경망은 이상이 감지될 수 있는 정상 데이터를 사용하여 인코딩/디코딩이 이루어집니다. [blank]이(가) 학습되면 [blank]을(를) 초과하는 데이터 샘플이 비정상이라고 합니다.
신경망은 이상이 감지될 수 있는 정상 데이터를 사용하여 인코딩/디코딩이 이루어집니다. [blank]이(가) 학습되면 [blank]을(를) 초과하는 데이터 샘플이 비정상이라고 합니다.
VAE는 엔터티의 기본 통계를 확인할 목적으로 훈련된 변형을 추가하는 데 사용됩니다. 따라서 전체 코드를 잘 보존하는 데 권장되지만 세부 사항으로 세分화할 필요는 없습니다.
VAE는 엔터티의 기본 통계를 확인할 목적으로 훈련된 변형을 추가하는 데 사용됩니다. 따라서 전체 코드를 잘 보존하는 데 권장되지만 세부 사항으로 세分화할 필요는 없습니다.
적은 수의 예가 있는 데이터를 사용할 수 있는 이유는 무엇입니까?
적은 수의 예가 있는 데이터를 사용할 수 있는 이유는 무엇입니까?
자동 인코더 내의 잠금 기능은 ______ 축소 기술 역할을 수행합니다.
자동 인코더 내의 잠금 기능은 ______ 축소 기술 역할을 수행합니다.
다음과 같이 기능이 많은 다양한 데이터 세트와 일치시킵니다.
다음과 같이 기능이 많은 다양한 데이터 세트와 일치시킵니다.
기본 RNN에서 상태(state)는 무엇과 동일합니까?
기본 RNN에서 상태(state)는 무엇과 동일합니까?
기본 RNN은 기본 셀이 없는 신경망입니다.
기본 RNN은 기본 셀이 없는 신경망입니다.
기본 RNN 훈련의 주요 과제는 ______ 문제가 발생하는 것입니다.
기본 RNN 훈련의 주요 과제는 ______ 문제가 발생하는 것입니다.
BPTT란 무엇입니까?
BPTT란 무엇입니까?
기본 RNN 교육에서 긴 시퀀스는 소멸하는 그래디언트 문제를 악화시킬 수 있습니다.
기본 RNN 교육에서 긴 시퀀스는 소멸하는 그래디언트 문제를 악화시킬 수 있습니다.
장기 패턴을 학습할 수 없는 truncated BPTT 문제를 해결하기 위해 도입 된 셀 유형은 무엇입니까?
장기 패턴을 학습할 수 없는 truncated BPTT 문제를 해결하기 위해 도입 된 셀 유형은 무엇입니까?
LSTM 셀에서 상태는 어떻게 나뉩니까?
LSTM 셀에서 상태는 어떻게 나뉩니까?
LSTM 셀은 버릴 내용을 결정하는 메커니즘을 사용합니다. 이 메커니즘을 흔히 ______라고 합니다.
LSTM 셀은 버릴 내용을 결정하는 메커니즘을 사용합니다. 이 메커니즘을 흔히 ______라고 합니다.
LSTM 셀의 기능을 요약하십시오.
LSTM 셀의 기능을 요약하십시오.
GRU는 LSTM보다 복잡합니다.
GRU는 LSTM보다 복잡합니다.
다음 용어를 LSTM 셀에 해당하는 설명과 연결하십시오.
다음 용어를 LSTM 셀에 해당하는 설명과 연결하십시오.
다음 중 LSTM 또는 그 변형이 적합한 응용 프로그램은 무엇입니까?
다음 중 LSTM 또는 그 변형이 적합한 응용 프로그램은 무엇입니까?
LSTM은 시계열 데이터에만 사용되는 모델입니다.
LSTM은 시계열 데이터에만 사용되는 모델입니다.
LSTM의 목적은 네트워크가 ______할 수 있도록 셀을 설계하는 것입니다.
LSTM의 목적은 네트워크가 ______할 수 있도록 셀을 설계하는 것입니다.
LSTM와 GRU를 비교
LSTM와 GRU를 비교
붓꽃 식물 분류에서 setosa를 다른 변종과 구별하는 중요한 기능은 무엇입니까?
붓꽃 식물 분류에서 setosa를 다른 변종과 구별하는 중요한 기능은 무엇입니까?
결정 트리에서 setosa를 분류하기 위한 분할을 결정하기 위한 꽃잎 길이의 임곗값은 3.0cm입니다.
결정 트리에서 setosa를 분류하기 위한 분할을 결정하기 위한 꽃잎 길이의 임곗값은 3.0cm입니다.
CART 알고리즘에서 노드의 불순도를 최소화하는 특징과 임곗값을 찾는 데 사용하는 순서입니다. 이 불순도 측정은 ______라고 합니다.
CART 알고리즘에서 노드의 불순도를 최소화하는 특징과 임곗값을 찾는 데 사용하는 순서입니다. 이 불순도 측정은 ______라고 합니다.
결정 트리에서 하이퍼파라미터의 역할을 설명하십시오.
결정 트리에서 하이퍼파라미터의 역할을 설명하십시오.
Truncated BPTT가 기본 RNN 학습에서 직면하는 문제를 해결할 때 발생하는 문제는 무엇입니까?
Truncated BPTT가 기본 RNN 학습에서 직면하는 문제를 해결할 때 발생하는 문제는 무엇입니까?
트리 알고리즘에서 min_samples_split, 5로 설정되면 노드에 4개 샘플만 있는 경우 추가 불순도 없이도 노드를 분할할 수 있습니다.
트리 알고리즘에서 min_samples_split, 5로 설정되면 노드에 4개 샘플만 있는 경우 추가 불순도 없이도 노드를 분할할 수 있습니다.
CART 알고리즘에서는 불순도를 최소화하도록 특징값과 임곗값을 찾는 과정이 ______가 될 때까지 반복됩니다.
CART 알고리즘에서는 불순도를 최소화하도록 특징값과 임곗값을 찾는 과정이 ______가 될 때까지 반복됩니다.
결정 트리의 앙상블 학습을 사용하면 일반적으로 어떤 이점이 있습니까?
결정 트리의 앙상블 학습을 사용하면 일반적으로 어떤 이점이 있습니까?
다음과 같은 하이퍼파라미터는 데이터 세트 정규화에 더 중점을 둘까요?
다음과 같은 하이퍼파라미터는 데이터 세트 정규화에 더 중점을 둘까요?
앙상블 학습은 많은 예측변수를 집계하고 최고의 독립 예측변수를 정확하게 반영하지 못하는 경향이 있습니다.
앙상블 학습은 많은 예측변수를 집계하고 최고의 독립 예측변수를 정확하게 반영하지 못하는 경향이 있습니다.
랜덤 하위 공간 방법은 앙상블에 도움이 됩니다. 훈련 데이터를 ______하는 데 사용합니다.
랜덤 하위 공간 방법은 앙상블에 도움이 됩니다. 훈련 데이터를 ______하는 데 사용합니다.
랜덤 포레스트를 간단히 정의하십시오.
랜덤 포레스트를 간단히 정의하십시오.
다음 기능은 RF 모델이 가장 일반적일 것으로 예상되는 모델로, 일종으로 제공되어 다양한 하이퍼파라미터를 조정하는 데 도움이 되나요?
다음 기능은 RF 모델이 가장 일반적일 것으로 예상되는 모델로, 일종으로 제공되어 다양한 하이퍼파라미터를 조정하는 데 도움이 되나요?
RF 기능 중요성은 훈련 세트 기능의 중요도를 알려주는 관련 척도를 캡처하는 측정입니다.
RF 기능 중요성은 훈련 세트 기능의 중요도를 알려주는 관련 척도를 캡처하는 측정입니다.
데이터에 결함이 있는데 분류 성능이 여전히 불만족스럽다면 다음과 같은 방법을 사용하는 것이 좋습니다.
데이터에 결함이 있는데 분류 성능이 여전히 불만족스럽다면 다음과 같은 방법을 사용하는 것이 좋습니다.
다음 측정 도구를 적절한 설명별로 정렬하세요.
다음 측정 도구를 적절한 설명별로 정렬하세요.
데이터가 좁으면 다음을 사용하는 것이 바람직합니다.
데이터가 좁으면 다음을 사용하는 것이 바람직합니다.
PCA는 비선형 기술입니다.
PCA는 비선형 기술입니다.
차원 축소가 있는 경우 기능을 줄여 모델의 ______을(를) 방지할 수 있습니다.
차원 축소가 있는 경우 기능을 줄여 모델의 ______을(를) 방지할 수 있습니다.
데이터의 차원 축소에 사용되는 다른 방법 이름이 필요합니다.
데이터의 차원 축소에 사용되는 다른 방법 이름이 필요합니다.
차원 축소를 위한 비선형 기술인 것은 무엇입니까?
차원 축소를 위한 비선형 기술인 것은 무엇입니까?
T-SNE 기술로 더 높은 차원을 얻을 수 있습니다.
T-SNE 기술로 더 높은 차원을 얻을 수 있습니다.
데이터 세트 차원을 줄인 후 적절한 모델을 학습하기 위해 ______이(가) 발생합니다.
데이터 세트 차원을 줄인 후 적절한 모델을 학습하기 위해 ______이(가) 발생합니다.
군집화
군집화
데이터 내의 그룹과 분리를 평가하는 메트릭은 다음과 같습니다.
데이터 내의 그룹과 분리를 평가하는 메트릭은 다음과 같습니다.
저차원 임베딩에 가장 적합한 기술은 다음과 같습니다.
저차원 임베딩에 가장 적합한 기술은 다음과 같습니다.
자동 인코더는 무엇으로 구성됩니까?
자동 인코더는 무엇으로 구성됩니까?
자동 인코더는 비지도 기술입니까?
자동 인코더는 비지도 기술입니까?
연결 가중치를 사용하여 학습을 향상하는 접근 방식이라고 하는 것은?
연결 가중치를 사용하여 학습을 향상하는 접근 방식이라고 하는 것은?
재구성 손실을 줄이는 방법
재구성 손실을 줄이는 방법
다음 중 비선형 차원 축소에 중요한 역할로 사용할 수 있는 것은 무엇입니까?
다음 중 비선형 차원 축소에 중요한 역할로 사용할 수 있는 것은 무엇입니까?
기본 RNN에서 상태(state)는 무엇과 동일하게 저장됩니까?
기본 RNN에서 상태(state)는 무엇과 동일하게 저장됩니까?
BPTT는 기본 RNN을 훈련하는 데 사용되는 방법입니다.
BPTT는 기본 RNN을 훈련하는 데 사용되는 방법입니다.
기본 RNN 훈련 시 발생하는 주요 문제는 무엇입니까?
기본 RNN 훈련 시 발생하는 주요 문제는 무엇입니까?
Truncated BPTT는 ______을 줄이는 기술입니다.
Truncated BPTT는 ______을 줄이는 기술입니다.
다음 RNN 관련 용어를 해당하는 설명과 연결하십시오.
다음 RNN 관련 용어를 해당하는 설명과 연결하십시오.
GRU는 LSTM보다 복잡한 RNN 아키텍처입니다.
GRU는 LSTM보다 복잡한 RNN 아키텍처입니다.
LSTM 셀에서 네트워크가 학습할 수 있도록 설계된 세 가지 사항은 무엇입니까?
LSTM 셀에서 네트워크가 학습할 수 있도록 설계된 세 가지 사항은 무엇입니까?
LSTM 셀에는 ______ 상태와 장기 상태의 두 가지 상태가 있습니다.
LSTM 셀에는 ______ 상태와 장기 상태의 두 가지 상태가 있습니다.
다음 LSTM 레이어의 구성 요소를 해당 기능과 연결하십시오.
다음 LSTM 레이어의 구성 요소를 해당 기능과 연결하십시오.
의사결정 트리(DT)를 사용하여 Iris 식물을 분류하기 위한 분할 결정을 내리는 데 중요한 역할을 하는 특징은 무엇입니까?
의사결정 트리(DT)를 사용하여 Iris 식물을 분류하기 위한 분할 결정을 내리는 데 중요한 역할을 하는 특징은 무엇입니까?
CART 알고리즘에서 지니 지수가 낮을수록 해당 분할이 더 순수함을 나타냅니다.
CART 알고리즘에서 지니 지수가 낮을수록 해당 분할이 더 순수함을 나타냅니다.
의사졀정 트리의 스플릿을 중단하는 두 가지 기준은 무엇입니까?
의사졀정 트리의 스플릿을 중단하는 두 가지 기준은 무엇입니까?
의사결정 트리 모델을 단순화하여 과적합도를 낮추고 일반화 능력을 높이는 기술을 ______이라 합니다.
의사결정 트리 모델을 단순화하여 과적합도를 낮추고 일반화 능력을 높이는 기술을 ______이라 합니다.
다음 의사결정 트리 하이퍼파라미터를 그 효과와 연결하세요.
다음 의사결정 트리 하이퍼파라미터를 그 효과와 연결하세요.
앙상블 학습의 주요 아이디어는 무엇입니까?
앙상블 학습의 주요 아이디어는 무엇입니까?
무작위 하위 공간 방법에서 각 예측기는 전체 특징 집합에서 훈련됩니다.
무작위 하위 공간 방법에서 각 예측기는 전체 특징 집합에서 훈련됩니다.
앙상블 학습에서 하드 투표와 소프트 투표의 차이점은 무엇입니까?
앙상블 학습에서 하드 투표와 소프트 투표의 차이점은 무엇입니까?
의사 결정 트리 앙상블의 한 유형인 무작위 포리스트는 ______ 메서드를 함께 사용하는 특징을 가지고 있습니다.
의사 결정 트리 앙상블의 한 유형인 무작위 포리스트는 ______ 메서드를 함께 사용하는 특징을 가지고 있습니다.
다음 앙상블 학습 관련 용어를 해당하는 설명과 연결하십시오.
다음 앙상블 학습 관련 용어를 해당하는 설명과 연결하십시오.
Flashcards
셀(Cell)이란?
셀(Cell)이란?
상태(메모리)를 보존하는 개체
기본 셀(Basic cell)이란?
기본 셀(Basic cell)이란?
출력에 대한 모든 것을 저장하는 셀
기본 RNN이란?
기본 RNN이란?
기본 셀을 가진 RNN
피드백할 것은?
피드백할 것은?
Signup and view all the flashcards
훈련할 파라미터는?
훈련할 파라미터는?
Signup and view all the flashcards
BPTT란?
BPTT란?
Signup and view all the flashcards
기본 RNN의 문제점은?
기본 RNN의 문제점은?
Signup and view all the flashcards
Truncated BPTT란?
Truncated BPTT란?
Signup and view all the flashcards
Truncated BPTT의 문제점은?
Truncated BPTT의 문제점은?
Signup and view all the flashcards
기억 용량 유지 방법은?
기억 용량 유지 방법은?
Signup and view all the flashcards
LSTM 셀 발명가는?
LSTM 셀 발명가는?
Signup and view all the flashcards
LSTM 셀의 핵심 아이디어는?
LSTM 셀의 핵심 아이디어는?
Signup and view all the flashcards
LSTM 셀의 학습 목표는?
LSTM 셀의 학습 목표는?
Signup and view all the flashcards
GRU란?
GRU란?
Signup and view all the flashcards
LSTM의 활용 분야는?
LSTM의 활용 분야는?
Signup and view all the flashcards
Decision Tree란?
Decision Tree란?
Signup and view all the flashcards
Decision Tree의 훈련 알고리즘은?
Decision Tree의 훈련 알고리즘은?
Signup and view all the flashcards
Decision Tree의 주요 하이퍼파라미터는?
Decision Tree의 주요 하이퍼파라미터는?
Signup and view all the flashcards
Decision Tree의 단점은?
Decision Tree의 단점은?
Signup and view all the flashcards
Random Forest란?
Random Forest란?
Signup and view all the flashcards
Random Forest는 왜 무작위 subspace 방법을 사용할까?
Random Forest는 왜 무작위 subspace 방법을 사용할까?
Signup and view all the flashcards
Random Forest의 주요 하이퍼파라미터는?
Random Forest의 주요 하이퍼파라미터는?
Signup and view all the flashcards
Clustering이란?
Clustering이란?
Signup and view all the flashcards
Clustering은 언제 유용할까?
Clustering은 언제 유용할까?
Signup and view all the flashcards
K-means 알고리즘이란?
K-means 알고리즘이란?
Signup and view all the flashcards
K-medoids 알고리즘의 장점은?
K-medoids 알고리즘의 장점은?
Signup and view all the flashcards
계층적 군집화란?
계층적 군집화란?
Signup and view all the flashcards
Clustering 성능 측정 방법은?
Clustering 성능 측정 방법은?
Signup and view all the flashcards
차원 축소와 군집화, 어떻게 결합할까?
차원 축소와 군집화, 어떻게 결합할까?
Signup and view all the flashcards
Dimensionality reduction이란?
Dimensionality reduction이란?
Signup and view all the flashcards
Dimensionality reduction의 장점은?
Dimensionality reduction의 장점은?
Signup and view all the flashcards
가장 인기 있는 차원 축소 기법은?
가장 인기 있는 차원 축소 기법은?
Signup and view all the flashcards
데이터 시각화에 유용한 차원 축소 기법은?
데이터 시각화에 유용한 차원 축소 기법은?
Signup and view all the flashcards
PCA의 주요 특징은?
PCA의 주요 특징은?
Signup and view all the flashcards
PCA의 목표는?
PCA의 목표는?
Signup and view all the flashcards
EVR이란?
EVR이란?
Signup and view all the flashcards
T-SNE의 핵심 아이디어는?
T-SNE의 핵심 아이디어는?
Signup and view all the flashcards
T-SNE의 단점은?
T-SNE의 단점은?
Signup and view all the flashcards
Autoencoder는 무엇일까요?
Autoencoder는 무엇일까요?
Signup and view all the flashcards
Autoencoder의 bottleneck layer는 무엇을 나타낼까요?
Autoencoder의 bottleneck layer는 무엇을 나타낼까요?
Signup and view all the flashcards
Autoencoder 훈련 목표는 무엇일까요?
Autoencoder 훈련 목표는 무엇일까요?
Signup and view all the flashcards
Autoencoder는 어떤 역할을 할 수 있을까요?
Autoencoder는 어떤 역할을 할 수 있을까요?
Signup and view all the flashcards
Autoencoder를 Semi-Supervised Learning에 어떻게 활용할 수 있을까요?
Autoencoder를 Semi-Supervised Learning에 어떻게 활용할 수 있을까요?
Signup and view all the flashcards
Autoencoder의 Decoder는 어떤 역할을 할 수 있을까요?
Autoencoder의 Decoder는 어떤 역할을 할 수 있을까요?
Signup and view all the flashcards
Variational Autoencoder(VAE)은 무엇에 특화 되어 있을까요?
Variational Autoencoder(VAE)은 무엇에 특화 되어 있을까요?
Signup and view all the flashcards
Autoencoder를 활용한 이상 감지 방법은 무엇일까요?
Autoencoder를 활용한 이상 감지 방법은 무엇일까요?
Signup and view all the flashcards
Autoencoder로 이상 감지 시 임계값은 어떻게 정해야 할까요?
Autoencoder로 이상 감지 시 임계값은 어떻게 정해야 할까요?
Signup and view all the flashcards
Study Notes
Recurrent Neural Networks 개요
- 강의 목표는 기본적인 RNN을 파악하고, 훈련 방법과 관련된 어려움을 강조하는 것임
메모리 셀 (Memory Cell)
- 메모리 셀은 상태(ht)를 보존하는 개체로 정의된다.
기본 셀 (Basic Cell)
- 기본 셀은 상태 ht가 출력 yt와 같은 셀을 의미하며 상태 = 출력 (ht = yt)입니다.
- 기본 RNN은 이러한 기본 셀들로 구성된 RNN.
기본 RNN (Basic RNN) 구조
- X1, X2, ..., Xt는 각 시점의 입력을 나타낸다.
- Y1, Y2, ..., Yt는 각 시점의 출력을 나타낸다.
- h1, h2, ..., ht는 각 시점의 상태를 나타낸다.
- 각 셀은 'basic cell'을 사용함
피드백할 정보
- 상태(state)를 피드백한다.
- yt = φ(Wxxt + Whht-1 + b)
훈련할 파라미터
- 훈련할 파라미터는 (W, b)이며, W는 (Wx, Wh)로 구성된다.
- yt = φ(Wxxt + Whht-1 + b)
훈련 방법
- RNN은 레이어드 네트워크와 유사하게 구성되어 있다.
BPTT (BackProp Through Time)
- BPTT는 시간 흐름에 따른 역전파를 통해 훈련을 수행하는 방법이다.
- 이진 분류 문제에서 손실 함수 J(w,b)를 최소화하기 위해 사용한다.
BPTT의 문제점 및 해결책
- gradient 곱셈이 길어지면 gradient 소실 문제가 발생할 수 있다.
- 가장 간단하고 흔한 해결책은 truncated BPTT를 사용하여 시간 T를 줄이는 것이다.
Truncated BPTT의 문제점 및 해결책
- truncated BPTT는 장기 패턴을 학습할 수 없다.
- 장기 의존성 유지를 위해 LSTM(Long Short-Term Memory) 셀이 도입되었다.
LSTM (Long Short-Term Memory) 셀
- LSTM 셀은 1997년에 Sepp Hochreiter와 Jürgen Schmidhuber가 발명했다.
- 기본 셀을 대체함으로써 성능을 향상시키고, 빠른 훈련과 데이터 내 의존성 감지를 제공한다.
LSTM 셀의 주요 아이디어
- 상태를 단기 상태 ht와 장기 상태 ct로 분리한다.
- 네트워크가 버릴 정보(forget), 기억할 정보(input), 읽을 정보(output)를 학습하도록 설계되었다.
LSTM 셀의 구조
- ht-1 (단기 상태) 및 ct-1 (장기 상태)를 입력으로 받는다.
- ft (forget gate), gt, it (input gate), ot (output gate)를 포함합니다.
- ht 및 ct를 계산하여 다음 시점으로 전달한다.
LSTM 셀의 수식 표현
- ft = σ(Wxfxt + Whfht-1 + bf)
- gt = tanh(Wxgxt + Whght-1 + bg)
- it = σ(Wxixt + Whiht-1 + bi)
- ct = ft ⊗ ct-1 + it ⊗ gt
- ot = σ(Wxoxt + Whoht-1 + bo)
- yt = ht = ot ⊗ tanh(ct)
GRU (Gated Recurrent Unit)
- 2014년에 개발된 LSTM의 단순화 버전이다.
- 두 상태를 하나로 병합했지만 성능은 비슷하다.
LSTM의 응용 분야
- 기계 번역
- 텍스트 생성
- 문법 교정
- 자연어 처리(NLP) 애플리케이션 전반
추가 질문사항
- 아직 성능이 만족스럽지 않은 경우 작고 작은 데이터 체계를 위한 더 나은 접근 방식은 무엇입니까?
- DNN의 해석 가능성은 어떻습니까?
오늘 강의 관련 사항
- small data 체계에서 더 나은 성능을 가능하게 하고 모델 해석 가능성을 제공할 수 있는 기술을 살펴봅니다.
- random forests (RF)가 업계에서 가장 강력한 ML 알고리즘입니다.
향후 학습 내용
- Decision trees (DTs)
- 앙상블 학습 (Ensemble learning)
- Random forests (RFs)
Decision Trees (DTs)
- 의사 결정 트리는 Overfitting 문제를 초래할 수 있으므로, DNN을 단순화하는 것이 좋다.
CNNs (합성곱 신경망)
- CNN은 이미지 데이터에 특화된 모델입니다.
- Conv layer는 인간 시각 피질의 뉴런을 모방하며, Pooling layer는 복잡성을 줄이는 역할을 한다.
- Feature map 크기는 줄어들고, feature map 수는 증가하는 것이 일반적인 구조이다.
RNNs (순환 신경망)
- RNN은 시계열 데이터에 특화된 모델이다.
- Recurrent neurons (순환 뉴런)과 Memory cell (기억 셀)이 주요 빌딩 블록이다.
- Basic RNN은 truncated BPTT 방식으로 학습되며 장기 기억 능력이 부족하고, LSTM은 뛰어난 성능과 빠른 훈련을 제공한다.
tensorflow코딩 내용
- 텐서플로우를 사용한 RNN 코딩 예시가 제시되었다.
- 기본 RNN과 LSTM 구현을 위한 코드를 제공한다.
오늘 강의 내용
- 모델 해석 가능성을 제공하는 랜덤 포레스트(RF)를 살펴본다.
- 랜덤 포레스트는 업계에서 가장 강력한 모델 중 하나이다.
오늘 강의 개요
- 의사결정 트리(DT): RF의 기본 구성 요소, DT 분류기, DT 회귀
- 앙상블 학습: RF를 특별한 예로 포함하는 일반적인 기술
- RF 심층 분석
lecture 13 집중 내용
- Decision trees (DTs)
- 앙상블 학습 (Ensemble learning)
- Random forests (RFs)
동기 부여 사례
- 품종 분류 문제에서 꽃잎 길이와 폭을 특징으로 사용하여 Iris 식물을 분류한다.
- setosa, versicolor, virginica 세 가지 클래스를 구분한다.
데이터 분포 관찰
- 꽃잎 길이는 setosa를 다른 품종과 구별하는 데 중요한 역할을 한다.
분류를 위한 시도
- 꽃잎 길이를 기준으로 2.45 cm로 구분하여 setosa 품종을 분류한다.
- setosa 품종만 정확하게 분리된다.
추가 관찰
- 꽃잎 폭을 활용하면 versicolor와 virginica를 구별할 수 있다.
- 꽃잎 길이가 2.45 cm보다 큰 데이터에 대해 꽃잎 폭이 1.75 cm보다 작은 경우 versicolor로, 그렇지 않으면 virginica로 분류한다.
의사 결정 트리
- 의사 결정 트리는 petal length ≤ 2.45를 기준으로 분할한다.
- True branch는 setosa로, False branch는 petal width ≤ 1.75를 기준으로 다시 분할한다.
- 최종적으로 versicolor와 virginica를 분류한다.
CART 알고리즘 (Classification And Regression Tree)
- CART 알고리즘은 불순도(impurity)를 최소화하는 (k, tk)를 찾는 방식으로 작동한다.
- impurity를 측정하는 지니 지수(Gini index)를 사용한다. (0~1)
CART 알고리즘 (Classification And Regression Tree) - 상세 내용
- 각 분할(split)에 대해 Step 1을 반복한다.
- 정지 기준(stopping criteria)을 충족할 때까지 반복한다.
정지 기준 (Stopping criteria)
- 불순도를 더 이상 줄일 수 없는 경우
- 최대 깊이(max_depth)에 도달한 경우
하이퍼파라미터 (Hyperparameters)
- max_depth: 트리의 최대 깊이
- min_samples_split: 노드를 분할하기 위한 최소 샘플 수
- min_samples_leaf: 리프 노드가 가져야 하는 최소 샘플 수
- max_leaf_nodes: 최대 리프 노드 수
하이퍼파라미터 vs. 정규화 (regularization)
- max_depth가 감소하면 정규화가 증가한다.
- min_samples_split가 증가하면 정규화가 증가한다.
- min_samples_leaf가 증가하면 정규화가 증가한다.
- max_leaf_nodes가 감소하면 정규화가 증가한다.
향후 학습 내용
- 회귀 분석을 위한 의사 결정 트리 연구
- 의사 결정 트리에서 발생하는 문제점 조사
- 앙상블 학습을 통해 문제 해결 방법 탐색
회귀 분석을 위한 DT의 동기 부여 사례
- x∈ R, y ∈ R인 데이터에 대해 회귀 모델을 구축한다.
분할 시 각 영역별 관찰
- x값이 0.2보다 작은 영역과 큰 영역으로 분할했을 때 각 영역별 y값 분포는 집중되어 있다.
자연스러운 시도 결과
- x ≤ 0.2 기준으로 데이터를 분할한다.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.