Processing math: 100%
본문 바로가기

일상&학회

대학원 면접 대비 (AI, 통계)

  • 머신러닝이란?

    인공지능의 한 분야로 알고리즘이 데이터를 학습하여 패턴을 찾고 예측하는 기술임.
    지도학습, 비지도학습, 강화학습으로 구분할 수 있음.

    지도학습
    주어진 입력을 통해 알고리즘이 출력하고, 출력된 값과 정답을 통해 학습하는 방식임.
    대표적으로 선형회귀, 로지스틱회귀, SVM 등이 있음

    비지도학습
    정답이 주어지지고 않고 입력데이터만을 이용해 학습하는 방식임.
    군집화 알고리즘, 차원축소, 연관규칙 학습 등이 있음.

    준지도학습

    레이블링된 데이터가 적을 때, 레이블이 없는 데이터를 pseudo labeling과정을 통해 성능을 향상시키는 방식임.
    데이터 분포 문제를 고려해야하며,mixmatch방법이 대표적임.

    강화학습
    에이전트가 환경과 상호작용하여 보상을 최대화하는 행동을 학습하는 방식임.
    알파고와 자율주행 등이 있음.


  • 분류와 회귀문제의 차이점

    분류는 입력 데이터를 미리 정의된 범주로 나누는 것이고, 회귀 문제는 연속적인 값을 예측하는 것임.


  • 과적합 / 과소적합 (Overfitting / Underfitting)

    Overfitting
    모델이 학습데이터에 지나치게 적응해 새로운 데이터에 대한 성능이 저하되는 현상임.
    해결책으로는 학습데이터를 늘리거나, 모델을 간소화하거나, drop out, early stop, data augmentation 등의 방식이 존재함. 

    Underfitting
    모델이 학습데이터를 충분히 학습하지 못해 성능이 저하되는 현상임.
    학습데이터에 비해 모델이 너무 간단하거나 적은 epoch로 학습이 진행되지 않을 때 발생함.
    해결책으로는 epoch 증가, 복잡한 모델 사용, learning rate 증가 등이 있음.


  • 편향-분산 트레이드오프

    모델의 복잡도와 오차 간의 관계로, 편향이 낮으면 분산이 높고 편향이 높으면 분산이 낮아지는 현상을 의미함.
    머신러닝 모델의 일반화 성능을 이해하는 데 중요한 개념이며, 모델의 오차를 편향과 분산으로 분해하여 분석하는 방식임.
    낮은 편향과 낮은 분산 사이의 균형을 찾는 것을 편향-분산 트레이드오프라고 하며, 모델의 성능을 최적화할 수 있음.

    편향(bias)
    모델이 학습데이터의 본질적인 구조나 패턴을 놓치는 경향을 나타내며, 편향이 높으면 복잡한 패턴을 포착하지 못해 underfitting될 수 있음

    분산(variance)
    모델이 학습데이터의 작은 변동에도 과도하게 민감한 경향을 나타내며, 분산이 높은 모델은 overfitting이 일어날 수 있음.


  • 정규화 (Regularization)

    과적합을 방지하기 위해 모델의 복잡도를 줄이는 방식으로 가중치를 작게 유지하거나 제거하여 모델의 overfitting을 방지함.
    보통 loss function에 패널티(규제)를 추가함으로써 모델의 복잡도를 감소시켜 모델의 가중치가 커지는 것을 방지하고 일반화 성능을 향상시킬 수 있음.
    주로 L1 loss(Lasso), L2 loss(Ridge), drop out 등의 정규화가 사용됨. 

    L1 Norm: 빨강,파랑,노랑, L2 Nom: 초록


    L1 loss (Lasso)
    실제값과 예측값 간 오차의 절대값들을 더한 값으로, L2 loss보다 둔감한것이 특징임.

    Outlier가 적당히 무시되길 원한다면 L1 loss가 적합함.
    0인 지점에서 미분이 불가능하다는 단점이 존재함.(첨점이기 때문)

    L1=ni=1|yif(xi)|

    L2 loss (Ridge)
    오차의 제곱의 합으로 정의됨. Euclidean 거리이며, 오차의 제곱을 사용하기 때문에 outlier에 더 큰 영향을 받음.

    L2=ni=1(yif(xi))2


  • Regularization / Normalization / Standardization

    Regularization
    weight(가중치)를 조정하는데 규제(제약)을 거는 기법으로, overfitting을 막기 위해 사용됨.
    L1 norm, L2 norm 등이 있음

    Normalization
    값의 범위를 0~1 사이로 조정하는 것 (scaling)
    값의 범위를 조정하여 특정 변수에 대해 민감하게 반응하는 것을 방지하고, local minima에 빠질 위험을 감소시키며, 학습속도를 향상시킴.
    대표적으로 Min-Max 정규화 방식이 있음.
    xxminxmaxxmin

    Standardization
    값의 범위를 평균 0, 분산 1이 되도록 변환하는 것으로 정규분포로 맞추는 과정임.
    정규분포를 가정하는 알고리즘에서 효과적임. (ex. Linear Regression, Logistic Regression, Naive Bayes. PCA 등)
    xμσ


  • 평가지표

    분류문제
    정확도, f1 스코어, 정밀도, 재현율, 혼동행렬, ROC 곡선, AUC 등

    회귀문제
    평균제곱오차(MSE), 평균절대오차(MAE), 결정계수(R2) 등


  • K-fold 교차검증

    데이터를 k개의 동일한 크기의 부분집합으로 나누고, 각각을 테스트 데이터로 사용하여 모델을 검증하는 방식


  • 학습, 검증, 테스트 셋의 역할

    학습세트: 모델 학습
    검증세트: 모델의 하이퍼파라미터 조정
    테스트세트: 모델의 최종성능 평가


  • 혼동행렬(Confusion Matrix)

    분류문제의 결과를 행렬로 표현하여 모델의 성능을 평가하는 도구이며, TP, TN, FP, FN의 갯수를 확인할 수 있음.


  • 정밀도(Precision), 재현율(Recall), 민감도(Sensitivity), 특이도(Specificity), F1 score의 차이

    Precision (정밀도)
    모델이 양성으로 예측한 것 중 실제 양성인 비율 - Average Precision 계산에 활용

    Recall (재현율)
    실제 양성 중 모델이 양성으로 예측한 비율  - Average Precision 계산에 활용

    Sensitivity(민감도)
    양성 중 맞춘 양성의 수  - AUC 및 ROC곡선 계산에 활용

    Specificity(특이도)
    음성 중 맞춘 음성의 수  - AUC 및 ROC곡선 계산에 활용

    F1 score
    정밀도와 재현율의 조화평균


  • ROC곡선과 AUC-ROC 점수

    ROC곡선
    False Positive Rate(FPR)과 True Positive Rate(TPR, Recall)를 각 x축, y축으로 사용하여 모델의 성능을 그래프로 표현한 것

    AUC-ROC 점수
    ROC곡선 아래의 면적을 의미하며, 0에서 1사이의 값을 가짐. 값이 높을수록 좋은 성능

  • K-최근접 (KNN) 알고리즘

    새로운 데이터 포인트를 주변 k개의 가장 가까운 이웃 데이터포인트의 레이블을 기반으로 분류하거나 예측하는 방식


  • 의사결정트리의 작동원리

    입력데이터를 분할하여 가장 순수한 하위 집합을 생성함으로써 분류하거나 예측함.
    트리의 노드는 조건에 따라 분할되고, leaf 노드는 최종 예측을 의미함.


  • 앙상블 기법

    배깅
    동일한 알고리즘으로 서로 다른 데이터 샘플을 사용함으로써,
    병렬적으로 여러 개의 독립적인 모델을 학습하여 결과를 얻음.


    부스팅
    순차적으로 모델을 학습하여 이전 모델의 오차를 개선함. (동일한 알고리즘)

    랜덤 포레스트
    여러 개의 의사결정트리를 학습하고, 각 트리의 예측결과를 집계해서 최종결과를 도출함.

    스태킹(Stacking)
    여러 개의 머신러닝 모델 예측결과를 입력으로 사용하여 새로운 모델을 학습하는 앙상블 기법



  • 서포트 벡터 머신 (SVM)

    2개의 범주를 분류할 때 마진이 최대가 되는 초평면을 찾는 알고리즘이며,

    이를 통해 데이터 포인트들을 가장 잘 구분하는 결정경계를 설정함.
    SVM은 선형분리가 가능하며, 커널함수를 사용하면 비선형분리도 가능함.
    장점으로는 고차원 공간에서도 효과적으로 작동하며, 비선형문제를 커널함수로 해결할 수 있음. 또한 좋은 일반화성능을 보임.

    단점으로는 큰 데이터셋에서 학습속도가 느리며, 해석이 어려울 수 있음.

    SVM에서 사용하는 커널함수란?
    데이터를 고차원 공간으로 변환하는 함수임. 이를 통해 비선형 문제를 선형문제로 변환해 해결할 수 있으며, 커널트릭을 활용해 고차원공간으로 직접 매핑하지 않고도 계산을 효율적으로 할 수 있음. 예시로는 선형커널, 다항 커널, RBF 커널등이 있음

    하드마진과 소프트마진의 차이
    하드 마진은 모든 데이터 포인트가 올바르게 분류되도록 마진을 최대화하는 방식이고, 소프트 마진은 일부 오분류를 허용하면서 마진을 최대화 하는 방식임.


  • 활성화 함수

    인공 신경망의 뉴런에서 입력 신호의 가중치 합에 적용되는 비선형 함수임.
    입력신호의 총합을 변환하여 출력신호로 전달함으로써 신경망에 비선형성을 부여함.

    역할은 다음과 같음.
    1) 비선형성 도입 (복잡한 패턴 학습)
    2) 특징 학습 (중요 특징 학습을 도움)
    3) 출력범위 제한 (뉴런의 출력범위를 제한해 안정적인 학습)

    이를 통해 신경망의 비선형 문제를 해결할 수 있으며, Sigmoid, Tanh, Relu, Leaky Relu, Softmax 함수 등이 있음.


  • Back-propagation 원리

    가중치를 최적화하기 위한 방식으로 출력층에서부터 입력층 방향으로 오차를 계산하고, gradient를 통해 weight를 업데이트함.


  • Drop out

    학습과정에서 일부 뉴런을 무작위로 비활성화함.
    Overfitting을 방지하고 일반화 성능 향상


  • CNN 구조와 원리

    합성곱층, 활성화 함수, 풀링층, 완전연결층 등으로 구성되며, 공간적 구조(locality)정보를 효과적으로 처리할 수 있음.
    픽셀간 연관관계를 학습하며, 필터가 이미지의 feature를 추출하고, 이를 합성곱 연산함. 이때 pooling을 통해 feature를 강조하면서 크기를 줄여줌. 일반적으로 max pooling을 사용함.


  • 합성곱층의 역할

    입력이미지에 필터를 적용하여 특징 맵을 추출하는 역할을 함. 이를 통해 이미지의 공간 정보와 locality를 보존할 수 있음.


  • 풀링층의 역할

    특징맵의 크기를 줄이는 역할이며, 연산량을 감소시키고 과적합을 방지함.
    Max pooling, Average pooling 등이 있음. 일반적으로 max pooling을 사용함.


  • RNN이란?

    순차적인 데이터를 처리하기 위한 신경망으로, 이전 시점의 정보를 현재 시점의 입력과 함께 처리함.
    주로 시계열 데이터 분석, 자연어 처리 등에 사용됨.
    Input을 토대로 backpropagation을 하면서 parameter값을 갱신해나가는 방식임.
    장기 의존성문제가 있음.


  • LSTM과 GRU의 차이

    둘 다 RNN의 장기의존성 문제를 해결하기 위한 방식이나 다음과 같은 차이가 있음.

    LSTM (Long Short-Term Memory)
    입력,출력, 삭제 게이트를 가짐.
    RNN의 hidden state에 cell state를 추가하여 정보를 유지하며, state가 오래되더라도 gradient 소실문제를 완화함.
    장기의존성 문제에 효과적이나 구조가 복잡해 계산비용이 높고 학습시간이 오래걸림.

    GRU (Gated Recurrent Unit)
    업데이트,리셋 게이트를 가짐.
    LSTM에 비해 더 간단한 구조로 cell state 없이 hidden state만으로 작동함.
    업데이트 게이트는 다음 hidden state로 어떤 정보를 전달할지 결정하며, 리셋 게이트는 이전정보를 얼마나 잊을지 결정함.
    구조가 단순해 계산비용이 낮고 학습속도가 빠르다는 장점이 있지만, LSTM만큼 복잡한 의존관계를 학습하는데 한계가 있음.


  • NLP에서 사용되는 임베딩이란?

    단어, 문장 등의 자연어 요소를 고정된 크기의 벡터로 변환하는 방법임.
    이를 통해 연산 가능한 형태데이터변환하고, 단어 간 유사성을 계산할 수 있음.


  • 트랜스포머

    RNN을 사용하지 않고 self-attention 메커니즘으로 긴 시퀀스 데이터에서도 장기 의존성 문제를 해결함.
    기존에는 RNN에 attention을 해 흐려지는 정보에 attention을 하는 문제가 있었음.
    이러한 한계를 개선하기 위해 self-attention 매커니즘을 사용해 자기자신의 정보를 더욱 더 잘 반영하면서,hidden state에 정보를 더 잘 담을 수 있도록 함.

    Self-attention의 기능
    1) decoder가 마지막 단어만 많이 보는문제 (갈수록 흐려짐)를 해결
    2) 멀수록 잊혀지는 RNN의 vanishing gradient문제 해결
    3) 흐려지는 정보에 attention 하는 문제 해결

    병렬적으로 데이터를 처리하며, 번역에 특화됨.


  • BERT란?

    트랜스포머의 encoder 기반 모델로, 양방향 인코더를 사용하여 문맥을 고려해 단어 임베딩을 생성함.
    마스킹된 단어를 예측하는 작업을 수행함.


  • GPT란?

    트랜스포머의 decoder 기반의 모델로, 주어진 문맥에서 다음단어를 생성함.



  • 토큰화(Tokenization)

    텍스트를 의미있는 단위(토큰)으로 분리하는 과정임. 주로 단어 토큰화, 문장 토큰화, 형태소 토큰화, n-그램 토큰화 등이 있음.


  • 배치 정규화(Batch Normalization)

    각 층의 입력분포를 정규화하여 학습을 안정화 시키는 방식으로, 학습속도를 높이며 가중치 초기화에 덜 민감해지고 더 큰 learning rate를 사용할 수 있음. overfitting도 막을 수 있음.


  • 오토인코더(Autoencoder)

    비지도 학습방식의 신경망으로 ,입력데이터를 압축한 후 복원하는 과정을 통해 데이터의 특징을 학습함.
    데이터 압축, 노이즈 제거, 특성 추출을 목적으로 사용함.
    인코더와 디코더로 구성되며, 인코더는 표현벡터로 압축, 디코더는 포현 벡터를 원본으로 복원함.


  • GAN (Generative Adversarial Network)

    생성적 적대 신경망으로, 데이터 합성을 위해 생성자와 판별자가 경쟁하면서 학습을 하는 구조임.
    생성자는 실제 데이터와 유사한 가상의 데이터를 생성하고, 판별자는 생성된 가상의 데이터를 실제 데이터와 구별함.
    이런 학습과정으로 생성자는 실제데이터와 더욱 유사한 가상의 데이터를 합성할 수 있게됨.
    PSNR, SSIM, IS 등이 평가지표로 사용되며, 이미지 생성, 스타일 변환, 텍스트-이미지 변환 등에 활용됨.

  • Diffusion

    데이터 생성을 위해 데이터에 점진적으로 노이즈를 추가하고(forward process), 노이즈를 제거하는 과정(reverse process)을 반복하여 학습함.
    각 단계에서 노이즈 제거방법을 학습함으로써 데이터의 진짜 분포를 점점 잘 추정하게됨.


  • GAN과 diffusion의 차이점

    GAN
    생성자-판별자 구조로 데이터 생성 , 빠른 추론시간을 가지지만, 상대적으로 불안정 (두 모델의 학습속도가 다를수도, mode collapse 발생할 수도)

    mode collapse: 판별자를 속이는 비슷비슷한 출력을 반복해서 나타내는 것.

    Diffusion
    데이터의 노이즈를 제거하는 과정을 통해 데이터의 분포를 학습, 상대적으로 학습과정이 안정적, 높은 다양성의 데이터 생성 가능, reverse process에서 높은 계산비용과 시간 소요됨.



  • 로지스틱 회귀

    logit을 linear regression해서 이진분류하는 방식.

    logit: log-odds(승산)이며, 이길 확률이 q일때 q / 1-q임.
    모델의 출력이 log-odd가 나오도록 했다면, 이 값을 sigmoid 통과시켜 q를 얻을 수 있음.
    이 q를 0.5보다 크면 1, 아니면 0으로 분류함.

    Binary Cross-entropy Loss로 학습하며, BCE는 확률값이 필요하기 때문에 확률값을 구하기 위해 logit으로부터 sigmoid를 통과시킴.

  • Optimizer

    Gradient: 여러개의 변수(loss)를 vector로 쌓은것을 의미함.
    loss를 줄이는 방향을 정하기 위한 방식으로, 가장 가파른 방향을 항상 향하는 gradient의 반대방향으로 감.
    얼마만큼 가는지를 결정하기 위해 learning rate를 설정함.



    Gradient Descent
    전체 학습데이터를 고려하여 가중치를 업데이트 하는 방식임.
    a,b를 잡고 loss를 줄이는 방향으로 가는방식이며, gradient는 항상 가장 가파른 방향이기 때문에 gradient의 반대로 가서 loss를 줄임.
    local minima에 빠질 수 있으며, 전체 데이터를 고려하기 때문에 시간이 매우 오래걸림.

    SGD (Stochastic Gradient Descent)
    Gradient descent의 한계를 개선한 방식으로, 전체데이터(batch)가 아닌 일부 데이터의 모음(mini-batch)로 loss를 정함.
    하나만 보고 빠르게 방향을 결정하기 때문에 부정확할 수 있지만 계산속도가 빠르며, local minima에 빠지지 않을 가능성이 높음.
    하지만, gradient vanishing 문제가 발생할 수 있음.

    Momentum
    이전단계에서의 업데이트 방향으로 힘을 받아 현재 단계에서 더 나은 방향으로 파라미터를 조정하는 방식.
    수렴속도가 빨라지면, local minima에 빠질 가능성이 감소한다는 장점이 있지만, 모멘텀의 감쇠율을 하이퍼 파라미터로 직접 지정해줘야 하는데 최적의 값을 찾는 것이 어려우며, local minima를 우회할 수 있어 항상 최적의 솔루션을 찾지는 못할 수 있음.

    Adam
    모멘텀과 RMSprop의 아이디어를 결합한 방식으로, 손실함수의 gradient와 gradient 제곱의 지수 가중 평균을 추정하여 가중치를 업데이트함.
    learning rate를 적응적으로 조정하면서 모멘텀의 관성효과를 통해 빠르고 안정적으로 학습을 진행함.

    AdamW
    Adam에 L2 regularization을 추가하여 더 안정적으로 학습함.


  • Sequence-to-Sequence

    입력 시퀀스를 다른 도메인의 출력 시퀀스로 변환하는 방식으로, 인코더와 디코더로 구성됨.

    인코더는 입력 시퀀스를 고정된 길이의 표현벡터로 압축하고, 디코더는 표현벡터를 출력 시퀀스로 변환함.


  • Attention Mechanism

    시퀀스-투-시퀀스 모델에서 발생가능한 정보손실 문제를 해결할 수 있으며,
    입력 데이터의 중요한 부분에 가중치를 부여하여 모델 성능을 향상시키는 기법임.
    각 시간 단계의 정보에 가중치를 부여함으로써 중요정보를 집중적으로 처리하게 함.


  • Bias

    각 뉴런의 활성화함수를 조정하는데 사용되는 bias는 가중합에 더해지는 상수를 의미함.
    이 과정을 통해 활성화 함수가 특정 값을 중심으로 활성화되도록 함.
    bias를 통해 뉴런이 선형 결합만이 아닌 다양한 형태의 학습을 가능하게 해 모델의 표현력을 증가시킴.(비선형성 도입)


  • SVM (Suport Vector Machine)

    분류 및 회귀분석에서 사용되는 지도학습 모델로, 고차원 공간에서 데이터의 분리를 최적화함.
    데이터포인트에서 최적의 초평면을 찾는 알고리즘으로, 
    1) 두 클래스 사이의 마진을 최대화하는 초평면을 찾고
    2) 마진이 최대가 되도록 초평면을 조정함.
    3) 마진 경계에 위치한 데이터포인트를 서포트 벡터로 선택함.
  • 주성분 분석 (PCA: Principal Component Analysis)

    고차원 데이터를 저차원 공간으로 변환하여 데이터구조를 단순화하고, 중요한 정보를 유지하면서 데이터의 차원을 줄이는 기법임.(차원축소)

    데이터 분포를 잘 설명하는 방향
    1번째. 분산이 가장 큰 방향 (데이터포인트에서 정사영을 내렸을 떄 오차를 가장 적게 만드는 방향이기 때문)
    2번째. 1번째 분산의 수직방향

  • Eigen Value / Eigen Vector

    행렬A에 대해 Av = λv를 만족하는 λ와 v 를 의미함.
     λ는 고유값이며, v는 고유벡터임.
    고유값과 고유벡터를 통해 행렬의 성질을 파악할 수 있으며, PCA와 같은 차원축소 기법에서 중요한 역할을 함.


  • 샘플링과 리샘플링

    샘플링
    큰 데이터 집합에서 일부 데이터를 선택하여 분석하는 과정으로, 주로 모집단을 대표하는 표본을 추출하여 분석함.

    리샘플링
    주어진 데이터샘플을 다시 샘플링하여 통계적 추정이나 검정을 수행하는 방식임.
    데이터 부족 문제를 해결할 수 있으며, 부트스트랩(모집단의 분포를 가정안하고 신뢰구간 추정)과 cross-validation(overfitting방지하고 일반화 성능 평가) 등이 있음. 


  • 확률변수 (Random variable)

    어떤 확률실험의 결과를 수치적으로 표현하는 변수로, 주어진 실험의 가능한 결과들을 실수로 변환하여 나타냄.
    이산형(discrete)와 연속형(continuous)로 나눌 수 있음.

    이산 확률변수
    특정한 개수의 명확한 값을 가질 수 있는 변수 (ex. 주사위던지기, 동전던지기)

    연속 확률변수
    특정 구간 내의 모든 실수 값을 가질 수 있는 변수 (ex. 온도, 키, 확률밀도홤수(pdf))


  • 누적분포 함수 / 확률밀도 함수

    누적분포 함수(CDF)
    확률변수가 특정 값 이하일 확률을 나타내는 함수

    확률밀도함수(PDF)
    연속 확률 변수의 밀도를 나타내는 함수로, 특정 값에 대한 확률이 아니라 밀도를 나타내기 때문에 특정구간의 확률을 적분을 통해 구현함.

  • 분포

    베르누이 분포
    두가지 결과 (성공, 실패)를 가지는 이산 분포로, 성공확률 p를 갖음 (ex. 동전던지기)

    이항분포
    n번의 독립적인 베르누이 시행에서 성곡의 횟수를 나타내는 분포

    카테고리 분포
    여러 개의 범주 중 하나를 선택하는 이산 분포

    다항 분포
    여러 번의 독립적인 카테고리 실험에서 각 범주의 횟수를 나타내는 분포

    가우시안 정규분포
    연속 확률 변수의 분포로 평균 μ와 분산σ2로 정의됨.


  • 조건부 확률

    사건 A가 주어진 상황에서 사건 B가 발생할 확률을 의미함.


  • 공분산 / 상관계수

    공분산(Covariance)
    두 변수 간 선형관계를 나타내며, 공분산이 양수이면 두 변수가 같은 방향으로 움직이고 음수이면 반대방향으로 움직임.

    상관계수(Correlation Coefficient)
    두 변수 간 공분산을 각각의 표준편차로 나누어 정규화한 값으로, -1 ~ 1 사이의 값을 가짐.
    두 변수 간 선형 관계의 강도를 나타냄.


  • P-value

    귀무가설이 참일 때, 현재 데이터를 관찰할 확률을 의미함.
    p-value가 작다면, 귀무가설 하에서는 관찰한 데이터가 매우 드물다는 의미이기 때문에, 귀무가설을 기각하고 대립가설을 받아들일 근거가 될 수 있음.
    p-value는 표본 크기에 민감하며, p-value가 작다고 실제효과가 크다는 것을 의미하지 않음. 또한, 유의수준을 조정하지 않으면 잘못된 결론을 내릴 수 있음.


  • 통계적으로 유의미함을 결정하기 위한 검정방식

    T-검정
    두 그룹 간 평균의 차이를 비교

    카이제곱 검정
    범주형 데이터의 독립성이나 적합성을 검정

    분산분석(ANOVA)
    여러 그룹 간 평균의 차이를 비교

    회귀 분석
    변수 간 관계를 모델링하고 예측

    베이지안 방법
    사전확률과 데이터를 결합하여 사후 확률을 추정


  • 확률 / 우도

    확률 (Probability)
    특정사건이 발생할 가능성

    우도 (Likelihood)
    주어진 데이터가 있을 때, 그 데이터를 가장 잘 설명하는 모델 파라미터의 상대적인 적합도를 평가하는 척도


  • Entropy

    확률변수의 불확실성(unpredictability)를 의미함.
    얼마나 예측하기 어려운지를 나타냄.
    (Ex.동전 앞면과 뒷면이 나올 확률은 정확하게 절반이기 때문에 어려움 = 1)


  • Joint Entropy

    Joint probability로 entropy를 구한 것으로, 변수들 간의 상호 의존성을 포함한 전체적인 불확실성을 나타냄.


  • Mutual Information

    하나의 random variable이 다른 random variable에 얼마나 dependent한지 나타내는 지표임.
    (Y 정보를 알게됨으로써 X에 대한 불확실성이 얼마나 감소했는지)
    Correlation은 두 변수의 dependence를 아주 정확하게는 계산하지 못한다는 한계를 해결함.

    X,Y가 있을때 두 값이 서로 dependent할수록 값이 커짐.
    (Ex. X는 주사위의 눈, Y는 주사위 눈이 홀수인지 짝수인지 → MI 큼)
    (Ex. X는 주사위의 눈, Y는 다른 주사위의 눈  → MI 값 0)