본문 바로가기

Data_Analysis/MachineLearning5

[Machine Learning] Kernel SVM(Support Vector Machine) 1. 커널 SVM이란 - 앞서 SVM 포스트에서는 선형 SVM을 중심으로 다뤘다. 그러나 실제로 선형 SVM으로 분류하기 어려운 데이터 형태들도 있다. 커널 기법의 기본적인 아이디어는 데이터를 높은 차원으로 이동시켜 고차원 공간에서 데이터를 분류하고자 함이다. 2. 듀얼 형태 변형 - 지난 SVM 포스팅에서 듀얼 형태를 다룬 적 있다. 듀얼 형태를 변형시켜 커널 SVM에서 활용할 수 있다. ** 커널의 의미 3. 커널SVM 종류 1) 선형 SVM : K(x1,x2)=x1.T*x2 2) 다항식 커널 3) 가우시안 커널 : 성능이 우수하여 가장 많이 쓰이는 기법. 4) 시그모이드 커널 SVM : K(x1,x2)=tan(r(x1.T*x2)+theta) 4. SVM 예제 적용 [붓꽃 문제] scikit-lear.. 2020. 12. 28.
[Machine Learning] SVM(Support Vector Machine) 1. SVM(Support Vector Machine)이란? - 서로 다른 데이터를 분류하는 기준 선(결정 경계)을 정의하는 모델로, 새로운 점이 나타났을 때 결정 경계를 기준으로 어느 쪽에 속하는지 분류하는 과제를 수행한다. - 속성이 3개인 3차원에서 결정 경계는 선이 아닌 면이 된다. 차원이 늘어나면 결정 경계도 고차원의 초평면이 된다. [이미지 출처] 위키백과 - 서포트 벡터 : 결정 경계와 가장 가까운 데이터. - 결정 경계는 각 데이터 中 결정 경계와 가장 가까운 거리까지 마진을 설정한다. 이때, 마진을 최대화하는 결정 경계가 가장 우수하다고 할 수 있다. 다시 말해, 결정 경계는 데이터군으로부터 멀리 떨어질수록 좋다. - 대부분의 지도 학습은 모든 데이터를 이용하여 학습하지만 SVM은 데이터.. 2020. 12. 28.
[Machine Learning] NLP - 텍스트처리(Tokenize) 1. Tockenize란? : 자연어 분석의 초기 단계에 텍스트를 분석에 필요한 단어/의미 등의 단위로 쪼개는 과정을 말합니다. 2. Tockenize 기준 텍스트를 구분하는 절대적인 기준은 없습니다. 단어, 어간, 공백 등으로 자를 수 있습니다. 1) 단어 : 분리하여 자립적으로 쓸 수 있는 말이나 이에 준하는 말. 또는 그 말의 뒤에 붙어서 문법적 기능을 나타내는 말. “철수가 영희의 일기를 읽은 것 같다.”에서 자립적으로 쓸 수 있는 ‘철수’, ‘영희’, ‘일기’, ‘읽은’, ‘같다’와 조사 ‘가’, ‘의’, ‘를’, 의존 명사 ‘것’ 따위이다. [출처] : https://ko.dict.naver.com/#/search?query=%EB%8B%A8%EC%96%B4 단어로 자를 경우 품사에 유의해야 .. 2020. 10. 31.
[Machine Learning] Ensemble - Random Forest [랜덤포레스트] - 여러개의 의사결정트리를 사용하여 값을 예측하는 앙상블 학습 방법의 일종이며, bagging알고리즘을 . - 각각의 트리가 랜덤하게 Feature를 뽑아서 각각의 예측(prediction)을 다수결 또는 평균으로 최종 결론을 도출. - 1개의 의사결정나무로 도출한 결론보다 우수한 성능을 보이며,단일 의사결정나무의 단점인 과적합(overfitting)극복. [Bagging(Bootstrap Aggregation Sampling)] 중복을 허용하며 랜덤하게 표본을 추출하는 기법인 부트스트랩 (bootstrap) 과 결합을 의미하는 aggregating의 약자로, 조금씩 다른 표본 데이터로 여러 의사결정나무를 학습시키고 각 트리의 결과를 결합하는 방법이다. 출처 : 위키피디아 https://.. 2020. 7. 24.
[MachineLearning] Decision Tree(의사결정트리) [개념] - Root Node에서 LeafNode까지 특정한 기준에 맞는지/맞지 않는지를 데이터를 분류한다. - Node에서 데이터를 분류하는 기준은 2개 이상의 데이터 타입이 서로 얼마나 섞이지 않았고 잘 구분하는지(Impurity :불순도)로 정해진다. - 위 이미지에서 점선을 기준으로 위쪽으로는 빨간 공이 7/8, 점선 아래로는 파란 공이 4/7로 분류한다. - 의사결정나무는 추가적으로 점선을 그어 빨간공과 파란공이 섞이는 정도(impurity)를 최소화하는 것을 목표로 한다. [가지치기] - 의사결정나무의 깊이가 깊어지면 더 많은 기준을 사용하여 정교하게 데이터를 분류할 수 있으나(impurity↓), 이는 사용 중인 데이터에 대한 의존성이 높아져 Overfitting 문제를 야기할 수 있다. -.. 2020. 7. 23.