인공지능/데이터 마이닝
-
[데이터 마이닝] Locality-Sensitive Hashing (LSH) 란?인공지능/데이터 마이닝 2021. 2. 7. 16:48
이전 포스팅에서 Min-hashing 알고리즘에 대해서 다루었다. 이번에는 이 개념에서 추가로 사용될 수 있는 LSH라는 방법론에 대해서 알아보겠다. 이전 포스팅은 아래에 링크가 있으니 Min-hashing에 대한 개념이 아직 없다면 확인하고 오길 바란다. 2021/02/07 - [인공지능/데이터 마이닝] - [데이터 마이닝] Min-Hashing 란? Locality-Sensitive Hashing (LSH) 란? LSH도 Min-hashing과 마찬가지로 빅 데이터의 정보 압축을 하는 알고리즘 중 하나로, 본래는 문서를 Shingle 이라는 조각으로 쪼개어서 데이터의 차원으로 만든 다음 이것을 바탕으로 문서들 사이의 클러스터링을 통해서 어떤 문서가 서로 비슷한지를 효과적으로 확인하기 위해서 만들어졌다..
-
[데이터 마이닝] Min-Hashing 란?인공지능/데이터 마이닝 2021. 2. 7. 16:31
이번 포스팅에서는 데이터 마이닝 기법 중 Min-Hashing 알고리즘에 대해서 알아보겠다. Min-Hashing 란? Min-hashing 알고리즘은 데이터의 차원을 줄여서 줄어든 차원의 정보 만으로 클러스터링 하였을 때 본래 데이터의 클러스터링 결과와 거의 비슷하도록 하는 것으로, 본래 데이터의 차원이 너무 많거나, 샘플의 수가 너무 많을 때 사용된다. 즉, 빅 데이터 분석 시, 계산 시간과 로드를 줄여주고 필요한 클러스터링만 진행 하기 위한 암호화 방법이다. 직관적 이해 Min-hashing의 암호화 방법을 보다 명확하게 이해하기 위해서 간단한 예제를 설명해보겠다. 우선 아래와 같은 인풋 행렬이 있다고 하자. 이 행렬에서는 열과 행으로 된 어떠한 값이 있다. Min-hashing에서는 기본적으로 바..