두 데이터 간의 비유사도(Dissimilarities)를 거리(Distance)라고도 부른다. 거리가 가까울 수록 유사도가 높고(비유사도가 낮고), 거리가 멀수록 유사도가 낮다(비유사도가 높다)

즉, 가까울 수록 비교하는 두 데이터가 비슷하다는 것이다.

두 데이터 벡터 간의 거리를 구하는 것은 알고리즘과 모델의 성능에 전체적인 영향을 미치는 중요한 부분이다.

비지도 학습의 군집화나 지도학습의 최근접 이웃 같은 알고리즘이 거리를 기반으로 작동한다

  1. Euclidean Distance
  2. Manhattan Distance