1. 공간분류 개요
분류(classification)란 입력 데이터셋의 세밀한 입력 부분을 의도적으로 삭제함으로써 중요한 패턴을 파악하고자 할때 사용하는 기능이다. 분류 결과를 새로운 데이터셋으로 생성하면 기존의 입력자료를 그대로 유지할 수 있다. 분류를 수행하기 위해서는 우선 입력 데이터셋의 각 요소에 속성 값을 지정해 준다. 입력 데이터셋은 래스터 셀, 점, 선 또는 폴리곤 등에 관계없는 공간대상의 집합이다. 이때 부여한 특성값의 개수가 입력 데이터셋의 크기보다 작으면 입력 데이터셋이 분류된다.
탐색하고자 하는 패턴이 특정한 도시에서의 가구별 수입 분포라고 가정해 본다. 가구별 수입은 분류 파라미터(classification parameter)이다. 도시의 각 동별 평균수입은 매우 많은 수의 다양한 값이 존재한다. 수입을 상, 중상, 중, 중하, 하의 다섯가지 카테고리를 분류한다. 각각의 범주에 적당한 색을 입히면 다양한 패턴이 나타나게 된다.
입력 데이터셋 자체가 어떠한 분류 결과일 수도 있다. 이러한 경우를 재분류라고 한다. 예를 들어 여러 가지 토양의 종류를 나타내는 토양도를 이용하여 특정 작물에 대한 적합성을 표시한하고 하였을 때 각 토양단위에 그 작물에 대한 적합성을 새로운 속성으로 표현하는 것이 좋다. 토양속성이 달라도 적합성은 유사할 수 있으므로 서로 다른 토양의 종류를 결합하는 결과가 된다.
벡터자료를 분류할때 결과물은 두 가지의 형태가 될 수 있다. 입력 대상물이 그대로 출력 대상물이 되는 경우이다. 새로운 레이어에 새로운 속성이 첨부된다. 원래 객체의 공간적 특성은 전혀 변화하지 않는다. 두번째 종류는 서로 인접한 대상이 같은 분류체계에 속할 경우 병합(merge)하여 큰 객체로 만드는 경우인데, 이러한 후처리 기능을 합병기능이라고 한다. 이러한 합병 기능은 래스터의 경우 셀을 합친다는 것이 사실상 의미가 없으므로 벡터 데이터에서만 존재한다. 벡터자료의 분류는 점, 선, 면 어느 것에 대해서도 사용이 가능하지만 합병 기능은 선 또는 면에서만 의미가 있다.
2. 사용자선택 분류
사용자선택 분류(user-controlled classification)에서는 사용자가 어느 속성이 분류 대상인지, 분류방법은 어떻게 할 것인지를 직접 결정한다. 여기에서 의미하는 분류 방법이란 범주(class)의 개수 및 기존 속성값과 새로운 범주간의 관계를 설정하는 것을 의미한다. 이는 대부분 분류테이블(classification table)을 사용하여 설정하게 된다. 입력 자료에서 사용된 파라미터의 영역이 연속적인 경우로서 어떠한 입력속성값의 범위가 같은 분류가 되는지를 지정한다. 분류를 적용한 후 생성된 범주의 속성값은 순서적 자료값이다. 분류 파라미터나 명목자료값(nominal value)인 경우도 있을 수 있다.
이러한 결과는 새로운 레이어로 지정하고 새로운 분류 속성의 부가가 필요하다. 이 속성의 자료값의 종류(data type)은 숫자로 저장하는지 문자로 저장하는지 여부에 상관없이 명목자료값이 된다.
일부 선택된 대상물에 대해서만 분류를 수행해야 하는 경우도 존재한다. 이러한 경우에는 선택되지 않아야 할 대상물을 두가지 방법으로 처리할 수 있다. 첫번째는 원래의 속성값을 그대로 유지하는 방법이며, 다른 한 가지는 null값을 부여하는 방법이다. null값이란 적용할 값이 존재하지 않는다는 의미의 특별한 값이다. 이러한 값을 계산과정에서건 시각화 과정에서건 정확하게 표현하기 위해서는 각별한 주의가 필요하다.
3. 자동 분류
사용자 선택분류는 미리 분류테이블을 준비하거나 사용자가 대화식으로 직접 분류테이블을 지정하여야 한다. 지리정보시스템 소프트웨어는 자동 분류 또한 지원하고 있다. 자동분류의 경우 사용자는 출력 데이터셋에 사용할 범주의 개수만 우선 지정하면 된다. 그러면 소프트웨어에서 자동으로 경계를 결정한다. 경계를 결정하는 방법에는 두 가지 방법이 있다.
우선 등간격 기법(equal interval technique)이다. 분류 파라미터의 최대값 및 최소값을 결정하고 그 평균값을 계산하여 각 범주별 간격을 결정한다. 이 방법은 각 범주별로 대상의 개수를 알아낼 수 있어 분포 패턴을 알아내는 데에 편리하다. 다음으로 등빈도 기법(equal frequency technique)이다. 이 기법은 등량(quantile)분류라고도 하는데 이 방법은 범주별로 대략 같은 숫자의 대상이 포함되도록 경계를 생성한다. 우선 대상의 전체 개수를 결정한 뒤 범주별 대상의 숫자를 결정한다. 마지막으로 각 대상을 차례로 세어가면서 경계를 결정한다.