이 문서는 지원되지 않는 PostgreSQL 버전에 대한 것입니다.
당신은 다음과 같은 페이지를 보고 싶을 수도 있습니다.현재버전 또는 위에 나열된 다른 지원 버전 중 하나를 사용하세요.

62.3. 확장성

전통적으로 새로운 색인 액세스 방법을 구현하는 것은 많은 어려운 작업을 의미했습니다. 잠금 관리자 및 미리 쓰기 로그와 같은 데이터베이스의 내부 작동을 이해하는 것이 필요했습니다. 그만큼GiST인터페이스는 추상화 수준이 높기 때문에 액세스 방법 구현자가 액세스되는 데이터 유형의 의미 체계만 구현하면 됩니다. 그만큼GiST레이어 자체가 동시성을 관리하고 트리 구조를 로깅 및 검색합니다.

이 확장성은 처리할 수 있는 데이터 측면에서 다른 표준 검색 트리의 확장성과 혼동되어서는 안 됩니다. 예를 들어,포스트그레SQL확장 가능한 B-트리 및 해시 인덱스를 지원합니다. 이는 다음을 사용할 수 있음을 의미합니다.포스트그레SQL원하는 데이터 유형에 대해 B-트리 또는 해시를 구축합니다. 그러나 B-트리는 범위 술어()만 지원합니다.<, =, ), 해시 색인은 동등 쿼리만 지원합니다.

그러므로 예를 들어 이미지 컬렉션을 색인화한다면포스트그레SQLB-트리, 다음과 같은 쿼리만 실행할 수 있습니다.imagex는 imagey와 같습니다, imagex는 imagey보다 작습니다그리고imagex가 imagey보다 큼. 어떻게 정의하느냐에 따라같음, 미만그리고보다 큼이 맥락에서 이는 유용할 수 있습니다. 그러나 a를 사용하면지스트기반 색인을 사용하면 도메인별 질문을 하는 방법을 만들 수 있을 것입니다.말의 모든 이미지 찾기또는과다 노출된 이미지 모두 찾기.

을 얻기 위해 필요한 모든 것지스트액세스 방법 실행은 트리의 키 동작을 정의하는 여러 사용자 정의 방법을 구현하는 것입니다. 물론 이러한 방법은 멋진 쿼리를 지원하기 위해 매우 화려해야 하지만 모든 표준 쿼리(B-트리, R-트리 등)의 경우 상대적으로 간단합니다. 한마디로,지스트확장성과 일반성, 코드 재사용 및 깔끔한 인터페이스를 결합합니다.

색인 연산자 클래스에는 7가지 메소드가 있습니다.지스트반드시 제공해야 하며 두 개는 선택사항입니다. 인덱스의 정확성은 다음의 적절한 구현을 통해 보장됩니다.동일, 일관됨그리고연합방법, 인덱스의 효율성(크기 및 속도)은 다음에 따라 달라집니다.벌칙picksplit메소드. 나머지 두 가지 기본 방법은 다음과 같습니다.압축그리고압축해제- 토토 사이트가 토토 사이트하는 데이터와 다른 유형의 내부 트리 데이터를 가질 수 있도록 허용합니다. 리프는 토토 사이트 데이터 유형이어야 하고 다른 트리 노드는 모든 C 구조체일 수 있습니다(그러나 여전히 따라야 합니다포스트그레SQL여기의 데이터 유형 규칙에 대한 내용을 참조하세요.발레나가변 크기 데이터의 경우). 트리의 내부 데이터 유형이 SQL 수준에 존재하는 경우,저장옵션연산자 클래스 생성명령을 사용할 수 있습니다. 선택적인 여덟 번째 방법은 다음과 같습니다.거리, 연산자 클래스가 정렬된 스캔(최근접 이웃 검색)을 지원하려는 경우에 필요합니다. 선택적 아홉 번째 방법가져오기연산자 클래스가 색인 전용 스캔을 지원하려는 경우 필요합니다.

일관됨

색인 항목이 제공됨p및 쿼리 값q, 이 함수는 색인 항목이 다음과 같은지 여부를 결정합니다.일관됨쿼리로; 즉, 술어가 가능할까요indexed_column indexable_operator q색인 항목으로 표시되는 모든 행에 대해 true입니까? 리프 인덱스 항목의 경우 이는 인덱스 가능 조건을 테스트하는 것과 동일하며 내부 트리 노드의 경우 트리 노드로 표시되는 인덱스의 하위 트리를 스캔해야 하는지 여부를 결정합니다. 결과가 다음과 같을 때, 아다시 확인플래그도 반환되어야 합니다. 이는 술어가 확실히 참인지, 아니면 가능하다면 참인지를 나타냅니다. 만약에다시 확인 = 거짓그러면 색인은 술어 조건을 정확하게 테스트한 반면 if다시 확인 = 행은 단지 후보 일치 항목입니다. 이 경우 시스템은 자동으로 다음을 평가합니다.indexable_operator실제 행 값과 비교하여 실제로 일치하는지 확인합니다. 이 규칙은 다음을 허용합니다.GiST무손실 및 손실 인덱스 구조를 모두 지원합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_contant(internal, data_type, smallint, oid, Internal)
반환 부울
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(내_일관성);

자료
내_일관성(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber 전략 = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid 하위 유형 = PG_GETARG_OID(3); */
    bool *재확인 = (bool *) PG_GETARG_POINTER(4);
    data_type *key = DatumGetDataType(entry-key);
    부울 복구;

    /*
     * 전략, 키 및 쿼리의 함수로 반환 값을 결정합니다.
     *
     * 인덱스 트리에서 호출된 위치를 확인하려면 GIST_LEAF(entry)를 사용하세요.
     * 예를 들어 = 연산자를 지원할 때 유용합니다(예:
     * 리프 노드가 아닌 노드에서 비어 있지 않은 Union()과 리프에서 동일성을 확인합니다.
     * 노드).
     */

    *재확인 = 사실;        /* 또는 검사가 정확하면 false */

    PG_RETURN_BOOL(복귀);

여기,은 색인의 요소이고질의색인에서 조회되는 값입니다. 그만큼전략번호매개변수는 연산자 클래스 중 어떤 연산자가 적용되고 있는지 나타냅니다. 이는의 연산자 번호 중 하나와 일치합니다.연산자 클래스 생성명령.

클래스에 포함된 연산자에 따라 다음의 데이터 유형질의연산자의 오른쪽에 있는 모든 유형이 왼쪽에 나타나는 색인 데이터 유형과 다를 수 있으므로 연산자에 따라 달라질 수 있습니다. (위 코드 뼈대에서는 한 가지 유형만 가능하다고 가정합니다. 그렇지 않은 경우에는질의인수 값은 연산자에 따라 달라져야 합니다.) SQL 선언은일관됨함수는 opclass의 색인 데이터 유형을 사용합니다.질의인수(실제 유형은 연산자에 따라 다를 수 있음).

연합

이 방법은 트리의 정보를 통합합니다. 일련의 항목이 주어지면 이 함수는 주어진 모든 항목을 나타내는 새로운 색인 항목을 생성합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_union(내부, 내부)
반환 Storage_type
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_union);

자료
my_union(PG_FUNCTION_ARGS)

    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GISTENTRY *ent = Entryvec-벡터;
    데이터 유형 *아웃,
               *tmp,
               *오래된;
    정수 숫자 범위,
                나는 = 0;

    숫자 범위 = 항목vec-n;
    tmp = DatumGetDataType(ent[0].key);
    아웃 = tmp;

    if (숫자 범위 == 1)

        출력 = data_type_deep_copy(tmp);

        PG_RETURN_DATA_TYPE_P(아웃);

    for (i = 1; i < 숫자 범위; i++)

        낡은 = 아웃;
        tmp = DatumGetDataType(ent[i].key);
        out = my_union_implementation(out, tmp);

    PG_RETURN_DATA_TYPE_P(아웃);

보시다시피, 이 뼈대에서 우리는 데이터 유형을 다루고 있습니다.결합(X, Y, Z) = 결합(결합(X, Y), Z). 여기에 적절한 통합 알고리즘을 구현하면 그렇지 않은 경우에도 데이터 유형을 지원하는 것이 충분히 쉽습니다.지스트지원 방법.

의 결과연합함수는 무엇이든 인덱스 저장 유형의 값이어야 합니다(인덱싱된 열의 유형과 다를 수도 있고 다를 수도 있음). 그만큼연합함수는 새로 포인터를 반환해야 합니다팔록()에드 메모리. 유형 변경이 없더라도 입력 값을 그대로 반환할 수는 없습니다.

위에 표시된 대로,연합함수 첫 번째내부인수는 실제로는GistEntryVector포인터. 두 번째 인수는 무시할 수 있는 정수 변수에 대한 포인터입니다. (이전에는 다음이 필요했습니다.연합함수는 결과 값의 크기를 해당 변수에 저장하지만 더 이상 필요하지 않습니다.)

압축

데이터 항목을 인덱스 페이지의 물리적 저장에 적합한 형식으로 변환합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_compress(내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_compress);

자료
my_compress(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY *재발;

    if (엔트리-리프키)

        /* 항목-키를 압축된 버전으로 교체 */
        pressed_data_type *compressed_data = palloc(sizeof(compressed_data_type));

        /* 항목-키의 *compressed_data 채우기 ... */

        retval = palloc(sizeof(GISTENTRY));
        gistentryinit(*retval, PointerGetDatum(compressed_data),
                      항목-상대, 항목-페이지, 항목-오프셋, FALSE);

    또 다른

        /* 일반적으로 리프가 아닌 항목에는 아무 것도 할 필요가 없습니다 */
        retval = 항목;

    PG_RETURN_POINTER(복귀);

당신은 적응해야 합니다압축_데이터_유형물론 리프 노드를 압축하기 위해 변환하려는 특정 유형으로 변경됩니다.

압축해제

의 반대압축방법. 데이터 항목의 인덱스 표현을 연산자 클래스의 다른 GiST 메소드로 조작할 수 있는 형식으로 변환합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_decompress(내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_decompress);

자료
my_decompress(PG_FUNCTION_ARGS)

    PG_RETURN_POINTER(PG_GETARG_POINTER(0));

위의 뼈대는 감압이 필요하지 않은 경우에 적합합니다.

페널티

다음을 나타내는 값을 반환합니다.비용트리의 특정 가지에 새 항목을 삽입하는 것입니다. 항목은 최소 경로에 삽입됩니다.페널티나무에. 반환된 값페널티음수가 아니어야 합니다. 음수 값이 반환되면 0으로 처리됩니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_penalty(내부, 내부, 내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;  -- 어떤 경우에는 페널티 함수가 엄격할 필요가 없습니다.

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(my_penalty);

자료
my_penalty(PG_FUNCTION_ARGS)

    GISTENTRY *오리젠트리 = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY *newentry = (GISTENTRY *) PG_GETARG_POINTER(1);
    float *페널티 = (float *) PG_GETARG_POINTER(2);
    data_type *orig = DatumGetDataType(origentry-key);
    data_type *new = DatumGetDataType(newentry-key);

    *penalty = my_penalty_implementation(orig, new);
    PG_RETURN_POINTER(페널티);

역사적인 이유로,페널티함수는 단지 a를 반환하지 않습니다.플로트결과; 대신 세 번째 인수가 나타내는 위치에 값을 저장해야 합니다. 반환 값 자체는 무시되지만 해당 인수의 주소를 다시 전달하는 것이 일반적입니다.

페널티함수는 색인의 좋은 성능에 매우 중요합니다. 삽입 시 트리에서 새 항목을 추가할 위치를 선택할 때 따라야 할 분기를 결정하는 데 사용됩니다. 쿼리 시 토토 사이트 균형이 높을수록 조회 속도가 빨라집니다.

picksplit

색인 페이지 분할이 필요할 때, 이 기능은 페이지의 어떤 항목이 이전 페이지에 남을 것인지, 어떤 항목이 새 페이지로 이동할 것인지를 결정합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_picksplit(내부, 내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(my_picksplit);

자료
my_picksplit(PG_FUNCTION_ARGS)

    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GIST_SPLITVEC *v = (GIST_SPLITVEC *) PG_GETARG_POINTER(1);
    OffsetNumber maxoff = Entryvec-n - 1;
    GISTENTRY *ent = Entryvec-벡터;
    나는,
                n바이트;
    오프셋 번호 *왼쪽,
               *오른쪽;
    data_type *tmp_union;
    data_type *unionL;
    data_type *unionR;
    GISTENTRY **raw_entryvec;

    maxoff = Entryvec-n - 1;
    nbytes = (maxoff + 1) * sizeof(OffsetNumber);

    v-spl_left = (OffsetNumber *) palloc(nbytes);
    왼쪽 = v-spl_left;
    v-spl_nleft = 0;

    v-spl_right = (OffsetNumber *) palloc(nbytes);
    오른쪽 = v-spl_right;
    v-spl_nright = 0;

    유니온L = NULL;
    유니온R = NULL;

    /* 원시 항목 벡터를 초기화합니다. */
    raw_entryvec = (GISTENTRY **) malloc(entryvec-n * sizeof(void *));
    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))
        raw_entryvec[i] = &(entryvec-벡터[i]);

    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))

        int real_index = raw_entryvec[i] -entryvec-벡터;

        tmp_union = DatumGetDataType(entryvec-벡터[real_index].key);
        Assert(tmp_union != NULL);

        /*
         * 인덱스 항목을 넣을 위치를 선택하고 UnionL 및 UnionR을 업데이트합니다.
         * 따라서. 항목을 v-spl_left 또는
         * v-spl_right, 카운터에 주의하세요.
         */

        if (my_choice_is_left(unionL, 컬, UnionR, curr))

            if (unionL == NULL)
                UnionL = tmp_union;
            또 다른
                UnionL = my_union_implementation(unionL, tmp_union);

            *왼쪽 = real_index;
            ++왼쪽;
            ++(v-spl_nleft);

        또 다른

            /*
             * 오른쪽도 마찬가지
             */

    v-spl_ldatum = DataTypeGetDatum(unionL);
    v-spl_rdatum = DataTypeGetDatum(unionR);
    PG_RETURN_POINTER(v);

다음에 주목하세요.picksplit함수의 결과는 전달된 값을 수정하여 전달됩니다.v구조. 반환 값 자체는 무시되지만 주소를 다시 전달하는 것이 일반적입니다.v.

좋아요페널티, 그picksplit함수는 좋은 토토 사이트 성능을 위해 매우 중요합니다. 적합한 디자인페널티그리고picksplit구현은 좋은 성능을 구현하는 데 어려움을 겪는 곳입니다.GiST거짓말을 색인화합니다.

같은

두 개의 색인 항목이 동일하면 참을 반환하고 그렇지 않으면 거짓을 반환합니다. (안색인 항목는 인덱스 저장 유형의 값이며 반드시 원래 인덱스 열의 유형일 필요는 없습니다.)

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_same(storage_type, Storage_type, 내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_same);

자료
내_동일(PG_FUNCTION_ARGS)

    접두사_범위 *v1 = PG_GETARG_PREFIX_RANGE_P(0);
    prefix_range *v2 = PG_GETARG_PREFIX_RANGE_P(1);
    bool *result = (bool *) PG_GETARG_POINTER(2);

    *결과 = my_eq(v1, v2);
    PG_RETURN_POINTER(결과);

역사적인 이유로,같은함수는 단순히 부울 결과를 반환하지 않습니다. 대신 세 번째 인수가 나타내는 위치에 플래그를 저장해야 합니다. 반환 값 자체는 무시되지만 해당 인수의 주소를 다시 전달하는 것이 일반적입니다.

거리

색인 항목이 제공됨p및 쿼리 값q, 이 함수는 색인 항목의를 결정합니다.거리쿼리 값에서. 연산자 클래스에 순서 연산자가 포함된 경우 이 함수를 제공해야 합니다. 순서 연산자를 사용하는 쿼리는 가장 작은 토토 사이트 항목을 반환하여 구현됩니다.거리값을 먼저 지정하므로 결과는 연산자의 의미와 일치해야 합니다. 리프 인덱스 항목의 경우 결과는 인덱스 항목까지의 거리만 나타냅니다. 내부 트리 노드의 경우 결과는 모든 하위 항목이 가질 수 있는 최소 거리여야 합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_distance(internal, data_type, smallint, oid, Internal)
반환 float8
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(내_거리);

자료
my_distance(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber 전략 = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid 하위 유형 = PG_GETARG_OID(3); */
    /* bool *재확인 = (bool *) PG_GETARG_POINTER(4); */
    data_type *key = DatumGetDataType(entry-key);
    이중 회수;

    /*
     * 전략, 키 및 쿼리의 함수로 반환 값을 결정합니다.
     */

    PG_RETURN_FLOAT8(복귀);

에 대한 주장거리함수는의 인수와 동일합니다.일관됨함수.

결과가 항목의 실제 거리보다 크지 않는 한 거리를 결정할 때 일부 근사치가 허용됩니다. 따라서 예를 들어 기하학적 응용에서는 일반적으로 경계 상자까지의 거리면 충분합니다. 내부 트리 노드의 경우 반환된 거리는 하위 노드까지의 거리보다 클 수 없습니다. 반환된 거리가 정확하지 않으면 함수를 설정해야 합니다.*다시 확인참입니다. (이것은 내부 트리 노드에는 필요하지 않습니다. 계산은 항상 부정확하다고 가정됩니다.) 이 경우 실행기는 힙에서 튜플을 가져온 후 정확한 거리를 계산하고 필요한 경우 튜플을 재정렬합니다.

거리 함수가 반환되는 경우*재확인 = true모든 리프 노드의 경우 원래 순서 연산자의 반환 유형은 다음과 같아야 합니다float8또는float4, 실행기가 거리 함수 결과와 다시 계산된 순서 연산자 결과를 모두 사용하여 정렬하므로 거리 함수의 결과 값은 원래 순서 연산자의 결과 값과 비교 가능해야 합니다. 그렇지 않으면 거리 함수의 결과 값은 유한할 수 있습니다.float8값, 결과 값의 상대적 순서가 순서 연산자가 반환한 순서와 일치하는 경우에 한합니다. (무한대와 마이너스 무한대는 null과 같은 경우를 처리하기 위해 내부적으로 사용되므로 권장하지 않습니다.거리함수는 다음 값을 반환합니다.)

가져오기

인덱스 전용 스캔을 위해 데이터 항목의 압축된 인덱스 표현을 원래 데이터 유형으로 변환합니다. 반환된 데이터는 원래 인덱싱된 값의 정확하고 손실 없는 복사본이어야 합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_fetch(내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

인수는 a에 대한 포인터입니다.GISTENTRY구조체. 입장 시, 그것은필드에 압축된 형식의 NULL이 아닌 리프 데이터가 포함되어 있습니다. 반환 값은 또 다른 것입니다.GISTENTRY구조체, 누구의필드에는 압축되지 않은 원래 형식의 동일한 데이터가 포함되어 있습니다. opclass의 압축 함수가 리프 항목에 대해 아무 작업도 수행하지 않으면,가져오기메소드는 인수를 있는 그대로 반환할 수 있습니다.

C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_fetch);

자료
my_fetch(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    input_data_type *in = DatumGetPointer(entry-key);
    fetched_data_type *fetched_data;
    GISTENTRY *재발;

    retval = palloc(sizeof(GISTENTRY));
    fetched_data = palloc(sizeof(fetched_data_type));

    /*
     * 'fetched_data'를 원래 데이터 유형의 데이터로 변환합니다.
     */

    /* fetched_data에서 *retval을 채웁니다. */
    gistentryinit(*retval, PointerGetDatum(converted_datum),
                  항목-상대, 항목-페이지, 항목-오프셋, FALSE);

    PG_RETURN_POINTER(복귀);

압축 방법이 리프 항목에 대해 손실이 있는 경우 연산자 클래스는 인덱스 전용 스캔을 지원할 수 없으며 다음을 정의해서는 안 됩니다.가져오기함수.

모든 GiST 지원 방법은 일반적으로 단기 메모리 컨텍스트에서 호출됩니다. 즉,CurrentMemoryContext각 튜플이 처리된 후 재설정됩니다. 그러므로 palloc하는 모든 것을 해제하는 것에 대해 걱정하는 것은 그리 중요하지 않습니다. 그러나 어떤 경우에는 반복 호출에서 데이터를 캐시하는 지원 방법이 유용합니다. 그렇게 하려면 더 오래 지속되는 데이터를 할당하세요.fcinfo-flinfo-fn_mcxt, 그리고 그것에 대한 포인터를 유지fcinfo-flinfo-fn_extra. 이러한 데이터는 인덱스 작업(예: 단일 GiST 인덱스 스캔, 인덱스 빌드 또는 인덱스 튜플 삽입)이 진행되는 동안 유지됩니다. a를 교체할 때 이전 값을 해제하도록 주의하세요.fn_extra값이 없으면 작업 기간 동안 누수가 누적됩니다.