2025년 9월 25일:토토 커뮤니티 : 토토
이 문서는 지원되지 않는 젠 토토 버전에 대한 것입니다.
다음에 대한 동일한 페이지를 보고 싶을 수도 있습니다.현재버전 또는 위에 나열된 다른 지원 버전 중 하나를 사용하세요.

59.3. 확장성

전통적으로 새로운 색인 액세스 방법을 구현하는 것은 많은 어려운 작업을 의미했습니다. 잠금 관리자 및 미리 쓰기 로그와 같은 데이터베이스의 내부 작동을 이해하는 것이 필요했습니다.GiST인터페이스는 추상화 수준이 높기 때문에 액세스 방법 구현자가 액세스되는 데이터 유형의 의미 체계만 구현하면 됩니다.GiST계층 자체가 동시성을 관리하고 트리 구조를 로깅 및 검색합니다.

이 확장성은 처리할 수 있는 데이터 측면에서 다른 표준 검색 트리의 확장성과 혼동되어서는 안 됩니다. 예를 들어,포스트그레SQL확장 가능한 B-트리 및 해시 인덱스를 지원합니다. 이는 다음을 사용할 수 있음을 의미합니다.포스트그레SQL원하는 데이터 유형에 대해 B-트리 또는 해시를 구축합니다. 그러나 B-트리는 범위 술어()만 지원합니다.<, =, ), 해시 인덱스는 동등 쿼리만 지원합니다.

그러므로 만약 당신이 가령 이미지 컬렉션을 색인화한다면포스트그레SQLB-트리, 다음과 같은 쿼리만 실행할 수 있습니다."imagex는 imagey와 같습니다", "imagex는 imagey보다 작습니다"그리고"imagex가 imagey보다 큼". 어떻게 정의하느냐에 따라"같음", "미만"그리고"보다 큼"이런 맥락에서 이는 유용할 수 있습니다. However, by using aGiST기반 색인을 사용하면 도메인별 질문을 하는 방법을 만들 수 있을 것입니다."말의 모든 이미지 찾기"또는"과도하게 노출된 이미지를 모두 찾아보세요".

을 얻기 위해 필요한 모든 것GiST액세스 방법 실행은 트리의 키 동작을 정의하는 여러 사용자 정의 방법을 구현하는 것입니다. 물론 이러한 방법은 멋진 쿼리를 지원하기 위해 매우 화려해야 하지만 모든 표준 쿼리(B-트리, R-트리 등)의 경우 상대적으로 간단합니다. 한마디로,지스트확장성과 일반성, 코드 재사용 및 깔끔한 인터페이스를 결합합니다.

색인 연산자 클래스에는 7가지 메소드가 있습니다.지스트반드시 제공해야 하며 두 개는 선택사항입니다. 인덱스의 정확성은 다음의 적절한 구현을 통해 보장됩니다.같은, 일관됨그리고연합방법, 색인의 효율성(크기 및 속도)은 다음에 따라 달라집니다.페널티그리고picksplit메소드. 나머지 두 가지 기본 방법은 다음과 같습니다.압축그리고압축해제- 젠 토토가 젠 토토하는 데이터와 다른 유형의 내부 트리 데이터를 가질 수 있도록 허용합니다. 리프는 젠 토토 데이터 유형이어야 하고 다른 트리 노드는 모든 C 구조체일 수 있습니다(그러나 여전히 따라야 합니다젠 토토여기의 데이터 유형 규칙에 대한 내용을 참조하세요.발레나가변 크기 데이터의 경우). 트리의 내부 데이터 유형이 SQL 수준에 존재하는 경우,저장옵션연산자 클래스 생성명령을 사용할 수 있습니다. 선택적인 여덟 번째 방법은 다음과 같습니다.거리, 연산자 클래스가 정렬된 스캔(최근접 이웃 검색)을 지원하려는 경우에 필요합니다. 선택적 아홉 번째 방법가져오기연산자 클래스가 인덱스 전용 스캔을 지원하려는 경우 필요합니다.

일관됨

색인 항목이 제공됨p및 쿼리 값q, 이 함수는 색인 항목이 다음과 같은지 여부를 결정합니다."일관됨"쿼리로; 즉, 술어가 가능할까요"indexed_column indexable_operator q"색인 항목으로 표시되는 모든 행에 대해 true입니까? 리프 인덱스 항목의 경우 이는 인덱스 가능 조건을 테스트하는 것과 동일하며, 내부 트리 노드의 경우 트리 노드로 표시되는 인덱스의 하위 트리를 스캔해야 하는지 여부를 결정합니다. 결과가 다음과 같을 때, 아다시 확인플래그도 반환되어야 합니다. 이는 술어가 확실히 참인지, 아니면 가능하다면 참인지를 나타냅니다. 만일다시 확인 = 거짓그러면 색인은 술어 조건을 정확하게 테스트한 반면 if재확인 = 행은 단지 후보 일치 항목입니다. 이 경우 시스템은 자동으로 다음을 평가합니다.indexable_operator실제 행 값과 비교하여 실제로 일치하는지 확인합니다. 이 규칙은 다음을 허용합니다.지스트무손실 및 손실 인덱스 구조를 모두 지원합니다.

TheSQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_contant(internal, data_type, smallint, oid, Internal)
반환 부울
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(my_condependent);

데이텀
내_일관성(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber 전략 = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid 하위 유형 = PG_GETARG_OID(3); */
    bool *재확인 = (bool *) PG_GETARG_POINTER(4);
    data_type *key = DatumGetDataType(entry-key);
    부울 복구;

    /*
     * 전략, 키 및 쿼리의 함수로 반환 값을 결정합니다.
     *
     * 인덱스 트리에서 호출된 위치를 확인하려면 GIST_LEAF(entry)를 사용하세요.
     * 예를 들어 = 연산자를 지원할 때 유용합니다(예:
     * 리프 노드가 아닌 노드에서 비어 있지 않은 Union()과 리프에서 동일성을 확인합니다.
     * 노드).
     */

    *재확인 = 사실;        /* 또는 검사가 정확하면 false */

    PG_RETURN_BOOL(복귀);

여기,은 색인의 요소이고질의색인에서 조회되는 값입니다.전략번호매개변수는 연산자 클래스 중 어떤 연산자가 적용되고 있는지 나타냅니다. 이는의 연산자 번호 중 하나와 일치합니다.연산자 클래스 생성명령. 클래스에 포함된 연산자에 따라 다음의 데이터 유형은질의연산자에 따라 다를 수 있지만 위의 뼈대에서는 그렇지 않다고 가정합니다.

연합

이 방법은 트리의 정보를 통합합니다. 일련의 항목이 주어지면 이 함수는 주어진 모든 항목을 나타내는 새로운 색인 항목을 생성합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_union(내부, 내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(my_union);

데이텀
my_union(PG_FUNCTION_ARGS)

    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GISTENTRY *ent = Entryvec-벡터;
    데이터 유형 *아웃,
               *tmp,
               *오래된;
    정수 숫자 범위,
                나는 = 0;

    숫자 범위 = 항목vec-n;
    tmp = DatumGetDataType(ent[0].key);
    아웃 = tmp;

    if (숫자 범위 == 1)

        출력 = data_type_deep_copy(tmp);

        PG_RETURN_DATA_TYPE_P(아웃);

    for (i = 1; i < 숫자 범위; i++)

        낡은 = 아웃;
        tmp = DatumGetDataType(ent[i].key);
        out = my_union_implementation(out, tmp);

    PG_RETURN_DATA_TYPE_P(아웃);

보시다시피, 이 뼈대에서 우리는 다음과 같은 데이터 유형을 다루고 있습니다.합집합(X, Y, Z) = 합집합(합집합(X, Y), Z). 여기에 적절한 통합 알고리즘을 구현하면 그렇지 않은 경우에도 데이터 유형을 지원하는 것이 충분히 쉽습니다.지스트지원 방법.

연합구현 함수는 새로 포인터를 반환해야 합니다팔록()에드 메모리. 입력이 무엇이든 그냥 반환할 수는 없습니다.

압축

데이터 항목을 인덱스 페이지의 물리적 저장에 적합한 형식으로 변환합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_compress(내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_compress);

데이텀
my_compress(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY *재발;

    if (엔트리-리프키)

        /* 항목-키를 압축된 버전으로 교체 */
        pressed_data_type *compressed_data = palloc(sizeof(compressed_data_type));

        /* 항목-키의 *compressed_data 채우기 ... */

        retval = palloc(sizeof(GISTENTRY));
        gistentryinit(*retval, PointerGetDatum(compressed_data),
                      항목-상대, 항목-페이지, 항목-오프셋, FALSE);

    그렇지 않으면

        /* 일반적으로 리프가 아닌 항목에는 아무 것도 할 필요가 없습니다 */
        retval = 항목;

    PG_RETURN_POINTER(복귀);

당신은 적응해야 합니다압축_데이터_유형물론 리프 노드를 압축하기 위해 변환하려는 특정 유형으로 변경됩니다.

압축해제

의 반대압축방법. 데이터 항목의 인덱스 표현을 연산자 클래스의 다른 GiST 메소드로 조작할 수 있는 형식으로 변환합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_decompress(내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_decompress);

데이텀
my_decompress(PG_FUNCTION_ARGS)

    PG_RETURN_POINTER(PG_GETARG_POINTER(0));

위의 뼈대는 감압이 필요하지 않은 경우에 적합합니다.

벌칙

다음을 나타내는 값을 반환합니다."비용"트리의 특정 가지에 새 항목을 삽입하는 것입니다. 항목은 최소 경로에 삽입됩니다.벌칙나무에. 반환된 값벌칙음수가 아니어야 합니다. 음수 값이 반환되면 0으로 처리됩니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_penalty(내부, 내부, 내부)
내부 반환
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;  -- 어떤 경우에는 페널티 함수가 엄격할 필요가 없습니다.

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_penalty);

데이텀
my_penalty(PG_FUNCTION_ARGS)

    GISTENTRY *오리젠트리 = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY *newentry = (GISTENTRY *) PG_GETARG_POINTER(1);
    float *페널티 = (float *) PG_GETARG_POINTER(2);
    data_type *orig = DatumGetDataType(origentry-key);
    data_type *new = DatumGetDataType(newentry-key);

    *penalty = my_penalty_implementation(orig, new);
    PG_RETURN_POINTER(페널티);

벌칙함수는 좋은 젠 토토 성능을 위해 매우 중요합니다. 삽입 시 트리에서 새 항목을 추가할 위치를 선택할 때 따라야 할 분기를 결정하는 데 사용됩니다. 쿼리 시 젠 토토 균형이 높을수록 조회 속도가 빨라집니다.

picksplit

인덱스 페이지 분할이 필요할 때, 이 기능은 페이지의 어떤 항목이 이전 페이지에 남을 것인지, 어떤 항목이 새 페이지로 이동할 것인지를 결정합니다.

TheSQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_picksplit(내부, 내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_picksplit);

데이텀
my_picksplit(PG_FUNCTION_ARGS)

    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    OffsetNumber maxoff = Entryvec-n - 1;
    GISTENTRY *ent = Entryvec-벡터;
    GIST_SPLITVEC *v = (GIST_SPLITVEC *) PG_GETARG_POINTER(1);
    나는,
                n바이트;
    오프셋 번호 *왼쪽,
               *맞아요;
    data_type *tmp_union;
    data_type *unionL;
    data_type *unionR;
    GISTENTRY **raw_entryvec;

    maxoff = Entryvec-n - 1;
    nbytes = (maxoff + 1) * sizeof(OffsetNumber);

    v-spl_left = (OffsetNumber *) palloc(nbytes);
    왼쪽 = v-spl_left;
    v-spl_nleft = 0;

    v-spl_right = (OffsetNumber *) palloc(nbytes);
    오른쪽 = v-spl_right;
    v-spl_nright = 0;

    유니온L = NULL;
    유니온R = NULL;

    /* 원시 항목 벡터를 초기화합니다. */
    raw_entryvec = (GISTENTRY **) malloc(entryvec-n * sizeof(void *));
    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))
        raw_entryvec[i] = &(entryvec-벡터[i]);

    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))

        int real_index = raw_entryvec[i] -entryvec-벡터;

        tmp_union = DatumGetDataType(entryvec-벡터[real_index].key);
        Assert(tmp_union != NULL);

        /*
         * 인덱스 항목을 넣을 위치를 선택하고 UnionL 및 UnionR을 업데이트합니다.
         * 따라서. 항목을 v-spl_left 또는
         * v-spl_right, 카운터에 주의하세요.
         */

        if (my_choice_is_left(unionL, 컬, UnionR, curr))

            if (unionL == NULL)
                UnionL = tmp_union;
            그렇지 않으면
                UnionL = my_union_implementation(unionL, tmp_union);

            *왼쪽 = real_index;
            ++왼쪽;
            ++(v-spl_nleft);

        그렇지 않으면

            /*
             * 오른쪽도 마찬가지
             */

    v-spl_ldatum = DataTypeGetDatum(unionL);
    v-spl_rdatum = DataTypeGetDatum(unionR);
    PG_RETURN_POINTER(v);

좋아요페널티, 그picksplit함수는 좋은 젠 토토 성능을 위해 매우 중요합니다. 적합한 디자인페널티그리고picksplit구현은 좋은 성능을 구현하는 데 어려움을 겪는 곳입니다.지스트거짓말을 색인화합니다.

같은

두 개의 색인 항목이 동일하면 참을 반환하고, 그렇지 않으면 거짓을 반환합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_same(내부, 내부, 내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다.

PG_FUNCTION_INFO_V1(my_same);

데이텀
내_동일(PG_FUNCTION_ARGS)

    접두사_범위 *v1 = PG_GETARG_PREFIX_RANGE_P(0);
    prefix_range *v2 = PG_GETARG_PREFIX_RANGE_P(1);
    bool *result = (bool *) PG_GETARG_POINTER(2);

    *결과 = my_eq(v1, v2);
    PG_RETURN_POINTER(결과);

역사적인 이유로,같은함수는 단순히 부울 결과를 반환하지 않습니다. 대신 세 번째 인수가 나타내는 위치에 플래그를 저장해야 합니다.

거리

색인 항목이 제공됨p및 쿼리 값q, 이 함수는 색인 항목의"거리"쿼리 값에서. 연산자 클래스에 순서 연산자가 포함된 경우 이 함수를 제공해야 합니다. 순서 연산자를 사용하는 쿼리는 가장 작은 젠 토토 항목을 반환하여 구현됩니다."거리"값을 먼저 지정하므로 결과는 연산자의 의미와 일치해야 합니다. 리프 인덱스 항목의 경우 결과는 인덱스 항목까지의 거리만 나타냅니다. 내부 트리 노드의 경우 결과는 모든 하위 항목이 가질 수 있는 최소 거리여야 합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_distance(internal, data_type, smallint, oid)
반환 float8
AS 'MODULE_PATHNAME'
언어 C 엄격;

그리고 C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(내_거리);

데이텀
my_distance(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber 전략 = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid 하위 유형 = PG_GETARG_OID(3); */
    /* bool *재확인 = (bool *) PG_GETARG_POINTER(4); */
    data_type *key = DatumGetDataType(entry-key);
    이중 회수;

    /*
     * 전략, 키 및 쿼리의 함수로 반환 값을 결정합니다.
     */

    PG_RETURN_FLOAT8(복귀);

에 대한 주장거리함수는의 인수와 동일합니다.일관적인함수.

결과가 항목의 실제 거리보다 크지 않는 한 거리를 결정할 때 일부 근사치가 허용됩니다. 따라서 예를 들어 기하학적 응용에서는 일반적으로 경계 상자까지의 거리면 충분합니다. 내부 트리 노드의 경우 반환된 거리는 하위 노드까지의 거리보다 클 수 없습니다. 반환된 거리가 정확하지 않으면 함수를 설정해야 합니다.*다시 확인참입니다. (This is not necessary for internal tree nodes; for them, the calculation is always assumed to be inexact.) In this case the executor will calculate the accurate distance after fetching the tuple from the heap, and reorder the tuples if necessary.

거리 함수가 반환되는 경우*재확인 = true모든 리프 노드의 경우 원래 순서 연산자의 반환 유형은 다음과 같아야 합니다float8또는플로트4, 실행기가 거리 함수 결과와 다시 계산된 순서 연산자 결과를 모두 사용하여 정렬하므로 거리 함수의 결과 값은 원래 순서 연산자의 결과 값과 비교 가능해야 합니다. 그렇지 않으면 거리 함수의 결과 값은 유한할 수 있습니다.float8값, 결과 값의 상대적 순서가 순서 연산자가 반환한 순서와 일치하는 경우에 한합니다. (무한대와 마이너스 무한대는 null과 같은 경우를 처리하기 위해 내부적으로 사용되므로 권장하지 않습니다.거리함수는 이 값을 반환합니다.)

가져오기

인덱스 전용 스캔을 위해 데이터 항목의 압축된 인덱스 표현을 원래 데이터 유형으로 변환합니다. 반환된 데이터는 원래 인덱싱된 값의 정확하고 손실 없는 복사본이어야 합니다.

SQL함수 선언은 다음과 같아야 합니다:

함수 생성 또는 교체 my_fetch(내부)
내부 반환
AS 'MODULE_PATHNAME'
언어 C 엄격;

인수는 a에 대한 포인터입니다.GISTENTRY구조체. 입력 시 '키' 필드에는 압축된 형식의 NULL이 아닌 리프 데이터가 포함됩니다. 반환 값은 또 다른 것입니다.GISTENTRY구조체, '키' 필드에는 압축되지 않은 원래 형식과 동일한 데이터가 포함되어 있습니다. opclass의 압축 함수가 리프 항목에 대해 아무 작업도 수행하지 않으면 fetch 메서드는 인수를 있는 그대로 반환할 수 있습니다.

C 모듈의 일치 코드는 다음 뼈대를 따를 수 있습니다:

PG_FUNCTION_INFO_V1(my_fetch);

데이텀
my_fetch(PG_FUNCTION_ARGS)

    GISTENTRY *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    input_data_type *in = DatumGetPointer(entry-key);
    fetched_data_type *fetched_data;
    GISTENTRY *재발;

    retval = palloc(sizeof(GISTENTRY));
    fetched_data = palloc(sizeof(fetched_data_type));

    /*
     * 'fetched_data'를 원래 데이터 유형의 데이터로 변환합니다.
     */

    /* fetched_data에서 *retval을 채웁니다. */
    gistentryinit(*retval, PointerGetDatum(converted_datum),
                  항목-상대, 항목-페이지, 항목-오프셋, FALSE);

    PG_RETURN_POINTER(복귀);

압축 방법이 리프 항목에 대해 손실이 있는 경우 연산자 클래스는 색인 전용 스캔을 지원할 수 없으며 '가져오기' 기능을 정의해서는 안 됩니다.

모든 GiST 지원 방법은 일반적으로 단기 메모리 컨텍스트에서 호출됩니다. 즉,CurrentMemoryContext각 튜플이 처리된 후 재설정됩니다. 그러므로 palloc하는 모든 것을 해제하는 것에 대해 걱정하는 것은 그리 중요하지 않습니다. 그러나 어떤 경우에는 반복 호출에서 데이터를 캐시하는 지원 방법이 유용합니다. 그렇게 하려면 더 오래 지속되는 데이터를 할당하세요.fcinfo-flinfo-fn_mcxt, 그리고 그것에 대한 포인터를 유지fcinfo-flinfo-fn_extra. 이러한 데이터는 인덱스 작업(예: 단일 GiST 인덱스 스캔, 인덱스 빌드 또는 인덱스 튜플 삽입)이 진행되는 동안 유지됩니다. a를 교체할 때 이전 값을 해제하도록 주의하세요.fn_extra값이 아니면 작업 기간 동안 누수가 누적됩니다.