롤 토토 : 문서 : 9.5 : 롤 토토 | |||
---|---|---|---|
PostgreSQL : 문서 : 9.5 : 토토 | PostgreSQL : 문서 : 9.5 : 추가 제공 윈 토토 | 부록 F. 추가 공급 모듈 | PostgreSQL : 문서 : 9.5 : 토토 꽁 머니 |
thePG_TRGM모듈은 트리 그램 매칭을 기반으로 영숫자 텍스트의 유사성을 결정하기위한 기능과 연산자뿐만 아니라 유사한 문자열을 빠르게 검색하는 스포츠 토토 결과 연산자 클래스를 제공합니다.
Trigram은 문자열에서 가져온 3 개의 연속 문자 그룹입니다. 우리는 그들이 공유하는 트리 그램의 수를 계산하여 두 줄의 유사성을 측정 할 수 있습니다. 이 간단한 아이디어는 많은 자연 언어에서 단어의 유사성을 측정하는 데 매우 효과적입니다.
참고 : PG_TRGM문자열에서 트리 그램을 추출 할 때는 비 단어 문자 (비 알파 너프)를 무시합니다. 각 단어는 문자열에 포함 된 트리 그램 세트를 결정할 때 두 개의 공간이 접두사가 있고 하나의 공간이 접미사되는 것으로 간주됩니다. 예를 들어, 문자열의 트리 그램 세트"cat"is"C", "CA", "cat"및"at". 문자열의 트리 그램 세트"foo | bar"is"f", "fo", "foo", "oo", "B", "BA", "bar"및"ar".
PG_TRGM모듈에 표시표 F-25, 연산자표 F-26.
표 F-25.PG_TRGM기능
기능 | 반환 | 설명 |
---|---|---|
유사성 (텍스트, 텍스트) |
Real | 두 인수가 얼마나 유사한지를 나타내는 숫자를 반환합니다. 결과의 범위는 0입니다 (두 줄이 완전히 다르지 않음). |
show_trgm (텍스트) |
텍스트 [] | 지정된 문자열에 모든 트리 그램의 배열을 반환합니다. (실제로 이것은 디버깅을 제외하고는 거의 유용하지 않습니다.) |
show_limit () |
Real | 현재 유사한 임계 값을 반환합니다.%운영자. 이것은 두 단어 사이의 최소 유사성을 설정합니다. 예를 들어 서로의 철자가 될 정도로 유사하게 간주됩니다.. |
set_limit (real) |
Real | %운영자. 임계 값은 0과 1 사이 여야합니다 (기본값은 0.3). 통과 된 동일한 값을 반환합니다. |
thePG_TRGM모듈은 매우 빠른 유사성 검색을 목적으로 텍스트 열을 통해 인덱스를 생성 할 수있는 GIST 및 GIN 인덱스 작업자 클래스를 제공합니다. 이 인덱스 유형은 위에서 설명한 유사성 연산자를 지원하며 추가로 트리 그램 기반 인덱스 검색을 지원합니다.Like, ilike, ~and~*쿼리. (이 스포츠 토토 결과는 평등이나 간단한 비교 연산자를 지원하지 않으므로 일반 B- 트리 지수도 필요할 수 있습니다.)
예 :
테이블 생성 test_trgm (t text); GIST (t gist_trgm_ops)를 사용하여 test_trgm에서 인덱스 trgm_idx를 만듭니다.
또는
gin (t gin_trgm_ops)을 사용하여 test_trgm에서 스포츠 토토 결과 trgm_idx 생성;
이 시점에서에 대한 색인이 있습니다.t유사성 검색에 사용할 수있는 열. 일반적인 쿼리는입니다.
선택 t, 유사성 (t, 'Word') sml로 test_trgm에서 여기서 t % 'Word' sml desc, t; 주문
이것은 텍스트 열의 모든 값을 충분히 유사하게 반환합니다Word, Best Match에서 최악으로 정렬되었습니다. 인덱스는 매우 큰 데이터 세트에서도 빠른 작업을하는 데 사용됩니다.
위의 쿼리의 변형은입니다.
select t, t <-- 'Word' Dist test_trgm에서 Dist Limit 10의 주문;
이것은 GIST 스포츠 토토 결과에 의해 상당히 효율적으로 구현 될 수 있지만 GIN 스포츠 토토 결과는 아닙니다. 가장 가까운 경기가 원한다면 일반적으로 첫 번째 공식을 이길 것입니다.
시작PostgreSQL9.1,이 인덱스 유형은 인덱스 검색을 지원합니다Likeandilike, 예를 들어
선택 *에서 test_trgm에서 t where '%foo%bar';
스포츠 토토 결과 검색은 검색 문자열에서 트리 그램을 추출한 다음 스포츠 토토 결과에서 이들을 찾아 작동합니다. 검색 문자열에서 트리 그램이 많을수록 스포츠 토토 결과 검색이 더 효과적입니다. B- 트리 기반 검색과 달리 검색 문자열은 정리 할 필요가 없습니다.
시작postgresql9.3,이 인덱스 유형은 또한 일반 표현 일치에 대한 인덱스 검색을 지원합니다 (~and~*연산자), 예를 들어
선택 *에서 test_trgm에서 t ~ '(foo | bar)';
스포츠 토토 결과 검색은 정규 표현식에서 트리 그램을 추출한 다음 스포츠 토토 결과에서 이들을 찾아서 작동합니다. 정규 표현식에서 추출 할 수있는 트리 그램이 많을수록 스포츠 토토 결과 검색이 더 효과적입니다. B- 트리 기반 검색과 달리 검색 문자열은 정리 할 필요가 없습니다.
두 가지 모두Like및 일반 표현력 검색은 추출 가능한 트리그램이없는 패턴이 전체 스포츠 토토 결과 스캔으로 퇴화한다는 점을 명심하십시오.
GIST와 GIN 인덱싱 사이의 선택은 다른 곳에서 논의되는 GIST 및 GIN의 상대적 성능 특성에 따라 다릅니다. 경험상, 진 지수는 GIST 지수보다 검색이 더 빠르지 만 빌드 또는 업데이트가 느리게 진행됩니다. 따라서 Gin은 정적 데이터와 종종 업데이트 된 데이터에 대한 GIST에 더 적합합니다.
Trigram 매칭은 전문 지수와 함께 사용될 때 매우 유용한 도구입니다. 특히 전체 텍스트 검색 메커니즘에 의해 직접 일치하지 않는 철자가 틀린 입력 단어를 인식하는 데 도움이 될 수 있습니다.
첫 번째 단계는 문서에 모든 고유 한 단어가 포함 된 보조 테이블을 생성하는 것입니다.
선택한 단어로 테이블 단어를 작성하십시오 ts_stat ( 'select to_tsvector (' 'simple' ', bodytext) 문서에서');
여기서문서텍스트 필드가있는 테이블BodyText우리는 검색하고자합니다. 사용 이유단순to_tsvector
함수는 언어 별 구성을 사용하는 대신 원본 (설명되지 않은) 단어의 목록을 원한다는 것입니다..
다음, 단어 열에서 트리 그램 색인 생성 :
gin을 사용하여 단어에서 index words_idx 만들기 (Word gin_trgm_ops);
지금, aselect쿼리 이전 예와 유사한 쿼리는 사용자 검색 용어에서 철자가 잘못된 단어의 철자를 제안하는 데 사용될 수 있습니다. 유용한 추가 테스트는 선택된 단어가 철자가 잘못된 단어와도 길이가 비슷해야합니다.
참고 :이후단어테이블은 별도의 정적 테이블로 생성되었으므로 문서 수집과 합리적으로 최신 상태로 유지되도록 주기적으로 재생되어야합니다. 정확히 전류를 유지하는 것은 일반적으로 불필요합니다.
GIST 개발 사이트http : //www.sai.msu.su/~megera/postgres/gist/
Tsearch2 개발 사이트http : //www.sai.msu.su/~megera/postgres/gist/tsearch/v2/
Oleg Bartunov<oleg@sai.msu.su
, 러시아 모스크바 대학교 모스크바
Teodor Sigaev<teodor@sigaev.ru
, Moscow, Delta-Soft Ltd., 러시아
문서 : Christopher Kings-Lynne
이 모듈은 러시아 모스크바의 Delta-Soft Ltd.가 후원합니다.