PostgreSQL : 토토 꽁 머니 : 9.6 : 텍스트 검색 제어

범퍼카 토토 PostgreSQL : Documentation→젠 토토 : 문서 : 9

지원되는 버전:PostgreSQL : 토토 베이 : 17 : 12.3. 텍스트 검색 제어 (PostgreSQL : 스포츠 토토 결과 : 18 : 12.3. 텍스트 검색 제어) / PostgreSQL : 윈 토토 : 17 : 12.3. 텍스트 검색 제어 / PostgreSQL : 토토 핫 : 16 : 12.3. 텍스트 검색 제어 / PostgreSQL : 토토 핫 : 15 : 12.3. 텍스트 검색 제어 / PostgreSQL : 토토 사이트 추천 : 14 : 12.3. 텍스트 검색 제어 / PostgreSQL : 메이저 토토 사이트 : 13 : 12.3. 텍스트 검색 제어

개발 버전:개발

지원되지 않는 버전:12 / 11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

이 토토 꽁 머니는 지원되지 않는 PostgreSQL 버전에 대한 것입니다.
당신은 다음과 같은 페이지를 보고 싶을 수도 있습니다.PostgreSQL : 토토 베이 : 17 : 12.3. 텍스트 검색 제어버전 또는 위에 나열된 다른 지원 버전 중 하나를 사용하세요.

젠 토토 : 문서 : 9.6 : 젠 토토 9.6
PostgreSQL : 문서 : 9.6 : 테이블 및 범퍼카 토토	사설 토토 사이트 : 문서 : 9.6 : 전문 검색	12장. 전체 텍스트 검색	롤 토토 : 문서 : 9.6 : 추가 롤 토토

12.3. 텍스트 검색 제어

전체 텍스트 검색을 구현하려면 다음을 생성하는 기능이 있어야 합니다.ts벡터토토 꽁 머니 및 a에서tsquery사용자 쿼리에서. 또한 유용한 순서로 결과를 반환해야 하므로 쿼리와의 관련성을 기준으로 토토 꽁 머니를 비교하는 기능이 필요합니다. 결과를 멋지게 표시할 수 있는 것도 중요합니다.PostgreSQL이 모든 기능을 지원합니다.

12.3.1. 토토 꽁 머니 파싱

PostgreSQL기능 제공to_tsVector토토 꽁 머니를 다음으로 변환하기 위해ts벡터데이터 유형.

to_ts벡터([ 구성 regconfig, ] 토토 꽁 머니 텍스트) 반환ts벡터

to_ts벡터텍스트 토토 꽁 머니를 토큰으로 구문 분석하고 토큰을 어휘소로 줄이고 다음을 반환합니다.ts벡터토토 꽁 머니에서의 위치와 함께 어휘를 나열합니다. 토토 꽁 머니는 지정된 또는 기본 텍스트 검색 구성에 따라 처리됩니다. 다음은 간단한 예입니다.

SELECT to_tsVector('english', '뚱뚱한 고양이가 매트 위에 앉아 있었는데 - 살찐 쥐를 잡아먹었어요');
                  to_ts벡터
----------------------------------------
 'ate':9 'cat':3 'fat':2,11 'mat':7 'rat':12 'sat':4

위의 예에서 우리는 결과를 볼 수 있습니다ts벡터단어를 포함하지 않습니다.a, 켜짐또는그것, 단어쥐되었다쥐및 구두점-무시되었습니다.

그to_ts벡터함수는 토토 꽁 머니 텍스트를 토큰으로 나누고 각 토큰에 유형을 할당하는 파서를 내부적으로 호출합니다. 각 토큰에 대해 사전 목록(PostgreSQL : 문서 : 9.6 : 토토)가 참조되며, 여기서 목록은 토큰 유형에 따라 달라질 수 있습니다. 최초의 사전인식토큰은 하나 이상의 정규화된 토큰을 내보냅니다.어휘토큰을 나타냅니다. 예를 들어,쥐이 되었다쥐사전 중 하나가 다음 단어를 인식했기 때문입니다.쥐은의 복수형입니다쥐. 일부 단어는 다음과 같이 인식됩니다.단어 중지 (섹션 12.6.1), 검색에 유용하기에는 너무 자주 발생하므로 무시됩니다. 우리의 예에서는 다음과 같습니다.a, 켜짐및그것. 목록에 토큰을 인식하는 사전이 없으면 토큰도 무시됩니다. 이 예에서는 구두점 기호에 발생했습니다.-사실 토큰 유형에 할당된 사전이 없기 때문입니다(공간 기호), 이는 공간 토큰이 색인화되지 않음을 의미합니다. 파서, 사전의 선택 및 색인화할 토큰 유형은 선택한 텍스트 검색 구성에 따라 결정됩니다(PostgreSQL : 문서 : 9.6 : 토토 사이트 추천 예). 동일한 데이터베이스에 다양한 구성을 가질 수 있으며 사전 정의된 구성을 다양한 언어로 사용할 수 있습니다. 이 예에서는 기본 구성을 사용했습니다.영어영어의 경우.

함수설정중량a의 항목에 라벨을 지정하는 데 사용할 수 있습니다.ts벡터주어진 내용으로무게, 여기서 가중치는 문자 중 하나입니다.A, B, C, 또는D. 이는 일반적으로 제목이나 본문 등 토토 꽁 머니의 여러 부분에서 나오는 항목을 표시하는 데 사용됩니다. 나중에 이 정보는 검색 결과 순위에 사용될 수 있습니다.

왜냐하면to_tsVector(NULL)이 반환됩니다.NULL사용을 권장합니다합체필드가 null일 수 있을 때마다. 다음은를 만드는 데 권장되는 방법입니다.ts벡터구조화된 토토 꽁 머니에서:

업데이트 tt SET ti =
    setweight(to_tsVector(coalesce(title,'')), 'A') ||
    setweight(to_tsVector(coalesce(keyword,'')), 'B') ||
    setweight(to_tsVector(coalesce(abstract,'')), 'C') ||
    setweight(to_tsVector(coalesce(body,'')), 'D');

여기서 우리는 사용했습니다설정중량완료된 각 어휘의 출처에 라벨을 지정합니다.ts벡터, 그런 다음 라벨이 붙은을 병합했습니다.ts벡터다음을 사용하는 값ts벡터연결 연산자||. (섹션 12.4.1이 작업에 대한 세부정보를 제공합니다.)

12.3.2. 쿼리 구문 분석

PostgreSQL기능을 제공합니다to_tsquery, plainto_tsquery및phraseto_tsquery쿼리를 다음으로 변환하기 위해tsquery데이터 유형.to_tsquery둘 중 하나보다 더 많은 기능에 대한 액세스를 제공plainto_tsquery또는phraseto_tsquery, 하지만 입력에 대해서는 덜 관대합니다.

to_tsquery([ 구성 regconfig, ] 쿼리텍스트 텍스트) 반환tsquery

to_tsquery생성tsquery값:쿼리텍스트, 이는로 구분된 단일 토큰으로 구성되어야 합니다.tsquery연산자&(그리고),|(또는),!(아님) 그리고<-(FOLLOWED BY), 아마도 괄호를 사용하여 그룹화되었을 수 있습니다. 즉,에 대한 입력은to_tsquery이미 다음에 대한 일반 규칙을 따라야 합니다.tsquery설명된 대로 입력섹션 8.11.2. 차이점은 기본이지만tsquery입력은 토큰을 액면 그대로 받아들입니다.to_tsquery지정된 구성이나 기본 구성을 사용하여 각 토큰을 어휘소로 정규화하고 구성에 따라 불용어인 모든 토큰을 삭제합니다. 예를 들면:

SELECT to_tsquery('english', 'The & Fat & Rats');
  to_tsquery   
---------------
 '뚱뚱하다' & '쥐'

기본과 동일tsquery입력, 가중치를 각 어휘소에 첨부하여 일치만 제한할 수 있습니다.ts벡터해당 가중치의 어휘소입니다. 예를 들면:

SELECT to_tsquery('english', '뚱뚱한 | 쥐:AB');
    to_tsquery    
------------------
 '지방' | '쥐':AB

또한,*접두사 일치를 지정하기 위해 어휘소에 첨부할 수 있습니다.

SELECT to_tsquery('supern:*A & star:A*B');
        to_tsquery        
-------------
 'supern':*A & 'star':*AB

이러한 어휘는 a의 모든 단어와 일치합니다.ts벡터주어진 문자열로 시작합니다.

to_tsquery또한 작은따옴표 구문을 사용할 수 있습니다. 이는 구성에 해당 문구에 대해 트리거될 수 있는 동의어 사전이 포함된 경우 주로 유용합니다. 아래 예에서 동의어 사전에는 규칙이 포함되어 있습니다.초신성 별: sn:

SELECT to_tsquery('''초신성 별'' & !게');
  to_tsquery
---------------
 'sn' & !'게'

따옴표 없이,to_tsqueryAND, OR 또는 FOLLOWED BY 연산자로 구분되지 않은 토큰에 대해 구문 오류를 생성합니다.

plainto_tsquery([ 구성 regconfig, ] 쿼리텍스트 텍스트) 반환tsquery

plainto_tsquery서식화되지 않은 텍스트를 변환합니다쿼리텍스트에tsquery값. 텍스트는 다음과 같이 구문 분석되고 정규화됩니다.to_tsVector그럼&(그리고)tsquery연산자는 살아남은 단어 사이에 삽입됩니다.

예:

SELECT plainto_tsquery('english', 'The Fat Rats');
 plainto_tsquery 
-----------------
 '뚱뚱하다' & '쥐'

참고plainto_tsquery인식하지 않음tsquery입력의 연산자, 중량 레이블 또는 접두사 일치 레이블:

SELECT plainto_tsquery('english', 'The Fat & Rats:C');
   plainto_tsquery   
--------
 '지방' & '쥐' & 'c'

여기서 입력된 구두점은 모두 공백 기호로 간주되어 폐기되었습니다.

phraseto_tsquery([ 구성 regconfig, ] 쿼리텍스트 텍스트) 반환tsquery

phraseto_tsquery다음과 같이 행동합니다plainto_tsquery, 단,<-(FOLLOWED BY) 연산자 대신 살아남은 단어 사이에&(AND) 연산자입니다. 또한 불용어는 단순히 버리는 것이 아니라 삽입하여 처리한다<N대신 연산자<-연산자. FOLLOWED BY 연산자는 모든 어휘의 존재뿐만 아니라 어휘 순서도 확인하므로 이 함수는 정확한 어휘 순서를 검색할 때 유용합니다.

예:

SELECTphraseto_tsquery('english', 'The Fat Rats');
 Phraseto_tsquery
------------------
 '뚱뚱하다' <- '쥐'

좋아요plainto_tsquery, 그phraseto_tsquery함수는 인식하지 못합니다tsquery입력의 연산자, 중량 라벨 또는 접두사 일치 라벨:

SELECTphraseto_tsquery('english', 'The Fat & Rats:C');
      Phraseto_tsquery
----------------
 '뚱뚱하다' <- '쥐' <- 'c'

12.3.3. 순위 검색 결과

순위는 토토 꽁 머니가 특정 검색어와 얼마나 관련성이 있는지 측정하려고 시도하므로 일치하는 항목이 많을 경우 가장 관련성이 높은 항목이 먼저 표시될 수 있습니다.포스트그레SQL어휘, 근접성 및 구조적 정보를 고려하는 사전 정의된 두 가지 순위 함수를 제공합니다. 즉, 쿼리 용어가 토토 꽁 머니에 얼마나 자주 나타나는지, 용어가 토토 꽁 머니에서 얼마나 가까이 있는지, 토토 꽁 머니에서 쿼리 용어가 나타나는 부분이 얼마나 중요한지를 고려합니다. 그러나 관련성의 개념은 모호하고 매우 애플리케이션별로 다릅니다. 다양한 애플리케이션에는 순위 지정을 위한 추가 정보(예: 토토 꽁 머니 수정 시간)가 필요할 수 있습니다. 내장된 순위 기능은 단지 예시일 뿐입니다. 자신만의 순위 함수를 작성하거나 해당 결과를 특정 요구 사항에 맞게 추가 요소와 결합할 수 있습니다.

현재 사용 가능한 두 가지 순위 기능은 다음과 같습니다:

ts_rank([가중치 float4[], ] 벡터 ts벡터, 질의 tsquery [, 정규화 정수]) 반환float4

일치하는 어휘의 빈도에 따라 벡터의 순위를 매깁니다.

ts_rank_cd([가중치 float4[], ] 벡터 ts벡터, 질의 tsquery [, 정규화 정수]) 반환float4

이 함수는 다음을 계산합니다.피복 밀도주어진 토토 꽁 머니 벡터 및 쿼리에 대한 순위. Clarke, Cormack 및 Tudhope의 "Information Process and Management" 저널(1999)에 있는 "Relevance Ranking for One to Three Term Queries"에 설명되어 있습니다. 표지 밀도는 다음과 유사합니다.ts_rank어휘의 서로 근접성을 고려한다는 점을 제외하고 순위를 매깁니다.

이 함수는 계산을 수행하기 위해 어휘 위치 정보가 필요합니다. 따라서 모든 것을 무시합니다."벗겨짐"어휘ts벡터. 입력에 제거되지 않은 어휘소가 없으면 결과는 0이 됩니다. (참조섹션 12.4.1에 대한 추가 정보는스트립함수 및 위치 정보ts벡터s.)

이 두 기능 모두에 대해 선택 사항가중치인수는 레이블이 지정되는 방식에 따라 단어 인스턴스의 가중치를 다소 높게 지정하는 기능을 제공합니다. 가중치 배열은 각 단어 범주의 가중치를 다음 순서대로 지정합니다.

D-가중치, C-가중치, B-가중치, A-가중치

아니면가중치제공된 경우 다음 기본값이 사용됩니다.

{0.1, 0.2, 0.4, 1.0}

일반적으로 가중치는 제목이나 초기 초록과 같은 토토 꽁 머니의 특정 영역에 있는 단어를 표시하는 데 사용되므로 토토 꽁 머니 본문의 단어보다 다소 중요하게 처리될 수 있습니다.

Since a longer document has a greater chance of containing a query term it is reasonable to take into account document size, e.g., a hundred-word document with five instances of a search word is probably more relevant than a thousand-word document with five instances. Both ranking functions take an integer정규화25023_25220|(예를 들어,2|4).

0(기본값)은 토토 꽁 머니 길이를 무시합니다.
1은 순위를 1 + 토토 꽁 머니 길이의 로그로 나눕니다.
2 순위를 토토 꽁 머니 길이로 나눕니다.
4 순위를 범위 사이의 평균 고조파 거리로 나눕니다(이는 다음으로만 구현됩니다.ts_rank_cd)
8 순위를 토토 꽁 머니의 고유 단어 수로 나눕니다.
16은 순위를 1 + 토토 꽁 머니의 고유 단어 수의 로그로 나눕니다.
32는 순위 자체를 + 1로 나눕니다.

두 개 이상의 플래그 비트가 지정되면 변환은 나열된 순서대로 적용됩니다.

순위 함수는 글로벌 정보를 사용하지 않으므로 때로는 원하는 대로 1% 또는 100%로 공정한 정규화를 생성하는 것이 불가능하다는 점에 유의하는 것이 중요합니다. 정규화 옵션 32 (순위/(순위+1))를 적용하면 모든 순위를 0에서 1 사이의 범위로 조정할 수 있지만 물론 이는 단지 외관상 변경일 뿐입니다. 검색 결과의 순서에는 영향을 미치지 않습니다.

다음은 가장 높은 순위의 일치 항목 10개만 선택하는 예입니다.

제목 선택, ts_rank_cd(텍스트 검색, 쿼리) AS 순위
FROM apod, to_tsquery('neutrino|(dark & Matter)') 쿼리
WHERE 쿼리 @@ 텍스트 검색
순위 DESC로 주문
제한 10;
                     제목 |   순위
-------------------+----------
 태양 속의 중성미자 |      3.1
 Sudbury 중성미자 검출기 |      2.4
 은하계 암흑물질에 대한 마초적인 견해 |  2.01317
 뜨거운 가스와 암흑물질 |  1.91171
 처녀자리 클러스터: 고온 플라즈마 및 암흑 물질 |  1.90953
 태양 중성미자 래프팅 |      1.9
 NGC 4650A: 이상한 은하와 암흑 물질 |  1.85774
 뜨거운 가스와 암흑물질 |   1.6123
 우주 중성미자 얼음낚시 |      1.6
 약한 렌즈 효과는 우주를 왜곡합니다 | 0.818218

이것은 정규화된 순위를 사용한 동일한 예입니다:

SELECT 제목, ts_rank_cd(textsearch, query, 32 /* 순위/(순위+1) */ ) AS 순위
FROM apod, to_tsquery('neutrino|(dark & Matter)') 쿼리
WHERE 쿼리 @@ 텍스트 검색
순위 DESC로 주문
제한 10;
                     제목 |        순위
---------------------+-------------------
 태양 속의 중성미자 | 0.756097569485493
 Sudbury 중성미자 검출기 | 0.705882361190954
 은하계 암흑물질에 대한 마초적인 견해 | 0.668123210574724
 뜨거운 가스와 암흑물질 |  0.65655958650282
 처녀자리 클러스터: 고온 플라즈마 및 암흑 물질 | 0.656301290640973
 태양 중성미자 래프팅 | 0.655172410958162
 NGC 4650A: 이상한 은하와 암흑 물질 | 0.650072921219637
 뜨거운 가스와 암흑물질 | 0.617195790024749
 우주 중성미자 얼음낚시 | 0.615384618911517
 약한 렌즈 효과는 우주를 왜곡합니다 | 0.450010798361481

순위는 컨설팅이 필요하기 때문에 비용이 많이 들 수 있습니다.ts벡터각 일치 토토 꽁 머니의 I/O 바인딩으로 인해 속도가 느려질 수 있습니다. 안타깝게도 실제 쿼리로 인해 많은 수의 일치 항목이 나오는 경우가 많기 때문에 이를 피하는 것은 거의 불가능합니다.

12.3.4. 결과 강조

검색 결과를 제시하려면 각 토토 꽁 머니의 일부와 그것이 검색어와 어떻게 관련되어 있는지 보여주는 것이 이상적입니다. 일반적으로 검색 엔진은 표시된 검색어와 함께 토토 꽁 머니의 일부를 표시합니다.PostgreSQL기능 제공ts_headline이 기능을 구현합니다.

ts_headline([ 구성 regconfig, ] 토토 꽁 머니 텍스트, 질의 tsquery [, 옵션 텍스트 ]) 반환텍스트

ts_headline쿼리와 함께 토토 꽁 머니를 수락하고 쿼리의 용어가 강조 표시된 토토 꽁 머니에서 발췌한 내용을 반환합니다. 토토 꽁 머니를 구문 분석하는 데 사용되는 구성은 다음으로 지정할 수 있습니다.구성; 만일구성생략되었습니다.default_text_search_config구성이 사용되었습니다.

만일옵션문자열이 지정되었습니다. 하나 이상의 쉼표로 구분된 목록으로 구성되어야 합니다.옵션=값쌍. 사용 가능한 옵션은 다음과 같습니다.

MaxWords, 최소 단어(정수): 이 숫자는 출력할 가장 긴 헤드라인과 가장 짧은 헤드라인을 결정합니다. 기본값은 35와 15입니다.
단어(정수): 이 길이 이하의 단어는 검색어가 아닌 한 헤드라인의 시작과 끝에서 삭제됩니다. 기본값 3은 일반적인 영어 관사를 제거합니다.
하이라이트모두(부울): if사실앞의 세 매개변수를 무시하고 전체 토토 꽁 머니가 헤드라인으로 사용됩니다. 기본값은거짓.
MaxFragments(정수): 표시할 최대 텍스트 조각 수. 기본값 0은 비조각 기반 헤드라인 생성 방법을 선택합니다. 0보다 큰 값은 조각 기반 헤드라인 생성을 선택합니다(아래 참조).
StartSel, StopSel(문자열): 토토 꽁 머니에 나타나는 쿼리 단어를 구분하여 다른 발췌 단어와 구별하는 문자열입니다. 기본값은 다음과 같습니다."<b"그리고"</b", HTML 출력에 적합할 수 있습니다.
FragmentDelimiter(문자열): 둘 이상의 조각이 표시되면 조각은 이 문자열로 구분됩니다. 기본값은" ... ".

이 옵션 이름은 대소문자를 구분하지 않고 인식됩니다. 공백이나 쉼표가 포함된 문자열 값은 큰따옴표로 묶어야 합니다.

비조각 기반 헤드라인 생성에서,ts_headline주어진 항목과 일치하는 항목을 찾습니다.질의그리고 표시할 단일 항목을 선택하여 허용된 헤드라인 길이 내에 더 많은 검색어가 있는 일치 항목을 선호합니다. 조각 기반 헤드라인 생성에서,ts_headline쿼리 일치 항목을 찾아 각 일치 항목을 다음으로 분할합니다."조각"최대MaxWords각 단어, 더 많은 검색어가 있는 조각을 선호하며 가능하다면"스트레칭"주변 단어를 포함하는 조각입니다. 따라서 조각 기반 모드는 쿼리 일치 항목이 토토 꽁 머니의 큰 섹션에 걸쳐 있거나 여러 일치 항목을 표시해야 하는 경우에 더 유용합니다. 두 모드 모두에서 일치하는 쿼리가 식별되지 않으면 첫 번째의 단일 조각이 생성됩니다.최소단어토토 꽁 머니의 단어가 표시됩니다.

예:

SELECT ts_headline('영어',
  '가장 일반적인 검색 유형
주어진 검색어가 포함된 모든 토토 꽁 머니를 찾는 것입니다.
그리고 유사한 순서대로 반환합니다.
쿼리.',
  to_tsquery('english', '쿼리 및 유사성'));
                        ts_headline
----------------------------------
 특정 <b검색어</b 용어 포함 +
 +와 <b유사성</b 순서대로 반환합니다.
 <b쿼리</b.

SELECT ts_headline('한국어',
  '검색어가 나올 수 있습니다.
토토 꽁 머니에서 여러 번
어떤 항목을 결정하기 위해 검색 일치 항목의 순위를 요구합니다.
결과에 표시할 항목입니다.',
  to_tsquery('english', '검색 및 용어'),
  'MaxFragments=10, MaxWords=7, MinWords=3, StartSel=<<, StopSel=');
                        ts_headline
----------------------------------
 <<검색 <<용어가 발생할 수 있음 +
 여러 번 ... <<검색 경기 순위를 결정합니다.

ts_headline다음이 아닌 원본 토토 꽁 머니를 사용합니다ts벡터요약이므로 속도가 느릴 수 있으므로 주의해서 사용해야 합니다.

PostgreSQL : 문서 : 9.6 : 테이블 및 범퍼카 토토	젠 토토 : 문서 : 9.6 : 젠 토토 9.6.24 문서화	롤 토토 : 문서 : 9.6 : 추가 롤 토토
테이블 및 색인	사설 토토 사이트 : 문서 : 9.6 : 전문 검색	추가 기능