PostgreSQL : 문서 : 13 : 12.6. 윈 토토

범퍼카 토토 PostgreSQL : Documentation→토토 꽁 머니 : 문서

지원되는 버전:PostgreSQL : 문서 : 17 : 12.6. 토토 결과 (Postgresql: Tài liệu: 18: 12.6. từ vự메이저 토토 사이트) / PostgreSQL : 문서 : 17 : 12.6. 토토 캔 / PostgreSQL : 문서 : 16 : 12.6. 배트맨 토토 / PostgreSQL : 문서 : 15 : 12.6. 메이저 토토 사이트 / PostgreSQL : 문서 : 14 : 12.6. 스포츠 토토

개발 버전:개발

지원되지 않는 버전:13 / 12 / 11 / 10 / 9.6 / 9.5 / 9.4 / 9.3 / 9.2 / 9.1 / 9.0 / 8.4 / 8.3

이 문서는 지원되지 않는 PostgreSQL 버전에 대한 것입니다.
당신은 다음과 같은 페이지를 보고 싶을 수도 있습니다.PostgreSQL : 문서 : 17 : 12.6. 토토 결과버전 또는 위에 나열된 다른 지원 버전 중 하나를 사용하세요.

12.6. 윈 토토
토토 캔 : 문서 : 13 : 12.5. 파서	배트맨 토토 : 문서 : 13 : 12 장. 전문 검색	12장. 전체 텍스트 검색	토토 꽁 머니 : 문서 : 13 : 토토 꽁 머니 13.20 문서화	PostgreSQL : 문서 : 13 : 12.7. 토토 핫 예

12.6. 윈 토토

12.6.1. 중지 단어
12.6.2. 간단한 윈 토토
12.6.3. 동의어 윈 토토
12.6.4. 유의어 윈 토토
12.6.5. Ispell윈 토토
12.6.6. 눈덩이윈 토토

윈 토토은 검색에서 고려되어서는 안 되는 단어를 제거하는 데 사용됩니다. (단어 중지) 및정규화동일한 단어의 다른 파생 형태가 일치하도록 단어. 성공적으로 정규화된 단어를 a어휘. 검색 품질을 향상시키는 것 외에도, 불용어를 정규화하고 제거하면 크기가 줄어듭니다.ts벡터문서를 표현하여 성능을 향상시킵니다. 정규화는 항상 언어학적 의미를 갖는 것은 아니며 일반적으로 애플리케이션 의미에 따라 달라집니다.

정규화의 몇 가지 예:

언어 — Ispell 윈 토토은 입력 단어를 정규화된 형식으로 줄이려고 노력합니다. 형태소 분석 윈 토토은 단어 끝을 제거합니다.
URL위치는 동등한 URL이 일치하도록 정규화될 수 있습니다.
- http://www.pgsql.ru/db/mw/index.html
- http://www.pgsql.ru/db/mw/
- http://www.pgsql.ru/db/../db/mw/index.html
색상 이름은 16진수 값으로 대체될 수 있습니다. 예:빨간색, 녹색, 파란색, 자홍색 - FF0000, 00FF00, 0000FF, FF00FF
숫자를 색인화하는 경우 소수점 이하 자릿수를 제거하여 가능한 숫자의 범위를 줄일 수 있습니다. 예를 들어3.14159265359, 3.1415926, 3.14소수점 이하 두 자리만 유지하면 정규화 후에도 동일합니다.

윈 토토은 토큰을 입력으로 받아들이고 다음을 반환하는 프로그램입니다.

입력 토큰이 윈 토토에 알려진 경우 어휘의 배열(하나의 토큰이 둘 이상의 어휘를 생성할 수 있음에 유의)
다음이 포함된 단일 어휘TSL_FILTER플래그 세트, 원래 토큰을 후속 윈 토토에 전달될 새 토큰으로 대체(이를 수행하는 윈 토토을 a윈 토토 필터링)
윈 토토이 토큰을 알고 있지만 중지 단어인 경우 빈 배열
NULL윈 토토이 입력 토큰을 인식하지 못하는 경우

포스트그레SQL다양한 언어에 대해 윈 토토 정의된 윈 토토을 제공합니다. 또한 사용자 정의 매개변수를 사용하여 새 윈 토토을 생성하는 데 사용할 수 있는 윈 토토 정의된 템플릿이 여러 개 있습니다. 윈 토토 정의된 각 윈 토토 템플릿은 아래에 설명되어 있습니다. 기존 템플릿이 적합하지 않은 경우 새 템플릿을 생성할 수 있습니다. 참조하세요기여/지역PostgreSQL예시를 위한 배포.

텍스트 검색 구성은 파서를 윈 토토 세트와 함께 바인딩하여 파서의 출력 토큰을 처리합니다. 파서가 반환할 수 있는 각 토큰 유형에 대해 별도의 윈 토토 목록이 구성에 의해 지정됩니다. 파서가 해당 유형의 토큰을 찾으면 일부 윈 토토이 이를 알려진 단어로 인식할 때까지 목록의 각 윈 토토을 차례로 참조합니다. 불용어로 식별되거나 윈 토토에서 토큰을 인식하지 못하는 경우 해당 토큰은 삭제되고 색인화되거나 검색되지 않습니다. 일반적으로 비를 반환하는 첫 번째 윈 토토은NULL출력에 따라 결과가 결정되며 나머지 윈 토토은 참조되지 않습니다. 그러나 필터링 윈 토토은 주어진 단어를 수정된 단어로 대체할 수 있으며, 이는 후속 윈 토토에 전달됩니다.

윈 토토 목록을 구성하는 일반적인 규칙은 가장 좁고 가장 구체적인 윈 토토을 먼저 배치한 다음 더 일반적인 윈 토토을 배치하고 다음과 같이 매우 일반적인 윈 토토으로 마무리하는 것입니다.눈덩이음소거 또는간단한, 모든 것을 인식합니다. 예를 들어 천문학 관련 검색의 경우(astro_en구성) 토큰 유형을 바인딩할 수 있습니다.asciiword(ASCII 단어)를 천문학 용어의 동의어 윈 토토, 일반 영어 윈 토토 및 a눈덩이영어 형태소 분석기:

텍스트 검색 구성 변경 astro_en
    astrosyn, english_ispell, english_stem을 사용하여 asciiword에 대한 매핑을 추가합니다.

필터링 윈 토토은 쓸모없는 끝 부분을 제외하고 목록의 어느 곳에나 배치할 수 있습니다. 필터링 윈 토토은 이후 윈 토토의 작업을 단순화하기 위해 단어를 부분적으로 정규화하는 데 유용합니다. 예를 들어 필터링 윈 토토을 사용하여 악센트가 있는 문자에서 악센트를 제거할 수 있습니다.악센트 없음모듈.

12.6.1. 중지 단어

불용어는 매우 일반적이고 거의 모든 문서에 나타나며 차별 가치가 없는 단어입니다. 따라서 전체 텍스트 검색에서는 무시될 수 있습니다. 예를 들어 모든 영어 텍스트에는 다음과 같은 단어가 포함되어 있습니다.a그리고그이므로 색인에 저장하는 것은 쓸모가 없습니다. 그러나 불용어는 위치에 영향을 미칩니다.ts벡터, 이는 순위에 영향을 미칩니다.

SELECT to_tsVector('english', '불용어 목록에서');
        to_ts벡터
---------------
 '목록':3 '중지':5 '단어':6

1,2,4번 위치가 누락된 이유는 불용어 때문입니다. 불용어가 있는 문서와 없는 문서에 대해 계산된 순위는 상당히 다릅니다.

SELECT ts_rank_cd (to_tsVector('english', '중지 단어 목록에서'), to_tsquery('list & stop'));
 ts_rank_cd
------------
       0.05

SELECT ts_rank_cd (to_tsVector('english', '목록 중지 단어'), to_tsquery('목록 & 중지'));
 ts_rank_cd
------------
        0.1

불용어를 처리하는 방법은 특정 윈 토토에 달려 있습니다. 예를 들어,ispell윈 토토은 먼저 단어를 정규화한 다음 중지 단어 목록을 살펴보는 반면눈덩이형태소 분석기는 먼저 중지 단어 목록을 확인합니다. 동작이 다르게 나타나는 이유는 소음을 줄이려는 시도입니다.

12.6.2. 간단한 윈 토토

그단순윈 토토 템플릿은 입력 토큰을 소문자로 변환하고 이를 중지 단어 파일과 비교하여 확인하는 방식으로 작동합니다. 파일에서 발견되면 빈 배열이 반환되어 토큰이 삭제됩니다. 그렇지 않은 경우 단어의 소문자 형태가 정규화된 어휘소로 반환됩니다. 또는 정지 단어가 아닌 단어를 인식할 수 없는 것으로 보고하도록 윈 토토을 구성하여 해당 단어가 목록의 다음 윈 토토으로 전달되도록 할 수 있습니다.

다음은 다음을 사용한 윈 토토 정의의 예입니다.단순템플릿:

텍스트 검색 윈 토토 생성 public.simple_dict(
    템플릿 = pg_catalog.simple,
    STOPWORDS = 영어
);

여기,영어은 불용어 파일의 기본 이름입니다. 파일의 전체 이름은 다음과 같습니다.$SHAREDIR/tsearch_data/english.stop, 여기서$SHAREDIR의미PostgreSQL설치의 공유 데이터 디렉토리, 종종/usr/local/share/postgresql(사용pg_config --sharedir확실하지 않은 경우 확인). 파일 형식은 단순히 한 줄에 하나씩 단어 목록입니다. 빈 줄과 후행 공백은 무시되고 대문자는 소문자로 변환되지만 파일 내용에 대해서는 다른 처리가 수행되지 않습니다.

이제 윈 토토을 테스트할 수 있습니다:

SELECT ts_lexize('public.simple_dict', '예');
 ts_lexize
-----------
 예

SELECT ts_lexize('public.simple_dict', 'The');
 ts_lexize
-----------

돌아가는 것도 선택할 수 있습니다NULL, 중지 단어 파일에 없는 경우 소문자 단어 대신. 이 동작은 윈 토토의를 설정하여 선택됩니다.수락매개변수 ~거짓. 예시를 계속하면:

ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false );

SELECT ts_lexize('public.simple_dict', '예');
 ts_lexize
-----------

SELECT ts_lexize('public.simple_dict', 'The');
 ts_lexize
-----------

기본 설정은수락 = 참, a를 배치하는 것만 유용합니다.단순윈 토토은 다음 윈 토토에 어떤 토큰도 전달하지 않기 때문에 윈 토토 목록 끝에 있습니다. 반대로,수락 = 거짓다음 윈 토토이 하나 이상 있을 때만 유용합니다.

주의

대부분의 윈 토토 유형은 중지 단어 파일과 같은 구성 파일에 의존합니다. 이 파일들반드시utf-8 인코딩으로 저장됩니다. 서버에서 읽을 때 실제 데이터베이스 인코딩으로 변환됩니다(다른 경우).

주의

일반적으로 데이터베이스 세션은 윈 토토 구성 파일이 세션 내에서 처음 사용될 때 한 번만 읽습니다. 구성 파일을 수정하고 기존 세션이 새 콘텐츠를 선택하도록 하려면텍스트 검색 윈 토토 변경윈 토토의 명령입니다. 이것은 다음과 같습니다.“더미”매개변수 값을 실제로 변경하지 않는 업데이트입니다.

12.6.3. 동의어 윈 토토

이 윈 토토 템플릿은 단어를 동의어로 바꾸는 윈 토토을 생성하는 데 사용됩니다. 구문은 지원되지 않습니다(동의어 윈 토토 템플릿(섹션 12.6.4)). 동의어 윈 토토은 예를 들어 영어 형태소 분석기 윈 토토이 단어를 축소하는 것을 방지하기 위해 언어적 문제를 극복하는 데 사용될 수 있습니다.“파리”에“파리”. 하나면 충분해요파리 파리동의어 윈 토토에 줄을 추가하고 그 앞에 넣으세요english_stem윈 토토. 예를 들면:

SELECT * FROM ts_debug('english', 'Paris');
   별칭 |   설명 | 토큰 |  윈 토토 |  윈 토토 | 어휘소 
---------+------+-------+---+---------------+---------
 ASCII워드 | 단어, 모두 ASCII | 파리 | english_stem | 영어_줄기 | 파리

텍스트 검색 윈 토토 생성 my_synonym(
    템플릿 = 동의어,
    동의어 = my_synonyms
);

텍스트 검색 구성 변경 english
    ASCIIWord에 대한 매핑 변경
    WITH my_synonym, english_stem;

SELECT * FROM ts_debug('english', 'Paris');
   별칭 |   설명 | 토큰 |       윈 토토 | 윈 토토 | 어휘소 
---------+------+-------+---------------+------------+---------
 ASCII워드 | 단어, 모두 ASCII | 파리 | my_synonym,english_stem | 내_동의어 | 파리

다음에 필요한 유일한 매개변수는동의어템플릿은동의어, 구성 파일의 기본 이름 —my_synonyms위의 예에서는. 파일의 전체 이름은 다음과 같습니다.$SHAREDIR/tsearch_data/my_synonyms.syn(어디에서$SHAREDIR의미PostgreSQL설치의 공유 데이터 디렉토리). 파일 형식은 대체할 단어당 한 줄이며, 단어 뒤에 동의어가 오고 공백으로 구분됩니다. 빈 줄과 후행 공백은 무시됩니다.

그동의어템플릿에는 선택적 매개변수도 있습니다대소문자 구분, 기본값은거짓. 언제대소문자 구분is거짓, 동의어 파일의 단어는 입력 토큰과 마찬가지로 소문자로 접혀집니다. 그럴 때참, 단어와 토큰은 소문자로 접혀지지 않고 있는 그대로 비교됩니다.

별표(*)는 구성 파일에서 동의어 끝에 배치될 수 있습니다. 이는 동의어가 접두사임을 나타냅니다. 항목이 사용되는 경우 별표는 무시됩니다.to_ts벡터(), 그러나 다음에서 사용되는 경우to_tsquery(), 결과는 접두사 일치 마커가 있는 쿼리 항목이 됩니다(참조섹션 12.3.2). 예를 들어, 다음 항목이$SHAREDIR/tsearch_data/synonym_sample.syn:

포스트그레스 pgsql
포스트그레SQL
포스트그레 pgsql
고글구글
인덱스 인덱스*

그러면 우리는 다음과 같은 결과를 얻게 될 것입니다:

mydb=# 텍스트 검색 윈 토토 생성 syn (템플릿=동의어, 동의어='synonym_sample');
mydb=# SELECT ts_lexize('syn', '인덱스');
 ts_lexize
-----------
 색인

12.6.4. 유의어 윈 토토

동의어 윈 토토(때때로 다음과 같이 축약됨TZ)는 단어와 구문의 관계에 대한 정보를 포함하는 단어 모음입니다(예: 더 넓은 용어()BT), 더 좁은 용어(NT), 선호 용어, 비선호 용어, 관련 용어 등

기본적으로 유의어 윈 토토은 선호하지 않는 모든 용어를 하나의 선호 용어로 대체하고 선택적으로 색인 생성을 위해 원래 용어도 보존합니다.PostgreSQL의 현재 동의어 윈 토토 구현은 추가된 동의어 윈 토토의 확장입니다.구문지원합니다. 동의어 윈 토토에는 다음 형식의 구성 파일이 필요합니다.

# 이것은 댓글입니다
샘플 단어: 색인된 단어
더 많은 샘플 단어: 더 많은 색인 단어
...

여기서 콜론(:) 기호는 문구와 대체 문구 사이의 구분 기호 역할을 합니다.

동의어 윈 토토은 다음을 사용합니다.하위윈 토토(윈 토토 구성에 지정됨)은 구문 일치를 확인하기 전에 입력 텍스트를 정규화합니다. 하위 윈 토토은 하나만 선택할 수 있습니다. 하위 윈 토토이 단어를 인식하지 못하면 오류가 보고됩니다. 그런 경우에는 해당 단어의 사용을 제거하거나 해당 단어에 대한 하위 윈 토토을 가르쳐야 합니다. 별표()를 넣을 수 있습니다.*) 색인된 단어의 시작 부분에 하위 윈 토토 적용을 건너뛰지만 모든 샘플 단어반드시하위 윈 토토에 알려져 있습니다.

입력과 일치하는 구문이 여러 개 있고 마지막 정의를 사용하여 연결이 끊어지면 동의어 윈 토토은 가장 긴 일치를 선택합니다.

하위 윈 토토에 의해 인식되는 특정 중지 단어는 지정할 수 없습니다. 대신에 사용하세요?불용어가 나타날 수 있는 위치를 표시합니다. 예를 들어 다음과 같이 가정합니다.a그리고the하위 윈 토토에 따른 불용어입니다:

? 하나 ? 2개 : swsw

일치하나 둘그리고하나 둘; 둘 다 다음으로 대체됩니다.swsw.

동의어 윈 토토에는 구문을 인식하는 기능이 있기 때문에 윈 토토의 상태를 기억하고 파서와 상호 작용해야 합니다. 동의어 윈 토토은 이러한 할당을 사용하여 다음 단어를 처리해야 하는지 또는 누적을 중지해야 하는지 확인합니다. 동의어 윈 토토은 주의 깊게 구성해야 합니다. 예를 들어, 동의어 윈 토토이 다음만 처리하도록 할당된 경우,asciiword토큰, 다음과 같은 동의어 윈 토토 정의하나 7토큰 유형 이후로는 작동하지 않습니다.단위동의어 윈 토토에 할당되지 않았습니다.

주의

동의어 윈 토토은 색인 생성 중에 사용되므로 동의어 윈 토토 매개변수가 변경되면요구재인덱싱 중입니다. 대부분의 다른 윈 토토 유형의 경우 불용어 추가 또는 제거와 같은 작은 변경으로 인해 다시 색인이 생성되지는 않습니다.

12.6.4.1. 동의어 윈 토토 구성

새 동의어 윈 토토을 정의하려면 다음을 사용하십시오.동의어 윈 토토템플릿. 예를 들면:

텍스트 검색 윈 토토 생성 thesaurus_simple(
    템플릿 = 동의어 윈 토토,
    DictFile = 신화사우루스,
    윈 토토 = pg_catalog.english_stem
);

여기:

thesaurus_simple새 윈 토토의 이름입니다
신화사우루스은 동의어 윈 토토 구성 파일의 기본 이름입니다. (전체 이름은 다음과 같습니다.$SHAREDIR/tsearch_data/mythesaurus.ths, 여기서$SHAREDIR설치 공유 데이터 디렉터리를 의미합니다.)
pg_catalog.english_stem은 동의어 윈 토토 정규화에 사용할 하위 윈 토토(여기서는 Snowball 영어 형태소 분석기)입니다. 하위 윈 토토에는 여기에 표시되지 않은 자체 구성(예: 불용어)이 있습니다.

이제 동의어 윈 토토 바인딩이 가능해졌습니다thesaurus_simple구성에서 원하는 토큰 유형으로 변경합니다. 예:

텍스트 검색 구성 변경 러시아어
    asciiword, asciihword, hword_asciipart에 대한 매핑 변경
    동의어 윈 토토_simple;

12.6.4.2. 동의어 윈 토토 예

간단한 천문학적 동의어 윈 토토을 생각해 보세요.thesaurus_astro, 여기에는 일부 천문학적 단어 조합이 포함되어 있습니다.

초신성 별: sn
게 성운 : 게

아래에서는 윈 토토을 생성하고 일부 토큰 유형을 천문학적 동의어 윈 토토 및 영어 형태소 분석기에 바인딩합니다.

텍스트 검색 윈 토토 생성 thesaurus_astro(
    템플릿 = 동의어 윈 토토,
    DictFile = thesaurus_astro,
    윈 토토 = english_stem
);

텍스트 검색 구성 변경 러시아어
    asciiword, asciihword, hword_asciipart에 대한 매핑 변경
    WITH thesaurus_astro, english_stem;

이제 우리는 그것이 어떻게 작동하는지 볼 수 있습니다.ts_lexize은 입력을 단일 토큰으로 처리하기 때문에 동의어 윈 토토을 테스트하는 데 그다지 유용하지 않습니다. 대신에 우리는plainto_tsquery그리고to_tsVector입력 문자열을 여러 토큰으로 나눕니다.

SELECT plainto_tsquery('초신성별');
 plainto_tsquery
-----------------
 'sn'

SELECT to_tsVector('초신성');
 to_ts벡터
-------------
 'sn':1

원칙적으로 다음을 사용할 수 있습니다.to_tsquery인수를 인용하는 경우:

SELECT to_tsquery('''초신성''');
 to_tsquery
------------
 'sn'

알아두세요초신성별일치초신성별inthesaurus_astro우리가 지정했기 때문에english_stem34207_34271e그리고s.

원래 문구와 대체 문구를 색인하려면 정의의 오른쪽 부분에 포함시키세요:

초신성 별 : sn 초신성 별

SELECT plainto_tsquery('초신성별');
       plainto_tsquery
----------------
 'sn' & '초신성' & '별'

12.6.5. Ispell윈 토토

그Ispell윈 토토 템플릿 지원형태학적 윈 토토, 이는 단어의 다양한 언어 형태를 동일한 어휘소로 정규화할 수 있습니다. 예를 들어 영어Ispell윈 토토은 검색어의 모든 어형변화 및 활용형과 일치할 수 있습니다.은행, 예:뱅킹, 뱅킹됨, 은행, 은행'및은행.

표준PostgreSQL배포에는 아무것도 포함되지 않습니다.Ispell구성 파일. 다양한 언어에 대한 윈 토토은 다음에서 제공됩니다.Ispell. 또한 일부 최신 윈 토토 파일 형식이 지원됩니다 —MySpell(OO < 2.0.1) 및훈스펠(OO = 2.0.2). 광범위한 윈 토토 목록은 다음에서 이용 가능합니다.오픈오피스 위키.

만들려면Ispell윈 토토은 다음 단계를 수행합니다:

윈 토토 구성 파일을 다운로드하세요.오픈오피스확장 파일에는.oxt확장. 추출이 필요합니다.aff그리고.dic파일, 확장자를 다음으로 변경하세요..부착그리고.dict. 일부 윈 토토 파일의 경우 명령을 사용하여 문자를 utf-8 인코딩으로 변환해야 합니다(예: 노르웨이어 윈 토토의 경우).
```
iconv -f ISO_8859-1 -t utf-8 -o nn_no.affix nn_NO.aff
iconv -f ISO_8859-1 -t utf-8 -o nn_no.dict nn_NO.dic
```
파일을 다음에 복사$SHAREDIR/tsearch_data디렉토리

다음 명령을 사용하여 PostgreSQL에 파일을 로드하십시오:

텍스트 검색 윈 토토 생성 english_hunspell(
    템플릿 = ispell,
    DictFile = en_us,
    AffFile = en_us,
    불용어 = 영어);

여기,딕트파일, AffFile그리고불용어윈 토토, 접사 및 불용어 파일의 기본 이름을 지정합니다. 불용어 파일은 위에서 설명한 것과 동일한 형식을 갖습니다.단순윈 토토 유형. 다른 파일의 형식은 여기에 지정되어 있지 않지만 위에서 언급한 웹 사이트에서 사용할 수 있습니다.

Ispell 윈 토토은 일반적으로 제한된 단어 집합을 인식하므로 다음에는 더 넓은 범위의 윈 토토이 와야 합니다. 예를 들어 모든 것을 인식하는 Snowball 윈 토토이 있습니다.

그.부착파일Ispell다음과 같은 구조를 가지고 있습니다:

접두사
플래그 *A:
    .            RE # enter  reenter와 같습니다.
접미사
플래그 T:
    E  ST # 마찬가지로 late  late
    [^AEIOU]Y  -Y,IEST # dirty  dirtyiest와 마찬가지로
    [AEIOU]Y  EST # 회색과 마찬가지로  가장 회색
    [^EY]  EST # 작음  작음과 같음

그리고.dict파일의 구조는 다음과 같습니다:

경과/ADGRS
라드/DGRS
대형/PRTY
종달새/MRS

형식.dict파일은 다음과 같습니다:

basic_form/affix_class_name

에서.부착파일의 모든 접사 플래그는 다음 형식으로 설명됩니다:

조건  [-stripping_letters,] 추가_부착

여기서 조건은 정규 표현식의 형식과 유사한 형식을 갖습니다. 그룹화를 사용할 수 있습니다.[...]그리고[^...]. 예를 들어,[AEIOU]Y단어의 마지막 문자가 다음임을 의미합니다."y"그리고 끝에서 두 번째 문자는"a", "e", "나", "오"또는"당신". [^EY]마지막 문자가 둘 다 아님을 의미합니다."e"또는"y".

Ispell 윈 토토은 복합어 분리를 지원합니다. 유용한 기능입니다. 첨부 파일은를 사용하여 특수 플래그를 지정해야 합니다.복합어 제어복합 형성에 참여할 수 있는 윈 토토 단어를 표시하는 진술:

복합어 제어 z

다음은 노르웨이어에 대한 몇 가지 예입니다:

SELECT ts_lexize('norwegian_ispell', 'overbulzonterningpakkmesterassistant');
   오버,불종,터닝,팩,메스터,어시스턴트

MySpell형식은의 하위 집합입니다.Hunspell..부착파일Hunspell다음과 같은 구조를 가지고 있습니다:

PFX A Y 1
PFX A 0 re .
SFX T N 4
SFX T 0초
SFX T y est [^aeiou]y
SFX T 0 est [aeiou]y
SFX T 0 est [^ey]

접사 클래스의 첫 번째 줄은 헤더입니다. 접사 규칙의 필드는 헤더 뒤에 나열됩니다.

매개변수 이름(PFX 또는 SFX)
플래그(접사 클래스 이름)
단어의 시작(접두사) 또는 끝(접미사)에서 문자 제거
접사 추가
정규식 형식과 유사한 형식을 갖는 조건

그.dict파일은 다음과 같습니다.dict파일Ispell:

식품 저장고/M
라디/RT
대형/RSPMYT
마음이 넓다

참고

MySpell복합어는 지원하지 않습니다.훈스펠복합어에 대한 정교한 지원이 있습니다. 현재,포스트그레SQLHunspell의 기본 복합어 연산만 구현합니다.

12.6.6. 눈덩이윈 토토

그눈덩이윈 토토 템플릿은 인기 있는 영어용 Porter의 형태소 분석 알고리즘의 발명가인 Martin Porter의 프로젝트를 기반으로 합니다. Snowball은 이제 다양한 언어에 대한 형태소 분석 알고리즘을 제공합니다(눈덩이 사이트자세한 내용은). 각 알고리즘은 단어의 일반적인 변형 형태를 해당 언어 내에서 기본 또는 어간, 철자로 줄이는 방법을 이해합니다. Snowball 윈 토토에는 다음이 필요합니다.언어사용할 형태소 분석기를 식별하는 매개변수이며 선택적으로 다음을 지정할 수 있습니다.불용어제거할 단어 목록을 제공하는 파일 이름. (포스트그레SQL의 표준 불용어 목록은 Snowball 프로젝트에서도 제공됩니다.) 예를 들어, 다음과 같은 내장 정의가 있습니다.

텍스트 검색 윈 토토 생성 english_stem(
    템플릿 = 눈덩이,
    언어 = 영어,
    StopWords = 영어
);

불용어 파일 형식은 이미 설명한 것과 같습니다.

A 눈덩이윈 토토은 단어를 단순화할 수 있는지 여부에 관계없이 모든 것을 인식하므로 윈 토토 목록 끝에 배치해야 합니다. 토큰이 이를 통해 다음 윈 토토으로 전달되지 않기 때문에 다른 윈 토토보다 먼저 갖는 것은 쓸모가 없습니다.

토토 캔 : 문서 : 13 : 12.5. 파서	배트맨 토토 : 문서 : 13 : 12 장. 전문 검색	PostgreSQL : 문서 : 13 : 12.7. 토토 핫 예
12.5. 파서	토토 꽁 머니 : 문서 : 13 : 토토 꽁 머니 13.20 문서화	12.7. 구성 예