이 문서는 지원되지 않는 PostgreSQL 버전에 대한 것입니다.
당신은 다음과 같은 페이지를 보고 싶을 수도 있습니다.PostgreSQL : 문서 : 17 : 12.5. 스포츠 토토버전 또는 위에 나열된 다른 지원 버전 중 하나를 사용하세요.

12.5. 와이즈 토토

텍스트 검색 파서는 원시 문서 분할을 담당합니다. 텍스트 입력토큰각각 식별 토큰의 유형. 가능한 유형 세트는 다음에 의해 정의됩니다. 파서 자체. 파서는 텍스트를 전혀 수정하지 않습니다. 단지 그럴듯한 단어 경계를 식별할 뿐입니다. 이 때문에 범위가 제한되어 있어 애플리케이션별 맞춤화가 덜 필요합니다. 사용자 정의 사전보다 파서가 더 많습니다. 현재포스트그레SQL단 하나만 제공합니다. 광범위한 범위에 유용한 것으로 밝혀진 내장 와이즈 토토 응용 프로그램의.

내장 파서의 이름은 다음과 같습니다.pg_catalog.default. 23가지 토큰 유형을 인식하며, 에 표시됨테이블 12-1.

표 12-1. 기본 파서의 토큰 유형

별칭 설명
asciiword 워드, 모두 ASCII 문자 코끼리
단어 단어, 모든 글자 마냐나
숫자 단어, 문자 및 숫자 베타1
asciihword 하이픈으로 연결된 단어, 모두 ASCII 최신 정보
hword 하이픈으로 연결된 단어, 모든 문자 logico-matemática
numhword 하이픈으로 연결된 단어, 문자 및 숫자 postgresql-beta1
hword_asciipart 하이픈으로 연결된 단어 부분, 모두 ASCII postgresql컨텍스트에서postgresql-beta1
hword_part 하이픈으로 연결된 단어 부분, 모든 문자 로지코또는matemática문맥에서logico-matemática
hword_numpart 하이픈으로 연결된 단어 부분, 문자 및 숫자 베타1문맥에서postgresql-beta1
이메일 이메일 주소 foo@example.com
프로토콜 프로토콜 헤드 http://
url URL example.com/stuff/index.html
호스트 호스트 example.com
url_path URL 경로 /stuff/index.html, 맥락에서 URL
파일 파일 또는 경로 이름 /usr/local/foo.txt, 범위 내에 있지 않은 경우 URL
플로트 과학적 표기법 -1.234e56
플로트 십진수 표기법 -1.234
int 부호 있는 정수 -1234
단위 부호 없는 정수 1234
버전 버전 번호 8.3.0
태그 XML 태그 <a href="dictionaries.html"
엔티티 XML 엔터티 &amp;
공백 공간 기호 (달리 인식되지 않는 공백이나 구두점)

참고:와이즈 토토의 a 개념"편지"데이터베이스의 로케일에 따라 결정됩니다. 구체적으로 설정lc_ctype. 단어 기본 ASCII 문자만 포함하는 경우 별도의 문자로 보고됩니다. 때로는 토큰 유형을 구별하는 것이 유용하기 때문입니다. 에서 대부분의 유럽 언어, 토큰 유형단어그리고asciiword동일하게 취급되어야 합니다.

이메일모든 유효한 이메일을 지원하지 않습니다 RFC 5322에 정의된 문자입니다. 특히, 이메일 사용자 이름에 지원되는 영숫자가 아닌 문자는 다음과 같습니다. 마침표, 대시 및 밑줄.

파서는 다음에서 중복되는 토큰을 생성할 수 있습니다. 같은 텍스트 조각. 예를 들어, 하이픈으로 연결된 단어는 다음과 같습니다. 전체 단어와 각 구성 요소로 보고되었습니다.

ts_debug('foo-bar-beta1')에서 별칭, 설명, 토큰 선택;
      별칭 |               설명 |     토큰     
---+------------------+---------------
 숫자 | 하이픈으로 연결된 단어, 문자 및 숫자 | foo-bar-beta1
 hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 푸
 공백 | 공간 기호 | -
 hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 바
 공백 | 공간 기호 | -
 hword_numpart | 하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1

이 동작은 검색이 가능하므로 바람직합니다. 전체 합성어와 구성 요소 모두. 여기 또 다른 것이 있습니다 유익한 예:

ts_debug('http://example.com/stuff/index.html')에서 별칭, 설명, 토큰 선택;
  별칭 |  설명 |            토큰             
----------+---------------+------------------
 프로토콜 | 프로토콜 헤드 | http://
 URL | URL | example.com/stuff/index.html
 호스트 | 호스트 | example.com
 URL_경로 | URL 경로 | /stuff/index.html