이 문서는 지원되지 않는 버전의 PostgreSQL을위한 것입니다.
당신은에 대해 같은 페이지를 볼 수 있습니다PostgreSQL : 문서 : 17 : 12.5. 스포츠 토토버전 또는 위에 나열된 다른 지원 버전 중 하나입니다.

12.5. 와이즈 토토

텍스트 검색 와이즈 토토는 원시 문서 분할을 담당합니다 텍스트로토큰각각 식별 가능한 유형 세트가 파서 자체. 파서는 텍스트를 전혀 수정하지 않습니다. 단순히 그럴듯한 단어 경계를 식별합니다. 이 때문에 한정된 범위는 응용 프로그램 별 사용자 정의가 필요하지 않습니다 맞춤형 사전보다 구문 분석기. 현재PostgreSQL하나만 제공합니다 넓은 범위에 유용한 것으로 밝혀진 내장 와이즈 토토 응용 프로그램의.

내장 된 와이즈 토토의 이름이 지정되었습니다PG_CATALOG.DEFAULT. 23 개의 토큰 유형을 인식하고 표시테이블 12-1.

표 12-1. 기본 파서의 토큰 유형

별명 설명 example
asciiword Word, 모든 ASCII Letters 코끼리
Word 단어, 모든 편지 Mañana
numword 단어, 문자 및 숫자 Beta1
asciihword hyphenated Word, All ASCII 최신
hword 하이픈으로 된 단어, 모든 문자 Lógico-Matemática
numhword 하이픈으로 된 단어, 문자 및 숫자 postgresql-beta1
hword_asciipart 하이픈으로 된 단어 부품, 모든 ASCII PostgreSQL맥락에서Postgresql-Beta1
hword_part 하이픈으로 된 단어 부품, 모든 문자 Lógico또는Matemática맥락에서Lógico-Matemática
hword_numpart 하이픈으로 된 단어 부품, 문자 및 숫자 Beta1맥락에서Postgresql-Beta1
이메일 이메일 주소 foo@example.com
프로토콜 프로토콜 헤드 http : //
URL url example.com/stuff/index.html
host host example.com
url_path URL 경로 /Stuff/index.html, a URL
파일 파일 또는 경로 이름 /usr/local/foo.txtURL
sfloat 과학 표기법 -1.234E56
float 소수점 표기법 -1.234
int 서명 정수 -1234
uint 부호없는 정수 1234
버전 버전 번호 8.3.0
tag XML 태그 <a href = "dictionaries.html"
엔티티 XML 엔티티 & amp;
blank 공간 기호 (모든 공백 또는 구두점이 인식되지 않음)

참고 :와이즈 토토의 개념"Letter"는 데이터베이스의 로케일에 의해 결정됩니다 설정, 구체적으로LC_CTYPE. 단어 기본 ASCII 문자 만 포함하는 것은 별도로보고됩니다. 토큰 유형은 때로는 구별하는 것이 유용하기 때문에. ~ 안에 대부분의 유럽 언어, 토큰 유형Wordandasciiword똑같이 취급해야합니다.

이메일모든 유효한 이메일을 지원하지는 않습니다 RFC 5322에 의해 정의 된 문자. 특히, 유일한 문자 전자 메일 사용자 이름을 지원하는 비 널리 퍼진 문자는 다음과 같습니다 기간, 대시 및 밑줄.

파서가 겹치는 토큰을 생산할 수 있습니다. 같은 텍스트 조각. 예를 들어, 하이픈으로 된 단어가 될 것입니다 전체 단어와 각 구성 요소로보고 :

ts_debug의 별명, 설명, 토큰 선택 ( 'foo-bar-beta1');
      별칭 |               설명 |     토큰     
------------------------------------------------------------------------------------------------------------------------------
 numhword | 하이픈으로 된 단어, 문자 및 숫자 | foo-bar-beta1
 hword_asciipart | 하이픈으로 된 단어 부품, 모든 ascii | foo
 blank | 공간 기호 | -
 hword_asciipart | 하이픈으로 된 단어 부품, 모든 ascii | 술집
 blank | 공간 기호 | -
 hword_numpart | 하이픈으로 된 단어 부분, 문자 및 숫자 | 베타 1

이 동작은 검색이 작동하도록 허용하기 때문에 바람직합니다. 전체 복합 단어와 구성 요소 모두. 여기 또 다른 것이 있습니다 유익한 예 :

ts_debug에서 별명, 설명, 토큰을 선택하십시오 ( 'http://example.com/stuff/index.html');
  별칭 |  설명 |            토큰             
----------+------------------------------------------------
 프로토콜 | 프로토콜 헤드 | http : //
 url | url | example.com/stuff/index.html
 호스트 | 호스트 | example.com
 url_path | URL 경로 | /stuff/index.html