텍스트 검색 파서는 원시 문서 텍스트를 분할하는 역할을 담당합니다.토큰그리고 각 토큰의 유형을 식별합니다. 여기서 가능한 유형 세트는 파서 자체에 의해 정의됩니다. 파서는 텍스트를 전혀 수정하지 않는다는 점에 유의하세요. 단지 그럴듯한 단어 경계를 식별할 뿐입니다. 이러한 제한된 범위로 인해 사용자 정의 사전보다 애플리케이션별 사용자 정의 파서가 덜 필요합니다. 현재포스트그레SQL다양한 애플리케이션에 유용한 것으로 확인된 하나의 내장 스포츠 토토 베트맨만 제공합니다.
내장 파서의 이름은 다음과 같습니다.pg_catalog.default. 23개의 토큰 유형을 인식합니다.표 12.1.
표 12.1. 기본 파서의 토큰 유형
| 별칭 | 설명 | 예 |
|---|---|---|
asciiword |
워드, 모두 ASCII 문자 | 코끼리 |
단어 |
단어, 모든 글자 | 마냐나 |
숫자 |
단어, 문자 및 숫자 | 베타1 |
asciihword |
하이픈으로 연결된 단어, 모두 ASCII | 최신 정보 |
hword |
하이픈으로 연결된 단어, 모든 문자 | logico-matemática |
numhword |
하이픈으로 연결된 단어, 문자 및 숫자 | postgresql-beta1 |
hword_asciipart |
하이픈으로 연결된 단어 부분, 모두 ASCII | postgresql컨텍스트에서postgresql-beta1 |
hword_part |
하이픈으로 연결된 단어 부분, 모든 문자 | 로지코또는matemática컨텍스트에서logico-matemática |
hword_numpart |
하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1컨텍스트에서postgresql-beta1 |
이메일 |
이메일 주소 | foo@example.com |
프로토콜 |
프로토콜 헤드 | http:// |
url |
URL | example.com/stuff/index.html |
호스트 |
호스트 | example.com |
url_path |
URL 경로 | /stuff/index.html, URL의 맥락에서 |
파일 |
파일 또는 경로 이름 | /usr/local/foo.txt, URL 내에 있지 않은 경우 |
플로트 |
과학적 표기법 | -1.234e56 |
플로트 |
십진수 표기법 | -1.234 |
int |
부호 있는 정수 | -1234 |
단위 |
부호 없는 정수 | 1234 |
버전 |
버전 번호 | 8.3.0 |
태그 |
XML 태그 | <a href="dictionaries.html" |
엔티티 |
XML 엔터티 | & |
공백 |
공간 기호 | (달리 인식되지 않는 공백이나 구두점) |
스포츠 토토 베트맨의 a 개념“편지”특히 데이터베이스의 로케일 설정에 따라 결정됩니다.lc_ctype. 기본 ASCII 문자만 포함하는 단어는 때로는 구분하는 것이 유용하므로 별도의 토큰 유형으로 보고됩니다. 대부분의 유럽 언어에서는 토큰 유형단어그리고asciiword동일하게 취급되어야 합니다.
이메일RFC 5322에 정의된 모든 유효한 이메일 문자를 지원하지 않습니다. 특히 이메일 사용자 이름에 지원되는 영숫자가 아닌 문자는 마침표, 대시 및 밑줄뿐입니다.
파서가 동일한 텍스트에서 중복되는 토큰을 생성하는 것이 가능합니다. 예를 들어, 하이픈으로 연결된 단어는 전체 단어와 각 구성 요소로 보고됩니다.
ts_debug('foo-bar-beta1')에서 별칭, 설명, 토큰 선택;
별칭 | 설명 | 토큰
---+------------------+---------------
숫자 | 하이픈으로 연결된 단어, 문자 및 숫자 | foo-bar-beta1
hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 푸
공백 | 공간 기호 | -
hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 바
공백 | 공간 기호 | -
hword_numpart | 하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1
이 동작은 전체 복합어와 구성요소 모두에 대해 검색이 가능하므로 바람직합니다. 다음은 또 다른 유익한 예입니다.
ts_debug('http://example.com/stuff/index.html')에서 별칭, 설명, 토큰 선택;
별칭 | 설명 | 토큰
----------+---------------+------------------
프로토콜 | 프로토콜 헤드 | http://
URL | URL | example.com/stuff/index.html
호스트 | 호스트 | example.com
URL_경로 | URL 경로 | /stuff/index.html