| PostgreSQL 9.2.24 문서 | ||||
|---|---|---|---|---|
| PostgreSQL : 토토 결과 : 9.2 : 추가 토토 결과 | 위로 | 12장. 전체 텍스트 검색 | PostgreSQL : 문서 : 9.2 : 토토 결과 | |
텍스트 검색 파서는 원시 문서 분할을 담당합니다. 텍스트 입력토큰각각 식별 토큰의 유형. 가능한 유형 세트는 다음에 의해 정의됩니다. 파서 자체. 파서는 텍스트를 전혀 수정하지 않습니다. — 단순히 그럴듯한 단어 경계를 식별합니다. 이 때문에 범위가 제한되어 있어 애플리케이션별 맞춤화가 덜 필요합니다. 사용자 정의 사전보다 파서가 더 많습니다. 현재포스트그레SQL단 하나만 제공합니다. 다양한 용도에 유용한 내장 스포츠 토토 베트맨 다양한 응용 분야.
내장 파서의 이름은 다음과 같습니다.pg_catalog.default. 23가지 토큰 유형을 인식하며, 에 표시됨테이블 12-1.
표 12-1. 기본 파서의 토큰 유형
| 별칭 | 설명 | 예 |
|---|---|---|
| asciiword | 워드, 모두 ASCII 문자 | 코끼리 |
| 단어 | 단어, 모든 문자 | 마냐나 |
| 숫자 | 단어, 문자 및 숫자 | 베타1 |
| asciihword | 하이픈으로 연결된 단어, 모두 ASCII | 최신 정보 |
| hword | 하이픈으로 연결된 단어, 모든 문자 | logico-matemática |
| numhword | 하이픈으로 연결된 단어, 문자 및 숫자 | postgresql-beta1 |
| hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | postgresql문맥에서postgresql-beta1 |
| hword_part | 하이픈으로 연결된 단어 부분, 모든 문자 | 로지코또는matemática컨텍스트에서logico-matemática |
| hword_numpart | 하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1컨텍스트에서postgresql-beta1 |
| 이메일 | 이메일 주소 | foo@example.com |
| 프로토콜 | 프로토콜 헤드 | http:// |
| url | URL | example.com/stuff/index.html |
| 호스트 | 호스트 | example.com |
| url_path | URL 경로 | /stuff/index.html, URL의 컨텍스트 |
| 파일 | 파일 또는 경로 이름 | /usr/local/foo.txt, 그렇지 않은 경우 URL 내에서 |
| 플로트 | 과학적 표기법 | -1.234e56 |
| 플로트 | 십진수 표기법 | -1.234 |
| int | 부호 있는 정수 | -1234 |
| 단위 | 부호 없는 정수 | 1234 |
| 버전 | 버전 번호 | 8.3.0 |
| 태그 | XML 태그 | <a href="dictionaries.html" |
| 엔티티 | XML 엔터티 | & |
| 공백 | 공간 기호 | (그렇지 않은 경우 공백이나 구두점 인식됨) |
참고:스포츠 토토 베트맨의 a 개념"편지"은 데이터베이스의 로케일 설정, 구체적으로lc_ctype. 기본만 포함하는 단어 ASCII 문자는 별도의 토큰 유형으로 보고됩니다. 때로는 구별하는 데 유용합니다. 대부분의 유럽에서는 언어, 토큰 유형단어그리고asciiword치료를 받아야 합니다 비슷해요.
이메일유효한 항목을 모두 지원하지 않습니다. RFC 5322에 정의된 이메일 문자입니다. 특히, 이메일 사용자에게는 영숫자가 아닌 문자만 지원됩니다. 이름은 마침표, 대시 및 밑줄입니다.
파서가 중복되는 토큰을 생성할 수 있습니다 같은 텍스트에서. 예를 들어, 하이픈으로 연결된 단어 전체 단어와 각 단어로 보고됩니다. 구성요소:
ts_debug('foo-bar-beta1')에서 별칭, 설명, 토큰 선택;
별칭 | 설명 | 토큰
---+------------------+---------------
숫자 | 하이픈으로 연결된 단어, 문자 및 숫자 | foo-bar-beta1
hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 푸
공백 | 공간 기호 | -
hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 바
공백 | 공간 기호 | -
hword_numpart | 하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1
이 동작은 검색이 가능하므로 바람직합니다. 전체 합성어와 구성요소 모두에 대해. 여기는 또 다른 유익한 예:
ts_debug('http://example.com/stuff/index.html')에서 별칭, 설명, 토큰을 선택하세요.
별칭 | 설명 | 토큰
----------+---------------+------------------
프로토콜 | 프로토콜 헤드 | http://
URL | URL | example.com/stuff/index.html
호스트 | 호스트 | example.com
URL_경로 | URL 경로 | /stuff/index.html