| PostgreSQL 9.3.25 문서 | ||||
|---|---|---|---|---|
| 스포츠 토토 베트맨 : 문서 : 9.3 : 추가 기능 | 사설 토토 : 문서 : 9.3 : 전문 검색 | 12장. 전체 텍스트 검색 | PostgreSQL : 문서 : 9.3 : 토토 사이트 추천 | |
텍스트 검색 파서는 원시 문서 분할을 담당합니다. 텍스트 입력토큰각각 식별 토큰의 유형. 가능한 유형 세트는 다음에 의해 정의됩니다. 파서 자체. 파서는 텍스트를 전혀 수정하지 않습니다. 단지 그럴듯한 단어 경계를 식별할 뿐입니다. 이 때문에 범위가 제한되어 있어 애플리케이션별 맞춤화가 덜 필요합니다. 사용자 정의 사전보다 파서가 더 많습니다. 현재포스트그레SQL단 하나만 제공합니다. 광범위한 범위에 유용한 것으로 밝혀진 내장 와이즈 토토 응용 프로그램의.
내장 파서의 이름은 다음과 같습니다.pg_catalog.default. 23가지 토큰 유형을 인식하며, 에 표시됨테이블 12-1.
표 12-1. 기본 파서의 토큰 유형
| 별칭 | 설명 | 예 |
|---|---|---|
| asciiword | 워드, 모두 ASCII 문자 | 코끼리 |
| 단어 | 단어, 모든 글자 | 마냐나 |
| 숫자 | 단어, 문자 및 숫자 | 베타1 |
| asciihword | 하이픈으로 연결된 단어, 모두 ASCII | 최신 정보 |
| hword | 하이픈으로 연결된 단어, 모든 문자 | logico-matemática |
| numhword | 하이픈으로 연결된 단어, 문자 및 숫자 | postgresql-beta1 |
| hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | postgresql컨텍스트에서postgresql-beta1 |
| hword_part | 하이픈으로 연결된 단어 부분, 모든 문자 | 로지코또는matemática문맥에서logico-matemática |
| hword_numpart | 하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1문맥에서postgresql-beta1 |
| 이메일 | 이메일 주소 | foo@example.com |
| 프로토콜 | 프로토콜 헤드 | http:// |
| url | URL | example.com/stuff/index.html |
| 호스트 | 호스트 | example.com |
| url_path | URL 경로 | /stuff/index.html, 맥락에서 URL |
| 파일 | 파일 또는 경로 이름 | /usr/local/foo.txt, 범위 내에 있지 않은 경우 URL |
| 플로트 | 과학적 표기법 | -1.234e56 |
| 플로트 | 십진수 표기법 | -1.234 |
| int | 부호 있는 정수 | -1234 |
| 단위 | 부호 없는 정수 | 1234 |
| 버전 | 버전 번호 | 8.3.0 |
| 태그 | XML 태그 | <a href="dictionaries.html" |
| 엔티티 | XML 엔터티 | & |
| 공백 | 공간 기호 | (달리 인식되지 않는 공백이나 구두점) |
참고:와이즈 토토의 a 개념"편지"데이터베이스의 로케일에 따라 결정됩니다. 구체적으로 설정lc_ctype. 단어 기본 ASCII 문자만 포함하는 경우 별도의 문자로 보고됩니다. 때로는 토큰 유형을 구별하는 것이 유용하기 때문입니다. 에서 대부분의 유럽 언어, 토큰 유형단어그리고asciiword동일하게 취급되어야 합니다.
이메일모든 유효한 이메일을 지원하지 않습니다 RFC 5322에 정의된 문자입니다. 특히, 이메일 사용자 이름에 지원되는 영숫자가 아닌 문자는 다음과 같습니다. 마침표, 대시 및 밑줄.
파서는 다음에서 중복되는 토큰을 생성할 수 있습니다. 같은 텍스트 조각. 예를 들어, 하이픈으로 연결된 단어는 다음과 같습니다. 전체 단어와 각 구성 요소로 보고되었습니다.
ts_debug('foo-bar-beta1')에서 별칭, 설명, 토큰 선택;
별칭 | 설명 | 토큰
---+------------------+---------------
숫자 | 하이픈으로 연결된 단어, 문자 및 숫자 | foo-bar-beta1
hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 푸
공백 | 공간 기호 | -
hword_asciipart | 하이픈으로 연결된 단어 부분, 모두 ASCII | 바
공백 | 공간 기호 | -
hword_numpart | 하이픈으로 연결된 단어 부분, 문자 및 숫자 | 베타1
이 동작은 검색이 가능하므로 바람직합니다. 전체 합성어와 구성 요소 모두. 여기 또 다른 것이 있습니다 유익한 예:
ts_debug('http://example.com/stuff/index.html')에서 별칭, 설명, 토큰 선택;
별칭 | 설명 | 토큰
----------+---------------+------------------
프로토콜 | 프로토콜 헤드 | http://
URL | URL | example.com/stuff/index.html
호스트 | 호스트 | example.com
URL_경로 | URL 경로 | /stuff/index.html| 이전 | 배트맨 토토 : 문서 : 9.3 : 배트맨 토토 9.3.25 문서화 | 다음 |
| 추가 기능 | 위로 | 사전 |