Postgresql 9.1.24 문서화 | ||||
---|---|---|---|---|
PostgreSQL : 범퍼카 토토 : 9.1 : 추가 범퍼카 토토 | up | 12 장. 전체 텍스트 검색 | 토토 꽁 머니 PostgreSQL : 문서 : 9.1 : Dictionaries |
텍스트 검색 와이즈 토토는 원시 문서 분할을 담당합니다 텍스트로토큰각각 식별 가능한 유형 세트가 파서 자체. 파서는 텍스트를 전혀 수정하지 않습니다. - 단순히 그럴듯한 단어 경계를 식별합니다. 이 때문에 한정된 범위는 응용 프로그램 별 사용자 정의가 필요하지 않습니다 맞춤형 사전보다 구문 분석기. 현재PostgreSQL하나만 제공합니다 내장 된 와이즈 토토, 넓은 곳에 유용한 것으로 밝혀졌습니다. 응용 프로그램의 범위.
내장 된 와이즈 토토의 이름은pg_catalog.default. 23 개의 토큰 유형을 인식하고 표시테이블 12-1.
표 12-1. 기본 파서의 토큰 유형
alias | 설명 | example |
---|---|---|
asciiword | Word, 모든 ASCII Letters | 코끼리 |
Word | 단어, 모든 편지 | Mañana |
numword | 단어, 문자 및 숫자 | Beta1 |
asciihword | hyphenated Word, All ASCII | 최신 |
hword | 하이픈으로 된 단어, 모든 문자 | Lógico-Matemática |
numhword | 하이픈으로 된 단어, 문자 및 숫자 | postgresql-beta1 |
hword_asciipart | hyphenated Word Part, All ASCII | PostgreSQL맥락에서postgresql-beta1 |
hword_part | 하이픈으로 된 단어 부분, 모든 문자 | Lógico또는Matemática맥락에서Lógico-Matemática |
hword_numpart | 하이픈으로 된 단어 부분, 문자 및 숫자 | Beta112505_12533Postgresql-Beta1 |
이메일 | 이메일 주소 | foo@example.com |
프로토콜 | 프로토콜 헤드 | http : // |
url | url | example.com/stuff/index.html |
host | host | example.com |
url_path | URL 경로 | /stuff/index.html, URL의 컨텍스트 |
파일 | 파일 또는 경로 이름 | /usr/local/foo.txtURL 내에서 |
sfloat | 과학 표기법 | -1.234E56 |
float | 소수점 표기법 | -1.234 |
int | 서명 정수 | -1234 |
uint | 서명되지 않은 정수 | 1234 |
버전 | 버전 번호 | 8.3.0 |
tag | XML 태그 | <a href = "dictionaries.html" |
엔티티 | XML 엔티티 | & amp; |
blank | 공간 기호 | (모든 공백 또는 구두점은 그렇지 않습니다 인정) |
참고 :와이즈 토토의 개념"Letter"는 데이터베이스에 의해 결정됩니다 로케일 설정, 특히LC_CTYPE. 기본 만 포함하는 단어 ASCII 문자는 별도의 토큰 유형으로보고됩니다. 때로는 구별하는 데 유용합니다. 대부분의 유럽에서 언어, 토큰 유형Wordandasciiword처리해야합니다 서로 같은.
이메일모든 유효성을 지원하지는 않습니다 RFC 5322에 의해 정의 된 이메일 문자 전자 메일 사용자를 위해 지원되는 비 성능 문자 만 이름은 기간, 대시 및 밑줄입니다.
파서가 겹치는 토큰을 생성 할 수 있습니다. 같은 텍스트에서. 예를 들어, 하이픈 단어 전체 단어와 각각 모두로보고됩니다. 요소:
ts_debug의 별명, 설명, 토큰 선택 ( 'foo-bar-beta1'); 별칭 | 설명 | 토큰 ------------------------------------------------------------------------------------------------------------------------------ numhword | 하이픈으로 된 단어, 문자 및 숫자 | foo-bar-beta1 hword_asciipart | 하이픈으로 된 단어 부품, 모든 ascii | foo blank | 공간 기호 | - hword_asciipart | 하이픈으로 된 단어 부품, 모든 ascii | 술집 blank | 공간 기호 | - hword_numpart | 하이픈으로 된 단어 부분, 문자 및 숫자 | 베타 1
이 동작은 검색이 작동하기 때문에 바람직합니다. 전체 복합 단어와 성분 모두에 대해. 여기 있습니다 또 다른 유익한 예 :
ts_debug에서 별명, 설명, 토큰을 선택하십시오 ( 'http://example.com/stuff/index.html'); 별칭 | 설명 | 토큰 ----------+------------------------------------------------ 프로토콜 | 프로토콜 헤드 | http : // url | url | example.com/stuff/index.html 호스트 | 호스트 | example.com url_path | URL 경로 | /stuff/index.html