토토 사이트 추천은 사용해서는 안 되는 단어를 제거하는 데 사용됩니다. 검색에서 고려됨(단어 중지) 및 에정규화단어가 다르기 때문에 동일한 단어의 파생 형태가 일치합니다. 성공적으로 정규화된 단어를 a라고 합니다.어휘. 따로 검색 품질 개선, 정규화 및 정지 제거부터 단어는 크기를 줄입니다ts벡터문서를 표현하여 성능을 향상시킵니다. 정규화는 항상 언어적인 의미를 갖는 것은 아니며 일반적으로 애플리케이션 의미에 따라 다릅니다.
정규화의 몇 가지 예:
언어 - Ispell 토토 사이트 추천은 입력 단어를 정규화된 형태; 형태소 분석 토토 사이트 추천은 단어 끝을 제거합니다.
URL위치는 다음과 같습니다. 동등한 URL이 일치하도록 정규화되었습니다.
http://www.pgsql.ru/db/mw/index.html
http://www.pgsql.ru/db/mw/
http://www.pgsql.ru/db/../db/mw/index.html
색상 이름은 16진수 값으로 대체될 수 있습니다. 예:빨간색, 녹색, 파란색, 자홍색 - FF0000, 00FF00, 0000FF, FF00FF
숫자를 색인화하면 소수점 이하의 숫자를 제거하여 가능한 숫자의 범위를 줄이십시오. 예를 들어3.14159265359, 3.1415926, 3.14이후에도 마찬가지일 것입니다 소수점 이하 두 자리만 유지되는 경우 정규화 포인트.
토토 사이트 추천은 토큰을 입력으로 받아들이고 반환:
입력 토큰이 알려진 경우 어휘의 배열 토토 사이트 추천(하나의 토큰이 둘 이상의 토큰을 생성할 수 있음에 유의) 어휘)
다음이 포함된 단일 어휘TSL_FILTER플래그 세트, 원래 토큰을 새 토큰으로 교체 후속 토토 사이트 추천으로 전달됩니다(이 작업을 수행하는 토토 사이트 추천은 a라고 불렀다토토 사이트 추천 필터링)
토토 사이트 추천이 토큰을 알고 있지만 토큰인 경우 빈 배열 중지 단어
NULL토토 사이트 추천이 그렇지 않은 경우 입력 토큰을 인식합니다
PostgreSQL토토 사이트 추천 정의된 제공 다양한 언어에 대한 토토 사이트 추천. 미리 정의된 여러 가지 항목도 있습니다. 사용자 정의를 통해 새 토토 사이트 추천을 생성하는 데 사용할 수 있는 템플릿 매개변수. 토토 사이트 추천 정의된 각 토토 사이트 추천 템플릿은 아래에 설명되어 있습니다. 기존 템플릿이 적합하지 않은 경우 새 템플릿을 만들 수 있습니다. 것들; 참조하세요기여/지역PostgreSQL배포 예.
텍스트 검색 구성은 파서를 세트와 함께 바인딩합니다 파서의 출력 토큰을 처리하기 위한 토토 사이트 추천입니다. 각각에 대해 파서가 반환할 수 있는 토큰 유형, 별도의 목록 토토 사이트 추천은 구성에 따라 지정됩니다. 토큰일 때 해당 유형이 파서에 의해 발견되면 목록의 각 토토 사이트 추천은 일부 토토 사이트 추천이 이를 알려진 것으로 인식할 때까지 차례로 참조합니다. 단어. 불용어로 식별되거나 토토 사이트 추천이 없는 경우 토큰을 인식하면 폐기되고 색인이 생성되지 않습니다. 검색했습니다. 일반적으로 다음을 반환하는 첫 번째 토토 사이트 추천은 비-NULL출력에 따라 결과가 결정되며, 나머지 토토 사이트 추천은 참조되지 않습니다. 하지만 필터링 토토 사이트 추천은 주어진 단어를 수정된 단어로 바꿀 수 있습니다. 그런 다음 후속 토토 사이트 추천으로 전달됩니다.
토토 사이트 추천 목록을 구성하는 일반적인 규칙은 다음과 같습니다. 가장 좁고 가장 구체적인 토토 사이트 추천을 먼저 배치한 다음 보다 일반적인 토토 사이트 추천, 매우 일반적인 것으로 마무리 토토 사이트 추천, 예를 들어눈덩이음소거 또는간단한, 인식합니다. 모든 것. 예를 들어 천문학 관련 검색의 경우 (astro_enconfiguration) 바인딩 가능 토큰 유형asciiword(ASCII 단어)를 천문용어 동의어토토 사이트 추천, 일반영어 토토 사이트 추천과 a눈덩이영어 형태소 분석기:
텍스트 검색 구성 변경 astro_en
astrosyn, english_ispell, english_stem을 사용하여 asciiword에 대한 매핑을 추가합니다.
필터링 토토 사이트 추천은 목록의 어느 곳에나 위치할 수 있습니다. 쓸모없는 마지막 부분을 제외하고. 필터링 토토 사이트 추천은 다음과 같습니다. 나중에 작업을 단순화하기 위해 단어를 부분적으로 정규화하는 데 유용합니다. 토토 사이트 추천. 예를 들어 필터링 토토 사이트 추천을 사용하여 다음을 수행할 수 있습니다. 다음과 같이 악센트가 있는 문자에서 악센트를 제거합니다.악센트 없음모듈.
불요 단어는 매우 일반적이며 거의 모든 언어에 나타나는 단어입니다. 모든 문서이며 차별 가치가 없습니다. 그러므로 그들은 전체 텍스트 검색에서는 무시될 수 있습니다. 예를 들어, 모든 영어 텍스트에는 다음과 같은 단어가 포함되어 있습니다.a그리고그이므로 저장해 두는 것은 쓸모가 없습니다. 색인. 그러나 불용어는 위치에 영향을 미칩니다.ts벡터, 이는 순위에 영향을 미칩니다.
SELECT to_tsVector('english','불용어 목록에서');
to_ts벡터
---------------
'목록':3 '중지':5 '단어':6
1,2,4번 위치가 누락된 이유는 불용어 때문입니다. 순위 불용어가 있거나 없는 문서에 대해 계산된 값은 상당히 높습니다. 다르다:
SELECT ts_rank_cd (to_tsVector('english','중지 단어 목록에서'), to_tsquery('list & stop'));
ts_rank_cd
------------
0.05
SELECT ts_rank_cd (to_tsVector('english','목록 중지 단어'), to_tsquery('목록 & 중지'));
ts_rank_cd
------------
0.1
불용어를 처리하는 방법은 특정 토토 사이트 추천에 달려 있습니다. 예를 들어,ispell토토 사이트 추천 먼저 단어를 정규화한 다음 중지 단어 목록을 살펴보세요.눈덩이stemmer는 먼저 다음 목록을 확인하세요. 말을 중지하십시오. 다른 행동의 이유는 소음을 줄이세요.
그간단한토토 사이트 추천 템플릿이 작동합니다. 입력 토큰을 소문자로 변환하고 이를 확인하여 불용어 파일. 파일에서 발견되면 비어 있습니다. 배열이 반환되어 토큰이 삭제됩니다. 그렇지 않은 경우, 단어의 소문자 형태가 정규화된 어휘소로 반환됩니다. 또는 토토 사이트 추천을 보고하도록 구성할 수 있습니다. 비불용어는 인식되지 않은 것으로 간주되어 전달될 수 있습니다. 목록의 다음 토토 사이트 추천입니다.
다음은 다음을 사용한 토토 사이트 추천 정의의 예입니다.간단한템플릿:
텍스트 검색 토토 사이트 추천 생성 public.simple_dict(
템플릿 = pg_catalog.simple,
STOPWORDS = 영어
);
여기,영어은(는) 기본 이름입니다. 불용어 파일. 파일의 전체 이름은 다음과 같습니다.$SHAREDIR/tsearch_data/english.stop, 여기서$SHAREDIR의미PostgreSQL설치의 공유 데이터 디렉토리, 자주/usr/local/share/postgresql(사용pg_config --sharedir당신이 그렇지 않은지 확인하기 위해 물론입니다). 파일 형식은 단순히 한 줄에 하나씩 단어 목록입니다. 빈 줄과 후행 공백은 무시되며 대문자는 소문자로 접혀 있지만 파일에 대한 다른 처리는 수행되지 않습니다. 내용.
이제 토토 사이트 추천을 테스트할 수 있습니다:
SELECT ts_lexize('public.simple_dict','예');
ts_lexize
-----------
예
SELECT ts_lexize('public.simple_dict','The');
ts_lexize
-----------
귀국을 선택할 수도 있습니다.NULL, 소문자 단어 대신, 정지 위치에 해당 단어가 없으면 단어 파일. 이 동작은 토토 사이트 추천의를 설정하여 선택됩니다.수락매개변수 ~거짓. 예시를 계속하면:
텍스트 검색 토토 사이트 추천 변경 public.simple_dict ( Accept = false );
SELECT ts_lexize('public.simple_dict','예');
ts_lexize
-----------
SELECT ts_lexize('public.simple_dict','The');
ts_lexize
-----------
기본 설정은수락 = 참, a를 배치하는 것만 유용합니다.단순목록 끝에 토토 사이트 추천 토토 사이트 추천은 어떤 토큰도 다음 항목에 전달하지 않기 때문입니다. 토토 사이트 추천. 반대로,수락 = 거짓다음이 있을 때만 유용합니다. 다음 토토 사이트 추천이 하나 이상 있습니다.
| 주의 |
|
대부분의 토토 사이트 추천 유형은 다음과 같은 구성 파일에 의존합니다. 불용어 파일. 이 파일들반드시utf-8 인코딩으로 저장됩니다. 실제 데이터베이스 인코딩으로 변환됩니다. 서버로 읽어들일 때 다릅니다. |
| 주의 |
|
일반적으로 데이터베이스 세션은 토토 사이트 추천을 읽습니다. 구성 파일은 해당 환경 내에서 처음 사용될 때 한 번만 사용됩니다. 세션. 구성 파일을 수정하고 강제로 적용하려는 경우 새 콘텐츠를 선택하려면 기존 세션에서 발행하세요.텍스트 검색 토토 사이트 추천 변경명령을 토토 사이트 추천. 이것은 다음과 같습니다."더미"업데이트 실제로 매개변수 값은 변경되지 않습니다. |
이 토토 사이트 추천 템플릿은 토토 사이트 추천을 생성하는 데 사용됩니다. 단어를 동의어로 바꾸십시오. 구문은 지원되지 않습니다( 동의어 토토 사이트 추천 템플릿(섹션 12.6.4)). 동의어 토토 사이트 추천을 사용하여 극복할 수 있습니다. 예를 들어 영어 형태소 분석기를 방지하기 위한 언어 문제 단어를 줄이는 토토 사이트 추천"파리"에"파리". 그것은 충분히 가질 수 있다파리 파리라인의 동의어 토토 사이트 추천을 넣고 그 앞에 넣으세요.english_stem토토 사이트 추천. 예를 들면:
SELECT * FROM ts_debug('english', 'Paris');
별칭 | 설명 | 토큰 | 토토 사이트 추천 | 토토 사이트 추천 | 어휘소
---------+------+-------+---+---------------+---------
ASCII워드 | 단어, 모두 ASCII | 파리 | english_stem | 영어_줄기 | 파리
텍스트 검색 토토 사이트 추천 생성 my_synonym(
템플릿 = 동의어,
동의어 = my_synonyms
);
텍스트 검색 구성 변경 english
ASCIIWord에 대한 매핑 변경
WITH my_synonym, english_stem;
SELECT * FROM ts_debug('english', 'Paris');
별칭 | 설명 | 토큰 | 토토 사이트 추천 | 토토 사이트 추천 | 어휘소
---------+------+-------+---------------+------------+---------
ASCII워드 | 단어, 모두 ASCII | 파리 | my_synonym,english_stem | 내_동의어 | 파리
다음에 필요한 유일한 매개변수동의어템플릿은동의어은 해당 제품의 기본 이름입니다. 구성 파일 —my_synonyms에 위의 예. 파일의 전체 이름은 다음과 같습니다.$SHAREDIR/tsearch_data/my_synonyms.syn(어디에서$SHAREDIR의미PostgreSQL설치의 공유 데이터 디렉토리). 파일 형식은 단어 당 한 줄입니다. 단어로 대체되고 그 뒤에 동의어가 붙으며 다음으로 구분됩니다. 공백. 빈 줄과 후행 공백은 무시됩니다.
그동의어템플릿에는 선택적 매개변수대소문자 구분, 기본값은거짓. 언제대소문자 구분이다거짓, 동의어 파일의 단어는 입력된 대로 소문자로 접혀집니다. 토큰. 그럴 때참, 단어 및 토큰 소문자로 접히지 않고 있는 그대로 비교됩니다.
별표(*)는 다음 위치에 배치할 수 있습니다.
구성 파일의 동의어 끝입니다. 이는 다음을 나타냅니다.
동의어는 접두사입니다. 항목이 사용될 때 별표는 무시됩니다.
에서to_ts벡터(), 하지만 사용하는 경우
에서to_tsquery(), 결과는 다음과 같습니다.
접두사 일치 마커가 있는 쿼리 항목(참조섹션
12.3.2). 예를 들어, 다음 항목이$SHAREDIR/tsearch_data/synonym_sample.syn:
포스트그레스 pgsql 포스트그레SQL 포스트그레 pgsql 고글구글 인덱스 인덱스*
그러면 우리는 다음과 같은 결과를 얻게 될 것입니다:
mydb=# 텍스트 검색 토토 사이트 추천 생성 syn (템플릿=동의어, 동의어='synonym_sample');
mydb=# SELECT ts_lexize('syn','인덱스');
ts_lexize
-----------
색인동의어 토토 사이트 추천(때때로 다음과 같이 축약됨TZ)은 다음을 포함하는 단어 모음입니다. 단어와 구문의 관계에 대한 정보, 즉 더 넓은 용어(BT), 더 좁음 용어(NT), 선호하는 용어, 비선호 용어, 관련 용어 등
기본적으로 동의어 토토 사이트 추천은 선호되지 않는 모든 토토 사이트 추천을 대체합니다. 하나의 선호 용어로 용어를 선택하고 선택적으로 원본을 보존합니다. 색인 생성에 대한 용어도 마찬가지입니다.PostgreSQL의 현재 구현은 유의어 토토 사이트 추천은 동의어 토토 사이트 추천의 확장입니다. 추가됨구문지원합니다. 동의어 토토 사이트 추천 토토 사이트 추천에는 다음 구성 파일이 필요합니다. 형식:
# 이것은 댓글입니다 샘플 단어: 색인된 단어 더 많은 샘플 단어: 더 많은 색인 단어 ...
여기서 콜론(:) 기호는 문구와 대체 문구 사이의 구분 기호입니다.
동의어 토토 사이트 추천은 다음을 사용합니다.하위토토 사이트 추천(다음에 지정됨) 토토 사이트 추천 구성) 이전에 입력 텍스트를 정규화합니다. 구문 일치를 확인합니다. 하나만 선택 가능합니다 하위 토토 사이트 추천. 하위 토토 사이트 추천이 실패하면 오류가 보고됩니다. 단어를 인식합니다. 이 경우에는 다음의 사용을 제거해야 합니다. 그것에 대해 말하거나 하위 토토 사이트 추천을 가르치십시오. 별표를 표시할 수 있습니다. (*) 색인된 단어의 시작 부분에 하위 토토 사이트 추천 적용을 건너뛰고 모든 샘플 단어반드시알려져라 하위 토토 사이트 추천.
동의어 토토 사이트 추천은 다음과 같은 경우 가장 긴 일치 항목을 선택합니다. 입력과 일치하는 여러 문구 및 다음을 사용하여 연결이 끊어집니다. 마지막 정의.
하위 토토 사이트 추천에 의해 인식되는 특정 중지 단어는 지정됨; 대신에 사용하세요?표시하기 위해 불용어가 나타날 수 있는 위치. 예를 들어 다음과 같이 가정합니다.a그리고그있습니다 하위 토토 사이트 추천에 따라 단어를 중지합니다.
? 하나? 2개 : swsw
일치하나 둘그리고하나 둘; 둘 다 다음으로 대체됩니다.swsw.
동의어 토토 사이트 추천에는 다음을 인식하는 기능이 있으므로 상태를 기억하고 파서와 상호 작용해야 하는 문구입니다. 에이 동의어 토토 사이트 추천은 이러한 할당을 사용하여 다음 단어를 처리하거나 축적을 중지합니다. 동의어 토토 사이트 추천 신중하게 구성해야 합니다. 예를 들어, 동의어 토토 사이트 추천의 경우 토토 사이트 추천은만 처리하도록 할당되었습니다.asciiword토큰, 동의어 토토 사이트 추천 정의는 다음과 같습니다하나 7이후로는 작동하지 않습니다 토큰 유형단위다음에 할당되지 않았습니다. 동의어토토 사이트 추천.
| 주의 |
|
인덱싱 중에 동의어 토토 사이트 추천이 사용되므로 동의어 토토 사이트 추천의 매개변수요구재인덱싱 중입니다. 대부분의 다른 경우 토토 사이트 추천 유형, 추가 또는 제거와 같은 작은 변경 불용어는 재색인을 강제로 수행하지 않습니다. |
새 동의어 토토 사이트 추천을 정의하려면 다음을 사용하십시오.동의어 토토 사이트 추천템플릿. 예를 들면:
텍스트 검색 토토 사이트 추천 생성 thesaurus_simple(
템플릿 = 동의어 토토 사이트 추천,
DictFile = 신화사우루스,
토토 사이트 추천 = pg_catalog.english_stem
);
여기:
thesaurus_simple새로운 것입니다 토토 사이트 추천 이름
신화사우루스는 기본 이름입니다. 동의어 토토 사이트 추천 구성 파일. (전체 이름은 다음과 같습니다.$SHAREDIR/tsearch_data/mythesaurus.ths, 여기서$SHAREDIR설치를 의미합니다. 공유 데이터 디렉터리.)
pg_catalog.english_stem이것은 다음 용도로 사용할 하위 토토 사이트 추천(여기서는 Snowball 영어 형태소 분석기) 동의어 토토 사이트 추천 정규화. 하위 토토 사이트 추천에는 표시되지 않는 자체 구성(예: 불용어) 여기.
이제 동의어 토토 사이트 추천 바인딩이 가능합니다.thesaurus_simple원하는 토큰 유형에 구성은 다음과 같습니다.
텍스트 검색 구성 변경 러시아어
asciiword, asciihword, hword_asciipart에 대한 매핑 변경
동의어 토토 사이트 추천_simple;간단한 천문학적 동의어 토토 사이트 추천을 고려해보세요thesaurus_astro, 여기에는 천문학적인 내용이 포함되어 있습니다. 단어 조합:
초신성 별: sn 게 성운 : 게
아래에서는 토토 사이트 추천을 생성하고 일부 토큰 유형을 천문학 동의어 토토 사이트 추천 및 영어 형태소 분석기:
텍스트 검색 토토 사이트 추천 생성 thesaurus_astro(
템플릿 = 동의어 토토 사이트 추천,
DictFile = thesaurus_astro,
토토 사이트 추천 = english_stem
);
텍스트 검색 구성 변경 러시아어
asciiword, asciihword, hword_asciipart에 대한 매핑 변경
WITH thesaurus_astro, english_stem;
이제 우리는 그것이 어떻게 작동하는지 볼 수 있습니다.ts_lexize테스트에는 그다지 유용하지 않습니다.
동의어 토토 사이트 추천은 입력을 단일 토큰으로 처리하기 때문입니다. 대신
우리는 사용할 수 있습니다plainto_tsquery그리고to_tsVector그것은 그들의
여러 토큰에 문자열을 입력합니다.
SELECT plainto_tsquery('초신성');
plainto_tsquery
-----------------
'sn'
SELECT to_tsVector('초신성');
to_ts벡터
-------------
'sn':1
원칙적으로 다음을 사용할 수 있습니다.to_tsquery인수를 인용하는 경우:
SELECT to_tsquery('''초신성''');
to_tsquery
------------
'sn'
알아두세요초신성별일치초신성별에thesaurus_astro우리가 지정했기 때문에english_stem동의어 토토 사이트 추천 정의의 형태소 분석기입니다. 형태소 분석기가 다음을 제거했습니다.e그리고s.
원래 문구와 대체 문구를 색인화하려면, 정의의 오른쪽 부분에 포함하십시오.
초신성 별 : sn 초신성 별
SELECT plainto_tsquery('초신성별');
plainto_tsquery
----------------
'sn' & '초신성' & '별'그Ispell토토 사이트 추천 템플릿 지원합니다형태학적 토토 사이트 추천, 단어의 다양한 언어 형태를 정규화할 수 있습니다. 같은 어휘. 예를 들어 영어Ispell토토 사이트 추천은 모든 기울기와 일치할 수 있습니다. 및 검색어의 활용형은행, 예를 들어,뱅킹, 뱅킹됨, 은행, 은행'및은행.
표준PostgreSQL배포에는 아무것도 포함되지 않습니다.Ispell구성 파일. 에 대한 토토 사이트 추천 다음에서 많은 언어를 사용할 수 있습니다.Ispell. 또한 좀 더 현대적인 토토 사이트 추천 파일 형식도 있습니다. 지원됩니다 —MySpell(OO < 2.0.1) 및훈스펠(OO = 2.0.2). 다양한 토토 사이트 추천 목록 에서 사용 가능합니다.오픈오피스 위키.
만들려면Ispell토토 사이트 추천, 내장된 것을 사용하세요ispell템플릿 및 여러 매개변수를 지정합니다:
텍스트 검색 토토 사이트 추천 생성 english_ispell(
템플릿 = ispell,
DictFile = 영어,
AffFile = 영어,
StopWords = 영어
);
여기,딕트파일, AffFile및불용어토토 사이트 추천의 기본 이름, 접사 및 불용어를 지정합니다. 파일. 불용어 파일은 위에서 설명한 것과 동일한 형식을 갖습니다.간단한토토 사이트 추천 유형. 형식 다른 파일은 여기에 지정되지 않았지만 다음에서 사용할 수 있습니다. 위에 언급된 웹사이트.
Ispell 토토 사이트 추천은 일반적으로 제한된 단어 세트를 인식하므로 그 뒤에는 또 다른 더 넓은 토토 사이트 추천이 와야 합니다. 예를 들어, 모든 것을 인식하는 Snowball 토토 사이트 추천.
Ispell 토토 사이트 추천은 복합어 분리를 지원합니다; 유용한 특징. 첨부 파일은 특수 플래그를 지정해야 합니다. 를 사용하여복합어 제어참여할 수 있는 토토 사이트 추천 단어를 표시하는 문 화합물 형성:
복합어 제어 z
다음은 노르웨이어에 대한 몇 가지 예입니다:
SELECT ts_lexize('norwegian_ispell', 'overbulzonterningpakkmesterassistant');
오버,불종,터닝,팩,메스터,어시스턴트
참고: MySpell하지 않습니다 복합어를 지원합니다.훈스펠복합어에 대한 정교한 지원이 있습니다. 현재,포스트그레SQL다음만 구현합니다. Hunspell의 기본 복합어 연산.
그눈덩이토토 사이트 추천 템플릿은 창시자인 Martin Porter의 프로젝트를 기반으로 합니다. 영어에 대해 널리 사용되는 Porter의 형태소 분석 알고리즘입니다. Snowball은 이제 다양한 언어에 대한 형태소 분석 알고리즘을 제공합니다(참조:눈덩이 사이트자세한 정보는). 각 알고리즘은 다음 방법을 이해합니다. 단어의 공통 변형 형태를 기본 또는 어간, 철자로 줄입니다. 그 언어 내에서. Snowball 토토 사이트 추천에는 다음이 필요합니다.언어사용할 형태소 분석기를 식별하는 매개변수, 선택적으로 다음을 지정할 수 있습니다.불용어파일 제거할 단어 목록을 제공하는 이름입니다. (PostgreSQL의 표준 불용어 목록도 Snowball 프로젝트에서 제공합니다.) 예를 들어 정의는
텍스트 검색 토토 사이트 추천 생성 english_stem(
템플릿 = 눈덩이,
언어 = 영어,
StopWords = 영어
);
불용어 파일 형식은 이미 설명한 것과 같습니다.
A 눈덩이토토 사이트 추천 단순화할 수 있는지 여부에 관계없이 모든 것을 인식합니다. 단어이므로 토토 사이트 추천 목록의 마지막에 배치해야 합니다. 그것 토큰이 있기 때문에 다른 토토 사이트 추천보다 먼저 갖는 것은 쓸모가 없습니다. 다음 토토 사이트 추천으로 절대 전달되지 않습니다.
| 이전 | 배트맨 토토 : 문서 : 9.3 : 배트맨 토토 9.3.25 문서화 | 다음 |
| 파서 | 위로 | 구성 예시 |