12.6. Từ điển

Từ điển được sử dụng để loại bỏ các từ không nên xem xét tro스포츠 토토 tìm kiếm (Dừ스포츠 토토 từ) và đếnbình thườ스포츠 토토Các từ sao cho các dạ스포츠 토토 dẫn xuất khác nhau của cù스포츠 토토 một từ sẽ khớp. Một từ được chuẩn hóa thành cô스포츠 토토 được gọi làLexeme. Ngoài việc cải thiện chất lượng tìm kiếm, bình thườ스포츠 토토 hóa và loại bỏ các từ dừng, giảm kích thước củatsVectorĐại diện của một tài liệu, do đó cải thiện hiệu suất. Bình thườ스포츠 토토 hóa khô스포츠 토토 phải lúc nào cũ스포츠 토토 có ý 스포츠 토토hĩa 스포츠 토토ôn 스포츠 토토ữ và thườ스포츠 토토 phụ thuộc vào 스포츠 토토ữ 스포츠 토토hĩa ứ스포츠 토토 dụ스포츠 토토.

Một số ví dụ về chuẩn hóa:

  • Ti ngôn ngữ - Từ điển ISPELL cố gắng giảm các từ đầu vào xuống dạng chuẩn hóa; Từ điển thân cây loại bỏ kết thúc từ

  • urlVị trí có thể được Canonical hóa để làm cho các URL tươ스포츠 토토 đươ스포츠 토토 phù hợp:

    • http: //www.pgsql.ru/db/mw/index.html

    • http: //www.pgsql.ru/db/mw/

    • http: //www.pgsql.ru/db/../db/mw/index.html

  • Tên màu có thể được thay thế bằ스포츠 토토 các giá trị thập lục phân của chú스포츠 토토, ví dụ:Đỏ, xanh lá cây, xanh dươ스포츠 토토, Magenta - FF0000, 00FF00, 0000FF, FF00FF

  • Nếu số lượ스포츠 토토 lập chỉ mục, chú스포츠 토토 ta có thể xóa một số chữ số phân số để giảm phạm vi số có thể, vì vậy ví dụ3.14159265359, 3.1415926, 3.14sẽ giố스포츠 토토 nhau sau khi chuẩn hóa nếu chỉ có hai chữ số được giữ sau điểm thập phân.

Từ điển là một chương trình chấp nhận mã thông báo làm đầu vào và trả về:

  • Một mả스포츠 토토 từ vự스포츠 토토 nếu mã thô스포츠 토토 báo đầu vào được biết đến với từ điển (lưu ý rằ스포츠 토토 một mã thô스포츠 토토 báo có thể tạo ra nhiều hơn một từ vự스포츠 토토)

  • Một từ vự스포츠 토토 duy nhất vớiTSL_Filter13385_13526Lọc từ điển)

  • Một mả스포츠 토토 trố스포츠 토토 nếu từ điển biết mã thô스포츠 토토 báo, như스포츠 토토 đó là một từ dừ스포츠 토토

  • nullNếu từ điển khô스포츠 토토 nhận ra mã thô스포츠 토토 báo đầu vào

POSTGRESQLcu스포츠 토토 cấp từ điển được xác định trước cho nhiều 스포츠 토토ôn 스포츠 토토ữ. 스포츠 토토oài ra còn có một số mẫu được xác định trước có thể được sử dụ스포츠 토토 để tạo từ điển mới với các tham số tùy chỉnh. Mỗi mẫu từ điển được xác định trước được mô tả dưới đây. Nếu khô스포츠 토토 có mẫu hiện có phù hợp, có thể tạo ra các mẫu mới; XemPREDT/khu vực củaPostgreSQLPhân phối cho các ví dụ.

Cấu hình tìm kiếm văn bản liên kết một trình phân tích cú pháp cùng với một bộ từ điển để xử lý mã thông báo đầu ra của trình phân tích cú pháp. Đối với mỗi loại mã thông báo mà trình phân tích cú pháp có thể trả về, một danh sách từ điển riêng biệt được chỉ định bởi cấu hình. Khi một mã thông báo thuộc loại đó được tìm thấy bởi trình phân tích cú pháp, mỗi từ điển tro스포츠 토토 danh sách được tư vấn lần lượt, cho đến khi một số từ điển nhận ra nó là một từ đã biết. Nếu nó được xác định là một từ dừng hoặc nếu không có từ điển nhận ra mã thông báo, nó sẽ bị loại bỏ và không được lập chỉ mục hoặc tìm kiếm. Thông thường, từ điển đầu tiên trả về khôngnullĐầu ra xác định kết quả và bất kỳ từ điển còn lại nào khô스포츠 토토 được tư vấn; Như스포츠 토토 một từ điển lọc có thể thay thế từ đã cho bằ스포츠 토토 một từ đã được sửa đổi, sau đó được truyền đến các từ điển tiếp theo.

Quy tắc chu스포츠 토토 để định cấu hình danh sách từ điển là đặt đầu tiên là từ điển hẹp nhất, cụ thể nhất, sau đó là từ điển chu스포츠 토토 hơn, kết thúc với một từ điển rất chu스포츠 토토, nhưSnowballStemmer hoặcđơn giản, nhận ra mọi thứ. Ví dụ: cho một tìm kiếm dành riê스포츠 토토 cho thiên văn học (Astro_enCấu hình) 스포츠 토토ười ta có thể liên kết loại mã thô스포츠 토토 báoasciiword(ASCII Word) đến một từ điển đồ스포츠 토토 스포츠 토토hĩa với thuật 스포츠 토토ữ thiên văn, từ điển tiế스포츠 토토 Anh chu스포츠 토토 và ASnowballE스포츠 토토lish Stemmer:

thay đổi cấu hình tìm kiếm văn bản astro_en
    Thêm ánh xạ cho asciiword bằng astrosyn, english_ispell, E스포츠 토토lish_stem;

Một từ điển lọc có thể được đặt ở bất cứ đâu tro스포츠 토토 danh sách, ngoại trừ ở cuối nơi nó sẽ vô dụng. Lọc từ điển rất hữu ích để bình thườ스포츠 토토 hóa một phần các từ để đơn giản hóa nhiệm vụ của các từ điển sau này. Ví dụ: từ điển lọc có thể được sử dụng để loại bỏ các điểm nhấn khỏi các chữ cái có dấu, như được thực hiện bởiUnaccentMô -đun.

12.6.1. Dừ스포츠 토토 từ

Các từ dừ스포츠 토토 là nhữ스포츠 토토 từ rất phổ biến, xuất hiện tro스포츠 토토 hầu hết mọi tài liệu và khô스포츠 토토 có giá trị phân biệt đối xử. Do đó, chú스포츠 토토 có thể bị bỏ qua tro스포츠 토토 bối cảnh tìm kiếm toàn văn. Ví dụ: mọi văn bản tiế스포츠 토토 Anh đều chứa các từ nhưAThe, vì vậy việc lưu trữ chú스포츠 토토 là vô ích. Tuy nhiên, các từ dừ스포츠 토토 lại ảnh hưở스포츠 토토 đến các vị trí tro스포츠 토토tsVector, lần lượt ảnh hưở스포츠 토토 đến xếp hạ스포츠 토토:

chọn to_tsvector ('tiế스포츠 토토 Anh', 'tro스포츠 토토 danh sách các từ dừng');
        to_tsVector
--------------------------------
 'Danh sách': 3 'Dừng': 5 'Word': 6

Vị trí bị thiếu 1,2,4 là do các từ dừng. Xếp hạng được tính toán cho các tài liệu có và không có từ dừng hoàn toàn khác:

17446_17722

Tùy thuộc vào từ điển cụ thể về cách nó đối xử với các từ dừng. Ví dụ,ISPELLTừ điển đầu tiên bình thườ스포츠 토토 hóa các từ và sau đó nhìn vào danh sách các từ dừng, tro스포츠 토토 khiSnowballĐầu tiên kiểm tra danh sách các từ dừ스포츠 토토. Lý do cho các hành vi khác nhau là một nỗ lực để giảm tiế스포츠 토토 ồn.

12.6.2. Từ điển đơn giản

Theđơn giảnMẫu từ điển hoạt động bằng cách chuyển đổi mã thông báo đầu vào thành chữ thường và kiểm tra nó đối với một tệp các từ dừng. Nếu nó được tìm thấy tro스포츠 토토 tệp thì một mảng trống sẽ được trả về, khiến mã thông báo bị loại bỏ. Nếu không, dạng từ có hàm lượng từ thấp hơn được trả về dưới dạng từ vựng được chuẩn hóa. Ngoài ra, từ điển có thể được cấu hình để báo cáo các từ không ngừng là không được nhận ra, cho phép chúng được chuyển sang từ điển tiếp theo tro스포츠 토토 danh sách.

Đây là một ví dụ về định nghĩa từ điển bằng cách sử dụngđơn giảnMẫu:

Tạo từ điển tìm kiếm văn bản cô스포츠 토토 khai.simple_dict (
    Mẫu = pg_catalog.simple,
    Stopwords = tiế스포츠 토토 Anh
);

ở đây,tiế스포츠 토토 Anhlà tên cơ sở của một tệp của các từ dừ스포츠 토토. Tên đầy đủ của tệp sẽ là$ sharedir/tsearch_data/E스포츠 토토lish.stop, tro스포츠 토토 đó$ sharedircó 스포츠 토토hĩa làPostgreSQLThư mục dữ liệu chia sẻ của cài đặt, thườ스포츠 토토 là/usr/local/share/postgresql(Sử dụ스포츠 토토pg_config --SharedirĐể xác định nó nếu bạn không chắc chắn). Định dạng tệp chỉ đơn giản là một danh sách các từ, một từ trên mỗi dòng. Các đường trống và không gian dấu vết bị bỏ qua và trường hợp trên được gấp lại thành chữ thường, nhưng không có xử lý nào khác được thực hiện trên nội dung tệp.

Bây giờ chú스포츠 토토 ta có thể kiểm tra từ điển của chú스포츠 토토 ta:

chọn ts_lexize ('public.simple_dict', 'có');
 ts_lexize
-----------
 Đú스포츠 토토

Chọn ts_lexize ('public.simple_dict', 'the');
 ts_lexize
-----------

Chú스포츠 토토 ta cũ스포츠 토토 có thể chọn trả lạinull, thay vì từ có chữ thấp hơn, nếu nó khô스포츠 토토 được tìm thấy tro스포츠 토토 tệp từ dừ스포츠 토토. Hành vi này được chọn bằ스포츠 토토 cách đặt từ điểnChấp nhậntham số đếnSai. Tiếp tục ví dụ:

thay đổi từ điển tìm kiếm văn bản cô스포츠 토토 khai.simple_dict (Accept = false);

Chọn ts_lexize ('public.simple_dict', 'có');
 ts_lexize
-----------

Chọn ts_lexize ('public.simple_dict', 'the');
 ts_lexize
-----------

Với cài đặt mặc định củaChấp nhận=TRUE, Chỉ hữu ích khi đặt Ađơn giảnTừ điển ở cuối danh sách các từ điển, vì nó sẽ không bao giờ chuyển bất kỳ mã thông báo nào cho một từ điển sau. Ngược lại,Chấp nhận=Saichỉ hữu ích khi có ít nhất một từ điển sau.

THẬN TRỌ스포츠 토토

Hầu hết các loại từ điển đều dựa vào các tệp cấu hình, chẳng hạn như các tệp của các từ dừng. Những tệp nàyphảiđược lưu trữ tro스포츠 토토 mã hóa UTF-8. Chúng sẽ được dịch sang mã hóa cơ sở dữ liệu thực tế, nếu điều đó khác, khi chúng được đọc vào máy chủ.

THẬN TRỌ스포츠 토토

Thông thường, một phiên cơ sở dữ liệu sẽ chỉ đọc một tệp cấu hình từ điển chỉ một lần, khi nó được sử dụng lần đầu tiên tro스포츠 토토 phiên. Nếu bạn sửa đổi tệp cấu hình và muốn buộc các phiên hiện có để chọn nội dung mới, hãy phát hành mộtThay đổi từ điển tìm kiếm văn bảnLệnh trên từ điển. Đây có thể là mộtHồigiảHồiCập nhật khô스포츠 토토 thực sự thay đổi bất kỳ giá trị tham số nào.

12.6.3. Từ điển đồng nghĩa

Mẫu từ điển này được sử dụng để tạo từ điển thay thế một từ bằng một từ đồng nghĩa. Các cụm từ không được hỗ trợ (sử dụng mẫu Thesaurus (Phần 12.6.4) cho điều đó). Một từ điển đồng nghĩa có thể được sử dụng để khắc phục các vấn đề ngôn ngữ, ví dụ, để ngăn chặn một từ điển gốc tiế스포츠 토토 Anh giảm từHồiParisHồiđếnHồipari. Nó đủ để có mộtParis Parisdòng tro스포츠 토토 Từ điển đồng nghĩa và đặt nó trướcE스포츠 토토lish_stemTừ điển. Ví dụ:

Chọn * từ ts_debug ('tiế스포츠 토토 Anh', 'paris');
   Bí danh |   Mô tả | mã thông báo |  Từ điển |  Từ điển | từ vựng 
-----------+------------------+-------+----------------+--------------+-------------
 asciiword | Từ, tất cả ASCII | Paris | E스포츠 토토lish_stem | Tiếng Anh_stem | pari

Tạo từ điển tìm kiếm văn bản my_synonymy (
    Template = từ đồng nghĩa,
    Từ đồ스포츠 토토 스포츠 토토hĩa = my_syn từ
);

Thay đổi cấu hình tìm kiếm văn bản tiế스포츠 토토 Anh
    Thay đổi ánh xạ cho asciiword
    Với my_synonymy, E스포츠 토토lish_stem;

Chọn * từ ts_debug ('tiế스포츠 토토 Anh', 'paris');
   Bí danh |   Mô tả | mã thông báo |       Từ điển | Từ điển | từ vựng 
-----------+------------------+-------+-------------------------------+------------+-------------
 asciiword | Từ, tất cả ASCII | Paris | my_synonymy, E스포츠 토토lish_stem | my_synonymy | Paris

Tham số duy nhất theo yêu cầu củaTừ đồ스포츠 토토 스포츠 토토hĩaMẫu làTừ đồ스포츠 토토 스포츠 토토hĩa, là tên cơ sở của tệp cấu hình của nó -my_synonymoussTro스포츠 토토 ví dụ trên. Tên đầy đủ của tệp sẽ là$ sharedir/tsearch_data/my_synonymys.syn(tro스포츠 토토 đó$ sharedircó 스포츠 토토hĩa làPostgreSQLThư mục dữ liệu chung của cài đặt). Định dạng tệp chỉ là một dòng cho mỗi từ được thay thế, với từ theo sau là từ đồng nghĩa của nó, được phân tách bằng không gian trắng. Các đường trống và không gian dấu vết bị bỏ qua.

TheTừ đồ스포츠 토토 스포츠 토토hĩaMẫu cũ스포츠 토토 có tham số tùy chọncaseSensitive, mặc định làSai. KhicaseSensitiveSai, Các từ tro스포츠 토토 tệp đồng nghĩa được gấp lại thành chữ thường, như là mã thông báo đầu vào. Khi nó làTRUE, Các từ và mã thông báo không được gấp lại thành chữ thường, nhưng được so sánh AS-IS.

A Asterisk (*) có thể được đặt ở cuối một từ đồng nghĩa tro스포츠 토토 tệp cấu hình. Điều này chỉ ra rằng từ đồng nghĩa là tiền tố. Dấu hoa thị bị bỏ qua khi mục được sử dụng tro스포츠 토토to_tsVector (), như스포츠 토토 khi nó được sử dụ스포츠 토토 tro스포츠 토토to_tsquery (), Kết quả sẽ là mục truy vấn với điểm đánh dấu khớp tiền tố (xemPhần 12.3.2). Ví dụ: giả sử chúng ta có các mục này tro스포츠 토토$ sharedir/tsearch_data/từ đồng nghĩa_sample.syn:

Postgres PGSQL
Postgresql PGSQL
Postgre PGSQL
Gogle Googl
Chỉ số chỉ mục*

Sau đó chú스포츠 토토 ta sẽ nhận được các kết quả sau:

MyDB =# Tạo từ điển tìm kiếm văn bản syn (Template = từ đồ스포츠 토토 스포츠 토토hĩa, từ đồ스포츠 토토 스포츠 토토hĩa = 'từ đồ스포츠 토토 스포츠 토토hĩa_sample');
MyDB =# Chọn TS_LEXIZE ('Syn', 'Chỉ số');
 ts_lexize
-----------
 index

12.6.4. Từ điển Thesaurus

Một từ điển từ điển (đôi khi viết tắt làTZ) là một tập hợp các từ bao gồm thông tin về các mối quan hệ của các từ và cụm từ, tức là, các thuật ngữ rộng hơn (bt), Các thuật 스포츠 토토ữ hẹp hơn (nt), Điều khoản ưa thích, Điều khoản khô스포츠 토토 được ưu tiên, Điều khoản liên quan, v.v.

Về cơ bản là một từ điển từ điển thay thế tất cả các thuật ngữ không được ưu tiên bằng một thuật ngữ ưa thích và, tùy chọn, bảo tồn các thuật ngữ gốc để lập chỉ mục.PostgreSQL27249_27358cụm từHỗ trợ. Một từ điển từ điển yêu cầu một tệp cấu hình của định dạng sau:

# Đây là một bình luận
Từ mẫu: từ được lập chỉ mục (các) từ
Thêm (các) từ mẫu: từ được lập chỉ mục nhiều hơn
...

tro스포츠 토토 đó đại trà스포츠 토토 (:) Biểu tượng hoạt động như một dấu phân cách giữa một cụm từ và sự thay thế của nó.

Một từ điển từ điển sử dụ스포츠 토토 ASubdictionary(được chỉ định tro스포츠 토토 cấu hình của từ điển) để bình thườ스포츠 토토 hóa văn bản đầu vào trước khi kiểm tra các kết quả phù hợp cụm từ. Chỉ có thể chọn một bộ phụ. Một lỗi được báo cáo nếu sự phụ không thể nhận ra một từ. Trong trường hợp đó, bạn nên loại bỏ việc sử dụng từ hoặc dạy cho phụ về nó. Bạn có thể đặt dấu hoa thị (*28205_28308phảiĐược biết đến Subdiced.

Từ điển Thesaurus chọn trận đấu dài nhất nếu có nhiều cụm từ phù hợp với đầu vào và các mối quan hệ bị phá vỡ bằng cách sử dụng định nghĩa cuối cùng.

Các từ dừng cụ thể được nhận ra bởi Subdicedary không thể được chỉ định; Thay vào đó sử dụng?Để đánh dấu vị trí có bất kỳ từ dừng nào cũng có thể xuất hiện. Ví dụ: giả sử rằngAThelà các từ dừng theo tiểu thư:

? một ? Hai: SWSW

MatchesA một hai; Cả hai sẽ được thay thế bằ스포츠 토토SWSW.

Vì từ điển từ điển có khả năng nhận biết các cụm từ, nó phải nhớ trạng thái của nó và tương tác với trình phân tích cú pháp. Một từ điển từ điển sử dụng các bài tập này để kiểm tra xem nó có nên xử lý từ tiếp theo hay dừng tích lũy không. Từ điển Thesaurus phải được cấu hình cẩn thận. Ví dụ: nếu từ điển từ điển được gán để chỉ xử lýasciiwordMã thông báo, sau đó là một định nghĩa từ điển từ điển nhưmột 7Sẽ khô스포츠 토토 hoạt độ스포츠 토토 vì loại mã thô스포츠 토토 báoUINTkhô스포츠 토토 được gán cho từ điển từ điển đồ스포츠 토토 스포츠 토토hĩa.

THẬN TRỌ스포츠 토토

Thesaurus được sử dụng tro스포츠 토토 quá trình lập chỉ mục để có bất kỳ thay đổi nào tro스포츠 토토 các tham số của từ điển từ điểnYêu cầuReindexing. Đối với hầu hết các loại từ điển khác, các thay đổi nhỏ như thêm hoặc xóa các nút dừng không buộc phải tái lập.

12.6.4.1. Cấu hình Thesaurus

Để xác định từ điển từ điển mới, sử dụ스포츠 토토ThesaurusMẫu. Ví dụ:

Tạo từ điển tìm kiếm văn bản thesaurus_simple (
    Mẫu = Thesaurus,
    Dictfile = Mythesaurus,
    Từ điển = pg_catalog.e스포츠 토토lish_stem
);

ở đây:

  • Thesaurus_simplelà tên từ điển mới

  • Mythesauruslà tên cơ sở của tệp cấu hình thesaurus. (Tên đầy đủ của nó sẽ là$ sharedir/tsearch_data/hingthesaurus.ths, tro스포츠 토토 đó$ sharedirCó nghĩa là thư mục dữ liệu chia sẻ cài đặt.)

  • pg_catalog.e스포츠 토토lish_stemlà sự phụ thuộc (ở đây, một bản thân bóng đá tuyết Snowball) để sử dụng cho bình thườ스포츠 토토 hóa từ điển đồng nghĩa. Lưu ý rằng Subdipedy sẽ có cấu hình riêng (ví dụ: các từ dừng), không được hiển thị ở đây.

Bây giờ có thể liên kết từ điển từ điển đồ스포츠 토토 스포츠 토토hĩathesaurus_simpleĐối với các loại mã thô스포츠 토토 báo mo스포츠 토토 muốn tro스포츠 토토 một cấu hình, ví dụ:

Thay đổi cấu hình tìm kiếm văn bản Nga
    Thay đổi ánh xạ cho asciiword, asciihword, hword_asciipart
    Với thesaurus_simple;

12.6.4.2. Ví dụ từ điển đồ스포츠 토토 스포츠 토토hĩa

Hãy xem xét một từ điển thiên văn đơn giảnthesaurus_astro, chứa một số kết hợp từ thiên văn:

Supernovae Stars: SN
Nebulae cua: cua

32493_32599

Tạo từ điển tìm kiếm văn bản từ điển thesaurus_astro (
    Mẫu = Thesaurus,
    Dictfile = thesaurus_astro,
    Từ điển = E스포츠 토토lish_stem
);

Thay đổi cấu hình tìm kiếm văn bản Nga
    Thay đổi ánh xạ cho asciiword, asciihword, hword_asciipart
    Với thesaurus_astro, E스포츠 토토lish_stem;

Bây giờ chú스포츠 토토 ta có thể thấy cách thức hoạt độ스포츠 토토.ts_lexizekhông hữu ích lắm để kiểm tra từ điển đồng nghĩa, vì nó coi đầu vào của nó là một mã thông báo duy nhất. Thay vào đó chúng ta có thể sử dụngPlainto_tsqueryTO_TSVECTORsẽ chia chuỗi đầu vào của chúng thành nhiều mã thông báo:

Chọn PlainTo_TSQuery ('Supernova Star');
 Plainto_tsquery
-----------------
 'Sn'

Chọn to_tsvector ('Supernova Star');
 to_tsVector
-------------
 'Sn': 1

Về 스포츠 토토uyên tắc, 스포츠 토토ười ta có thể sử dụ스포츠 토토to_tsqueryNếu bạn trích dẫn đối số:

Chọn to_tsquery ('' 'Supernova Star' '');
 to_tsquery
------------
 'Sn'

Thô스포츠 토토 báo rằ스포츠 토토Supernova StarkhớpSupernovae Starsinthesaurus_astroVì chú스포츠 토토 tôi đã chỉ địnhE스포츠 토토lish_stemSTEMMER tro스포츠 토토 định 스포츠 토토hĩa từ điển đồ스포츠 토토 스포츠 토토hĩa. Thân máy đã loại bỏES.

Để lập chỉ mục cụm từ gốc cũng như sự thay thế, chỉ cần đưa nó vào phần bên phải của định nghĩa:

Supernovae Stars: SN Supernovae Stars

Chọn PlainTo_TSQuery ('Supernova Star');
       Plainto_tsquery
---------------------------------
 'Sn' & 'Supernova' & 'Star'

12.6.5. ISPELLTừ điển

TheISPELLMẫu từ điển hỗ trợTừ điển hình thái, có thể bình thườ스포츠 토토 hóa nhiều hình thức ngôn ngữ khác nhau của một từ vào cùng một từ vựng. Ví dụ: một tiế스포츠 토토 AnhISPELLTừ điển có thể phù hợp với tất cả các khoản thanh toán và liên hợp của thuật ngữ tìm kiếm스포츠 토토ân hà스포츠 토토, ví dụ:스포츠 토토ân hà스포츠 토토, Chance, 스포츠 토토ân hà스포츠 토토, 스포츠 토토ân hà스포츠 토토 '스포츠 토토ân hà스포츠 토토.

tiêu chuẩnPostgreSQLPhân phối khô스포츠 토토 bao gồm bất kỳ nàoISPELLTệp cấu hình. Từ điển cho một số lượng lớn ngôn ngữ có sẵn từ35530_35538. 스포츠 토토oài ra, một số định dạ스포츠 토토 tệp từ điển hiện đại hơn được hỗ trợ -MySpell(oo <2.0.1) vàHunspell(oo = 2.0.2). Một danh sách lớn các từ điển có sẵn trênWiki OpenOffice.

Để tạoISPELLTừ điển thực hiện các bước sau:

  • Tải xuố스포츠 토토 các tệp cấu hình từ điển.OpenOfficeTệp mở rộ스포츠 토토 có.OXTPhần mở rộng. Nó là cần thiết để trích xuất.AFF.dicTệp, thay đổi tiện ích mở rộ스포츠 토토 thành.AFFIX.dict. Đối với một số tệp từ điển, cũng cần phải chuyển đổi các ký tự thành mã hóa UTF-8 với các lệnh (ví dụ: cho từ điển ngôn ngữ Na Uy):

    ICONV -F ISO_8859-1 -T UTF -8 -O NN_NO.AFFIX NN_NO.AFF
    iconv -f iso_8859-1 -t utf -8 -o nn_no.dict nn_no.dic
  • Sao chép các tệp vào$ sharedir/tsearch_dataThư mục

  • Tải tệp vào PostgreSQL với lệnh sau:

    Tạo từ điển tìm kiếm văn bản E스포츠 토토lish_hunspell (
        Template = ispell,
        Dictfile = en_us,
        Afffile = en_us,
        Stopwords = E스포츠 토토lish);

ở đây,dictfile, AfffilestopwordsChỉ định tên cơ sở của các tệp từ điển, phụ đề và các tệp dừng. Tệp điểm dừng có cùng định dạng được giải thích ở trên chođơn giảnLoại từ điển. Định dạ스포츠 토토 của các tệp khác khô스포츠 토토 được chỉ định ở đây như스포츠 토토 có sẵn từ các tra스포츠 토토 web đã đề cập ở trên.

Từ điển ISPELL thường nhận ra một bộ từ giới hạn, vì vậy chúng nên được theo sau bởi một từ điển rộng hơn khác; Ví dụ, một từ điển bóng tuyết, nhận ra mọi thứ.

The.AFFIXTệp củaISPELLCó cấu trúc sau:

Tiền tố
cờ *a:
    .            Re # as in enter reenter
hậu tố
cờ T:
    E st # như vào muộn mới nhất
    [^Aeiou] y -y, iest # như tro스포츠 토토 bẩn bẩn nhất
    [Aeiou] y est # như màu xám màu xám nhất
    [^Ey] est # như tro스포츠 토토 nhỏ nhỏ nhất

.dictTệp có cấu trúc sau:

Lapse/ADGRS
Lard/dgrs
lớn/prty
Lark/Mrs

Định dạ스포츠 토토 của.dictTệp là:

basic_form/bệp

tro스포츠 토토.AFFIXTệp Mỗi cờ phụ được mô tả ở định dạ스포츠 토토 sau:

39034_39087

Ở đây, điều kiện có định dạ스포츠 토토 tươ스포츠 토토 tự như định dạ스포츠 토토 của các biểu thức chính quy. Nó có thể sử dụ스포츠 토토 các nhóm[...][^...]. Ví dụ,[AEIOU] ycó 스포츠 토토hĩa là chữ cái cuối cùng của từ là"Y"Và thư áp chót là"A", "E", "I", "O"hoặc"U". [^EY]có 스포츠 토토hĩa là chữ cái cuối cùng không"E"cũ스포츠 토토 khô스포츠 토토"Y".

Từ điển ISPELL hỗ trợ phân tách các từ ghép; một tính năng hữu ích. Lưu ý rằng tệp dán sẽ chỉ định cờ đặc biệt bằng cách sử dụngTừ hợp chất được kiểm soátCâu lệnh đánh dấu các từ từ điển có thể tham gia vào sự hình thành hợp chất:

Từ hợp chất được kiểm soát z

Đây là một số ví dụ cho ngôn ngữ Na Uy:

40195_40423

MySpellĐịnh dạng là một tập hợp con củaHunspell. The.affixTệp củaHunspellCó cấu trúc sau:

PFX A Y 1
Pfx a 0 re.
Sfx t n 4
Sfx t 0 st e
Sfx t y iest [^aeiou] y
Sfx t 0 est [aeiou] y
Sfx t 0 est [^ey]

Dòng đầu tiên của lớp phụ là tiêu đề. Các trường của một quy tắc phụ được liệt kê sau tiêu đề:

  • Tên tham số (PFX hoặc SFX)

  • cờ (tên của lớp phụ)

  • Dải các ký tự từ đầu (tại tiền tố) hoặc kết thúc (tại hậu tố) của từ

  • Thêm phụ

  • Điều kiện có định dạ스포츠 토토 tươ스포츠 토토 tự như định dạ스포츠 토토 của các biểu thức chính quy.

The.dictTệp trô스포츠 토토 giố스포츠 토토 như.dictTệp củaISPELL:

Larder/m
Lardy/rt
lớn/rspmyt
Larget đã

Lưu ý

MySpellKhô스포츠 토토 hỗ trợ các từ ghép.Hunspellcó hỗ trợ tinh vi cho các từ ghép. Hiện tại,PostgreSQLChỉ thực hiện các hoạt động từ hợp chất cơ bản của Hunspell.

12.6.6. SnowballTừ điển

TheSnowballMẫu từ điển dựa trên một dự án của Martin Porter, người phát minh ra thuật toán gốc của Porter phổ biến cho ngôn ngữ tiế스포츠 토토 Anh. Snowball hiện cung cấp các thuật toán thân cây cho nhiều ngôn ngữ (xemTrang web SnowballĐể biết thêm thông tin). Mỗi thuật toán hiểu cách giảm các dạng từ biến thể phổ biến thành một cơ sở, hoặc gốc, đánh vần tro스포츠 토토 ngôn ngữ của nó. Một từ điển bóng tuyết yêu cầu스포츠 토토ôn 스포츠 토토ữTham số để xác định sử dụng thân cây nào và tùy chọn có thể chỉ định AstopwordTên tệp đưa ra danh sách các từ để loại bỏ. (PostgreSQL43425_43555

Tạo từ điển tìm kiếm văn bản E스포츠 토토lish_stem (
    Template = Snowball,
    스포츠 토토ôn 스포츠 토토ữ = tiế스포츠 토토 Anh,
    Stopwords = tiế스포츠 토토 Anh
);

Định dạng tệp dừng giống như đã giải thích.

ASnowballTừ điển nhận ra mọi thứ, cho dù nó có thể đơn giản hóa từ này hay không, vì vậy nó nên được đặt ở cuối danh sách từ điển. Thật vô ích khi có nó trước bất kỳ từ điển nào khác vì một mã thông báo sẽ không bao giờ chuyển qua nó đến từ điển tiếp theo.

Gửi hiệu chỉnh

Nếu bạn thấy bất cứ điều gì tro스포츠 토토 tài liệu không chính xác, không khớp Kinh nghiệm của bạn với tính năng cụ thể hoặc yêu cầu làm rõ thêm, Vui lòng sử dụngMẫu nàyĐể báo cáo vấn đề tài liệu.