QZS Dictionary Server & QZS シソーラスの主な特長 | ||
QZS Full-text Search Engineに標準装備のQZS Dictionary Serverには、約7万語の汎用同義語辞書(シソーラス)が付いており、検索を支援します。 シソーラスとは ソーラスというのは、いわゆる類語辞典です。 QZSシソーラスの一般語辞書とは QZSシソーラス一般語辞書は、検索を行う方々のお手伝いをするために標準的に用意された日常的に使われる単語を収録した汎用辞書コンテンツです。 |
日本語あいまい索引
入力した検索語が「ネットワークコンピューター」でも「ネットワーク・コンピュータ」と「NC」等を辞書から検索できます。
しかし、辞書の中には、「ネットワーク・コンピュータ」と「NC」しか登録されていません。辞書から検索する際に異表記を吸収しています。
辞書の収録語数をむやみに大きくせずに漏れの検索を可能としています。
もちろんQZSシソーラスの一般語辞書の語数カウントもこれらあいまい表記は除いてカウントしています。
辞書展開時のみならず、QZS日本語全文検索エンジンにも同様に日本語あいまい検索を実装していますので、文中の類語に加え、異表記などもカバーします。
主なあいまい索引オプションとその例
全角・半角の同一視 NBAとNBA |
大文字・小文字の同一視 FAXとFax |
ひらがな・カタカナの同一視 みかんとミカン |
区切り文字の無視 ヘアサロンとヘア・サロン |
空白文字の無視 ヘアサロンとヘア サロン |
末尾長音の無視 ユーザーとユーザ |
ユーザー辞書が作成できます(100万語×31種類)
QZSシソーラスは、主に一般語を集録した汎用辞書です。ですから、お客様が必要だと思う単語が集録されていないかもしれません。
そのようなお客様が自分用に、10万グループずつ31種類まで目的別ユーザー辞書が作成できるようになっています。
使用する際に一般語+31種類のユーザー辞書から任意の辞書を選択して検索することができます。
日本語展開、英語展開が可能
QZSシソーラスには、日本語および英語が集録されていますが、日本語のみの使用に限定することも可能です。
不要な語をオフにして検索
QZSシソーラスの一般語辞書は汎用辞書ですので、その中の語を実際に削除したり、変更することはできません。
しかし、自分が検索に不要だと思う語をオフにして検索することは可能です。
ユーザー辞書は自由にメンテナンスできます。
定期的なバージョンアップ
言葉は日々変化するものです。新しい言葉もどんどん出てきます。
QZSシソーラスは、お客様のご要望にお答えするため、定期的なバージョンアップを行っています。
また、このような単語を標準的に一般語に入れて欲しいというようなご要望をいただきましたら、
一般語として適合する場合やノイズを発生させる恐れがないかを調査の上、収録いたします。
意図しなかったヒットの除外
QZSシソーラスは純粋に検索用ですので、ノイズ(意図しなかったヒット)が出やすい語を意図的に除外しています。
上の図のように、検索用専門でない類語辞書を使用すると、書籍で検索した場合に、
「本日」や「ほんと」などがヒットしてしまうという不具合が生じてしまうため、
あえてノイズの出やすい語は集録されていません。
一般的な類語辞書には当然集録されている「本」という語が「書籍」の同義語として集録されていないというのはこういう理由です。
QZS シソーラス展開例
QZS シソーラスの価格
QZSシソーラスは、QZS FUll-text Search Engineに標準で付いています。
ですので、QZS Full-text Search Engineをお買い上げいただいた方は無償でご利用になれます。
尚、QZS Dictionary Server(C標準インタフェース)のみの提供については相談に応じますが、
コンテンツ(辞書内容)のみの提供の予定はございません。
シソーラスは、検索時に使用する同義語辞書です。
「老人」という語を探すときに「高齢者」や「お年寄り」もシソーラスに登録しておけば、登録された語も一緒に探すことができます。
検索語の横にある検索モードに「完全一致」を選択してください。
Webの場合は、詳細検索で検索モードの指定が行えます。
同義語辞書に登録されている語はすべて参照することができます。
これら個々の語について「検索に使用する」「検索に使用しない」の指定が可能です。
シソーラスもあいまい検索の一種といえますが、QZSの検索オペレーションでは別にしています。
私たちがQZSシソーラスと呼んでいるのは、辞書を使用した同義語・類義語検索であり、その一般的な辞書コンテンツです。
例えば、「老人」を検索語として指定した場合、「老人」に加え「old men」、「old people」、「old women」、「the aged」、「the old」、「シルバー」、「高年」、「高齢者」、「年寄り」、「老年」、「老齢」でも検索をおこないます。
また、保守契約により、常に最新の一般辞書コンテンツが提供されます。
それに対して日本語あいまい検索とは、日本語特有の異表記を同一視して検索する機能です。
全角/半角、大文字/小文字、スペース無視、中黒無視、カタカナ語尾長音無視など表記のゆれを吸収して検索することができます。
例えば、「ネットワークコンピューター」を指定した場合でも「ネットワーク・コンピュータ」を検索できます。
可能です。
お客様ご自身でオリジナルの同義語・類義語をユーザー辞書として目的別に複数の辞書として設定することができます。
極力速度に影響を与えない工夫をしていることもQZSの特徴の一つですが、処理内容が異なりますので場合によっては速くなったり、遅くなったりする場合もあります。
開発元で検索用に特別に作成した同義語辞書(QZSシソーラス)を使用しています。
検索用に作成しているので、一般的な類語辞典とはかなり異なります。
たとえば、「書籍」に「本」を同義語登録すると「本当」や「本日」などもヒットしてしまいますから、検索時にノイズとなるような語は省いて登録してあります。
また、関連語が一緒にヒットするというのも検索にはノイズとなるので同義語と呼べるような語のみが同義語グループとして登録されております。
8万語超です。
検索時にノイズとなるような不必要な語は登録されていませんので、ただ語数が多いだけの辞書は検索に適さないとの判断で、最低限必要な同義語のみを登録した検索にも優しい辞書作成を目指しています。
共通してご使用いただく汎用辞書に語を追加することはできませんが、ユーザ辞書を登録することができますので、追加したい語はユーザ辞書に登録を行ってください。
ユーザ辞書の登録は、C/Sクライアント(SA)の「同義語の確認」の「辞書登録」で行うことができます。
可能です。
完全一致検索もできます。
可能です。
全文型と全く同じように検索できます。
可能です。
正確なオフセットとレングスを保証しています。
対応機種 Intel系、右記OS対応機種 |
対応OS Windows Server 2008 |
CPU Intel Core もしくは Xeon |
メモリ 1GB以上推奨 |
QZS Dictionary Serverを導入しているサイトをご紹介します。(別ウィンドウにて外部サイトへ移動します)