QZS Full-text Search Engine 機能一覧
データベース定義関連
- 複数のDB定義、オープン可能
- DBに対して同時に異なる複数のテーブルを定義、オープン可能
- 下記のフィールド型を複数使用したテーブル定義可能
- Boolean型(0/1の論理型) ※1
- Number型(LONGタイプの整数) ※1
- RealNumber型(FLOATタイプ小数点以下桁数指定) ※1
- AutoNumber型(LONGタイプの自動採番整数) ※1
- String型(2048バイト以下の文字列) ※1
- Text(File)型(512Kバイト以下の全文テキスト)
- HTML(File)型(HTMLやSGMLのタグを無視した登録の全文テキスト)
- SubText型(TEXT型のインデックスなし版)
- StringSet型(String型の集合ビットマップ)
- NumberSet(Number型の集合ビットマップ)
※1 Sort,Distinct指定可能 - DB、テーブル、フィールド名は日本語で定義可能
- フィールド名やフィールド属性は、APIでの参照、追加定義可能
検索系
- 完全一致、前方一致、中間一致、以上、以下、範囲、否定、その他の各種検索方式をサポート
- 同義語・類義語展開検索モード設定
- 全文検索用に最適化した同義語・類義語辞書QZSシソーラスを標準バンドル
(日本語/英語/英数略語、複数ユーザー辞書サポート) - 全角/半角、大文字/小文字、スペース無視、中黒無視、カタカナ語尾長音無視、カタカナ異表記などの日本語あいまい検索モード設定
- 複数語(AND,OR,NOT,XOR)同時検索をサポート
- 複数フィールドに対する同一検索語での同時検索をサポート
- 無限回の絞り込み検索(AND,OR,NOT)
検索結果
- 各種検索結果集合は最大54個を同時にメモリー生成可能
- 各種検索結果集合どうしの演算(AND,OR,NOT,XOR)して別結果集合への論演算マージ機能
- 各種検索結果集合のシステムファイルへのSave/Load可能
- 検索結果から任意のフィールド単位でのヒット数(Count(*))読み出し機能
- 検索結果から任意の複数のフィールドの同時読み出し(Fetch)、ソート条件設定機能
- 検索結果から任意の複数のフィールドでの重複行に対するDistinct条件読み出し設定機能
- 同上条件での重複行カウント読み出し機能
- 各フィールド(全文元テキスト含む)は登録時の状態に完全に復元して読み出し(Fetch)機能
- 全文型フィールド、STRING型フィールドの検索語レベルでの検索ヒットポイント詳細(検索語No.、Offset、length)取得機能(シソーラス、あいまいに完全対応)
- 検索結果と読み出し条件に対応したシーク読み出し機能
更新系
- APIによるリアルタイム登録/削除/更新
- CSV形式データファイルからの一括学習
- AutoNumber型でユニークな番号をインクリメントして採番可能
- ユーティリティーからの簡単メンテナンス
QZS Full-text Search Engine 特徴
■自由に構造定義が可能なデータベース
DBS、テーブル、フィールドという単位で、登録レコードに対して自由に管理フィールドの追加ができます。複雑な構造を持つ本格的な文書管理システムや業務に特化した開発が、QZSだけで実現できます。
■豊富な検索方式をAPIで提供
データベース・フィールドの完全一致、前方一致、中間一致、Number型(数値、日付)の範囲等の検索が可能です。
それぞれ検索結果は、AND、OR、NOT、XORでの演算によりマージや絞り込みができます。
■全文データもインデックス作成が超高速!
60,000件(文書平均1.5KB+管理フィールド12個 _ 60,000レコード)を検索動作や自動採番動作を伴いながら約20分でインデックス作成可能(P6-200MHz_1 Memory 128MB Windows Server)
■リアルタイム登録
高速な学習時間は、リアルタイム登録をも可能としました。
また、万が一のクラッシュ対策として自動バックアップ+更新ログからの自動復元をサポートしています。
■複数の別フィールドを同時に複数条件検索でも検索速度への影響は最小限
同データにて3種類の別フィールドの数値の範囲と3語のAND条件での同時検索の時間は0.1~2.5秒(ヒット件数に依存して変動します)
■インデックス・ファイル(DB)サイズは最小レベル
同データで約1.3~2.0倍。これは独自の圧縮インデックス手法の効果です。(当社比で通常のn-gramインデックス手法では4倍+1倍(元テキスト)以上)
■インデックス・ファイル(DB)には、元のデータも格納
このため登録元のテキストを別途ファイルとして管理する必要はありません。いつでもデータベースから取り出せます。
■キーワード抽出等は一切不要、1文字単位から検索できます
■すべての文字種で検索もれは一切ありません
■同義語・類義語辞書「QZSシソーラス」を実装
例えば、「老人」を検索語として指定した場合、「老人」に加え「old men」、「old people」、「old women」、「the aged」、「the old」、「シルバー」、「高年」、「高齢者」、「年寄り」、「老年」、「老齢」でも検索をおこないます。一般語を収録したQZSシソーラスにはユーザが任意な単語を登録する機能や不要な単語をオフにするといった機能も提供します。
ユーザー辞書として目的別に複数の辞書を設定する事もできます。
また、保守契約により、常に最新の辞書コンテンツが提供されます。
■日本語あいまい検索を実装
例えば、「ネットワークコンピューター」を指定した場合でも「ネットワーク・コンピュータ」が検索ヒットします。
■ヒット個所の詳細情報取得
同義語辞書、あいまい条件に完全対応した、ヒット個所のオフセット、レングスが取得できます。 これによりヒット個所のハイライト表示や最初のヒット個所の前後10文字を表示といった画面を実現します。
■検索結果のソート
検索結果から必要なフィールドだけを任意のソート条件で取り出す事ができます。
例えば、文書を検索して日付の新しい物順に一覧表示するといったUIを構築できます。
■検索結果の重複を除いた取り出し
検索結果から任意のフィールドで重複を除いた結果や重複したカウントを取り出す事ができます。 例えば、文書を検索してヒットした属性だけの一覧表示やカウント表示をするといったUIを構築できます。
