事業紹介

事業紹介

QZS Full-text Search Engine Ver.4

QZS日本語全文検索エンジンの主な特長

▶高性能データベース内蔵

高性能データベースが内蔵されていますので、別途データベースは必要としません。

登録(更新)速度が高速であり、リアルタイム登録(更新)も可能です。

▶言語処理技術の応用

日本語あいまい検索機能、同義語・類義語辞書「QZSシソーラス」を搭載しています。

「老人」と「お年寄り」などの日本語表現の揺れも解決します。

▶多彩な検索結果の並び順

昇順、降順のほか、人手で割り当てたお勧め順に 返すこともできます。Ver.4では、検索結果スコアリング機能を搭載し、重要度順ソートもできるようになりました。

▶迅速、丁寧なサポート

QZS日本語全文検索エンジンは、自社開発製品ですので、他のベンダーとのやり取りが発生せず、迅速で的確なサポートが受けられます。教育セミナー等も充実しています。

QZS ver.3はこちら>>

特徴をもっと見る ▼
  • 自由に構造定義が可能なデータベース

    DBS、テーブル、フィールドという単位で、登録レコードに対して自由に管理フィールドの追加ができます。
    複雑な構造を持つ本格的な文書管理システムや業務に特化した開発が、QZSだけで実現できます。

  • 豊富な検索方式をAPIで提供

    データベース・フィールドの完全一致、前方一致、中間一致、Number型(数値、日付)の範囲等の検索が可能です。
    それぞれ検索結果は、AND、OR、NOT、XORでの演算によりマージや絞り込みができます。

  • 全文データもインデックス作成が超高速!

    60,000件(文書平均1.5KB+管理フィールド12個 _ 60,000レコード)を検索動作や自動採番動作を伴いながら約20分でインデックス作成可能。(P6-200MHz_1 Memory 128MB Windows Server)

  • リアルタイム登録

    高速な学習時間は、リアルタイム登録をも可能としました。
    また、万が一のクラッシュ対策として自動バックアップ+更新ログからの自動復元をサポートしています。

  • 複数の別フィールドを同時に複数条件検索でも検索速度への影響は最小限

    同データにて3種類の別フィールドの数値の範囲と3語のAND条件での同時検索の時間は0.1~2.5秒(ヒット件数に依存して変動します)

  • インデックス・ファイル(DB)サイズは最小レベル

    同データで約1.3~2.0倍。これは独自の圧縮インデックス手法の効果です。(当社比で通常のn-gramインデックス手法では4倍+1倍(元テキスト)以上)

  • インデックス・ファイル(DB)には、元のデータも格納

    このため登録元のテキストを別途ファイルとして管理する必要はありません。いつでもデータベースから取り出せます。

  • 同義語・類義語辞書「QZSシソーラス」を実装

    例えば、「老人」を検索語として指定した場合、「老人」に加え「old men」、「old people」、「old women」、「the aged」、「the old」、「シルバー」、「高年」、「高齢者」、「年寄り」、「老年」、「老齢」でも検索をおこないます。
    一般語を収録したQZSシソーラスにはユーザが任意な単語を登録する機能や不要な単語をオフにするといった機能も提供します。
    ユーザー辞書として目的別に複数の辞書を設定する事もできます。
    また、保守契約により、常に最新の辞書コンテンツが提供されます。

  • 日本語あいまい検索を実装

    例えば、「ネットワークコンピューター」を指定した場合でも「ネットワーク・コンピュータ」が検索ヒットします。

  • ヒット個所の詳細情報取得

    同義語辞書、あいまい条件に完全対応した、ヒット個所のオフセット、レングスが取得できます。
    これによりヒット個所のハイライト表示や最初のヒット個所の前後10文字を表示といった画面を実現します。

  • 検索結果のソート

    検索結果から必要なフィールドだけを任意のソート条件で取り出す事ができます。
    例えば、文書を検索して日付の新しい物順に一覧表示するといったUIを構築できます。

  • 検索結果の重複を除いた取り出し

    検索結果から任意のフィールドで重複を除いた結果や重複したカウントを取り出す事ができます。
    例えば、文書を検索してヒットした属性だけの一覧表示やカウント表示をするといったUIを構築できます。

  • キーワード抽出等は一切不要、1文字単位から検索できます

  • すべての文字種で検索もれは一切ありません


概要

01. QZS Full-text Search Engine システム概要

当社ですべて独自開発した純粋な「Made In Japan」高機能日本語全文検索付きデータベース・エンジンです。
独自に研究、開発したインデックス手法により、検索もれなしの高速検索を実現!
 
データベース(INDEXファイル)への登録も従来の全文系DBに比べ大幅に高速化に成功。サイズも最小レベルに押さえています。
全文検索スピードのみにとらわれず、あらゆるステップにおいて最高のバランスを追求した弱点の少ないエンジンに 仕上げています。
 
また、QZS Dictionary Server(QZSシソーラス)を実装により同義語検索をもサポートしました。


02. データベースとしての基本性能も同時に追求

QZSは、Text(全文)以外に日付、数値、String、集合型等をテーブル定義可能とし、データベースとしての基本性能を持っています。
これによりレコード・データを年月日やタイトル、作成者、文章、価格といったフィールドを定義し[格納→検索→参照]が可能な構造を持った
全文検索が可能なデータベースを実現しました。
 
従来からの問題点であった他DBとのマッチング処理時間を気にすることなく、全文検索ならではの柔軟性の高い検索と数値や文字列での検索を融合した
強力な同時検索条件、同時読み出し条件をQZSだけで実行できます。
これによりフロント検索処理とRDBMS等によるバックオフィス処理の完全な分離が実現でき、
信頼性が高くパフォーマンスでも有利な分散構成システムの構築に威力を発揮します。
 
電商取引、文献検索等のインターネット、イントラネット開発でのSolutionとしてご検討ください。


03. QZS Full-text Search Engine 応用性能

学習INDEXファイルも元テキストと合わせてタイプにより1.3~3.0倍以下のサイズに格納します。
学習INDEX ファイルには元テキストともども格納する事により、一元管理を実現しました。
 
エンジン・モジュール、データベースのサイズも最小限に抑え、より軽くより使いやすい高機能を追求して
開発者サイドにやさしい、扱いやすいエンジンを提供します。
文書系特有の処理にフォーカスした70種類以上の関数群からなるAPIも、VBやDelphi、C++等ですぐに使いはじめることができます。
インデックス作成時間の短縮も開発者にデバッグ時間を提供する為のきわめて重要なファクターとなります。
すべては自社のアプリケーション開発陣から のフィードバックがあってこそ実現できた使い勝手なのです。
 
「QZS Full-Text Search Engine」は、NTサーバ版、NT/95/98クライアントモジュールを’97/04にリリースして以来、
改良を重ね、現在はWindows x64版、Linux版もラインナップに加わりました。
APIは全シリーズ共通です。開発者はスタンドアロン・モジュールにより自らのPC上に開発環境を構築することも可能です。
応用アプリケーションとして会議録検索システムVOICES、QZS統合情報管理システムqzs_docs等をラインUP しています。
 
販売代理店や全文検索システム開発のニーズをお持ちのユーザ、SIベンダー等の供給先企業を募集しております。
下記のような問題や印象を抱えている開発者やユーザ等の皆さんからのご連絡をお待ちしております。
アプリケー ションによるデモンストレーションをご希望の方も渋谷オフィス(TEL:5456-0550)までご連絡ください。


04. こんな悩みはありませんか?

RDBMS(SQL)について…

  • コンテンツをLIKE検索しているが、異表記、同義語検索ができない為、ヒット率が低下している
  • 全文検索インデックスのアプリ連携で管理していた文書系コンテンツをもてあましている
  • RDBMS(SQL)と全文検索インデックスのアプリ連携検索でパフォーマンスに問題が出ている
  • 更新系バックエンド処理と検索側フロント処理を完全に分離して 開発・管理工数を下げたい
  • 現在使用している全文検索インデックスだけで管理できなかった項目なども一緒に管理/検索したい
  • データベース機能やソートやディスティンクトなどの参照機能を追加したい
  • リアルタイム更新に対応させたい
  • 全文検索インデックスは登録時間や容量が多大に必要なので、チューニングやプログラム変更ができないので困っている

上記のような悩みをQZSが解決します。

QZSを購入する殆どのユーザが全文検索エンジンとして2台目(2種類目)、 3台目の購入となる事実がQZSのソリューションを現しています。


Ver.3との比較

QZS Full-text Search Engine Ver.4は、
Ver.3までのすべての機能に加え、以下の新機能が搭載されています。

「タギング分析」機能

Ver.4で追加された「タギング分析」機能では、類似検索や自動分類、重要キーワード抽出が実現できます。
 
タギングとは写真や動画、その他のデータなどを検索する際に、内容や特徴を表すキーワードを入力、 
または文章からの抽出により属性付与することをいいます。
 
QZSは、こうして得られたデータ×タギング・キーワードのマトリクスを分析することで、 
類似のキーワードを持ったデータ検索や、キーワードの類似性による自動分類、関連性の高い重要キーワードの抽出を行います。 
 
テキストの部分文字列のマッチングに基づく全文検索とは異なり、概念的な分析が可能で、互いに相補的な役割を担います。 
さらに、当社のシソーラスやあいまい検索技術を組み合わせることにより、より適合率の高い検索、分類ができます。

▶ タギング分析適用例
point

検索が簡単になります

example

インターネットでショッピング

インターネットでショッピングをしているとき、すぐによい検索キーワードが思いつかないことがあります。 
それでも、タグ分析機能を利用すれば、簡単に目的の情報にたどり着くことができます。 
 
ピンとこないキーワードで検索しても、関連キーワードが提示されので、 
その中から最適なキーワードを選んで、再検索すれば、目的の情報を得ることができます。 
また、気に入った商品がみつかったら、類似検索ボタンをOne Clickして、類似商品を見ることができます。 
検索が簡単ですから、ショッピングを楽しむのに集中できます。

「検索結果スコアリング」機能
Ver.4で追加された「検索結果スコアリング」機能により、数値、テキスト、および、タギング・キーワードなど、
各種データに関する検索結果のスコアを計算することができます。
 
適合度が高いものほどハイスコアになるように、検索結果をスコアリングするため、
ユーザーにとって有用な順に表示することができます。
今回、新規に追加したタギング分析機能では、類似度をベクトル計算により算出しますので、
必然的に検索結果のランキングスコアが得られます。
タギング・キーワードだけでなく、既存のフィールド型(数値、文字列、および、テキスト型)にも
検索結果のスコアリングができるように拡張しました。
さらに、数値データ、テキスト全文検索、タギング・キーワードによる検索などを組み合わせて、
複合検索し、総合スコアを得ることもできます。
▶ QZS Full-text Search Engine Ver.4 検索結果スコアリング適用例

point

スピーディーに検索できます

example

価格による検索

ショッピングサイトでは、価格帯を指定して検索することがよくあります。
QZSでは、そのような範囲検索も簡単にできます。
しかし、範囲検索では2つの値を選択しなければならないので、やや手間です。
お客様は商品が見たいのであって、リストボックスの設定をするのが目的ではありません。
 
QZSでは、多様な数値検索方式を取り揃えています。
QZS数値検索では、「10万円くらい」という指定ができます。これなら、スライダーなり、
リストボックスなりで、さっと指定するだけで、すぐさま商品が見られます。

QZS Full-text Search Engine FAQ

QZSはどんな業務に使えるのですか?

文書管理システムはもちろん、文字中心のコンテンツの全般に向いています。
文字列を高速に中間一致で検索させたいとか、あいまいに検索させたいといった要求を既存のデータベースよりも簡単に実現できます。

全文検索エンジンで良く耳にする登録の遅さやリアルタイム登録ができないといったことはありませんから、
単なるテキストのみの検索だけでなく、更新の多い動的なコンテンツも扱うことができます。

アプリケーションの開発にはどんな開発言語を使用できるのですか?

最もポピュラーな開発言語は、C/C++です。
その他、実績があるのはC++Builder、Delphi、VisualBasicなどのRADツールです。理論的には、WindowsのDLLをリンクできる他の言語環境でも使用可能です。

QZS Ver.4の新機能は何ですか?

タギング分析機能とスコアリング機能です。
スコアリング機能は、検索結果レコードについて、スコア(適合度が高いほど大きな値となる指標)を計算します。また、単一の全文検索だけでなく、数値、文字列、テキストなど、各種フィールドを組み合わせた複合検索の結果に対しても、総合スコアを計算することができます。
タギング分析機能は、レコードに付与されたタグ(検索対象レコードを代表するキーワード集合)を分析することで、類似検索、重要タグ(キーワード)抽出、レコードのクラスタリングなどを実現することができます。CGMは、Consumer Generated Media(消費者生成メディア)の略で、インターネットなどを活用して消費者が内容を生成していくメディアです。具体的には、ブログやメルマガ、BBS、メーリングリスト、ソーシャルネットワーキングサービスなどがあります。

タギング分析機能は、どのように応用されますか?

WEBサイトなど、類似検索に利用されます。
重要タグ抽出は、関連キーワードやタグクラウドの表示に利用できます。ちょっと意外なところでは、広告表示の協調フィルタリングにも利用されます。
お客様のチェックした商品をお客様のタグとして、登録しておくことにより、類似検索と重要タグ抽出を用いて、類似の志向をもったお客様がチェックした商品を提示することができます。
クラスタリングは、ECサイトにおける検索結果の効果的な表示に役立ちます。ジャンルごとに表示することもできますし、その逆に、異なるジャンルのものをピックアップして表示することで、多彩な商品を見せることもできます。

全文検索のスコアは、どのような基準でつけられるのですか?

検索キーワードのヒット回数、空間占有率、ヒット位置などを総合して決定します。レコードの古い順や新しい順に表示させるだけでなく、キーワードとテキストの内容が近いものを上位に表示させることができます。

Ver.3からのバージョンアップは簡単ですか?

わずかな設定変更だけで、OKです。
ただし、Ver.4の新機能をご利用にならないお客様のためにVer.3も販売、サポートを継続します。

数値検索で、範囲を指定するのではなく、例えば「100円くらい」で検索できれば便利なのですが、可能でしょうか?

可能です。指定した値に近い順にスコアリングすることができます。
このような数値の類似検索は、通常の範囲検索と異なり、検索対象を絞りませんので、ECサイトで、「検索の商品がみつかりませんでした。」という画面が表示されることを極力防ぐことができます(もちろん通常の一致検索や範囲検索などもサポートしています)。

QZSには、全文検索以外の機能はありますか?

論理値(真偽)、数値、文字列(512バイト以内)などをそれぞれの項目タイプに合わせて、範囲検索や完全一致検索、前方後方一致検索などが可能です。
また、データはもとの状態に完全に復元できますので、書庫としての役割もあるといえます。

QZS全文検索エンジンとこれまでのISAMやRDBMSなどのデータベースとの違いはなんですか?

単純には、全文(中間一致、LIKE)検索が非常に高速である、文書検索特有のシソーラスや日本語あいまい検索などができることでしょう。
また、大きなテキスト情報も格納できることでしょう。

複数のDBS(データベース)やTBL(テーブル)はアプリケーションから同時に扱えるのですか?

可能です。
DBS、TBLは複数同時にオープンして使うことができます。

類似検索をしたいのですが、レコードにキーワードが割り当てられていません。 タグをつけるのは、簡単ですか?

検索対象文書から自動抽出することができますので、それほど手間はかかりません。
なお、2008年8月現在、タグ抽出WEBサービスを開発中です。
近々、このサービスによりWEBから気軽にタグ抽出をお試しいただけるようになります。

タギング分析機能の類似検索アルゴリズムは何ですか?

ベクトル空間モデルという検索方式を採用しています。
レコードと検索キーワードをベクトルで表現し、その2つのベクトル間の距離が短いほど、適合度が高いと判定します。
レコードを表すベクトルは、レコードの内容を表現していると解釈できますので、タギング分析機能の類似検索は、内容的、概念的な検索をすることになります。
与えられた文字列パターンを正確にマッチングする全文検索と相補的な機能であるといえます。

登録はリアルタイムですか?一括登録もできますか?

どちらもAPIレベル及びツールレベルで可能です。

変更はリアルタイムにできますか?

APIレベル及びツールレベルで可能です。

複数の項目に対して同時に検索できますか?

可能です。
1APIで複数の項目に対しての検索をサポートしていますので、細かく項目がわかれたデータを一気に検索するといった処理を簡単に記述できます。

開発サポートはありますか?

開発サポート契約についてはお問い合わせください。
教育セミナーなども実施いたしますので、ご利用ください。

QZS Ver4以前のFAQはこちら >>

仕様

データベース定義関連

複数のDB定義、オープン可能DBに対して同時に異なる複数のテーブルを定義、オープン可能
下記のフィールド型を複数使用したテーブル定義可能
Boolean型(0/1の論理型) ※1
Number型(LONGタイプの整数) ※1
RealNumber型(FLOATタイプ小数点以下桁数指定) ※1
AutoNumber型(LONGタイプの自動採番整数) ※1
String型(2048バイト以下の文字列) ※1
Text(File)型(512Kバイト以下の全文テキスト)
HTML(File)型(HTMLやSGMLのタグを無視した登録の全文テキスト)
SubText型(TEXT型のインデックスなし版)
StringSet型(String型の集合ビットマップ)
NumberSet(Number型の集合ビットマップ)
※1 Sort,Distinct指定可能
DB、テーブル、フィールド名は日本語で定義可能
フィールド名やフィールド属性は、APIでの参照、追加定義可能

検索系

完全一致、前方一致、中間一致、以上、以下、範囲、否定、その他各種検索方式をサポート
同義語・類義語展開検索モード設定
全文検索用に最適化した同義語・類義語辞書QZSシソーラスを標準バンドル
(日本語/英語/英数略語、複数ユーザー辞書サポート)
全角/半角、大文字/小文字、スペース無視、中黒無視、カタカナ語尾長音無視、
カタカナ異表記などの日本語あいまい検索モード設定
複数語(AND,OR,NOT,XOR)同時検索をサポート
複数フィールドに対する同一検索語での同時検索をサポート
無限回の絞り込み検索(AND,OR,NOT)

検索結果

各種検索結果集合は最大54個を同時にメモリー生成可能各種検索結果集合どうしの演算(AND,OR,NOT,XOR)して別結果集合への論演算マージ機能
各種検索結果集合のシステムファイルへのSave/Load可能
検索結果から任意のフィールド単位でのヒット数(Count(*))読み出し機能
検索結果から任意の複数のフィールドの同時読み出し(Fetch)、ソート条件設定機能
検索結果から任意の複数のフィールドでの重複行に対するDistinct条件読み出し設定機能
同上条件での重複行カウント読み出し機能
各フィールド(全文元テキスト含む)は登録時の状態に完全に復元して読み出し(Fetch)機能
全文型フィールド、STRING型フィールドの検索語レベルでの
検索ヒットポイント詳細(検索語No.、Offset、length)取得機能(シソーラス、あいまいに
完全対応)
検索結果と読み出し条件に対応したシーク読み出し機能

更新系

APIによるリアルタイム登録/削除/更新CSV形式データファイルからの一括学習
AutoNumber型でユニークな番号をインクリメントして採番可能
ユーティリティーからの簡単メンテナンス

動作環境

対応OS

Windows Server 2008
Windows Server 2012
Windows Server 2016
CentOS 7

CPU

Intel Core もしくは Xeon

メモリ

2GB以上(4GB以上推奨)

デモンストレーション

QZS Dictionary Serverを導入しているサイトをご紹介します。(別ウィンドウにて外部サイトへ移動します)

TOP