JMSL数値計算ライブラリ の新機能と特長

Java 数値ライブラリは ビッグデータ用のツールを使った高性能なデータ解析のためにチューニングされています。100% Javaで作成された解析ライブラリを使うことにより複雑なコードの開発がシンプルになります。

バージョン7.3のハイライト

JMSL 7.3 のリリースは、予測とパターン認識のために2つのクラス SupportVectorMachine と RandomTrees を追加し、その他にもお客様からのリクエストに基づく機能強化などが盛り込まれています。
  • サポートベクターマシン (SVM) のパッケージ
    • 著名なLIBSVMライブラリに基づき、分類、回帰、1クラス分布推定を提供
    • 回帰分析用にν-SVRとϵ-SVR法のサポート、分類用にC-SVCとϵ-SVCサポート、適合度検定 (goodness-of-fit) のための 1クラス法 (one-class formulation) のサポート
    • 線形、多項式、ラジアル基底関数(RBF)、シグモイドカーネル等、最適化と予測計算のための拡張可能なカーネルクラス
  • 決定木(Decision Trees)のためのランダムフォレストアンサンブル法(Random Forest ensemble method)
    • 決定木のコミッティを使って分類や回帰問題における予測を生成し、分布問題やビッグデータ解析などの多くの領域で幅広く使われている方法(Leo Breiman 2001)に基づく
    • 新しいランダムツリー(RandomTrees)クラス。DicisionTreeパッケージに含まれる4つの決定木アルゴリズムを利用可能
    • 最適化と予測計算のための拡張可能なカーネルクラス
  • 新しい統計解析クラス:
    • PooledCovariances: 1つまたは複数の観測量のセットからプールした分散共分散行列を計算
    • RandomSamples: 有限の分布や観測量のサブセットからランダムなサンプルを生成
    • 連続一様分布、連続指数分布: 最尤推定法のための確率分布クラスを拡張
  •  追加の機械学習アルゴリズム:
    • BootstrapAggregation: out-of-bug予測を得るための新しいメソッドを追加
    • PredictiveModel: 繰り返し数を設定するための新しいメソッドと推定クラス確率を取得するための新しいメソッドを追加
    • ClusterKMeans: K-Means++アルゴリズムを追加
    • Apriori: メソッドのスケーラビリティを改善
  • 継続的なバグフィックスと品質向上
JMSLは これからも数値計算のための信頼性の高いビルディングブロックを開発者に提供し、エンジニアチームがすばやくデータ解析や予測解析のためのアプリケーションを開発できるようサポートしてまいります。Apache Sparkを使って時間を短縮するための方法を説明した新しいホワイトペーパーをご覧ください。また、日本語の解説ブログ記事もご覧ください。

製品のバージョンアップトライアル(評価版)ご希望の方はお気軽にご連絡ください。

最近のリリースのハイライト

バージョン7.2 では、確率的勾配ブースティングが導入されました。この比較的新しい技術はマシン学習で最も強力なアルゴリズムのひとつで、連続変数や予測変数を使った分類問題や回帰問題で用いられています。勾配ブースティングはアンサンブル法の一例で、予測を行う為にベースとなる学習法(通常は決定木)のコミッティを用います。勾配ブースティングは、独立木を使用する代わりに一連の回帰木を生成し、繰り返し重みを再設定する事により予測誤差を最小にして予測精度を向上させます。加えて、統計的なステップ内で繰り返し毎にランダムなサブサンプルを行うことで、より正確性を高め、オーバーフィッティングを防止することにつながります。

  • オフライン、ストリーミング、分散分析の用途の全てのデータ解析ステージをサポートするアルゴリズム
  • コンピュータリソースを最大限に活用する並列化アルゴリズム
  • 予測モデルのための新しい抽象クラスは、トレーニングや予測、モデルの検証、ブートストラップ集計、クロス検証等の予測モデルのための共通の属性とメソッドを提供します。新しいクラスCrossValidation と BootstrapAggregation はそのパフォーマンスを最大限に活用するために並列化されています 

データマイニング機能と強化された既存クラス

  • ALACART, C4.5, CHAID, QUEST メソッドなどの決定木
  • アソシエーションルール発見(Association Rule Discovery )のためのApriori
  • Kohonen の自己組織化マップ
  • NormalTwoSample の中でストリーミング機能が可能になり、線形回帰、カルマンフィルター、標準統計、カイ二乗検定、判断分析等のクラスがストリーミング機能を有するようになりました
  • Hadoop を使ったJMSLクラスの例題
  • Wilcoxon ランク総和

パフォーマンス強化

最適化領域 - 以下のソルバーを並列化:
  • 高速かつ効率的な疎行列用線形計画法ソルバー(Sparse LP solver) を用いることで、複素数の線形計画法問題を少ないコンピュータリソースで解くことができます。データ構造のメリットを活かした使ったアルゴリズムにより、少ないメモリでより大きな最適化問題に取り組む事ができ、場合によっては数時間掛かっていた問題を数十秒で解く事ができます
  • 逐次等式2次計画法を使った一般非線形プログラミングのソルバー
  • 線形均等/非均等拘束を対象とした一般目的関数のソルバー
  • 準ニュートン法を用いた n 変数の f(x) 関数の為のソルバー
  • 非線形最小二乗ソルバー
  • ヤコビアンを返す境界条件付き最小二乗ソルバー

データマイニング - 以下のメソッドを並列化:

  • 決定木の様な予測モデルの為に CrossValidation と BootstrapAggregation クラスが並列化された
  • Kohonen の自己組織化マップトレーナ
  • 自己相関
  • クラスタ K 近傍法分類
  • 相補非芯F累積分布関数

追加された時系列機能

  • ベクトル自己回帰
  • Holt Winter の指数平滑化
  • 時系列データの加算、減算機能の追加

その他の強化

  • 最尤推定の為のユーザ定義確率密度
  • オッド・クーポン債計算
  • JVM 7.0 と 8.0 サポート
  • バグ修正
  • メモリー使用の改善
  • Chart Programmer’s Guide のアップデート