分散表現に代表されるベクトル群を主なターゲットとしたクラスタリングツールです。分散表現されたデータのクラスタリングは、少数のクラスタにまとめるよりは、数百~数千のクラスタにまとめるにーズの方が強いと考えています。但し、現在の主流であるクラスタリングアルゴリズムである k-means 系の手法では、クラスタ数の増加が処理時間に与える影響が大きく、ここで考えている用途では実用的とは言い難い状況です。
そのため、クラスタ数が 100~10,000 という範囲をターゲットとしたクラスタリングアルゴリズムを作成し、そのサンプルとして Machine Learning Vector Clustering Tool として公開しました。
将来的には有償化を考えていますが、当面は無償で提供いたしますので、ニーズのある方はまずはお試し下さい。
chiVe (真鍋陽俊, 岡照晃, 海川祥毅, 髙岡一馬, 内田佳孝, 浅原正幸. 複数粒度の分割結果に基づく日本語単語分散表現. 言語処理学会第 25 回年次大会, 2019.) にて公開された日本語のベクトルセットより、類義語辞書を自動的生成したサンプルを提示します。
計算時間
v1.3 mc5 のクラスタリング :1d 1:19:36.447
v1.3 mc15 のクラスタリング :11:10:7.269
計算環境
Xeon Gold 5120 2cpu 上に構成した 2cpu 22thread, Memory 192GB の仮想PC環境で実行。OS は Windows 11 Pro, 使用したアプリケーションは Microsoft Store にて公開中の Machine Learning Clustering Tool です。
実行結果
類義語として作成できたクラスタをテキストファイルの形で提供しています。
txt ファイルは類義語として検出された単語のみをテキストファイル化したものです。
例えば、chive-13-mc15-Cluster-1000 は、1000個のクラスタ(=類義語グループ)にクラスタリングした結果をテキスト化したものです。類義語は1行に入っています。
output-final-500-chive-1.3-mc15 は、アプリケーションの出力そのままの csv ファイルです。必用に応じて参照ください。
なお、以下の chiVe ベースの類義語辞書のライセンスについては、提供元に倣い、Apache License, Version 2.0 の下で合同会社ふうたシステムサービスが提供いたします。
なお、クラスタリングを実行すると、例えば10,000 から 500 まで 500単位でクラスタリングの結果を一括で出力します。そのため、今回は複数のクラスタ情報を一括で生成しています。
使い方について簡単に解説した PDF ファイルです。
参考にしてください。
詳細なマニュアルは、別途作成していく予定です。