2022年2月24日 (木)

本ブログでは討論内容をKY法から「テーラーメードモデリング」へと変更いたします。

 本ブログ設定の初期目標はKY法の討論でした。 その後約十年たちまして現在は、KY法の討論用ブログとして別のブログが利用されております。 従いまして、討論内容を整理、統一する目的では二つのブログで同じ内容を討論すると混乱を招きかねないと考えます。 この考えから本ブログは、KY法以外でインシリコデータの重要な技術/項目の討論を行なうことといたします。 なお、引き続きましてKY法に関する討論は別のブログにて実施いたしますので、よろしくお願いいたします。

 インシリコデータは「化学ビッグデータ」に対する取組として、独自に開発した二大技術(「KY法」および「テーラーメードモデリング」)にて対応いたします。 この二大技術におきまして「テーラーメードモデリング」に関する討論を行うブログは設定されておりません。 この「テーラーメードモデリング」も「KY法」同様に「化学ビッグデータ」に対応する重要な技術となっております。 従って、「テーラーメードモデリング」に関する討論の場として本ブログを用いることといたします。

 「テーラーメードモデリング」は株式会社インシリコデータの湯田が開発した技術で、化学の特性を利用しつつ「ビッグデータ」に対応する基本技術として展開されたものです。 「KY法」が開発された後に開発されたものですので、学会発表や特許化等は先行して実施されておりますが、詳細な説明や討論の場は設定されていませんでした。 本ブログでの討論は正に時宜を得たものとなります。

 本ブログを「テーラーメードモデリング」討論の場として今後ともよろしくお願いいたします。

 

 

 

2022年1月25日 (火)

投稿開始から10年以上たち、KY法を取り巻く環境は激変致しました。KY法の適用が際立つ「ビッグデータ」時代に突入しました。 More than 10 years have passed since the posting started, and the environment surrounding the KY method has changed drastically.

 KY法に関する本ブログの立ち上げは2010年の2月でした。この時からほぼ12年経ちました。この間、本ブログが存在し続けたことも大変なことですが、外的な環境の変化、特にIT技術に関する環境の変化は想像を絶するほどの拡大をし続けてまいりました。この結果、大量のデータを扱うことが可能で必要となる「ビッグデータ」時代に突入いたしました。

 本ブログを立ち上げた2010年代では大量のデータが集まっておらず、データ解析も少量、限られた数を用いてのデータ解析が主体となる時代でした。従って、KY法が発明された2010年代では分類率が100%を達成したとしても、少ないサンプルを用いた通常の解析手法であっても100%に近い値を実現するので、KY法の優位性は目立ちませんでした。

 「ビッグデータ」時代に突入した現在、KY法は大量のサンプルを扱うことが可能という特徴が大きくクローズアップされてきました。一般的に通常展開されているニクラス分類手法は、サンプル数が大きくなると分類率が低下するという傾向があります。サンプル数が100の時の分類率90%は10サンプルのみの誤分類ですが、10000では1000サンプルが、100000では10000サンプルが誤分類となり、サンプル数が大きくなると誤分類の影響は極めて大きくなります。サンプル数が大きくなると分類率も下がるのであれば、誤分類の悪影響はさらに拡大します。

 KY法はその分類率はサンプル数の影響を受けないことが大きな特徴です。サンプル数が100,10000,100000に急増しても分類率はほとんど変化なく、はぼ100%分類を実現します。これはKY法のアルゴリズムから明白です。

 十数年を経てKY法を取り巻く環境は激変し、KY法は正に時代が求める要求に答えることの出来る強力な機能を有するデータ解析手法であることが明らかとなりました。今後、現在の環境に関した討論を活発に進めてゆきたいと考えております。よろしくご支援お願いいたします。

 なお、KY法に関する議論は他のブログでも行っておりますので、そちらのKY法関連ブログもご参照ください。

 

2010年2月22日 (月)

KY法とは?その3:どんなことが常識破り(KY的)ということでしょう

 今回はKY法がなぜ常識破りのデータ解析手法であるかについて簡単に話します。KY法以外の多くの手法は、従来手法の概念に縛られて構成されています。ちょうど孫悟空のように、お釈迦様の手のひらの世界から飛び出すことはできません。これでは、常識を超えた素晴らしい結果の実現は困難です。KY法は手のひらから飛び出してしまいました。この結果従来手法では実現不可能な世界が開けたのです。

 KY法が従来手法と根本的に異なる点は大きく3項目あります。

1.正しく分類できるサンプルのみを分類し、分類を間違えるサンプルはそのままにする。

 従来手法での分類は、できる限り正しく分類できるサンプルを増やす努力をする。つまり、分類を間違えるサンプルをいかにして正しい分類に導くかに多大の努力を注ぎます。KY法では誤分類されたサンプルはそのままにしておきます。無理に正しく分類出来るように工夫することはありません。無理をすると過剰フィッティング等のデータ解析上での歪がでてきて、データ解析の信頼性そのものを下げるようになってしまいます。

2.KY法による分類は、分類特製の異なる2本の判別関数を用いて行う。

 従来手法での分類は、総て1本の判別関数を用いて行います。この1本の判別関数で、いかに少しでも多くのサンプルを正しく分類するかがデータ解析手法の勝負所となります。これに対してKY法では、ポジサンプルを100%分類する判別関数と、ネガサンプルを100%分類する判別関数の、分類特性が全く逆となる2本の異なる判別関数を用いて分類を行います。この2本の判別関数により、ポジサンプルとネガサンプルに分類されます。この他に分類ができない「グレー」サンプルという、新しいサンプル群ができてきます。丁度、従来手法は一刀流の剣術であるのに対し、KY法は宮本武蔵のような二刀流になります。この結果、従来では切れない(分類出来ない)サンプルも切れるようになりました。

3.分類を何回も繰り返して行う。

 KY法は、2本の判別関数でポジ、ネガおよびグレーの3グループに分けることを1段階とすると、ここでグレーに分けられたサンプルのみを用いて再び2本の判別関数を用いて分類を行う。これにより、先の段階で分類できなかったサンプルが再びポジ、ネガおよびグレーの3グループに分類されます。このように、各段階で分けられたグレーサンプルについて、分類を繰り返すと、最後にはグレーサンプルがなくなります。この時点で全サンプルが正しく分類されることになります。この原理上、サンプル数がどんなに多くなっても、分類の段階数が大きくなるだけで、常に100分類が実現されます。

 通常手法では、一回だけの分類実施で結果が求められます。KY法では、一回ごとでの分類正解サンプル数は少ないが、この段階数を増やすことで常に100%分類が実現できるし、どんなにサンプル数が増えても100%分類が実現される夢の分類マシンです。

2010年2月15日 (月)

KY法とは?その2:常識破りのデータ解析手法

KY(K-step Yard sampling)法はどんなサンプルを扱っても、サンプル数がどんなに大きくなっても常に100%分類を可能とする夢のような手法であることは既にお話ししました。

 こんな夢を実現できるのは、KY法という名前のようにこの手法自体がデータ解析手法の分野でKY(空気が読めない)であることが大きなポイントです。ちなみに、発明者の私(Kohtaro Yuta)自身、名前からしてKYです。

 KY法の何がKYなんでしょうか。順番に説明してゆきますが、従来手法の常識と大きくかけ離れた手順を取っていることがわかってくると思います。改めてなるほどなーと理解していただけるでしょう。

 KY法は従来の手法では実現できないことを実現しますが、まったく新しい理論ではありません。従来手法の使い方を変えているだけです。ただし、奇想天外ともいえる使い方をします。詳細は、今後段階的に説明してゆきます。

KY法とは何でしょう?夢のようなデータ解析手法(特許出願中)

KY(K-step Yard sampling)法は2クラス分類およびフィッテイング手法に革命を起こすようなパワーを持つ夢のデータ解析手法です。

KY法で2クラス分類を行うと、従来手法では100%分類ができなかったデータであっても常に100%分類が可能となります。また、サンプル数がどんなに大きくなっても100%分類可能です。

100%分類が極めて困難で、かつ高い分類率の実現が望まれる分野、例えば毒性予測分野等での利用に最適です。

KY法はWEB等で「KY法」で検索すると出てきます。詳細は公開特許等を見ればわかります。特許も日本、米国、EUと出しています。