お知らせ

DTCY劉クリスが共著者としてICAART 2024において論文を発表

研究成果の発表:BornFS: Feature Selection with Balanced Relevance and Nuisance and Its Application to Very Large Datasets

学会・研究会:ICAART 2024

著者:Kilho Shin(学習院大)・劉クリス(デロイト トーマツ サイバー)・Katsuyuki Maeda(学習院大)・Hiroaki Ohshima(兵庫県立大)

URLhttps://www.insticc.org/node/TechnicalProgram/ICAART/2024/presentationDetails/124360(外部サイト)

論文概要
In feature selection, we grapple with two primary challenges: devising effective evaluative indices for selected feature subsets and crafting scalable algorithms rooted in these indices. Our study addresses both. Beyond assessing the size and class relevance of selected features, we introduce a groundbreaking index, nuisance. It captures class-uncorrelated information, which can muddy subsequent processes. Our experiments confirm that a harmonious balance between class relevance and nuisance augments classification accuracy. To this end, we present the Balance-Optimized Relevance and Nuisance Feature Selection (BornFS) algorithm. It not only exhibits scalability to handle large datasets but also outperforms traditional methods by achieving better balance among the introduced indices. Notably, when applied to a dataset of 800,000 Windows executables, using LCC as a preprocessing filter, BornFS slashes the feature count from 10 million to under 200, maintaining a high accuracy in malware detection. Our findings shine a light on feature selection’s complexities and pave the way forward.

特徴選択は統計学・機械学習の古典的、かつ、主要な研究テーマのひとつであり、今も、活発に研究が進められている。例えば、32億個の塩基から構成されるDNA中には23000個ほどの遺伝子が存在するとされるが、そのうち特定の遺伝病の原因となる遺伝子を見つける問題は特徴選択の問題である。特徴選択の重要な2つの課題は、特徴選択の性能の定量的評価指標の確立と、大規模データに適用できる高速なアルゴリズムの開発である。特に、特徴選択はNP困難な問題であるので、大規模データに適用しても実用的な時間内で結果を返す高速なアルゴリズムの開発は重要である。本研究は、前記二つの課題に取り組む。評価指標に関しては、従来用いられていたクラス相関と特徴数に加えて、選択された特徴が内包するクラスと無相関な情報量を評価する「Nuisance」の導入を提案する。「Nuisance」が大きいと、特徴選択後の機械学習の手続きに悪影響がでることが想定される。実際、本研究では、クラス相関と「Nuisance」のバランスを最適化することで、分類アルゴリズムの性能が改善されることを確認した。更に、クラス相関と「Nuisance」のバランスを最適化する特徴選択アルゴリズム「Balance-Optimized Relevance and Nuisance Feature Selection (BornFS)」を提案する。BornFSは大規模データセットを扱うスケーラビリティを有する。マルウェア検出を目的とし、80万件のデータインスタンスからなる大規模データセットを用いた実験では、1000万個超の特徴からわずか155個の特徴を選択し、選択した特徴に基づくマルウェア検出でAUC-ROC=0.96の非常に高い正確性を示すことに成功した。

お役に立ちましたか?