1つのクラス分類

私は1クラス分類について読んでいましたが、2つの疑問がありました – 1)訓練データが特定のクラスのみであるため、1クラス分類はどのように機能するのですか。その場合、テスト中に、モデルは常に、そのテストクラスのデータがそのクラスにのみ属すると予測します。 2)スパムメールのデータを持つことができるので、スパム検出には完全ではありませんが、ノンスパムメールのすべてのケースをカバーするためにノンスパムに関するトレーニングデータの量を見つけるにはどうすればよいでしょうか。 一般的な電子メールはスパムではないため、特定

もっと読む

マルチラベルのマルチクラス分類で層別サンプリングを実行するにはどうすればよいですか?

私はいくつかの理由でこの質問をしています: The dataset in hand is imbalanced I used below code x = dataset[[‘Message’]] y = dataset[[‘Label1’, ‘Label2’]] train_data, test_data = train_test_split(x, test_size = 0.1, stratify=y, random_state = 73) but the error message that I am getting is The least populated class in y has only 1 member, which is too few. The minimum number of labels for any class cannot be less than 2. I removed those classes where the class count is < 2 in each individual label. なぜこのエラーがポップしているのか分かりません。 だから、私は層状サンプリングを自分で実装しようと考えています。ここでは、問題の原因を解読し、複数ラベル分類の層別サンプリングの実装を支援する必要があるので、トレーニング中に個々のバッチでもうまく機能するようにします。 ベストアンサー ここでのエラーは、列車とテストデータ(2つのデータセット)を必要とするため、&#x540

もっと読む

最も重要な機能を探す際に最適化するもの

私はバイナリの分類問題を抱えています。人々が特定の製品を購入したり、購入したりすることはできません。標準の予測タスクとは異なり、私は、購入する人の決定にとって最も重要な機能を見つけることができます。 アルゴリズムを最適化するために使用するメトリックはどれですか?最良の予測をするのに興味があるようなサンプル精度を最大限に引き出しますか?またはフィット感を最大限に高め、オーバーフィットについて気にしないでください。両方の混合物? 私は xgboost を使用しています。 ベストアンサー 理想的には、検証セットを使用して、最良のモデル&#x3

もっと読む

多変量時系列異常エントリ検出

I have a multivariate data set of the following structure. 追加の文字列属性列id1とid2を持つログの時系列シーケンスです。あまりにも多くのエントリがid1またはid2のどちらかの値が似ているシーケンスに入っている場合は、それらを異常として分類してフラグを付けたいと思います。私はLSTMを使用しようとしましたが、特に入力として来ることができる値が常に同じではない(1つの時間枠に他の項目より多くの項目があるかもしれない)ときに、テキストデータのためにそれを使う方法が混乱しています。 同様のエントリは、必ずしも一緒になるとは限りませんが、特定の時間枠内で非常に頻繁に表示さ&#x

もっと読む

分類問題:カスタム最小化尺度

$ 1 $を「悪い」結果とし、$ 0 $を「良い」結果とするバイナリ分類問題を仮定します。それが関連している場合、サンプルでは商品よりもかなり悪いことがあります。 私は、出力クラスだけでなく、目的の結果が確率である分類モデルを開発しようとしています。 しかし、どのような変数/モデルの組み合わせを試しても、モデルは悪いケースをきれいに区別することができますが、良いケースは区別できません。言い換えれば、(平滑化された)経験的結果とモデル推定確率との分布関数は、単調ではなく、おおよそ傾斜パラボラの形をしている($ J $のような)&#x300

もっと読む

訓練とテストの後、予測されたクラスと実際のクラスを視覚化する

データセット X には、50個のインスタンスが0と1とラベル付けされた10個の機能があります。ここでは例として6つのインスタンスのみを考慮して、 YPred 、1,0,1,1] であり、実際のグランド真理値ラベルは YTest = [0,0,1,1,1,0] です。私はデータセットが多次元であるため、分類後に決定境界を描くことができません。次のコードでは、 pred = predict(svmModel、X(testIdx、:)); は k 回実行されます。 私は、クロスバリデーションが終わった後、どのクラスラベルを予測して最終的な「良い」予測であると言うことができるのか理解できません。 ベストアンサー 相互検証の本質は、さまざまなデータセットを使ってモデル&

もっと読む

複数クラスの分類を行っているときに、2つのアルゴリズムが異なるクラスのセットでより優れたパフォーマンスを発揮する場合はどうすればよいでしょうか?

アルゴリズムXがクラスUのセットでより良く実行され、別のアルゴリズムYがUとVドンがクラスを共有するクラスVのセットでよりうまく動作する場合、データ科学者の見解からどのような改善がなされうるか? また、UとVが少ないクラスを強調してください。 ベストアンサー 申し訳ありませんが、適切な答えはありません

もっと読む

柔軟な判別分析

私は本「統計学習の要素」を勉強しています。 12章では、一般化線形判別分析について説明します。そのセクションの1つでは、柔軟な判別分析についてです。 I am not able to understand the advantage of FDA and its algorithm. Also the complex mathematical equations given about FDA is difficult for me to understand. Can anyone explain me in simple language ,how do they come to the following equations? ベストアンサー 申し訳ありませんが、適切な答えはありません

もっと読む

クレジットカードのチェックデジットの確認

Luhnアルゴリズムとは別に、マシンアルゴリズムを使用してクレジットカード番号の最後の数字が有効かどうかを確認できますか?私はこれを複数クラスの分類問題と見なしますが、それを解決する正しいアルゴリズムを見つけることができません。 基本的にチェックデジット生成アルゴリズムがわからない場合のチェックデジットを見つける方法を探しています – クレジットカードは単なる例です。 番号発行機関がチェックデジットアルゴリズムを開示しないケースは複数ある。例えば、インドのGSTIN – cleartax.in/s/know-your-gstinまたはインドのPAN – en.wikipedia.org/wiki/Permanent_account_numberこのようなシー&#x3

もっと読む