k-meansクラスタリングのための有用な特徴の抽出

つまり、フィーチャが存在するかどうか、つまり 0 または 1 のデータセットがあるとします。クラスタリングに本当に役立つ機能を特定したいと思います。 私は4つの訓練の例があると言うのと同様。今度は、すべてのトレーニングの例で、つまり 1 というフィーチャがあるとします。さて、2つの機能についてもう少し話しましょう。共通するトレーニング例が多い場合、クラスタリングにあまり役立たない(ベン図の2つの重なり合った円を考えてみましょう)。だから、このようにして、私はクラスタリング、すなわちほとんど重複しない特徴に大きな影響を&#x

もっと読む

回帰を階層化する

私は分類の問題に取り組んできました。そして、層別相互検証は、私が見つけた最も有用で簡単な手法の1つです。その場合、ターゲット変数のクラスと同じprorportionsを持つトレーニングと検証セットを構築することです。 私はそのような戦略が回帰に存在するかどうか疑問に思います。簡単なアプローチは、データを四分位数または十分位数に分割し、それぞれの四分位数と十分位数のトレーニングインスタンスと検証インスタンスの比率が同じであることを確認することです。 問題は、これを行うための標準的な方法があるかどうかです。もしそうなら、sklearnに&#

もっと読む

最終的なモデルを訓練するためにデータセット全体を使用する方が常に良いですか?

基本的な機械学習モデルを訓練し、検証し、テストした後の一般的なテクニックは、テストサブセットを含む完全なデータセットを使用して最終モデルを訓練し展開することです、例えば製品。 私の質問です:それはいつも最高のものですか?もし   パフォーマンスは実際に低下しますか? たとえば、テストサブセットを分類する際に、モデルのスコアが約65%になる場合を想定します。これは、モデルが不十分に訓練されているか、または試験サブセットが異常値で構成されていることを意味する可能性がある。後者の場合、それらを使用して最終モデ&#x30EB

もっと読む

1つのクラス分類

私は1クラス分類について読んでいましたが、2つの疑問がありました – 1)訓練データが特定のクラスのみであるため、1クラス分類はどのように機能するのですか。その場合、テスト中に、モデルは常に、そのテストクラスのデータがそのクラスにのみ属すると予測します。 2)スパムメールのデータを持つことができるので、スパム検出には完全ではありませんが、ノンスパムメールのすべてのケースをカバーするためにノンスパムに関するトレーニングデータの量を見つけるにはどうすればよいでしょうか。 一般的な電子メールはスパムではないため、特定

もっと読む

多変量時系列に基づく分類・予測

したがって、私は多くの独立変数(X)と結果変数Y(私が予測したいと思う2つのクラスのロジスティック回帰を考えると、出力は1または0のいずれかになります)を持つ時系列を持っています。下記のサンプルを参考にしてください: Timestamp X1 X2 X3 X4 Y 1:00 1 0.5 23.5 0 0 1:01 1 0.8 18.7 0 0 1:02 0 0.9 4.5 1 0 …. 1:30 1 1.9 5.5 1 1 1:31 0 1.7 4.3 0 1 … … 今度は、Yを0(安定)または1(不安定)と予測または分類したい(Yが1になると、一定の時間間隔の間は1になり、0の場合と同じ) したがって、Yはシーケンス変数に依存します(時系列であり、すべての行が分類のためにアルゴリズムに供給される標準的な回帰問題ではなく、ここでの出&#x5

もっと読む

NLP – 人々に関連する文章部分を抽出する

次の問題に関する問題や情報源の定義に感謝してください:1〜2つの文を与え、与えられた形容詞/動詞/部分文が人物を対象としていることを調べる。 私は、基本的なNLPタスク(主にコンテンツベースの分類とクラスタリング)を経験していますが、品詞/コンテキストベースの問題は少ないです。 例: 1.入力:          アメリカで生まれたジョンはインド料理を好きです。          出力:          アメリカ合衆国で生まれた(またはそれに類するもの)    インド料理が好き          2.入力:          病院は脳スキャンを専門としています。          &#x

もっと読む

予測変数と目標変数

変数が予測変数でないことがわかったら、それは自動的に目標変数になりますか?私はあなたが209の変数を持っていて、あなたがこれらの変数から予測変数を見つけたので、あなたは1つ以上の目標変数を持つことができないので、私はそう信じません。右? ベストアンサー あなたが本当に尋ねるべき質問は、 問題の声明は何ですか?何を予測しようとしていますか? ターゲット変数が何であるかが自動的にクリアされます。

もっと読む

データをクラスタリングするための成長する神経ガス(GNG)

私はデータをクラスタ化するために成長する神経ガス(GNG)を使用しています。クラスタ(ノード)の数を制限するにはどうすればいいですか、しきい値を設定できますか?私のデータはいくぶん巨大ですが、クラスタはほとんど必要ありません。私は、このの論文に記載されているアルゴリズムを使用しています。 ベストアンサー 申し訳ありませんが、適切な答えはありません

もっと読む

二次コスト関数またはMSEで数を倍にするのはなぜですか?

$(x、y)は、次のようになります。$$ C(w、b)= frac {1} {2n} sum_ {x} ここで、yは10次元ベクトル、aは出力、wは重み、bはバイアス、nは入力数です。これがMSEであれば、代わりに$ frac {1} {n} $であってはなりませんか? リンク ベストアンサー これは実際には、コスト関数(すなわち、計算勾配)の導関数を取ることを望んでいるので、いくつかの場所に現れる慣例と同じです。つまり、2の累乗が前面に表示されます。 私たちが最初に$ frac {1} {2} $を前に置くと、一度終了すればもっと良く見えます。これは紙の中のどこかに書かれているのを見たことがありますが、今は参考にすることができません。 コスト自&#x4F53

もっと読む

オートエンコーダはどのように次元を減らすことができますか?

オートエンコーダでは、入力レイヤーからショートコードにデータを圧縮し、そのコードを元のデータに圧縮して縮小がどこにあるかを知ることができるので、次元の削減はどのように達成されるのか理解できません。 putputデータの次元が同じですか? ベストアンサー オートエンコーダーは、エンコーダーとデコーダーの両方のセクションを使用してトレーニングされますが、トレーニング後にはエンコーダーのみが使用され、デコーダーは廃棄されます。 したがって、次元削減を取得するには、エンコーダとデコーダの間のレイヤーを入力の次元よりも小さい次元に設&#x5B9A

もっと読む