自動コードチェック

主にクラスタリングや分類子を使った機械学習の経験があります。しかし、NLPに関しては、初心者です。 それは、私はすべての様々な問題や困難なの言語の品詞、曖昧さ、否定の検出などを処理することに関与していることを認識していると私はまた、特定のモデルの袋-of-wordsおよびWordベクトル表現。 私が持っている特定の問題はテキスト上の問題ですが、自然言語の問題ではありません。代わりに、私はプログラミングコードのファイルの1000を比較して、どれほど類似しているかを判断する必要があります。 ストップワードを取り除いた自然言語処理とは異なり&

もっと読む

ドキュメントの類似性タスクに新しい機能を組み込む

私は、入力クエリテキストを与えられた同様のテキストドキュメントを見つけるためのモデルパイプラインを持っています。モデルはとてもシンプルです。私は TfIDF モデルを訓練する文書の集まりを持っています。クエリが入力されると、そのTfIDFベクトルを推論できます。最後に、クエリのTfIDFベクトルを、コサイン類似度を使用してコーパス内の文書のすべてのベクトルと比較します。これにより、「最も類似した」テキストが見つかります。 私の質問は、パイプラインに類似のドキュメント検索がより効果的に実行されるように、より多くの微細構造の機能&#x309

もっと読む

ソースコードの場合の文書の類似性の計算方法

私は、異なる種類のソースコードテキスト(ウェブページ、プログラムコード)の共通の著者(人、会社)の確率を検出しようとします。私の最初のアイデアは、トークンベースのドキュメント表現(TF-IDFまたは埋め込み)のような通常のNLPツールを適用し、これらに類似性を計算することですが、何とかこのアプローチは少し不器用です。私は、このアプローチの範囲外と思われる「手書き」(特徴的なコメントと略語のスタイル、フォルダ構造、サードパーティツールの使用、コード内の要素の順序など)を検出したい。 さらに、私はここで適切な機械学&#x7FD

もっと読む