グループ会社情報

私は会社情報を持つ3つの異なるデータセットを持っていますが、それらのすべてに私は会社名を持っていますが、完璧ではありません:例えば: データセットA:会社名:Facebook データセットB:会社名:Facebook、Inc データセットC:会社名:facebook company url のような他の信号も存在しますが、テキストの類似性がこのグループ化の問題に適しているかどうか不思議です。 ベストアンサー You can consider string similarity based on edit distance. eg: Levenshtein distance ただし、フルストリングだけでなく、ストリングの接頭辞に関してもこれを計算する必要があります。 (例:「Facebook」と「Facebook Inc.」を比較する)。また、比較の前に文字列の大文字を正規&#x531

もっと読む

類似した画像を一致させるための非常に優れたAPIはありますか?

私はPythonで作業しています。私は以下のような正面時計の3000のイメージを持っています: Watch1 、 a href = “https://i.stack.imgur.com/vcUH9.jpg” rel = “nofollow noreferrer”> Watch2 、 Watch3 私は、このコレクションの写真や、あまり理想的ではない条件(異なる背景色、より暗い雷など)で撮影された他のものを受け取り、最も類似した時計を互いに見つけ出し/一致させるAPIを探したいと思います。 類似性とは、薄いレースの丸い茶色の時計が丸い形の時計、暗い色のレース、および(同じ写真集の)薄いレースと一致することを期待していることを意味します。 > 私は Google 、 Amazon 、 Microsoft 、 TinEye 、 Clarifai 、 Indico などがあります。例えば&#x3001

もっと読む

2つのIPアドレス間の類似性をどのように測定できますか?再利用するコードはありますか?

私は2つのIPアドレスの類似性を測定する必要があります。 2つのIP間の距離を見つけるために、スカラーや他の言語でサンプルコードを見つけることができませんでした。 ベストアンサー Pythonには、IPアドレスを整数に変換できる ipaddressモジュールがあります、差を見つけるために単純に減算します。 from ipaddress import ip_address int(ip_address(‘10.0.0.1’))

もっと読む

意味の類似性の観点から文字列を比較するための優れたNLP APIはありますか?

私は街頭でのトラフィックについてユーザーに知らせるが、現時点ではリアルタイムではないことを知らせるチャットボットを作成したい。私は、トラフィックに関するいくつかのデータが保存されているMySQLを使用して小さなデータベースを作成し、チャットボットとのユーザーのやりとりに応じて適切な場合はいつでも、PHPスクリプトを使用してそれらをフェッチします。 私は、ユーザーが同じ質問のバリエーションを求めているので、同じ答えで答えることができるケースにどう対処するのだろうか。 例えば: ハイストリートにはなぜトラフィックがあ&#x30

もっと読む

キャプチャを解決する画像マッチング

私はPythonでボットを構築しており、次のようなcaptchaを解決するシステムが必要です。 私は深い学習アルゴリズムが必要だと思うが、1つをコーディングするのはお尻の痛みだ。これに簡単な解決策はありますか? この例では、画像をスクリーンショットして正しい答え(画像4または5)をクリックする部分をコーディングすることができます。画像は毎回回転して変化します。 ありがとうございました! ベストアンサー ここでは、深い学習アルゴリズムを使用しない単純で効果的なソリューションを紹介します。 問題を2つの部分に分割します。 セグメンテーション:エッジ検出&

もっと読む

クラスタ内類似度メトリック

私はグループに属するいくつかの観察をしており、特定のグループ内の観察が類似の特徴を持っているかどうかを知るために、異なるグループ内のそれらの観察の類似性を計算したい。 どのようなメトリックがそのようなことを行うのに役立ち、どの条件の下で役立つかを知りたいのですが、 私はグループ内の個人間の類似性を計算するための多くの指標が存在するが、クラスター内の個人が類似したパターンを共有しているかどうかを判断するためのしきい値はないことがわかっている。 ベストアンサー そのようなことを行うのに役立つ指標を知りたいのですが デー&#x3

もっと読む

画像における教師なし異常検出

画像における教師なし異常検出 ベストアンサー One thing you could try, would be to add a second loss term that uses also the latent representation of the VAE. The idea being that anomalies should also be outliers in latent space. That way you would have another channel that provides information about your outliers. There was a paper by Zong et al., DEEP AUTOENCODING GAUSSIAN MIXTURE MODEL FOR UNSUPERVISED ANOMALY DETECTION from the NEC labs at ICLR 2018 that used this approach. Please see https://openreview.net/forum?id=BJJLHbb0- 私はあなたのイメージのためにどれくらいうまくいくか分かりません。彼らは非常に小さなデータセットを使っていました。

もっと読む

類似の時系列を見つけるには?

類似の時系列を見つけるには? ベストアンサー 時系列は年間であるため、各時系列のデータポイントは限られており、かなり離れています(値は1年間隔です)。だからあなたのデータにDynamic Time Wrappingを使用しません。 パターンを比較することに興味があるなら、非常に簡単なアプローチはPearsonの相関関係です。これは実際の値ではなくパターンを比較することになります(つまり、値が年数と同様の変動を持つ場合、たとえば時系列[1 2 3 4]は[5 6 7 8] [1 1 2 2]で) 値とパターンの両方に興味がある場合は、ユークリッド距離、マンハッタン距離などの距離ベースのメトリックを使用します。 this ブ&#x30E

もっと読む

クラスタリングのための類似度メトリック

私はクラスタリングの問題に取り組んでいます。私は私のシステムのための右の類似性メトリックを見つけることができません。 私は、順序付きベクトル(例:[1,0,0,0,1,0、…..]のn個のノードを持っています。 “1”はi番目のオブジェクトの存在を表し、 “0”はオブジェクトの存在を表しています)。私はそれらをクラスタ化したい。 ベストアンサー 余弦は連続の値です。それはここで最も適切なものではありません。 バイナリ値については、次を参照してください。 単純なマッチング距離 ハミング距離 Jaccard距離 さらに多くのものがあります。 クラスタリングがうまくいくとは思わ&

もっと読む