Diggernaut’s Web Scraping News

ウェブスクレイピングとデータ抽出をマスターするのに役立つものすべて

機械学習のためのデータ:ブランド認知度

f:id:Diggernaut:20180216074705j:plain

あなたの会社がコンピュータビジョンの問題を扱うならば、あなたはおそらくニューラルネットワークを訓練するためのイメージの欠如に精通しているでしょう。ブランド認知の問題に目を向けると、モノやマルチブランドのオンラインストアから素材の一部を得ることができますが、プロの写真では認識アルゴリズムをうまく練習するには十分ではありません。

 

ユーザー生成コンテンツはここで非常に役立ちます。だから、特定のブランドの服や靴の人々の写真を取得する方法を見つける必要があり、私たちはInstagramで見つけることができる多くの写真を知っています。ただし、写真内のアイテムを手動で分類する必要があります。これはかなり時間がかかります。

 

小さなライフハックがあり、初期段階で何百万もの既に分類されたユーザー画像を取得できます。このように、UGCオンラインストアの公式画像のコレクションは、ニューラルネットワークをトレーニングするためのかなり良いデータセットを使用することを可能にします。

 

事実、大規模なブランドやオンラインストアの多くは、集約サービスを使用してユーザーイメージを分類しています。そのようなサービスはほとんどないので、これらのフィードのコンテンツをトレーニング資料として使用してみませんか?

 

そのようなアグリゲーターの中で最大のものの1つは、Curalate社とそのサービスLike2Buyです。 6000を超えるデータフィードを処理し、これらのフィードはすべて標準のデータレイアウトを共有します。これにより、Like2Buyデータフィードで動作する単一のロジックを持つWebスクレーパーを作成できます。

 

このヒントを使用すると、タスクのデータを収集するときに時間とコストを節約できます。

 

利用可能なデータプロバイダが他にもあります。それらのすべてが同じディテールを持っています:同じレイアウトのすべてのデータフィードを持っています。だからあなたはそれぞれのためのWebスクレーパーを開発し、すぐに分類されたUGC画像の何百万を得ることができます。

 

あなたがlike2buyウェブスクレーパーを作ることに興味があるなら、Diggernautのブログの記事を読むことができます。