Diggernaut’s Web Scraping News

ウェブスクレイピングとデータ抽出をマスターするのに役立つものすべて

DiggernautからZapierを通じて数千のWebサービスにデータをエクスポートする

f:id:Diggernaut:20180427092346p:plain

Diggernaut + Zapier

Zapierは、さまざまなWebアプリケーションを接続し、イベントに基づいてデータストリームを整理することを可能にする有名なサービスです。 Diggernautのユーザーは、データセットを他の何千ものWebサービスやさまざまなAPIにエクスポートできます。これを行うには、Zapier サービスにアカウントを登録するだけです。無料のアカウントにはいくつかの制限がありますが、サービスの機能をよりよく理解できるようになります。つまり、トリガアクションバンドルを使用してさまざまなサービスのAPIを接続できます。このバンドルでは、アプリケーションの1つがトリガーとして機能し、リンクに接続する他のアプリケーション(Zap)はアクションロールを実行します。したがって、メールアプリケーションをトリガとして選択すると、新しいメッセージを受信すると、Zapは電子メールメッセージから抽出されるデータを使用して一連のアクションを開始できます。

 

ZapierサービスでDiggernautアプリケーションを開発しました。このアプリケーションはトリガとして使用することができます:あなたの掘り出しが仕事を終えると、DiggernautはあなたのZapにコマンドを送信し、ZapierはあなたのZapでプログラムされた一連のアクションを実行します。たとえば、アクションの1つは、Googleスプレッドシート、またはZapierで利用可能な1,000以上のアプリケーションにデータをインポートすることです。また、私たちのアプリケーションは、 "データオンデマンド"モード(有料Diggernautアカウントでのみ利用可能)であなたの掘削機を起動するアクションとして使用することができます。この場合、特定のイベントが発生したときに、ディガーを開始するコマンドを送信すると、他のZapはディガーの完了に関するデータを収集し、必要なWebサービスにエクスポートします。

 

ZapierとDiggernautを使用すると、プログラミングを知らなくても、イベントベースのシステム上に構築されたデータ収集と処理のための複雑なインターフェースを構築できます。

 

現時点では、私たちのアプリケーションはベータテストの段階にあり、メインディレクトリには一般公開されていません。アプリケーションにアクセスするには、

 

への招待状のリンクをクリックしてください。オープンベータテストが終了すると、アプリケーションは自動的にライブモードに移行されますが、ディガーの機能には影響しません。引き続き問題なく動作し、設定を変更する必要はありません。

XLS、XLSX、およびCSVファイルからデータを抽出する

f:id:Diggernaut:20180402212336p:plain

今日、XLS、XLSX、およびCSV形式のファイルのサポートがDiggernautプラットフォームに追加されました。 サポートスキームは、サポートされている他のファイルタイプと同じフォーマットで実装されています。 walkコマンドを使用してファイルをdiggerにロードし、diggerがファイルを取得し、そのタイプを判別し、XMLに変換します。 次に、DOM構造を歩き、必要なデータを抽出してデータセットを作成します。

 

最終的なデータの実際の解析を除いて、この機能をどのように使用できますか? また、スプレッドシートをフィードとして使用して、掘削業者が掻き集めるべきリソースを使用することもできます。 たとえば、店舗内の製品へのリンクのリストをシートに追加します。スクレーパーがシートを読み取り、URLのリストをピックアップしてプールに入れた後、スクレーパーのメインロジックを使用してデータを収集します 商品について または、Webからのデータで拡張する必要があるデータを含むスプレッドシートがあるとします。 あなたのスクレーパーはシートを読んで、ラインごとに進み、新しいデータセットを形成します。各ラインについて、ページを訪れることができ、いくつかの追加情報を抽出して新しいデータセットに保持します。 このようにして、スプレッドシートからのデータと製品ページからのデータを1つのエントリにマージします。 スプレッドシートを使用するための他のオプションもありますが、次回はそのことについて話すことができます。

ソースコードとサンプルを含む英語の完全な記事は、こちらからご覧いただけます:

www.diggernaut.com

機械学習のためのデータ:ブランド認知度

f:id:Diggernaut:20180216074705j:plain

あなたの会社がコンピュータビジョンの問題を扱うならば、あなたはおそらくニューラルネットワークを訓練するためのイメージの欠如に精通しているでしょう。ブランド認知の問題に目を向けると、モノやマルチブランドのオンラインストアから素材の一部を得ることができますが、プロの写真では認識アルゴリズムをうまく練習するには十分ではありません。

 

ユーザー生成コンテンツはここで非常に役立ちます。だから、特定のブランドの服や靴の人々の写真を取得する方法を見つける必要があり、私たちはInstagramで見つけることができる多くの写真を知っています。ただし、写真内のアイテムを手動で分類する必要があります。これはかなり時間がかかります。

 

小さなライフハックがあり、初期段階で何百万もの既に分類されたユーザー画像を取得できます。このように、UGCオンラインストアの公式画像のコレクションは、ニューラルネットワークをトレーニングするためのかなり良いデータセットを使用することを可能にします。

 

事実、大規模なブランドやオンラインストアの多くは、集約サービスを使用してユーザーイメージを分類しています。そのようなサービスはほとんどないので、これらのフィードのコンテンツをトレーニング資料として使用してみませんか?

 

そのようなアグリゲーターの中で最大のものの1つは、Curalate社とそのサービスLike2Buyです。 6000を超えるデータフィードを処理し、これらのフィードはすべて標準のデータレイアウトを共有します。これにより、Like2Buyデータフィードで動作する単一のロジックを持つWebスクレーパーを作成できます。

 

このヒントを使用すると、タスクのデータを収集するときに時間とコストを節約できます。

 

利用可能なデータプロバイダが他にもあります。それらのすべてが同じディテールを持っています:同じレイアウトのすべてのデータフィードを持っています。だからあなたはそれぞれのためのWebスクレーパーを開発し、すぐに分類されたUGC画像の何百万を得ることができます。

 

あなたがlike2buyウェブスクレーパーを作ることに興味があるなら、Diggernautのブログの記事を読むことができます。

 

 

We updated our documentation to help you to learn how to do web scraping properly

Our cloud based web scraping service just got updated documentation. We tried to get all details on how to use our meta-language to build web scrapers easy way to scrape really complicated websites.

 

当社のクラウドベースのWebスクレイピングサービスは、最新のドキュメントを入手しました。私たちはメタ言語を使用してウェブスクレイパーを構築し、実際に複雑なウェブサイトをスクラップする簡単な方法について、すべての詳細を得ようとしました。

 

www.diggernaut.com