Diggernaut’s Web Scraping News

ウェブスクレイピングとデータ抽出をマスターするのに役立つものすべて

XLS、XLSX、およびCSVファイルからデータを抽出する

f:id:Diggernaut:20180402212336p:plain

今日、XLS、XLSX、およびCSV形式のファイルのサポートがDiggernautプラットフォームに追加されました。 サポートスキームは、サポートされている他のファイルタイプと同じフォーマットで実装されています。 walkコマンドを使用してファイルをdiggerにロードし、diggerがファイルを取得し、そのタイプを判別し、XMLに変換します。 次に、DOM構造を歩き、必要なデータを抽出してデータセットを作成します。

 

最終的なデータの実際の解析を除いて、この機能をどのように使用できますか? また、スプレッドシートをフィードとして使用して、掘削業者が掻き集めるべきリソースを使用することもできます。 たとえば、店舗内の製品へのリンクのリストをシートに追加します。スクレーパーがシートを読み取り、URLのリストをピックアップしてプールに入れた後、スクレーパーのメインロジックを使用してデータを収集します 商品について または、Webからのデータで拡張する必要があるデータを含むスプレッドシートがあるとします。 あなたのスクレーパーはシートを読んで、ラインごとに進み、新しいデータセットを形成します。各ラインについて、ページを訪れることができ、いくつかの追加情報を抽出して新しいデータセットに保持します。 このようにして、スプレッドシートからのデータと製品ページからのデータを1つのエントリにマージします。 スプレッドシートを使用するための他のオプションもありますが、次回はそのことについて話すことができます。

ソースコードとサンプルを含む英語の完全な記事は、こちらからご覧いただけます:

www.diggernaut.com