Webページからの取り込みといろいろなデータ加工方法

Power BI では、webページにリンクしてページ内のデータをクエリとして取り込んでくることができますが、毎回きれいなデータが取り込めるとは限りません。
データ成型というほどではないですが、使える形に整えなおす例という感じで今回は書いてみます。

Webページからのデータの取り込みと調整

主な野菜の種類と食用部位と原産地をウィキペディアで発見したページを直にデータソースとしてつないでデータの比較をしてみました。
野菜 – Wikipedia

もともとのページではこのような形でデータが掲載されています。
f:id:frogwell_powerBI_blog:20170831183134p:plain

データを取得 > webでURLをいれると
f:id:frogwell_powerBI_blog:20170831160825p:plain

webページ内のtableタグを判別して、データテーブルを抜き出してくれます。
今回は「代表的な野菜」を使用します。
f:id:frogwell_powerBI_blog:20170831161033p:plain

ただ、このままでは使用できる状態ではないので。。。
f:id:frogwell_powerBI_blog:20170831161211p:plain

①1行目をヘッダーにする

ホーム > 1行目をヘッダーとして使用で、1段上がります
f:id:frogwell_powerBI_blog:20170831162041p:plain

もしくはここで。
f:id:frogwell_powerBI_blog:20170831162317p:plain

②不要なカラムを削除する

f:id:frogwell_powerBI_blog:20170831163555p:plain

③複数の値が入っているセルを分割する

今回のデータは「、」で区切られているので「変換」タブ > 列の分割 > 区切り記号による分割から…
f:id:frogwell_powerBI_blog:20170831163241p:plain

設定は以下のように。
「分割数」のところを「行」に指定してあげると分割したデータを自動で縦に並べてくれます。
「列」で分解した後ピボット解除をするという手間が省けるのと、ステップが1つ減るのでクエリ更新時間への影響も減らせます。
f:id:frogwell_powerBI_blog:20170831164223p:plain

同様に「類縁種」のカラムも分割します。
f:id:frogwell_powerBI_blog:20170831180300p:plain

④nullのセルを「値の置き換え」で「0」に置きかえる

「世界生産量」の中にあるnullのセルが、計算などの際にエラーの原因になります。
f:id:frogwell_powerBI_blog:20170831180656p:plain

⑤レコード数をカウントするためのカスタム列を作成

f:id:frogwell_powerBI_blog:20170831180406p:plain

レポート作成画面に戻って今回はカスタムビジュアルの「WordCloud」を使ってみます。
Value(値)が多い単語ほど大きく表示されるアレです。

↓こんなん
f:id:frogwell_powerBI_blog:20170831182143p:plain

※私は見づらいのでいつも書式で「Rotate text」はオフにしちゃいます

できあがりはこんなんです。
f:id:frogwell_powerBI_blog:20170831182505p:plain

葉っぱを食べる野菜が多いんスね。。。

メニューにあることは知っているけど、触ったことのない機能がこんな風に役に立つ機会はたくさんあります。
エクセルなどに比べたらはるかにメニューは少ないので(笑)、一回全部触っていじってみることをおススメします。

公式のwebページへの接続の説明はこちら

Power BI Desktop から Web ページに接続する | Microsoft Power BI