2021-02-01

GitHub ActionsでDockerイメージのビルド結果だけを確認するActionを作る

このhc-pdf-serverのレポジトリで、ユニットテストの他に、Dockerイメージのビルドが成功するかどうかを確認したかった。
以前ファイル名などを変えた際に、テストは通るがdocker buildできない状況が発生していて気づけなかったことがある。
github.com

普通はビルド＆DockerHubなどにプッシュでワンセットで、認証などが必要だけど、ビルドだけならすごいシンプルだった。
onのところは各々変えるとしてこんだけ。

.github/workflows/docker.yml

name: docker-build

on:
  push:
    branches:
      - main
  pull_request:
    paths-ignore:
      - 'docs/**'
      - '*.md'
      - '*.pdf'

jobs:
  build_and_push:
    runs-on: ubuntu-latest
    steps:
      - name: Check out the repo
        uses: actions/checkout@v2
      - name: Build and push
        uses: docker/build-push-action@v2

プルリクで試したらこんな感じ。
add docker build action by uyamazak · Pull Request #95 · uyamazak/hc-pdf-server · GitHub

f:id:uyamazak:20210201122833p:plain

f:id:uyamazak:20210201122542p:plain

README.mdにもバッジを追加しておく

[![docker](https://github.com/uyamazak/hc-pdf-server/workflows/docker-build/badge.svg)](https://github.com/uyamazak/hc-pdf-server/actions?query=workflow%3Adocker-build)

GitHub Actionsはpublicだと無料でいろいろできるのでCIで遊ぶのにもってこい。

さわって学ぶクラウドインフラ　docker基礎からのコンテナ構築

作者:大澤文孝,浅居尚
発売日: 2020/06/11
メディア: Kindle版

2021-01-19

Puppeteer + TypeScriptでWEBサイトをスクレイピングしたメモ

業務でとある業界のいわゆるアタックリストが必要になり、複数のサイトをスクレイピングしてCSVにしました。

スクレイピング処理には、WEBブラウザ(Chrome or Chromium)を操るPuppeteerを使いました。

https://pptr.dev/

その過程で得たことをメモ。

スクレイピングにPuppeteerを使うメリット

ブラウザと同じ動きをする

HTMLの解析しかしないツールと比較すると、当たり前ですがChromeを使うので、
JavaScript、CSSなども全く同じ用に動くのでSPAやAJAXを多用したサイトのHTMLも取得できます（簡単とはいっていない）。
ユーザーエージェントや画面サイズも自由に変更できます。

複雑なフォーム送信もボタンをクリックさせるだけでOK

特に複雑な検索フォームだと、POSTするのに、CSRF トークンなどいろいろなパラメータの準備が面倒ですが、Chromeを操作するので
手と同じくボタン要素を指定して、click()一発です。

Puppeteerを覚えられる

Puppeteerはスクレイピング以外にもテスト用途やスクリーンショット生成、PDF生成など数多な用途に使えます。
私はPDF生成に特化したサーバーアプリケーションを下記で作ってます。

github.com

Puppeteerを使うデメリット

覚えることたくさん

Puppeteerはスクレイピングに特化したツールではなく、あくまでWEBブラウザを操作するライブラリなので、Puppeteer自体のメソッド、オブジェクト、
JavaScriptや、Promiseの知識も必要になります。

非同期の嵐

サンプルコード見ればわかりますが、大半が非同期処理です。それらが巻き起こす問題と戦う必要があります。

処理が重い

Chromeを起動するので、単純なHTMLパーサーと比べると重いです。
でも今回は1回動かしてCSVできたら終わりだし、ローカルでの実行だったのでこれは大きな問題にならなかったです。
クラウド上でずっと動かすような用途だとコストが問題になるかもしれません。

TypeScriptを使った理由

特にJavaScriptでも問題ないのですが、TypeScriptに慣れてきてJavaScriptで書くのがつらくなってきたため使いました。

今回のような最終的な同じCSVに書き出す場合などは、項目漏れなどがVSCode上ですぐ分かったので便利でした。
また非同期処理、同期処理が混在するため、その間違いにすぐ気付けるのも大きなメリットでした。

デメリットしては数秒のビルド時間がかかるぐらいでしょうか。

環境構築

Node（私の環境ではv14.14.0を使用）やyarnなどはインストール済みとします。

Puppeteerインストール

puppeteerとCSV用のツールを入れました。

yarn add puppeteer csv-write

TypeScript周りは省略しますが、package.jsonはこんな感じ。
ビルドしたファイルは特に使わないので、ts-nodeを使ってビルド&実行してました。

{
  "name": "scrapuppeteer",
  "version": "1.0.0",
  "main": "index.js",
  "license": "MIT",
  "scripts": {
    "start:sample": "ts-node src/sample.ts",
    "lint": "eslint --fix ./ --ext ts"
  },
  "devDependencies": {
    "@types/node": "^14.14.14",
    "@types/puppeteer": "^5.4.2",
    "@typescript-eslint/eslint-plugin": "^4.11.0",
    "@typescript-eslint/parser": "^4.11.0",
    "eslint": "^7.16.0",
    "eslint-config-prettier": "^7.1.0",
    "eslint-plugin-import": "^2.22.1",
    "eslint-plugin-prettier": "^3.3.0",
    "prettier": "^2.2.1",
    "ts-node": "^9.1.1",
    "typescript": "^4.1.3"
  },
  "dependencies": {
    "csv-writer": "^1.6.0",
    "puppeteer": "^5.5.0"
  }
}

Puppeteerを使ったスクレイピング処理の流れ

WEBサイトによって構造はバラバラなので、基本的にオーダーメイドになりますがよくある処理をまとめておきます。

CSVの型決め

いろんなサイトを同じCSVにまとめたので、こんな感じのinterfaceを作ってつかってました。
不足してたり、誤字に気付けるので便利です。
```
interface CsvItem {
companyName: string
name: string
postalCode: string
address: string
tel: string
fax: string
email: string
hp: string
}
```

よく使う処理

サイト構造に限らずよく使うメソッドなどは別に管理して使いまわします。

utils/index.ts

// ゆらぎをもたせたいわゆるsleep
export const randomSleep = (ms: number): Promise<void> => {
  const sleepMs = ms + ms * Math.random()
  console.log(`sleep: ${sleepMs}`)
  return new Promise((resolve) => setTimeout(resolve, sleepMs))
}

// HTMLをローカルに落としてやるときに使う
export const getContentsFromFile = async (path: string): Promise<string> => {
  return await readFile(path, { encoding: 'utf-8' })
}

// 指定したElementHandleのテキストとかを抽出する、CSSセレクタで絞り込んだり、propertyNameでhrefとかinnerHTMLとかいろいろ取れる
export const getTextFromElement = async (
  element: ElementHandle,
  selecter = '',
  propertyName = 'textContent'
): Promise<string> => {
  if (selecter) {
    const selected = await element?.$(selecter)
    if (selected) {
      element = selected
    } else {
      return ''
    }
  }
  const text = await (await element?.getProperty(propertyName))?.jsonValue()
  if (typeof text === 'string') {
    return text
  }
  return ''
}

// User Agentの文字列。普段のブラウザと合わせた
const uaString =
  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

// おまじない
export const launchOptions: ChromeArgOptions = {
  args: [
    '--no-sandbox',
    '--disable-setuid-sandbox',
    '--disable-gpu',
    '--disable-dev-shm-usage',
  ],
}

// ページの起動とUAのセットと、デフォルトタイムアウトが30秒だと長いので10秒にしておく
export const initPage = async (browser: Browser): Promise<Page> => {
  const page = await browser.newPage()
  await page.setUserAgent(uaString)
  page.setDefaultTimeout(10000)
  return page
}

ブラウザとページの起動

ブラウザと最初のページを用意

  const browser = await launch(launchOptions)
  const page = await initPage(browser)
  await page.goto('http://example.com/')
  # 次の動作に必要な要素を待っておく
  await page.waitForSelector('#searchButton')

ページから必要な情報を抜き出す関数を実行

これは内部で一覧から直接情報を抜き出す場合(tableの trごと、ulのliなど）のparseListPage()と
さらに詳細リンクがある場合そちらから取得する場合parseDetailPage()がよくあるので関数に分けることが多かった。

最後に一覧と詳細の情報を統合して、1件ずつCSVに書き込む。

await writeCsvPageContent(browser, page)

const writeCsvPageContent = async (
  browser: Browser,
  page: Page
): Promise<void> => {
  const items = await page.$$('#list table tr')

  let isFirst = true
  for (const item of items) {
    if (isFirst) {
      isFirst = false
      continue
    }
    const listResult = await parseListPage(item)
    if (!listResult) {
      console.error('listResultが空です')
      continue
    }
    // 詳細ページあり
    const detailLink = await item.$('.detail-link a')
    let detailResult = null
    if (detailLink) {
      detailResult = await parseDetailPage(browser, page, detailLink)
      //console.log('detailResultあり')
    }

    const result = {
      companyName: listResult.companyName,
      name: listResult.name,
      postalCode: listResult.postalCode,
      address: listResult.address,
      tel: listResult.tel,
      fax: detailResult?.fax ?? '',
      email: detailResult?.email ?? '',
      hp: '',
    }
    await csvWriter.writeRecords([result])
  }
}

詳細ページへ移動するリンクの場合

一覧ページを移動するといろいろややこしくなるので素直に新しいPageつくってgotoするのが楽だった。

const parseDetailPage = async (
  browser: Browser,
  page: Page,
  detailLink: ElementHandle
): Promise<Partial<SyaroshiItem> | null> => {
  const href = await getTextFromElement(detailLink, undefined, 'href')
  const newPage = await browser.newPage()
  await newPage.goto(href)
  // パースする処理
  await newPage.close()

取得したらPageをclose()するのを忘れないこと（メモリ食う）。

詳細ページが新しいページの場合

これがかなりややこしい。
browser.waitForTarget()を使う。
https://pptr.dev/#?product=Puppeteer&version=v5.5.0&show=api-browserwaitfortargetpredicate-options

const parseDetailPage = async (
  browser: Browser,
  page: Page,
  detailLink: ElementHandle
): Promise<ScrapingItem | null> => {
  const [newPage] = await Promise.all([
    browser
      .waitForTarget((t) => t.opener() === page.target())
      .then((t) => t.page()),
    detailLink.click(),
  ])
  // 取得処理
  await newPage.close()

次のページのリンク要素を取得する関数

pageから次のページへのリンク要素を抜き出す関数をつくる
次のページがとれないときはnullを返すようにしておく。

let nextPageLink = await getNextPageLink(page)

どれが次のページへのリンクかサイトによってバラバラだけど、
これはリンクが「次へ」の例。

const getNextPageLink = async (page: Page): Promise<ElementHandle | null> => {
  const pagenation = await page.$$('.pagination > a')

  for (const a of pagenation) {
    const label = await getTextFromElement(a)
    if (label === '次へ') {
      return a
    }
  }
  return null
}

あと現在のページだけclassがついてたり、aが無いなどのパターンがあり、その場合はfor ofで回して、その次の要素を返すようにすることが多かった。

const getNextPageLink = async (page: Page): Promise<ElementHandle | null> => {
  const pagenation = await page.$$('.pagination li')
  let current = false
  let nextPage = null

  for (const p of pagenation) {
    if (current) {
      nextPage = await p.$('a')
      break
    }
    const className = await getTextFromElement(p, 'li', 'className')
    if (className == 'current') {
      current = true
    }
  }

  if (nextPage) {
    return nextPage ?? null
  } else {
    return null
  }
}

次のページがなくなるまでwhileループ

// ページネーション
    let nextPageLink = await getNextPageLink(page)
    while (nextPageLink) {
      await nextPageLink.click()
      await page.waitForSelector('.pageNav li')
      console.log(page.url())
      await writeCsvPageContent(browser, page)
      await randomSleep(3000)
      nextPageLink = await getNextPageLink(page)
      if (!nextPageLink) {
        break
      }
    }

以上の雑にmain関数にいれて実行してました

sample.ts

// import系は省略

const main = async (): Promise<void> => {
  const browser = await launch(launchOptions)
  const page = await initPage(browser)
    await page.goto('http://example.com')
    await page.waitForSelector('.pagination ul li')
  }
  console.log(page.url())
  await writeCsvPageContent(browser, page)

  // ページネーション
  let nextPageLink = await getNextPageLink(page)
  while (nextPageLink) {
    await nextPageLink.click()
    await page.waitForSelector('.pagination ul li')
    console.log(page.url())
    await writeCsvPageContent(browser, page)
    await randomSleep(5000)
    nextPageLink = await getNextPageLink(page)
    if (!nextPageLink) {
      break
    }
  }
  await browser.close()
}
main()

package.jsonに書いたscriptで実行

yarn start:sample

よくあるエラー集

ページ遷移しちゃってたり、target=_blankなリンクをclickしてたり、いろいろあるけど、記録残して無くて書けない・・・。
あとは単純にセレクタ間違いで要素取れてないのがありました。innerHTMLを確認すると直しやすいです。

2021-01-08

2020年振り返り

2020/1/14よりシニアジョブに入ったのでほぼ1年。ざっと振り返り。
GitHubを仕事で使えるようになったので草もたくさん生やせました。
f:id:uyamazak:20210108184003p:plain

3行

いろいろやった
2021年はサウナ行きたい
アズールレーン友達募集中

シニアジョブのお仕事

1ヶ月のときに書いたのはこれ。
uyamazak.hatenablog.com

その後のトピック的には

初Nuxt.jsのメディアサイト

uyamazak.hatenablog.com

これは広報さんのおかげで記事にもなりました。
prtimes.jp

二酸化炭素濃度システム

まだオフィスで稼働してて換気の目安になってます。
uyamazak.hatenablog.com

ソースコード
 GitHub - uyamazak/co2signals: Co2 Sensor System. Raspberry Pi + MH-Z19B + Firebase

地図で市区町村選択できるやつ

社長いわく営業の労働時間短縮にはこれが一番効いたらしい（後日詳細が？）
uyamazak.hatenablog.com

BigQuery周り

まだ一部ですが、導入できました。超早いし超便利なのに超安いのなんなの。WITH文とかWindow関数とか使ったのも初めてだったかも。

Google Search Console & Page Speed Insight 対応

SEO対策も兼ねて、エラー潰したり、高速化のために不要なnpmパッケージ消したり（moment.jsとかmoment.jsとか）いろいろやりました。

その他いろいろ社内システムの自動化まわりを結構やった気がする。

とくに給与計算とか源泉徴収とか、ただでさえややこしいのに、設計とかコードがひどい所を見ることとなり、精神的つらみがありました。
勤怠とか給与はいいのがたくさんあるので、はやく外部API連携したい・・・。

エンジニア1人入社！

10人以上面接したかな？
いい人入ってくれました！

jsで痴漢すれば良さそう
という誤爆の破壊力

※jsとはJavaScriptのことです
— FFUltimania_Macky (@FFUltimania_Mac) 2021年1月6日

Rubyな職場からPHPメインなうちに来てバリバリやってくれてます！感謝！

その他

サイゼリヤ野菜ランチ研究

健康診断でLDLコレステロールや中性脂肪が高めなこともあり、ランチで野菜を取ろうと決意。
会社近場でいろいろ試したけどサイゼリヤが最強っぽいと思い、出社日は必ずサイゼリヤで食べることに決定。
あと新型コロナの影響もあり、広めで感染対策ちゃんとしてそうというのもポイント。

800円程度を上限として、いろいろ試したけど、コールスローサラダがつくランチセット各種（500円）と柔らか青豆の温サラダ(200円)か、ほうれん草ソテー（200円）と組み合わせがずっと食べられそう。

今日はエビとブロッコリーのオーロラソース500円と、柔らか青豆の温サラダ200円。ブロッコリーとトマトが載ってるけど思ったより量が少なかった。やっぱランチセット500円のサラダ強い#サイゼリヤ野菜ランチ研究 pic.twitter.com/yNFO91SQnX
— uyamazak - 🐦 (@uyamazak) 2020年10月12日

でもこれを見てからオリーブオイルをたっぷりかけるようになりました。
今では無事オリーブオイル中毒となり、野菜よりもオリーブオイルを求めてサイゼリヤに通ってます。

健康漫画「サイゼリヤに一週間通って血液をサラサラにしてきた話（全３ページ）」#俺は健康にふりまわされている pic.twitter.com/sRv5jTMKOB
— 宮川サトシ＠1月7日『ワンオペJOKER』連載開始 (@bitchhime) 2020年10月14日

緊急事態宣言終わって出社したらまた行きたい。

ブラウザで動画つくるやつ

友人と話して勢いでやった。ブラウザで動画作れる時代になったんだなぁと。

uyamazak.hatenablog.com

https://uyamazak.github.io/marika_kitada/

TypeScriptを結構書けた

仕事ではNuxt.jsの時のほか、Puppeteerを使ったスクレイピングにもあえてTypeScriptを使ったりしました。

あと弱小個人レポジトリの中では一番スターとかフォークされてたレポジトリ（hcep-pdf-server）をTypeScriptの練習も兼ねて新しく作り直しました。
Fastifyも使ってみたり、テストも充実できて、GitHub Actionsも使って、TypeScript以外もいろいろ勉強になった気がする。
ユーザー、コントリビューターともに募集してます！

github.com

2021年

だいぶTypeScriptにも慣れてきたので、ずっと温めてるキャラクター駆動開発を進めたい。Vue3かReactでかなぁ。
あとやっぱり趣味を仕事にしてる影響もあり器用貧乏なので、なにか強い軸みたいなものがほしいなぁと漠然と思っていたり。

新型コロナ中は自粛してるけど、やっぱサウナ行きたい。

最後に

というわけで2018年からやってる美少女着せ替え購入ゲーム「アズールレーン」の友達がいないので募集してます！
f:id:uyamazak:20210108190423p:plain

竹敷サーバーで大艦隊（一人）もやってます！ID: 939524678

シニアジョブのエンジニア募集はこちら

GAミント至上主義

Web Monomaniacal Developer.

GitHub ActionsでDockerイメージのビルド結果だけを確認するActionを作る

Puppeteer + TypeScriptでWEBサイトをスクレイピングしたメモ

スクレイピングにPuppeteerを使うメリット

ブラウザと同じ動きをする

複雑なフォーム送信もボタンをクリックさせるだけでOK

Puppeteerを覚えられる

Puppeteerを使うデメリット

覚えることたくさん

非同期の嵐

処理が重い

TypeScriptを使った理由

環境構築

Puppeteerインストール

Puppeteerを使ったスクレイピング処理の流れ

CSVの型決め

よく使う処理

ブラウザとページの起動

ページから必要な情報を抜き出す関数を実行

詳細ページへ移動するリンクの場合

詳細ページが新しいページの場合

次のページのリンク要素を取得する関数

次のページがなくなるまでwhileループ

よくあるエラー集

2020年振り返り

3行

シニアジョブのお仕事

初Nuxt.jsのメディアサイト

二酸化炭素濃度システム

地図で市区町村選択できるやつ

BigQuery周り

Google Search Console & Page Speed Insight 対応

エンジニア1人入社！

その他

サイゼリヤ野菜ランチ研究

ブラウザで動画つくるやつ

TypeScriptを結構書けた

2021年

最後に