2020年7月29日水曜日

ECサイトの次の一手

ある程度成長したECサイトの次の一手とは？

１．WEBメディアを買収する

それはWEBメディアを買収することです。しかし、WEBメディアなら何でも良いかと言うとそうではありません。自社商品を購入する前段階に訪問するようなメディアである必要があります。

２．データ連携で潜在ユーザや新商品開発の種を発見

例えば、スキンケア商品を販売している場合、肌の悩みに関するブログやサイトが対象となります。こうしたブログやサイトの訪問データとECサイトの購入データを連携させることで、潜在ユーザや新商品開発の種を発見することが可能になります。このような潜在ユーザ獲得や新商品の開発は将来のさらなる成長を実現するための大きな基礎になります。

３．データを独占して誰よりも先に潜在ユーザにアプローチ

また、単純にデータを連携するだけでなく、買収をお勧めするのも理由があります。それは、競合が同様のデータを取得した際に、競争優位性が相対的に低下するためです。もし、データを自社で囲い込みできなければ、競合に先を越されて潜在ユーザを特定・確保されてしまう可能性があります。一方、買収により自社でメディアを保有すれば、データを独占できるだけでなく、面の確保や記事の投稿も自由にできます。

４．データ連携ビジネスでビジネスをスケールさせる

さらに、自社が販売する商品に関係ない記事については、そのデータを他社に販売することでデータ連携ビジネスを新たに展開することもできます。ちなみに、広告は面に限りがあるのでスケールさせるのが難しいですが、データの連携には限度がないため販売先があるほどビジネスをスケールさせることができます。もし、WEBサイトで広告収入だけに頼っているものがあれば、データ連携ビジネスにより数倍に売上を伸ばすことも難しくないと考えられます。現状ではデータを積極的に販売するWEBメディアは多くないですが、今後は間違いなく増えると予想されます。そうなるとメディアの売り上げも上がり評価価値も上がってしまうので、この時期に買収することをお勧めします。

５．今後は技術だけでなく法令を特に注視する

最後に、メディアの訪問データとECサイトの購買データの連携については、改正個人情報保護法により扱いが厳しくなる見通しです。例えば、訪問データと購買データを連携する場合、ECサイトが保有する個人情報と紐づくので、訪問データを取得する際にはユーザに利用目的を明示した上で許諾が必要となります。ただ、これはあくまで法令をディフェンシブに解釈した場合なので、正確にはガイダンスを待つ必要があります。現在、データ連携の主なプレイヤーであるDMP各社が保有するほとんどのデータは、ユーザに対して利用目的を明示して許諾を得たものではありません。そのため、よりディフェンシブな解釈でガイダンスが発表された場合、DMP各社のデータが使えなくなる可能性もあります。そのため、データ連携を進める際は、各データの取得とその利用が法令に反していないか注視することが必要です。

2020年6月12日金曜日

【BigQuery】int型の数字を日付に変換する

グーグルのサイトを参考
（標準 SQL のタイムスタンプ関数のページを参考）

ーー以下引用部分ーー

TIMESTAMP_SECONDS
1970-01-01 00:00:00 UTC からの秒数

TIMESTAMP_MILLIS
1970-01-01 00:00:00 UTC からのミリ秒数

TIMESTAMP_MICROS
1970-01-01 00:00:00 UTC からのマイクロ秒数

2020年5月21日木曜日

【BigQuery】時間と分を抜き出す

タイムスタンプから時間として扱るかたちで時間と分のみを抜き出す方法

--%R＝%H:%M 形式の時刻
FORMAT_TIMESTAMP("%R",TIMESTAMP)

出力結果は、「02:30」というような形で出てくる。
もちろん、時間として扱えるので、

FORMAT_TIMESTAMP("%R",TIMESTAMP) > ''12:30"

とすれば、12時30分以降のデータを抽出できる。

◇参考サイト

標準 SQL の時間関数

2020年5月6日水曜日

【トレジャーデータ】JSタグでサイト訪問・購入ログを取得

JSタグを使ってWEBサイトの訪問・購入ログなどを取得する手順

WEBサイト用のJS SDKを準備する

参考サイト：td-js-sdk

JS SDKを実装する

参考サイト：Treasure Data JavaScript SDKの使い方
補足：データはJSを仕込んだページのみ取得するため、サイト全体のデータを取得したい場合は全ページにJSを仕込む必要がある。また、購入ページにJSを仕込めば、分析の際に、そのページのURLのみ抽出すれば購入ログとみなすこともできる。

SDKによって収集できたアクセスログを確認

◇下記のサイトで具体的な実装例があります。

Treasure DataのCookieを閲覧ユーザがOpt-out可能なタグの実装

◇参考リンク

JS SDK実装ガイド：https://support.treasuredata.com/hc/en-us/articles/360000701428
Treasure Data JavaScript SDKの使い方：https://qiita.com/kzk9/items/15f4e01cafa30fb8e7a5
JS SDKサンプル：https://github.com/treasure-data/td-js-sdk
解析事例(EC)：https://support.treasuredata.com/hc/ja/articles/213659898

2020年5月1日金曜日

【BigQuery】特定の文字を含むものだけを集計する

フィールド「x」の先頭の文字が「Z」である場合に「y」の合計を集計するSQL
「LIKE」はあいまい検索、「%」はワイルドカードで「Z%」はZの後ろに何があってもよいことを示す。

SELECT
SUM(CASE
WHEN x LIKE "Z%" THEN y
END
) AS total
FROM
data

2020年4月24日金曜日

【Google】意外と知らないグーグルスプレッドシートなどのファイルが保存されている場所を開く方法

矢印のところをクリックすることでファイルを保存している場所を開ける

グーグルスプレッドシートなどのファイルがどこに保存されているか分からない場合、上記の画像内の矢印の箇所をクリックすることで保存されているフォルダを開くことができます。

自分も最近知りました。。。

2020年4月21日火曜日

【BigQuery】都内の各地点のUUを前後の期間で比較するデータを集計してケプラーで描画する

ケプラーを利用すると緯度経度のデータからグラフィカルなマップグラフを作成できるとを以前記事に書きました（【kepler.gl】コロナ対策による人流の変化も地図上に可視化（各種メディアで報道））。今回、ケプラーのH3というグラフ形式を使って、東京都内各地点内の異なる期間のUUの比率をマップグラフで描画するため必要なデータを集計すためのクエリを紹介します。また、集計データのケプラーでの描画については、下記のサイトが分かりやすいのでご参考にして下さい。

◇クエリ例

WITH
t1 AS (
SELECT
UDF.geoToH3(latitude,
longitude,
8) AS geoH3_1,
COUNT(DISTINCT uid) AS CntUU_1,
FROM
data
WHERE
AND TIMESTAMP(DATETIME(TIMESTAMP(detected_time),
'Asia/Tokyo')) >= TIMESTAMP('2020-02-02 00:00:00')
AND TIMESTAMP(DATETIME(TIMESTAMP(detected_time),
'Asia/Tokyo')) < TIMESTAMP('2020-02-03 00:00:00')
AND latitude BETWEEN 23
AND 46
AND longitude BETWEEN 123
AND 148
--
--東京都内
AND ST_COVERS(ST_GEOGFROMTEXT('POLYGON((139.868043 35.628718,139.887956 35.653272,139.885209 35.680048,139.911302 35.685068,139.918855 35.70347,139.896195 35.728001,139.899629 35.744164,139.879716 35.761996,139.878343 35.77481,139.86255 35.79542,139.771226 35.810456,139.732774 35.778152,139.650376 35.799875,139.616731 35.763667,139.54326 35.752523,139.421723 35.765896,139.371598 35.764782,139.277528 35.834953,139.170411 35.843153,139.016603 35.891563,138.955491 35.853728,139.044755 35.717259,139.219163 35.645868,139.411424 35.582232,139.454015 35.541781,139.471867 35.519988,139.482167 35.534517,139.459508 35.571946,139.476674 35.595958,139.443028 35.606008,139.453328 35.6328,139.492467 35.619963,139.528859 35.652889,139.658635 35.598192,139.715627 35.553513,139.750645 35.548765,139.796651 35.524738,139.809354 35.51384,139.868043 35.628718))'),
ST_GEOGPOINT(longitude,
latitude))
GROUP BY
geoH3_1 ),
t2 AS (
SELECT
UDF.geoToH3(latitude,
longitude,
8) AS geoH3_2,
COUNT(DISTINCT uid) AS CntUU_2,
FROM
data
WHERE
AND TIMESTAMP(DATETIME(TIMESTAMP(detected_time),
'Asia/Tokyo')) >= TIMESTAMP('2020-04-19 00:00:00')
AND TIMESTAMP(DATETIME(TIMESTAMP(detected_time),
'Asia/Tokyo')) < TIMESTAMP('2020-04-20 00:00:00')
AND latitude BETWEEN 23
AND 46
AND longitude BETWEEN 123
AND 148
--
--東京都内
AND ST_COVERS(ST_GEOGFROMTEXT('POLYGON((139.868043 35.628718,139.887956 35.653272,139.885209 35.680048,139.911302 35.685068,139.918855 35.70347,139.896195 35.728001,139.899629 35.744164,139.879716 35.761996,139.878343 35.77481,139.86255 35.79542,139.771226 35.810456,139.732774 35.778152,139.650376 35.799875,139.616731 35.763667,139.54326 35.752523,139.421723 35.765896,139.371598 35.764782,139.277528 35.834953,139.170411 35.843153,139.016603 35.891563,138.955491 35.853728,139.044755 35.717259,139.219163 35.645868,139.411424 35.582232,139.454015 35.541781,139.471867 35.519988,139.482167 35.534517,139.459508 35.571946,139.476674 35.595958,139.443028 35.606008,139.453328 35.6328,139.492467 35.619963,139.528859 35.652889,139.658635 35.598192,139.715627 35.553513,139.750645 35.548765,139.796651 35.524738,139.809354 35.51384,139.868043 35.628718))'),
ST_GEOGPOINT(longitude,
latitude))
GROUP BY
geoH3_2 ),
join_log AS (
SELECT
geoH3_1,
MAX(CntUU_1) AS CntUU_1,
MAX(CntUU_2) AS CntUU_2,
FROM
t1
LEFT JOIN
t2
ON
t1.geoH3_1 =t2.geoH3_2
WHERE
geoH3_1 IS NOT NULL
GROUP BY
geoH3_1 )
SELECT
*,
CntUU_2 / CntUU_1 AS rate
FROM
join_log
ORDER BY
CntUU_1 DESC

◇参考サイト

2020年4月19日日曜日

【BigQuery】1分毎に1レコード生成するクエリ

1分毎に1レコードを生成するクエリ。今回は、1分毎に北太平洋の任意の緯度経度を入れている。ケプラーで位置情報などを可視化する際に、複数のデータのグラフの高さを調整するために使うクエリ。1分毎でそのデータの最大値とならない場合は、1秒毎にしたり、同様のクエリを複数UNIONするなどで対応できる。

SELECT
DISTINCT FORMAT_DATETIME('%Y-%m-%d %H:%M',
DATETIME(TIMESTAMP(time),
'Asia/Tokyo') ) AS time_jpn,
--北太平洋 31.036119, 165.169956
31.036119 AS latitude,
165.169956 AS longitude
FROM
table
ORDER BY
time_jpn

2020年4月6日月曜日

【BiqQuery】時間だけを取り出す

ビッククエリで時間だけを取り出すクエリはこちら

例えば、11:20だと11、06:30だと06を抽出する。

SELECT

userid,

jpn_time,

FORMAT_TIMESTAMP("%H", TIMESTAMP(jpn_time)) AS hour

FROM

table

2020年4月5日日曜日

【BigQuery】各ユーザが1週間にログインした日数を集計する方法

各ユーザが1週間に何日訪問したかを集計するクエリ。まず、各ユーザの日ごとの訪問日を集計し、1週間を週初めの日にち（月曜）に統一して週で何日訪問しているかを単純にカウントする。

クエリ例

WITH

dau AS (

SELECT

date,

userid

FROM

table

GROUP BY

date,

userid)

SELECT

DATE_ADD(date, INTERVAL - EXTRACT(DAYOFWEEK

FROM

DATE_ADD(date, INTERVAL -1 day)) +1 day) AS w_week,

adid,

COUNT(userid) AS vdays

FROM

dau

GROUP BY

w_week,

userid

ORDER BY

vdays DESC

2020年3月29日日曜日

【kepler.gl】コロナ対策による人流の変化も地図上に可視化（各種メディアで報道）

kepler.glのサイト画面

kepler.glを使ってコロナ対策の効果を分析したところ、テレビ、新聞、ネットのメディアから問い合わせや報道依頼が殺到。今も、土日返上で都内や全国の人流変化を分析しています。この記事では人流変化の可視化に便利なkepler.glについて簡単に紹介します。

◇kepler.glとは何か？

緯度経度などの空間データを可視化できるブラウザベースの地理情報システムです。開発はUber社がしており誰でもアカウント不要で利用することができます。緯度経度などを含むcsvファイルを用意するだけで空間データをマップ上に可視化できます。

◇kepler.glの良いところ

緯度経度などを含むデータを用意するだけでとても質の良い図を描ける
プログラミング不要
時間データがあれば動的な表現ができる
ローカルのデータを読み込むためサイトにデータをアップする必要がない
tableauとかにも利用できる
緯度経度だとログ数ベースだがH3というデータ形式のファイルを用意すれば範囲内のUUをマップグラフで表現できる（【BigQuery】都内の各地点のUUを前後の期間で比較するデータを集計してH3でケプラーで描画する）

◇注意点

密度や3D図での濃さや高さは、そのデータでの最大値をmaxとして表現してるっぽいので、異なるデータを比較する際は、予めそれぞれのデータに最大値となるログを挿入しておく必要がある。ただ、動画として表現するときは、時間単位に調整用のデータを差し込まないと調整データがない部分の高さが調整されない。その場合は、1分ごとに任意地点のデータを差し込むなどの方法がある（【BigQuery】1分毎に1レコード生成するクエリ）。

◇ケプラーのサイト

https://kepler.gl/

◇ケプラーでコロナ対策の人流効果を可視化した例（各種メディア報道）

覚えている限りですが下記のメディアで取り上げて頂きました。

【日経クロステック】「外出自粛」で渋谷の人出はどれだけ減ったか、データが示す新型コロナ対策の効果
【日経新聞】「外出自粛」で激変　行動データが示す渋谷の人出
【時事通信社】【コロナ影響調査】東京都知事による先週末（3/28,29）の「外出自粛」「隣接４県からの移動自粛要請」の効果は？
【シブヤ経済新聞社】外出自粛中の渋谷の人出、半減以下に　リアル行動データで実態調査結果
【ITmedia】渋谷の人出が半減　外出自粛要請の効果、行動データで明らかに
朝日新聞社（朝刊：4月4日）
ワイドスクランブル（放映日：4月3日）
サンデーステーション（放映日：4月5日）
サンデーLIVE（放映日：4月5日、4月12日）
とくダネ（放映日：4月6日、4月13日）
スッキリ！（放映日：4月6日）
真相報道バンキシャ！（放映日：4月12日）
など

◇参考サイト

【BigQuery】連続ログイン日数とその期間の最初と最後のログイン日を集計するクエリ

日次で連続してログインや訪問しているユーザの日数とその連続する期間の最初の日と最後の日を集計するクエリ。連続ログインが途切れて再度ログインした際は、別の期間として新たに集計。急いで書いたから読みにくい。。

◇クエリ例

WITH
stays_table AS (
SELECT
*,
CASE
WHEN visit_date != DATE_ADD(lag_visit_date, INTERVAL 1 DAY) THEN 1
ELSE
0
END
AS not_continuous_flg
FROM (
--ユーザ毎の日付昇順での前回のデータを入れる項目の作成
SELECT
userid,
visit_date,
LAG(userid,1) OVER (PARTITION BY userid ORDER BY visit_date) AS lag_user_id,
LAG(visit_date,1) OVER (PARTITION BY userid ORDER BY visit_date) AS lag_visit_date
FROM (
SELECT
userid,
DATE(TIMESTAMP(jpn_day)) AS visit_date
FROM
`data`
GROUP BY
userid,
visit_date ) ) ),
flg_cum AS(
SELECT
*,
SUM(not_continuous_flg) OVER (PARTITION BY userid ORDER BY visit_date) AS cum_not_cont_date_flg
FROM
stays_table ),
t1 AS (
SELECT
*,
COUNT(cum_not_cont_date_flg) OVER (PARTITION BY userid, cum_not_cont_date_flg ORDER BY cum_not_cont_date_flg) AS cnt
FROM
flg_cum ),
t00 AS (
--00グループ：初回
SELECT
userid,
not_continuous_flg,
cum_not_cont_date_flg,
MAX(cnt) AS stay_days,
MIN(visit_date) AS first_loginday
FROM
t1
WHERE
t1.not_continuous_flg = 0
AND t1.cum_not_cont_date_flg = 0
GROUP BY
userid,
not_continuous_flg,
cum_not_cont_date_flg,
cnt
ORDER BY
userid ),
t11 AS (
--1と1以上グループ：2回目以降
SELECT
userid,
not_continuous_flg,
cum_not_cont_date_flg,
MAX(cnt) AS stay_days,
MIN(visit_date) AS first_loginday
FROM
t1
WHERE
t1.not_continuous_flg = 1
AND t1.cum_not_cont_date_flg > 0
GROUP BY
userid,
not_continuous_flg,
cum_not_cont_date_flg,
cnt
ORDER BY
userid,
not_continuous_flg,
cum_not_cont_date_flg ),
x1 AS (
SELECT
userid,
cum_not_cont_date_flg,
stay_days,
first_loginday
FROM
t00
UNION ALL
SELECT
userid,
cum_not_cont_date_flg,
stay_days,
first_loginday
FROM
t11 ),
x2 AS (
SELECT
userid,
cum_not_cont_date_flg,
stay_days,
first_loginday
FROM
x1
GROUP BY
userid,
cum_not_cont_date_flg,
stay_days,
first_loginday
ORDER BY
userid,
cum_not_cont_date_flg,
stay_days,
first_loginday )
SELECT
userid,
cum_not_cont_date_flg,
stay_days,
first_loginday,
DATE_ADD(first_loginday, INTERVAL stay_days - 1 DAY) AS last_loginday
FROM
x2

◇参考サイト

ログイン日時情報からSQLだけで連続ログイン日数を求める

【BigQuery】よく使うクエリ構文

よく使う構文

DATE()：タイムスタンプの時間を日次（例：2020/1/1）に変換
TIMESTAMP()：文字列の日付をタイムスタンプに変換
EXTRACT(DAYOFWEEK FROM ***)：タイムスタンプから曜日を抽出（日曜:１～土曜7:）
CAST(FORMAT_TIMESTAMP("%H", ***) AS int64) ：タイムスタンプ（***）から時間を抽出
_TABLE_SUFFIX BETWEEN '***' AND '***'：複数のテーブルを指定の範囲から参照する
ST_DWITHIN(ST_GeogPoint(139.***, 35.***), ST_GeogPoint(longitude,latitude),500)：経度（139.***, longitude）、緯度（35.***, latitude）が指定した範囲内（500m）であれば抽出

◇クエリ例

SELECT
--文字列の日付をタイムスタンプに変換して日次のみ抽出
DATE(TIMESTAMP(time),'Asia/Tokyo') AS date,
--曜日を抽出：日曜 1 ~ 7 土曜
EXTRACT(DAYOFWEEK
FROM
jpn_day ) AS youbi,
--時間を抽出
CAST(FORMAT_TIMESTAMP("%H", TIMESTAMP(time)) AS int64) AS hour
FROM
`data*`
WHERE
--data[*]部分を指定したテーブルを参照
_TABLE_SUFFIX BETWEEN '20200201'
AND '2020203'
--標準時間を日本時間に変換して期間を指定
AND TIMESTAMP(DATETIME(TIMESTAMP(time),
'Asia/Tokyo')) >= TIMESTAMP('2020-02-01 00:00:00')
AND TIMESTAMP(DATETIME(TIMESTAMP(time),
'Asia/Tokyo')) < TIMESTAMP('2020-02-03 00:00:00')
--指定の緯度経度より500m以内,緯度: 35.*** 経度: 139.***
AND ST_DWITHIN(ST_GeogPoint(139.***,
35.***),
ST_GeogPoint(longitude,
latitude),
500)

2020年1月19日日曜日

【BigQuery】複雑な緯度経度の範囲を指定する方法

方法は？

WHERE文に下記の命令を記載するだけ。緯度経度は10進数。最後に、最初に指定した「経度1 緯度1」を入力することで範囲が閉じられる。


ST_COVERS(ST_GEOGFROMTEXT('POLYGON((経度1 緯度1,経度2 緯度2,～,経度1 緯度1))'),
ST_GEOGPOINT(経度のカラム名,緯度のカラム名))

例

SELECT
  time,latitude,longitude
FROM
  data
WHERE
  --error回避のため日本の範囲を指定
  latitude BETWEEN 23
  AND 46
  AND longitude BETWEEN 123
  AND 148
  --複雑な範囲を指定 
  AND ST_COVERS(ST_GEOGFROMTEXT('POLYGON((139.598915 35.687744,
    139.598909 35.687584,139.598915 35.687744))'),
    ST_GEOGPOINT(longitude,
      latitude))

エラー回避（ST_GeogPoint failed: Latitude must be between -90 and 90 degrees.）のために日本の範囲を先に指定している。

参考サイト

標準 SQL の地理関数

2020年1月5日日曜日

【トレジャーデータ：presto】任意の値や文字列を入れた列をつくる方法

入れたい値 AS 新しい列名
とすることで任意の値を入れた列を作ることができる。

数字の場合

SELECT
1 AS x
FROM data_table

文字列の場合

SELECT
'なにか' AS x
FROM data_table

2020年1月1日水曜日

【2020年】明けましておめでとうございます。

明けましておめでとうございます。

昨年は、ドコモに残るかメルカリでサービスのグロースやっていくかunerryで新たなチャレンジするかを決める決断の年でした。決断にあたり多くの方にアドバイスを頂きました。この場をかりて御礼申し上げます。

決断の結果、今日からunerryの社員になります。unerryでは、リアルとネットのデータ連携の推進やリアルとネットのデータを統合した新たなデータサービスやプロダクトの研究開発を進めていきます。

今までは個別のサービスのグロースを考えてきましたが、これからは社会全体やユーザ一人ひとりの生活の向上を考えた仕事をしたいと思っています。

本年もどうぞよろしくお願い申し上げます。

（データ連携のご相談いつでも歓迎！）

おまけ
ビーコンユーザだいたい友だち

登録: 投稿 ( Atom )

注目の投稿

2020年7月29日水曜日

ある程度成長したECサイトの次の一手とは？

１．WEBメディアを買収する

２．データ連携で潜在ユーザや新商品開発の種を発見

３．データを独占して誰よりも先に潜在ユーザにアプローチ

４．データ連携ビジネスでビジネスをスケールさせる

５．今後は技術だけでなく法令を特に注視する

2020年6月12日金曜日

2020年5月21日木曜日

◇参考サイト

2020年5月6日水曜日

JSタグを使ってWEBサイトの訪問・購入ログなどを取得する手順

◇参考リンク

2020年5月1日金曜日

2020年4月24日金曜日

2020年4月21日火曜日

◇クエリ例

◇参考サイト

2020年4月19日日曜日

2020年4月6日月曜日

2020年4月5日日曜日

2020年3月29日日曜日

◇kepler.glとは何か？

◇kepler.glの良いところ

◇注意点

◇ケプラーのサイト

◇ケプラーでコロナ対策の人流効果を可視化した例（各種メディア報道）

覚えている限りですが下記のメディアで取り上げて頂きました。

◇参考サイト

◇クエリ例

◇参考サイト

よく使う構文

◇クエリ例

2020年1月19日日曜日

方法は？

例

参考サイト

2020年1月5日日曜日

2020年1月1日水曜日