O tym, dlaczego warto korzystać z Google Analytics 4 BigQuery i jakie wyzwania są związane z tym działaniem, Krzysiek Modrzewski opowiedział podczas swojej prelekcji na semKRK#21 BIG. Ogrom przekazanej przez niego wiedzy nie wystarczył jednak uczestnikom, którzy chcieli jeszcze dokładniej dopytać o wiele szczegółów związanych z tym tematem. W końcu dobrze wiemy, że efektywne wykorzystanie narzędzi do klucz do sukcesu w biznesie.
Przed Wami ostatni z wywiadów z prelegentami semKRK#21 BIG – oddajemy głos uczestnikom i Krzyśkowi.
Jak zweryfikować, ile „waży” i ile będzie kosztował konkretny raport z Looker Studio zaciągany przez BigQuery?
- Krzysztof Modrzewski
Looker automatyzuje za nas odpytywanie tabel w BigQuery. Jeżeli mamy zrobiony raport i odświeżamy go, to Looker wykonuje zapytanie SQL, aby wyświetlić nam informacje. Tak samo jest, jeżeli włączymy sortowanie – to będzie nowe zapytanie z dodatkową funkcją Order_by itd. Manipulowanie raportem kosztuje, ale warto wiedzieć, że takie procesowanie kosztuje nas $5 za każdy 1 TB przeprocesowanych danych, ale pierwszy 1 TB jest darmowy. A jeżeli chodzi o weryfikację, to już musimy to podejrzeć bezpośrednio w BigQuery, ile tych danych przeprocesowaliśmy, ponieważ ciężko jest to przewidzieć.
Czy każde wywołanie w BigQuery kosztuje, czy można wywołać mniejszą ilość danych za darmo?
- Krzysztof Modrzewski
W BigQuery płacimy za procesowanie danych, czyli za robienie zapytań SQL, i tak, to kosztuje $5 za każdy 1 TB przeprocesowanych danych powyżej pierwszego darmowego 1 TB. Jeżeli jednak nic nie zmieniamy w raporcie (nie zmieniamy daty, nie sortujemy, nie dodajemy dodatkowych kolumn itp.), to Looker nie będzie wykonywał nowego zapytania SQL do bazy, więc nie będziemy nic dodatkowo płacić. Takie „zapamiętanie” danych powinno działać przynajmniej przez 12 godzin.
Ile kosztuje użycie BQ przy podstawowym poziomie użycia GA?
- Krzysztof Modrzewski
W skrócie: niewiele. Dlaczego? Ponieważ korzystając z BigQuery, płacimy za przechowywanie danych oraz przeliczanie ich za pomocą zapytań SQL. W zależności od wielkości biznesu i ilości danych te koszty będą różne, ale jeżeli chodzi o przechowywanie, to płacimy $0.02 za każdy 1 GB powyżej darmowych 10 GB. Aby ponieść koszty miesięczne rzędu $5, musielibyśmy procesować około 1,5 TB danych oraz mieć 125 GB danych.
Jak rozwiązujesz problem z brakiem danych historycznych poszczególnych wymiarów w GA4 przez to, że późno zostały one wprowadzone, np. landingpahepath?
- Krzysztof Modrzewski
Niestety, nie jesteśmy w stanie odtworzyć danych, których po prostu nie zbieraliśmy – dlatego im szybciej włączymy integracje GA4 z BigQuery, tym lepiej, nawet jeżeli nie będziemy z tych danych korzystać.
Czy jest dostępne testowe API np. z losowymi danymi?
- Krzysztof Modrzewski
Obecnie nie jest to dostępne, ale trzeba obserwować, ponieważ GA4 dynamicznie się zmienia i takie dane mogą się w przyszłości pojawić.
Dlaczego te dane w GA4 i BigQuery się różnią? Czy Google tego nie utrudnia?
- Krzysztof Modrzewski
Google niczego nie utrudnia. Chodzi o kwestie techniczne – w BigQuery zbierane są surowe dane tak jak na serwerach googlowych. Google przed wysłaniem danych do naszego GA4 musi je odpowiednio przetworzyć, aby dało się z nich korzystać, tak samo powinniśmy zrobić my z naszymi surowymi danymi – albo skorzystać z narzędzi, które robią to za nas i udostępniają gotowe dane, już przetworzone, w BigQuery.
Czy dane dot. konwersji też będą różne? Jeśli tak, to jakich różnic można się spodziewać?
- Krzysztof Modrzewski
Generalnie nie powinno być różnic w ilości wywołanych eventów, ponieważ sama liczba nie jest przerabiana, ale jednak w praktyce mogą pojawić się różnice wynikające z kilku kwestii takich jak np. Consent Managament i Mode, gdzie Google w przypadku niewyrażenia zgody będzie zbierał te dane do modelowania, ale w surowych danych nic nie zobaczymy. Mogą też być różnice związane z czasem procesowania danych w GA4, może się zdarzyć, że podczas procesowania Google coś „zgubi”, więc tak, będą różnice, ale raczej niewielkie.
Dlaczego Google przypisuje 2 razy to samo ID? Czy to poprzez przypisanie tego samego ID po wygaśnięciu poprzedniej sesji o tym ID?
- Krzysztof Modrzewski
Wynika to z przyjętego modelu oznaczania ID sesji, który jest nadawany wyłącznie na podstawie Timestampu.
Dla jakiej skali biznesów zalecane jest już BigQuery? A przy jakich nie ma sensu?
- Krzysztof Modrzewski
Małe biznesy nic nie będą płacić za korzystanie z BigQuery (ze względu na darmowe ilości przechowywania i procesowania danych i kupony na Google Cloud), więc myślę, że od samego początku warto budować już swoją hurtownię danych i uczyć się, jak korzystać z połączonych danych do optymalizacji zarówno biznesu, jak i marketingu.
Czy da się przygotować dane raz i wykorzystać wielokrotnie, żeby mniejszy mieć koszt zużycia danych?
- Krzysztof Modrzewski
Nie do końca, ponieważ jeżeli mamy zrobiony raport i odświeżamy go, to Looker wykonuje zapytanie SQL, aby wyświetlić nam informacje. Tak samo jest, jeżeli włączymy sortowanie – to będzie nowe zapytanie z dodatkową funkcją Order_by itd. Manipulowanie raportem będzie nas kosztować, ale jeżeli nic nie zmieniamy w raporcie (nie zmieniamy daty, nie sortujemy, nie dodajemy dodatkowych kolumn itp.), to Looker nie będzie wykonywał nowego zapytania SQL do bazy, więc nie będziemy nic dodatkowo płacić. Takie „zapamiętanie” danych powinno działać przynajmniej przez 12 godzin.
Skąd polecasz czerpać wiedzę o BQ? Jakie źródła i materiały polecasz, by zacząć przygodę z BQ?
- Krzysztof Modrzewski
Szukanie materiałów na YouTube, materiały bezpośrednio od Google, stronę https://www.optimizesmart.com/blog/, i w przyszłości kanał Marketing Masters na YouTube (https://www.youtube.com/c/MarketingMasters).
Jak zaczynam zabawę z BigQuery, to co ustawić w pierwszej kolejności, co jest najważniejsze?
- Krzysztof Modrzewski
Odpowiednio założyć projekt i dobrze podpiąć biling oraz ustawić, aby data ważności tabeli nie wygasała, no i połączyć GA4 z BigQuery. Można też zrobić backup danych Universal Analytics do BigQuery za darmo: https://witbee.com/pl/blog/ocal-swoje-dane-z-google-analytics-universal-wykonaj-darmowy-back-up-danych-historycznych-do-google-bigquery
Jaki stack technologiczny etl+ml+activate polecasz jako podstawę pod cdp? WitCloud, BigQuery, BigQuery ML, VertexAI?
- Krzysztof Modrzewski
Polecam taki artykuł do zapoznania się: https://stacktonic.com/article/the-future-of-cdps-the-headless-approach
Jak zweryfikować, jeśli kilka osób korzysta z danego konta, kto ile zużył transferu?
- Krzysztof Modrzewski
Mamy możliwość monitorowania wykorzystania BigQuery, więcej informacji tutaj:https://cloud.google.com/bigquery/docs/monitoring
Do autoML powinniśmy przesyłać dane surowe z BigQuery czy obrobione wg schematu, o którym mówiłeś?
- Krzysztof Modrzewski
Zdecydowanie powinniśmy przesyłać dane odpowiednio przygotowane do zrobienia autoML. Działanie na surowych danych jest niepraktyczne i bardzo kosztowne.
Dziękujemy Krzyśkowi za wszystkie odpowiedzi! Jeśli chcecie zdobyć więcej wiedzy, sprawdźcie wywiady z innymi prelegentami – znajdziecie tam dużo wartościowych informacji związanych z ich wystąpieniami.
Matematyczna magia jest odpowiedzią na semantyczny problem?
Zobacz wywiad z Mateuszem Kostrzewą