구글 애널리틱스를 보면 인구통계와 관심분야라는 재미있는 지표를 제공합니다.

바로 사이트를 방문한 사람의 나이와 성별, 그리고 그 사람들이 어떤 분야에 관심이 있는지를 측정해주는 지표인데요.


아주 좋은 지표임은 분명하지만 의문점이 하나 있습니다.

바로 로그인도 안하도 아무런 개인정보도 제공하지 않았는데 구글에서 어떻게 방문한 사람의 나이와 관심분야 등을 알 수 있을까요?


정답은 측정원리에 있습니다. 구글이 나이와 성별, 그리고 관심분야를 정확하게 알아내는 것이 아니라 데이터를 기준으로 추측합나다.


이 사람이 주로 어떤 사이트에 방문해서 어떤 행동을 하고 어떤 광고와 콘텐츠에 관심을 보이는지 패턴을 분석하고 이 사람 나이대를 대충 얼마정도고 성별은 어떻다라고 정의를 내리는 것인데요.


그건 구글 특유의 데이터 수집 방식에서 정답을 찾을 수 있습니다. 구글은 기본적으로 데이터 수집시 개인정보와 아이피 주소를 수집하지 않습니다.(수집해도 안보여줍니다.) 그 대신에 구글에 접속하거나 안드로이드를 사용하는 사람들에게 고유의 ID 쿠키를 전송하고 이를 추적하는 방법을 사용합니다.

즉 구글은 내가 누군지는 몰라도 쿠기 아이디 11254-B(가정)이 어떤 행동을 하는지 분석하고 너는 30대 남자구나 이렇게 추즉을 하는 것입니다.


그래서 단점도 존재하는데요. 같은 사람이 사용해도 브라우저 별로 쿠키 아이디가 다르기 때문에 개별 사용자로 분류하고 쿠기를 삭제하거나 강제로 쿠기에 대한 변화를 주면 그 데이터를 새롭게 다른 사람으로 수집합니다.


이렇게 수집한 정보는 내 홈페이지를 방문하는 경우에도 동일하게 적용되고 구글 애널리틱스는 남자가 방문한게 아니라 남자로 보이는 쿠키값이 접근한 것으로 인식하는거조.

이런 수집방식의 신뢰도는 딱히 정해진 정답은 없습니다. 보통은 구글을 신뢰하는 사람들은 70~80% 정도 신뢰를 보인다고 하고 아닌 사람들은 50~60%정도 신뢰한다고 하네요.



지금 보여드리는 데이터는 3D프린터 관련 사이트에 방문한 사람들의 통계인데요. 신기하게 운영자가 추측하는 것과 비율이 거이 비슷합니다. 20~40대가 주로 방문했다는 것을 알 수 있는데요. 오프라인에서도 3D프린터에 관심이 많은 사람들과 비율이 비슷합니다.


성별 통계에서도 남자가 많습니다. 아무래도 기계 분야도 보니 남자분들의 관심이 많은데요. 이렇게 보니 구글 애널리틱스에서 제공하는 인구통계의 신뢰도는 일단 참고용으로 신뢰하기에 적합해 보입니다.


관심분야 역시 통계를 볼 수 있는데요. 1위가 Technophiles 한국어로는 마땅히 단어가 없고 신기술에 열광하는 사람 즉 얼리어답터 정도가 되는데요. 이런 통계를 보니 관심분야 역시 어느정도 신뢰할 수 있다고 보여지네요.


이런 인구통계와 관심분야 특정이 웹로그 분석에 절대적인 영향을 주는 지표는 아니지만 지금 사이트를 방문하는 사람들이 대부분 어떤 사람들이라는 점을 파악하고 그 나이에 적합한 콘텐츠와 서비스를 제공한다면 설정한 KPI 달성에 도움이 될 것은 분명해 보입니다.


블로그 이미지

사진찍는백곰

산업관련 정보, 마케팅, 웹로그분석, 기타 산업진흥마을 이야기

,

애널리틱스는 정말 다양한 기능을 제공하지만 생각보다 다양한 기능 중에 내가 필요한 정보만 뽑아서 볼 수 있는 공간은 많지 않습니다. 이게 보고 싶으면 꼭 하나가 빠지고 이건 숨겨야 하는데 꼭 툭 나와있고 이런 경우가 많은데요.


본인이 필요한 기능만 뽑아서 보고서를 만들고 수시로 확인할 수 있는 기능이 바로 구글 애널리틱스 맞춤보고서 기능입니다.

말 그대로 내가 필요한 정보만 설정해서 만들 수 있는 보고서로 내가 필요한 항목이나 회사에서 요구하는 항목만 뽑아서 미리 보고서 양식을 작성해 놓고 사용할 수 있습니다.


이런 맞춤보고서를 설정하기 위해서는 일단 측정항목(Metric)과 측정기준(Dimension)에 대한 정의를 분명히 구분할 수 있어야 합니다. 쉽게 말하면 측정기준(Dimension)은 축정하고자 하는 목록으로 숫자로 표현할 수 없는 것, 측정항목(Metric)은 이런 측정기준에 대해 숫자로 표현하는 것이라고 생각하면 되는데요.

예로 들어 A 페이지의 페이지뷰는 50이다 라는 말을 해석하면 측정기준은 A, 측정항목 50 입니다.


그래서 만약 요일별 페이지뷰와 이탈율을 보고 싶다고 한다면 맞춤보고서에 측정항목은 페이지뷰 수, 이탈율을 놓고 측정기준에는 요일을 넣어야 합니다.



이렇게 맞춤설정에 들어가서 보고서를 설정하면 됩니다.


요일별로 PV와 이탈율을 확인할 수 있습니다.


이번에는 한번 시간에 따른 변화를 알아볼까요?

새로운 보고서를 다시 작성해도 괜찮고 요일을 기준으로 잡은 보고서를 시간으로 변경해도 무방합니다.


위에 보면 측정기준 드릴다운을 시간으로 하신걸 볼 수 있습니다.


물론 맞춤보고서를 더 다양하게 사용하거나 원하는 형태로 편집하기 위해서는 구글 정규식이나 그룹설정 채널설정 등 해야하는 것들이 많지만 하나씩 하다보면 어렵지 않습니다.

블로그 이미지

사진찍는백곰

산업관련 정보, 마케팅, 웹로그분석, 기타 산업진흥마을 이야기

,

구글 애널리틱스를 활용하기 위해서는 구글 정규식이라는 문자를 어느정도 활용할 수 있어야 합니다. 애널리틱스 입장에서는 기호와 문자를 구분해야 하기 때문인데요. 정규식을 작성할 수 있다면 구글 애널리틱스를 더욱 다양하게 활용할 수 있습니다.


예로들어 www.ddar.com/category/cate2.html?aa=04 이라는 문자가 있다고 했을 경우 "cate2.html?aa=04"를 포함하는 페이지의 PV를 애널리틱스에서 검색하게 되면 결과가 나오지 않습니다. 애널리틱스에서는 기본적으로 ?를 문자가 아닌 함수식으로 인식하기 떄문입니다.


그래서 구글에서는 이런 정규식에 대한 설명을 제공하고 있습니다.


?의 경우 애널리틱스에서는 이전 항목 0개 또는 한 개가 포함되는 것을 의미한다고 하는데요. 말 그대로 ?앞에 있는 문자가 있으면 모두 포함한다는 의미입니다. aa?이라는 식이 있다면 aaa, ab, abva 이렇게 a가 하나라도 있으면 모두 일치하는 것으로 받아들입니다.


몇가지 더 살펴보면 .은 글자 숫자 등 단일 문자를 의미하는데요. aa.이라는 식이 있으면 뒤에 어떤 문자가 나와야 일치합니다. 모든 있어야 한다는 말인데요. 그 뒤에 *를 붙이게 되면 문자가 없어도 상관없는 식이 됩니다.


aa라는 문자가 매칭이 안됩니다.


aa.뒤에 *를 넣으면 aa가 매칭됩니다.


이외에도 |역시 자주 사용되는데요. OR라는 의미입니다.


a혹은 b가 있어야 한다는 함수입니다.

둘 중 하나만 있으면 매칭되는 것으로 인식합니다.

ab둘다 없으면 매칭이 되지 않습니다.


또 많이 사용되는게 \입니다. 실제 문자에서는 역슬레쉬로 표현되는데요. 키보드에 따라 \표현되는 경우가 대부분입니다. \는 뒤에 있는 기호를 수식이 아닌 문자로 인식하게 만들어 줍니다.

처음에 예로 들은 www.ddar.com/category/cate2.html?aa=04 의 경우 그대로 매칭을 시키면 중간에.기호나 /기호, ?기호가 수식으로 인식되어 매칭이 불가능합니다.



하지만 기호 앞에 \기호를 넣으면 뒤에 있는 기호는 수식이 아닌 문자로 인식됩니다.



단일 페이지만 조사하는 경우에는 구글 애널리틱스 정규식을 몰라도 문제가 되지 않습니다. 하지만 세그먼트를 구분하거나 대시보드를 설정하거나 맞춤보고서를 만들거나 기본적으로 구글애서 정형화되 제공하는 기능이 아닌 나만의 분석도구로 활용하기 위해서는 위에 있는 기존 구글 정규식는 활용 할 수 있어여 합니다.


특히 .*와 | 그리고 \기호는 정말 많이 사용됩니다! 구글 애널리틱스를 공부하거나 웹로그분석에 관심이 있으신 분들은 이런 정규식에 대한 관심도 꾸준히 가져보세요!!

블로그 이미지

사진찍는백곰

산업관련 정보, 마케팅, 웹로그분석, 기타 산업진흥마을 이야기

,

온라인 마케팅이나 웹기획 분야에 관심이 있다면 한번 쯤은 들어봤을 구글웹로그분석(구글 애널리틱스)는 무료로 사용이 가능하지만 왠만한 유료 웹로그분석 도구보다 좋습니다.

(물론 사용할줄 알아야 좋습니다.)

설치도 간단해서 개발자 분에게 구글 애널리틱스 설치해 주세요. 말하면 한 10분이면 설치 가능합니다. 오히려 구글 계정 만들어야 하면 시간이 더 걸릴꺼 같네요. 개발자가 없어도 html소스에 접근만 가능하다면 직접 설치하는 것도 쉽습니다.


하지만 구글웹로그분석 도구인 애널리틱스 설치보다 중요하고 먼저 선행되어야 하는게 있는데요. 바로 왜 구글웹로그분석 도구를 설치하는지와 그래서 어떻게 사용할려고 하는지 입니다.


구글 애널리틱스를 설치한다는건 집에 들어오는 출입구에 관리소를 하나 만들어 놓는 것과 같습니다. 사람들이 왔다갔다 하는 것을 체크하고 기록하는 것인데요. 단순히 구글 애널리틱스를 설치하면 이렇게 몇명이나 와서 어떤 행위를하고 갔다 정도만 알 수 있습니다.


막상 나중에 어느 지역 사람들이 왔고 어떤 것을 타고 왔으며 어느 곳에서 우리집 정보를 보고 왔는지 등은 찾기 어렵습니다.(일부 구글에서 초지에 지정한 정보를 기준으로 저장은 됩니다.) 그래서 구글 애널리틱스를 사용하기 위해서는 먼저 출입문 관리소에 이름표를 나눠주고 이름표에 들어갈 항목을 지정해야 합니다. 그리고 출입하는 사람들에게 이름표를 하나씩 달아주고 어떤 행동을 할때 마다 이름표를 체크하는거조.

이런 과정을 통하면 나중에 어제는 어떤 사람들이 왔는지 데이터를 보면 어느 지역에서 몇명이 왔고 어떻게 찾아왔고 어느 지역에서 방문한 사람은 어떤 것에 흥미가 있고 어떤 정보를 보고 온 사람들은 어떻게 행동했는지에 대한 분석이 가능합니다.


더 직접적으로 말하면 네이버를 통해 들어온 사람과 다음을 통해 들어온 사람중에 어떤 사람이 더 우리 사이트에서 구매를 하던지 문의를 하던지 등 원하는 행동을 하는지 알 수 있고 이에 따라 마케팅 방향을 정할 수 있습니다.


그래서 구글웹로그분석 도구는 설치보다 어떤걸 하고 싶으지 세팅이 중요합니다. 그래야 내가 원하는 정보를 정확히 알 수 있고 사전에 원하는 로그를 정의하고 설정한다면 유입되는 로그의 유실이나 알 수 없는 기타 로그가 잡히는 경우도 줄일 수 있습니다.


다음에는 그럼 애널리틱스를 통해서 어떻게 이름표를 만들고 적용할 수 있는지 설명드리겠습니다!

블로그 이미지

사진찍는백곰

산업관련 정보, 마케팅, 웹로그분석, 기타 산업진흥마을 이야기

,

구글 애널리틱스에서 로그분석을 하면 중요한 포인트가 바로 내부트래픽을 제외하는 작업입니다.


내부 IP가 기록되는 경우 정상적인 로그가 아닌 내부 사람들이 테스트나 기타 활동으로 인한 클릭이 고스란히 잡히고 그 양이 많다면 올바른 데이터 분석을 위해 큰 문제를 발생시키기 때문입니다.


그래서 구글 애널리틱스에서는 대부 IP를 필터링 하는 기능을 제공하고 있는데요.

다른 사이트에 비하면 조금 불편합니다.


<에이스 카운터 IP 필터링 기능 - 그냥 해당 IP를 추가하면 범위 설정까지 가능>


하지만 구글의 경우 확장성과 자율성을 최대한 보장하는 대신에 정규식을 사용해 필터링 원하는 정보를 입력해야 합니다.


예로들어 123.123.123.12 이라는 IP를 필터링 하고 싶으면 단일 IP의 경우 그냥 입력하는 기능을 부여하고 있지만 범위를 지정하기 위해서는 정규식이라는 것을 활용해야 하는데요.


사용법이 복잡합니다.


예로들어 제외를 희망하는 IP 주소가 65.240.248.161 - 189 이라고 한다면


^65\.240\.248\.(16[1-9]|17[0-9]|18[0-9]) 이렇게 입력해야 합니다. 딱 봐도 복잡해 보이조?

해석은 다음과 같습니다.


^65\. = 시작은 65로 해야한다. 그리고 마지막에 .은 기호가 아닌 문자이다.

240\. = 240을 포함하고 뒤에 .은 기호가 아닌 문자이다.

248\. = 248을 포함하고 뒤에 .은 기호가 아닌 문자이다.

마지막에 범위를 지정하는 함수식이 조금 복잡합니다.

(16[1-9]|17[0-9]|18[0-9])  = 16으로 시작하고 3번째자리는 1~9까지 혹은 17로 시작하고 3번째자리는 1~9까지 혹은 18로 시작하고 3번째자리는 1~9까지인 함수 이렇게 표현됩니다.


IP 주소가 65.240.248.1 - 253 이라면 조금 더 복잡합니다. 

일단 앞에는 동일합니다. 하지만 마지막이 조금 복잡한데요

(\d{1,2}$|1\d{2}$|2[0-4]\d|25[0-3])

1.2자리에는 0~99까지 숫자가 들어옵니다.$은 종결을 의미하는데요. $이 없으면 999도 포함된다는 것을 의미합니다. 말 그대로 앞2자리가 0~99까지 지정되었기 때문입니다. 

1\d{2}$ 이 말은 앞에는 1이라는 숫자가 오고 2번째 자리에는 0~99까지 가능하다는 말입니다. 역시 끝은 $로 막아야 합니다.

2[0-4]\d이말은 첫째는 2가 오고 뒷자리는 0~4 마지막은 0~9라는 의미입니다. 즉 200~249 포함합니다.

25[0-3]은 앞에 두자리는 25로 시작하고 마지막자리는 0~3까지 가능하다는 의미입니다.


이렇게 작성한 코드는 http://rubular.com/ 와 같은 사이트에서 정규식이 정상적인지 확인 가능합니다.



 

이렇게 만들어진 정규식을 구글 애널리틱스 필터에 적용시키면 내부에서 발생하는 트래픽을 제외한 로그 수집이 가능합니다.


구글 애널리틱스를 사용하는 분들은 내부 IP를 꼭 체크해보세요!!

블로그 이미지

사진찍는백곰

산업관련 정보, 마케팅, 웹로그분석, 기타 산업진흥마을 이야기

,