(回到Blog入口)

日志分析|Analytics 归档

2004年03月23日

Stephen的referrer统计系统使用和改进:如何对来自百度的来源进行统计

referer是HTTP协议中,记录用户访问当前网页前的链接地址,通过referer机制,可以把互联网的上各个节点天然自动关联成一个地图。
目前很多站点上显示的最新来源(referer)统计都是用的是:
Stephen的referrer统计系统

由于他的http://www.downes.ca/每天要承受85万的日统计访问量并承受大量的SPAM(referer作弊),因此已经关闭了referrers统计系统,但系统程序本身是基于GNU版权公开发布的,所以其实每个服务器上都可以安装(我在51.net上安装没成功)

以下是我的安装和改进简介:

按此阅读全文 "Stephen的referrer统计系统使用和改进:如何对来自百度的来源进行统计" »

2004年05月16日

SEO效果评价:spider referer 和 keywords

SEO: search engine optimization搜索引擎优化:为了提高来自搜索引擎的流量,SEO已经成为很多商业网站的必修课。但是如何评价网站的SEO效果呢,设计了以下脚本,可以获得以下方面的参考数据:
1 那些网页被搜索引擎的Spider收录: 来自搜索引擎的spider统计;
2 那些网页被搜索搜索到那些网页并被点击: 来自搜索引擎的referer统计;
3 被搜索引擎搜索到的时候使用的那些关键词: 来自搜索引擎的keywords统计;

脚本如下:

按此阅读全文 "SEO效果评价:spider referer 和 keywords" »

2005年11月28日

Google分析使用技巧:给Analytics增加针对百度/soso等搜索来源统计代码

和AWStats一样,Google Analytics完全没有考虑中国的搜索引擎市场中更主要的2个搜索引擎来源:Baidu/3721/soso等搜索引擎的来源,而微软和电信的合作有道引擎等,如果要计入统计方法也很简单hack一下urchin.js的部署代码即可:
<script src="http://www.google-analytics.com/urchin.js" type="text/javascript">
</script>
<script type="text/javascript">
_uacct = "YOUR_USER_ID";
_uOsr[121]="3721"; _uOkw[121]="name";
_uOsr[122]="baidu"; _uOkw[122]="word";
_uOsr[123]="soso"; _uOkw[123]="w";
_uOsr[124]="vnet"; _uOkw[124]="kw";
_uOsr[125]="yodao"; _uOkw[125]="q";

urchinTracker();
</script>

搜索引擎定义编号最好从120开始:因为analytics对全球各地主要搜索引擎的定义还不断在更新中,目前(2007年12月)已经增加到了33个,

_uOsr[0]="google"; _uOkw[0]="q";
_uOsr[1]="yahoo"; _uOkw[1]="p";
_uOsr[2]="msn"; _uOkw[2]="q";
_uOsr[3]="aol"; _uOkw[3]="query";
_uOsr[4]="aol"; _uOkw[4]="encquery";
_uOsr[5]="lycos"; _uOkw[5]="query";
_uOsr[6]="ask"; _uOkw[6]="q";
_uOsr[7]="altavista"; _uOkw[7]="q";
_uOsr[8]="netscape"; _uOkw[8]="query";
_uOsr[9]="cnn"; _uOkw[9]="query";
_uOsr[10]="looksmart"; _uOkw[10]="qt";
_uOsr[11]="about"; _uOkw[11]="terms";
_uOsr[12]="mamma"; _uOkw[12]="query";
_uOsr[13]="alltheweb"; _uOkw[13]="q";
_uOsr[14]="gigablast"; _uOkw[14]="q";
_uOsr[15]="voila"; _uOkw[15]="rdata";
_uOsr[16]="virgilio"; _uOkw[16]="qs";
_uOsr[17]="live"; _uOkw[17]="q";
_uOsr[18]="baidu"; _uOkw[18]="wd";
_uOsr[19]="alice"; _uOkw[19]="qs";
_uOsr[20]="yandex"; _uOkw[20]="text";
_uOsr[21]="najdi"; _uOkw[21]="q";
_uOsr[22]="aol"; _uOkw[22]="q";
_uOsr[23]="club-internet"; _uOkw[23]="q";
_uOsr[24]="mama"; _uOkw[24]="query";
_uOsr[25]="seznam"; _uOkw[25]="q";
_uOsr[26]="search"; _uOkw[26]="q";
_uOsr[27]="szukaj"; _uOkw[27]="szukaj";
_uOsr[28]="szukaj"; _uOkw[28]="qt";
_uOsr[29]="netsprint"; _uOkw[29]="q";
_uOsr[30]="google.interia"; _uOkw[30]="q";
_uOsr[31]="szukacz"; _uOkw[31]="q";
_uOsr[32]="yam"; _uOkw[32]="k";
_uOsr[33]="pchome"; _uOkw[33]="q";

百度/3721搜索来源统计效果截图:2005年11月
google_analytics_baidu.png

按此阅读全文 "Google分析使用技巧:给Analytics增加针对百度/soso等搜索来源统计代码" »

2005年11月29日

利用StatViz生成网站用户点击路径图

今天尝试了一下StatViz,生成了自己网站的点击路径统计:网站好“扁平”啊;
图较大,点击这里下载

具体的安装过程如下:
下载GraphViz: 一个通用的矢量图生成工具
下载StatViz: 一个基于Web日志生成点击路径矢量结构的工具(PHP脚本)1000多行,生成的.dot文件再使用GraphViz处理生成矢量图了。
辅助安装包:StatViz可能需要PEAR中的Config包:用于解析配置文件。

安装好以上包后: 解包statviz-0.5.tgz
php statviz.php --config=example.conf
就可以生成相应的.dot文件了,其中一个输出文件是汇总的点击pairs统计。

按此阅读全文 "利用StatViz生成网站用户点击路径图" »

2006年01月20日

FeedBurner的更新频度: 30分钟同步一次

今天看了一下FeedBurner的同步策略: 他们在带宽的节省方面还是下了很大的工夫的。

首先最近3天的日志中:只有少量的是 真正产生流量的200访问,大部分都向服务器发送了缓存校验,服务器返回是304(未更新) 只有当有新条目生成的时 才返回新的内容。而收到新条目后,FeedBurner还会发送HEAD校验一下新条目URL是否存在。

grep http://www.FeedBurner.com chedong_access_log.200601*|awk '{print $0}'|grep -v 304
chedong_access_log.20060117:66.150.96.109 - - [17/Jan/2006:06:00:52 +0800] "HEAD /blog/archives/001065.html HTTP/1.1" 200 0 "-" "FeedBurner/1.0 (http://www.FeedBurner.com)" 66.150.96.109.36261137448852425
chedong_access_log.20060118:66.150.96.109 - - [18/Jan/2006:11:47:43 +0800] "GET /blog/index.rdf HTTP/1.1" 200 29845 "-" "FeedBurner/1.0 (http://www.FeedBurner.com)" 66.150.96.109.312341137556063122
chedong_access_log.20060118:66.150.96.109 - - [18/Jan/2006:12:49:59 +0800] "GET /blog/index.rdf HTTP/1.1" 200 32033 "-" "FeedBurner/1.0 (http://www.FeedBurner.com)" 66.150.96.109.234351137559798399
chedong_access_log.20060119:66.150.96.109 - - [19/Jan/2006:13:03:27 +0800] "HEAD /blog/archives/001111.html HTTP/1.1" 200 0 "-" "FeedBurner/1.0 (http://www.FeedBurner.com)" 66.150.96.109.127431137647007148

按此阅读全文 "FeedBurner的更新频度: 30分钟同步一次" »

2006年07月05日

FireFox的自动更新 1.5.0.4 => 1.5.0.5

FireFox 1.5用户的升级速度很快,
本月比例:1.5.0.4在6月初发布的一个月后大部分用户已经升级
Firefox 1.5.0.4 否 23075 10 %
Firefox 1.5.0.3 否 1144 0.4 %
Firefox 1.5.0.2 否 422 0.1 %
Firefox 1.5.0.1 否 450 0.1 %

对比一下5月份的比例:大部分用户当时是用1.5.0.3
Firefox 1.5.0.4 否 2487 0.1 %
Firefox 1.5.0.3 否 161038 10.1 %
Firefox 1.5.0.2 否 18101 1.1 %
Firefox 1.5.0.1 否 9762 0.6 %

而作为高危漏洞软件之首的FireFox 1.0用户正在稳步下降:
5月份比例:
Firefox 1.0.8 否 1296 0 %
Firefox 1.0.7 否 9496 0.5 %
Firefox 1.0.6 否 4202 0.2 %

6月份数据:
Firefox 1.0.8 否 1018 0 %
Firefox 1.0.7 否 4343 0.2 %
Firefox 1.0.6 否 5945 0.3 %

按此阅读全文 "FireFox的自动更新 1.5.0.4 => 1.5.0.5" »

2006年08月13日

歪打正着之:免费杀毒软件和芝华士广告

你的网站上是不是也有很多这种被人意外搜索到的内容呢?

如果不是看日志统计:真的是很难想象niernier.com上3年以来最著名的关键词是“芝华士”:这篇帖子的300多篇评论中也包含那首广告歌的歌手的回复。
12639个关键字词 搜索次数 百分比
芝华士 6996 8.2 %
芝华士 5471 6.4 %
芝华士广告歌 1860 2.1 %
芝华士广告 1670 1.9 %

按此阅读全文 "歪打正着之:免费杀毒软件和芝华士广告" »

2006年11月16日

速度比较:GMail/MSN/Yahoo!Mail

LiveHTTPHeaders做了一个比较:发现GMailYahoo!MailLiveMail快还是有原因的。

从输入域名,到登录完成进入邮箱的HTTP请求次数(已经保存密码自动登录):
9 gmail.log
19 hotmail.log
34 ymail.log

GMail的请求:9次

GET /mail/
GET /mail/
GET /mail/
GET /mail/im/dropupdown.gif
GET /setgmail
GET /mail/
GET /mail/
GET /mail/
GET /mail/

Live Mail的请求:19次,其中7个广告相关的请求

GET /mail/mail.aspx
GET /mail/Bootstrap_11.08.0100.0011.aspx
GET /mail/loading_11.08.0100.0011.aspx
GET /mail/ApplicationMain_11.08.0100.0011.aspx
GET /c.gif
POST /mail/mail.fpp
GET /mail/stylesheet_11.08.0100.0011.aspx
GET /mail/11.00/theme0/thumbn.gif
GET /mail/11.00/theme7/thumbn.gif
GET /ADSAdClient31.dll
GET /ADSAdClient31.dll
POST /mail/mail.fpp
GET /mail/11.00/theme6/thumbn.gif
GET /ADSAdClient31.dll
GET /mail/11.00/theme4/thumbn.gif
GET /ADSAdClient31.dll
GET /main/adfshow
GET /main/adfshow
GET /msnms/20061025/Hotmail(China)today_Rectangle_300_250_20k.swf

Yahoo!Mail(Beta版):34次

GET /
GET /b
GET /search
GET /yab/cache/cn/w85nP6Cx_z657_m9Yyg9Aw--
POST /ws/mail/v1/soap
POST /rss/Content/V3.0/getUserFeedData
POST /ws/mail/v1/soap
GET /dc/fc
GET /ws/cal/w85nP6Cx_z657_m9Yyg9Aw--/v0.1/event
GET /a
GET /a
GET /b
GET /a
GET /candygram/welcome/
GET /b
GET /a
GET /a
GET /img/loginrec.htm
GET /candygram/welcome/
GET /promo/p2006/tab_cg.html
GET /a
GET /us.yimg.com/a/1-/jscodes/031016/ct_lrec_031016.js
GET /img/loginrec.htm
GET /b
GET /b
GET /a
GET /b
GET /promo/p2006/tab_cg.html
GET /b
GET /b
GET /a/ad/daphne/20060809_74790_3_300x250_lrec_dragdrop_China.swf
GET /serv
GET /serv
GET /mail/

按此阅读全文 "速度比较:GMail/MSN/Yahoo!Mail" »

2006年11月24日

Spider: 以遵守robots.txt协议为荣 以匿名盗抓为耻

按照是否匿名和是否遵循robots.txt协议有4种蜘蛛:
1 真名真姓,遵循robots.txt 协议。代表:GoogleBot BaiduSpider MSNBot Yahoo!Slurp 等
2 真名真姓,不遵循robots.txt协议。代表:iAskSpider SohuAgent wget
3 匿名,不遵循robots.txt协议。代表:大量的匿名蜘蛛,例如 OutfoxBot
4 伪装:不遵循robots.txt协议。代表:中搜,各种SpamBot,

如何识别这四类蜘蛛呢?通过HTTP协议和是否支持mod_gzip都很好的特征。做一个知荣知耻的spider很难吗?事实上:比较难。没有一定的技术积累,spider就和spambot一样。详细分析附后:

按此阅读全文 "Spider: 以遵守robots.txt协议为荣 以匿名盗抓为耻" »

2006年12月13日

首页的字体改大了

今天收到一个朋友的来信:说我的网站的字太小了。我去Analytics上看了一下,其中的WEB设计参数中,有一个屏幕分辨率的指标。目前我的网站上使用analytics的统计
screen_size.png
来访者有95%以上的用户是使用1024分辨率以上(包括我自己看),为什么还要用那么小的字体呢?修改了一下style,把首页上所有 12px的字体都改成了14px(其实应该尽量避免使用固定象素大小字体,使用相对大小更好一些),之所以选择14px象素,因为我的网站有1/6左右是Firefox用户,单数大小字体对他们不适合。

如果你看到的首页还是小字体,请按F5强制刷新一下。

如果不满意还可以投上一票:

按此阅读全文 "首页的字体改大了" »

2006年12月15日

[MT] Trackback spambot的特征分布 - 2006年12月份

用一些简单的脚本和接口对MT spambot做了一些统计,网站上已经没有mt-tb.cgi这个文件了,来访问这个地址的都是spammer。

结论如下:spam的运行时间分布很均匀,来源IP以国外为主,一般是对MT已有文章地毯式的ping。
基本上如果通过特征的方法来识别,不如全部过滤。所以动态修改trackback地址/文件名是必须的可以过滤掉95%以上的spam,动态trackback地址/参数则过滤掉将剩余的5%中的90%。

详细数据附后。

按此阅读全文 "[MT] Trackback spambot的特征分布 - 2006年12月份" »

2007年04月19日

申请主机IP地址加入教育网的免费列表 010 - 62603429(杨小姐)

今天早上咨询了一下CERNET用户服务部:如何加入教育网的免费地址列表?

请通知你的服务商,让IDC和cernet联系申请加入(走服务器网段加入免费列表申请流程):
联系人 010 - 62603429 杨小姐。

注:
1 我的机器就在国内(不通过国际光缆),北京 电信通机房主机托管1台
2 开通了以后如何检查: CERNIC免费IP查询

Does 60.195.249.163 belong to CERNET "free" IP list?

No.
60.195.249.163 不在免费之列.
60.195.249.163 is NOT in free IP list.

按此阅读全文 "申请主机IP地址加入教育网的免费列表 010 - 62603429(杨小姐)" »

2007年04月21日

网站的外链/内链统计:来自Google的网站管理员工具

Google的网站管理员工具有这样一个功能:查询相应网站的外链/内链数量和明细。从控制台,点击一个已经提交的网站:控制台 > http://www.chedong.com/blog/ > 含外部链接的网页 > 以下是导出的部分 chedong.com/blog的外链数量统计: 可惜不是按外链数量排序的,可以导出成EXCEL,报表如下: 

http://www.chedong.com/blog/ 17471
http://www.chedong.com/blog/index.rdf 2948
http://www.chedong.com/blog/archives/001249.html 1011
http://www.chedong.com/blog/archives/001309.html 441
http://www.chedong.com/blog/archives/001306.html 396
http://www.chedong.com/blog/archives/001246.html 350
http://www.chedong.com/blog/archives/000772.html 308
http://www.chedong.com/blog/archives/001117.html 268
http://www.chedong.com/blog/archives/001282.html 264
http://www.chedong.com/blog/archives/001195.html 241
http://www.chedong.com/blog/archives/001293.html 223
http://www.chedong.com/blog/archives/001261.html 222
http://www.chedong.com/blog/archives/001292.html 219
http://www.chedong.com/blog/archives/000741.html 212
http://www.chedong.com/blog/archives/000828.html 204
http://www.chedong.com/blog/archives/001297.html 197
http://www.chedong.com/blog/archives/001240.html 182
http://www.chedong.com/blog/archives/001244.html 172
http://www.chedong.com/blog/index.xml 165
http://www.chedong.com/blog/archives/001285.html 165
http://www.chedong.com/blog/archives/001294.html 164
http://www.chedong.com/blog/archives/001245.html 154
http://www.chedong.com/blog/archives/001280.html 150
http://www.chedong.com/blog/archives/001284.html 140
http://www.chedong.com/blog/archives/001296.html 139
http://www.chedong.com/blog/archives/001124.html 134
http://www.chedong.com/blog/archives/001203.html 119
http://www.chedong.com/blog/archives/001267.html 118
http://www.chedong.com/blog/atom.xml 115
http://www.chedong.com/blog/archives/000738.html 109
http://www.chedong.com/blog/archives/000825.html 103
http://www.chedong.com/blog/archives/001266.html 101
 

发现了吗?

  • BLOG首页最多,但FEED地址也不少。
  • 大部分文章都是编号12xx以后的了,早期的文章数量链接数量很少。看来Chedong CopyRight的作用还是很大啊。

按此阅读全文 "网站的外链/内链统计:来自Google的网站管理员工具" »

2007年11月22日

控制Yahoo!Slurp China蜘蛛的访问频度 Crawl-delay: 1000 的效果

Crawl-delay: 100 的访问频度:Yahoo! Slurp比一般引擎高4-5倍

Yahoo Slurp 95899+234 415.40 M字节 2007年 9 月 30日 23:58
Yahoo! Slurp China 81349+165 479.04 M字节 2007年 9 月 30日 23:59
Googlebot 17741+518 96.31 M字节 2007年 9 月 30日 23:47

Crawl-delay: 1000 的访问频度: Slurp已经恢复到和其他引擎相同水平

Googlebot 22448+413 196.22 M字节 2007年 11月 21日 23:53
Yahoo! Slurp China 15881+192 116.92 M字节 2007年 11月 21日 23:57
Yahoo Slurp 10661+155 98.77 M字节 2007年 11月 21日 23:59

按此阅读全文 "控制Yahoo!Slurp China蜘蛛的访问频度 Crawl-delay: 1000 的效果" »

2008年09月21日

基于Google Analytics的点出统计

大部分web引用统计系统都实现了基于站内的点击行为分析,但是对于点出到其他网站的链接,由于点出链接地址不一定都部署了相通的统计。那么这些点击行为就要在链接所在的页面在点击的时候触发统计了。传统的是中间转向页面,但这样的链接机制非常不利于SEO,给蜘蛛带来了大量的麻烦用于识别真正的目标地址;之前介绍过一些基于鼠标触发机制的页面点出统计方法: 一般是通过在点击的时候触发在当前页面插入一个 img bean,然后统计相应的img 请求实现,现在连这样的点击触发器在Google Analytics统计中也可以自定义实现了: 以下例子在页面点击的时候,会触发Google Analytics生成一个对clickto/TAGET_URL 一个自定义的地址(clickto实际上不存在的)请求访问;
<script type="text/javascript">
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write("\<script src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'>\<\/script>" );
</script>
<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-69476-1");
pageTracker._addOrganic("baidu","word");
pageTracker._addOrganic("soso","q");
pageTracker._addOrganic("vnet","kw");
pageTracker._addOrganic("yodao","q");
pageTracker._initData();
pageTracker._trackPageview();

document.onclick = function(e) {
    e = e || event;
    var el = e.target || e.srcElement;
    if ( el.tagName=='A' ) {
        pageTracker._trackPageview("\/clickto/" + window.location.href.replace("http:\/\/www.chedong.com/", "") + 
            el.href.replace("http:\/\/", "\/"));
    }
}
</script>
在统计报表中看到的效果就是这样的: clickto_stats.png 通过在所有访问url中过滤出clickto即可; 感谢XD同学,这个点出统计例子从very.cd上学到的; 一个好的例子胜过长篇大论,可以看到very.cd通过对onclick的触发机制,结合站内的cookie等还实现了客户回访率统计等;

按此阅读全文 "基于Google Analytics的点出统计" »

2009年03月05日

使用Google analytics的 _trackPageview()对网页进行重新命名统计

这里将一些利用Google analytics _trackPageview()进行URL改写实现别名统计的方案样例整理如下:
1 自定义链接改写(rewrite): 将URL变成可读性更好的地址, 例如:

/index.php ==> 部署 pageTracker._trackPageview('/首页');
/photos/sun_rise.html ==> 部署 pageTracker._trackPageview('/相册/日出');

这样就可以在页面基于url的分布统计之外,另外通过页面别名实现另外一套可读性更好的映射统计,解决按目录,按页面类型,

2 对动态参数网页进行别名统计:Google统计会忽略掉动态网页 ? 后面的参数,但将 /?a=1&b=2 在统计中改写变成 /a/1/b/2 后,就可以通过pageTracker._trackPageview("/a/1/b/2") 后不修改URL也能变相统计出来;

3 结合前台js,cookie信息和后台注册信息和后台程序组合逻辑进行扩展统计:用前端脚本或者后台程序动态生成: pageTracker._trackPageview("参数") 实现更复杂的统计别名
例如:
用户注册天数: pageTracker._trackPageview("/user/age/203days"),用于登录用户的注册时间分布;
分析性别分布: pageTracker._trackPageview("/user/sports/male") 分析每个频道的用户性别比例;
记录用户ID: pageTracker._trackPageview("/username/chedong/channel_a") 导出报表后,结合用户数据库信息,获得每个用户在各个频道的行为特点;
区分referer: 在同一个页面按referer不同分别进行统计:
pageTracker._trackPageview("/reg/from/partener")
pageTracker._trackPageview("/reg/from/baidu")

4 点出统计:通过onclick事件发出一个虚拟URL统计请求,这个机制可以用于统计flash,下载或点击到外站等无法部署统计代码的目标地址;

另外: Google提供的API大部分是部署时的接口/方法,更关心获得报表输出的批量导出API, 据说正在开发中:近期只对Trusted Tester开放,这样就更加方便和其他报表系统/应用集成了;

按此阅读全文 "使用Google analytics的 _trackPageview()对网页进行重新命名统计" »

2009年03月12日

雅虎统计 chedong.com 读者基于淘宝购物行为的访客网购兴趣分析

2月份雅虎统计推出了一个新功能:访客网购兴趣,估计是基于用户的淘宝用户行为做的分析,数据好像不是每天更新,近期刚更新过。 本网站最适合用户人群:
类型             购买比例    相对平均差异
车载MP3/视听	2.68%	92.8%
数码相机其他配件	2.33%	84.9%
笔记本电脑	3.26%	69.8%
数码摄像机	1.12%	62.3%
GPS配件/车载通讯	7.31%	61.4%
品牌家饰	0.70%	55.6%
GPS	2.07%	54.5%
看来适宜推荐各种IT新设备; 相对其他网站平均的差异 = 是以与平均水平相比/平均水平 最不适宜在本网站投放的10中商品广告:
职业套装/学生校服/工作制服	0.72%	-41.0%
运动装外套	0.51%	-42.0%
热水器/浴霸	0.26%	-42.2%
围巾/丝巾/披肩	0.26%	-42.2%
运动裤/裙	0.27%	-42.6%
胶卷相机	0.27%	-43.8%
女装羽绒服	0.27%	-43.8%
装潢二手/闲置专区	0.27%	-44.9%
文胸套装	0.26%	-46.9%
运动套装	0.34%	-50.7%
装饰画/无框画	0.26%	-52.7%

按此阅读全文 "雅虎统计 chedong.com 读者基于淘宝购物行为的访客网购兴趣分析" »

2010年07月17日

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)

在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为

  • a方支持率为45.3%;
  • b方支持率为30.2%;
  • c方支持率为8.5%;
  • ...

最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。

抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念;

抽样误差: 假如相同规模的抽样调查进行多次, 抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图: 横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 

 

最小抽样量的计算公式: 抽样量需要 > 30个才算足够多,可以用以下近似的误差/样本量估算公式;

n: 为样本量;
\fn_jvn \120dpi {\sigma}^2方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;
E: 为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;
\fn_jvn \120dpi ^{z_{\alpha/2}}: 为可靠性系数,即置信度,置信度为95%时,\fn_jvn \120dpi ^{z_{\alpha/2}}=1.96,置信度为90%时,\fn_jvn \120dpi ^{z_{\alpha/2}}=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;

为了体现相对差距: 假设抽样均值为 y

相对抽样误差 h = E / y

变异系数 C= σ / y


以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;

置信度相对抽样误差(假设:C=0.4)
1%2%3%4%5%
95%6147 1537 683 384 246 
90%4330 1082 481 271 173 

如果是基于胜出率,支持率等: 分值为0/1状态分布,公式拟合为

 

π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬殊需要的样本量越少; 

 

置信度相对抽样误差
1%2%3%4%5%
95%960424011067600384
90%67651691752423270

从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

按此阅读全文 " 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)" »

2011年01月07日

电脑屏幕分辨率分布统计(基于CNZZ统计数字) 2012-03 更新

利用2011年12月的数据:  预期年终主流浏览器分辨率是1366?

 

http://data.cnzz.com/main.php?s=resolve

  • 1024x已经低于40%;
  • 疑问: 1366x 增加最多?
  • 疑问: 800x 略有增加?
  • 2010年12月份的其他分辨率的量为0%, 2009年还有5.9%;

按宽度汇总的分布: 统计如下

 

分辨率 2009年12月 2010年12月 变化量
1024x 46.5% 39.3% -7.2%
1280x 21.4% 23.7% 2.3%
1440x 15.2% 18.3% 3.1%
1366x 2.6% 9.1% 6.4%
1680x 3.5% 4.4% 1.0%
1152x 3.1% 3.2% 0.1%
800x 1.9% 2.1% 0.2%

 

按此阅读全文 "电脑屏幕分辨率分布统计(基于CNZZ统计数字) 2012-03 更新" »

2013年09月09日

相似度对比的两种计算算法:Jaccard similarity相似性系数和Ochiai coefficient落和系数

Jaccard coefficient:

A,B分别代表符合某种条件的集合:两个集合交集的大小/两个集合并集的大小,交集=并集意味着2个集合完全重合。

Ochiai coefficient:

A,B分别代表符合某种条件的集合:两个集合的交集大小/两个集合大小的几何平均值。是余弦相似性的一种形式。

按此阅读全文 "相似度对比的两种计算算法:Jaccard similarity相似性系数和Ochiai coefficient落和系数" »

2016年01月27日

5miles:挑战Craiglist的海外C2C平台 找BI工程师

岗位需求:BI工程师

公司名称:第三石科技发展有限公司
业务方向:无线互联网的C2C电商平台
建模方向:商品推荐,用户积分平衡体系、无线互联网用户行为分析
要求:研究生,熟悉机器学习,熟悉概率统计,有日志分析经验者优先
素质:非常聪明(因为和你一起工作的人都是geek),善于学习,非常敏锐,善于总结

联系方式:geek@wespoke.com

2017年06月06日

Mac下处理PC以^M结尾的文本

awk -v RS='\r\n' foo.log

Unix 用\n行末结尾
Mac 用\r行末结尾
PC 用 \r\n行末结尾

按此阅读全文 "Mac下处理PC以^M结尾的文本 " »

关于 日志分析|Analytics

此页面包含了发表于 车东[Blog^2] 的 日志分析|Analytics 所有日记的归档,它们从老到新列出。

前一个分类 桌面应用|Desktop

后一个分类 日志分析|AWStats

更多信息可在 主索引 页和 归档 页看到。

Creative Commons License
此 Blog 中的日记遵循以下授权 Creative Commons(创作共用)授权.
Powered by
Movable Type 3.36