除了专利之外,Google的工程师们也发表了不少研究论文,主题范畴比较广泛。其中有篇《A Large Scale Study of Wireless Search Behavior: Google Mobile Search》(PDF文档),对移动搜索行为做了统计分析。
在XHTML(手机)查询中:平均每个查询输入的单词数量为2.3个(中位2,最大30,标准差1.6),平均每个查询输入的字符数为15.5个(中位14,最大502,标准差9.18)。在PDA查询中:平均每个查询输入的单词数量为2.7个(中位3,最大65,标准差1.5),平均每个查询输入的字符数为17.5个(中位16,最大396,标准差9.1)。这与以往桌面查询的数据(一为2.35[注1],一为2.6[注2])很接近。
XHTML和PDA搜索的主题范畴见下:
手机XHTML查询的主题范畴分类统计
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
手机XHTML查询的主题范畴分类统计 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
据以往发表的有线搜索主题([注3]),前三个是“Commerce, travel, employment or economy”、“People, places and things”和“Computer or Internet”,色情查询只占10%不到。对照上面的数据,虽然XHTML和PDA的查询主题有些不同,但它们与有线查询的差异更大。
//原以为移动设备上输入比较麻烦,用户的查询可能更简短,结果好像不是;原以为手机绑定到个人,色情查询会更少,结果好像也不是。手机和PDA用户在查询上的不同,可能与用户群有关。如果在中国,PDA用户搜索的第一需求就是哪儿吃饭?
[注1]:
数据来自两篇参考文献:
1)Jansen, B. J., Spink, A., Bateman, J., Saracevic, T. 1998. Real life information retrieval: A study of user queries on the web. SIGIR Forum, Vol. 32 No. 1 pp. 5 -17.(这里有PDF原文下载,但需要帐户或收费);
2)Silverstein, C., Henzinger, M., Marais, H., Moricz, M. 1999. Analysis of a Very Large Web Search Engine Query Log SIGIR Forum, Vol. 33 No. 1 pp. 6 -12.(这里有免费的PDF原文下载)。
[注2][注3]:
数据和引用来自:Spink, A., Jansen, B., Wolfram, D., Saracevic, T. 2002. From E-Sex to E-Commerce: Web search changes. IEEE Computer Vol. 35 No.3 pp. 107-10.(这里有免费的PDF原文下载)。
另外还找到两篇相关搜索查询统计分析的文章:
1)Steven M. Beitzel, Eric C. Jensen, Abdur Chowdhury, David Grossman, Ophir Frieder. Hourly Analysis of a Very Large Topically Categorized Web Query Log.(这里有免费的PDF原文下载)。
2)Analysis of a very large web search engine query log(PPT文档)