Google Groups做留言簿:更严重的spam问题


将自己的留言簿迁移到groups-beta.google.com后,刚开始发现清静了很多,但不久以后就发现比原来更加严重的comment spam 比MT的留言簿更是有过之而无不及:
gestbook_spam.png

不得不将Google Groups中的很多留言模式设置成了需要批准才能发布,回复的时候也很不方便,自己的回复还需要自己批准一下……

Google Groups里面有一个通过邮件发表帖子的功能,因此有一个简单的映射关系
groupname@googlegroups.com 和 http://groups.google.com/group/groupname
guestbook_google.png
这样就给了允许公开发表的论坛一个对外公开接收各种邮件的入口,各种spam邮件每天会通过这个空开的入口转发到你的GMail邮箱中。更要命的是在pending msg管理界面中:很多邮件故意造成的页面HTML错误会导致从pending msg管理界面中调用其他网站的图片/js等,从而帮助spammer确认各个group的活动性,然后针对有效地址发送更多的垃圾邮件。

作者:车东 发表于:2005-10-28 18:10 最后更新于:2007-04-15 19:04
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及本版权声明

Comments

早就发现了,我的Groups也彻底关闭了,不知道怎么对付才好。

这么恐怖?
看了你的留言本,我还打算用 google-group 给自己建一个留言本呢; 现在看了你的文章,这个想法没有了^-^

不知道我下载了Apache ,是WinBinary(MSI Installer)却安装不了??/好象是安装软件的问题
无法打开
那该怎么办好呢??

请问邮件怎样导入,导出?
怎样操作?

车东前辈,您好!我是某高校的一名研究生,最近在研究lucene.希望能用lucene来搭建web搜索引擎.不过好象在lucene的包中是不包含爬虫这一块的.是吗?请问如果我要做这个的话是不是只要把一个spider或crawler包嵌入近来就行了呢?非常盼望能得到您的指点.万分感谢!

bbs2blog光名字就低俗
就名而言,感觉那个2那个都不像是无缝的整合.
要就来个全面的.

不知道,车东大哥还能不能看到这个回帖~~~~~有个问题:IIS设置了按天截断之后,我设置awstats的bat每天8:00更新之后,我看到的每天数据只有前一天的后十六个小时的统计结果,前八个小时没有。我用的是awstats的timezone插件,设置的是(GMT+8),统计的html页面的最下边也表明我使用了timezone插件,但是就是少了八个小时的数据,希望东东大哥看见我的问题,有时间的话帮我分析一下是什么问题。

研究一下这个页面

你好,我又一个问题想请你帮忙解决,请加我好吗 msn:lin2hu@163.com

Hi CheDong, wanna talk to you real time, would u pls give me your msn account?

不错,顺便推荐一个国内的eclipse插件站点
http://www.eclipsepowered.net

车东,您好,我在搜索沙龙上看到您的大名,我一直在筹备博客搜索,booso.com这个搜索做得非常不错,我希望能找到一批志同道合的人借助3G和互联网个人门户发展趋势,开创一个新的搜索引擎神话。
希望能与您电话联系。
我的电话13875855615 QQ:15925611

对web搜索感兴趣 目前刚了解 希望能提供点案列作为参考学习:) 谢谢!

车东老大,想请教一个问题,你上面说的时间补丁是怎么用的啊?我是把AWStats装在IIS6.0下的

我的awstats的设置主要就是从你的这个站点上学到的。所以没天都来看看,我想申请友情链接
刘辉的blog http://www.anywolfs.com/liuhui

呵呵,麻烦你有空的时候帮我链接下哈。

好想找几个朋友聊天啊请与我联系啊

CVS技术交流群MSN:msn3053@bbqun.com

这些天看了一下lucene.search的代码,发现在BooleanScorer中,用了2048大小的hashtable,其中(bucket.doc != doc),这些代码有点疑惑:如果检索出的docid在这个hashtable中发生collision了怎么办?按照代码,就update了。这个感觉有些不妥啊。这样作要和收集文章的crawler还有docid产生的规则有关系。这样作会不影响性能吗?另外感觉lucene整体架构还好,但是索引按照docid排序的规则隐含的贯穿于整个代码。而且最新的一些文章对于docid排序并不赞同。谢谢。

总看到你这篇文章更新,但是一直找不到每次的更新点在哪里?可否在你更新的时候标识一下?

请教问题:
你好,请问用lucene怎么实现分页,我的数据量很大,每次查出来的数据有3万多!

车老大,你好,请问在weblucene如何找到一条记录的docid,谢谢!我的邮箱是alonesea@gmail.com

你写的关于CVS的对我帮助很大,我在gmail上给你发出邀请,希望能加到你~~

车东,您好,我刚刚新建了一个个人商务网站,也深切的知道搜索引擎排名的重要性,但感觉到很茫然,不知我可不可以聘请你来帮我做一下网站的搜索优化,真的很希望与您合作,盼你的回音
我的QQ 123241387
电话0459-6252116

前两天在GOOGLE上搜“李湘新欢”,你会发现前6项全是像xxxxx.googlepages.com这样形式de网页,而且这些页全是跳转页;GOOGLE被自己“强奸”了@
而在YAHOO上搜索,却没发现有此现象。由此可看出,搜索引擎私心还是比较大的!

对中文和日文支持的怎么样?

For: http://www.chedong.com/
老车(请允许我这样称呼你:)
偶素看着你的lucene文章入门的,可以说你算是偶滴老师咯!
前段时间,自己写了一个Lucene中文分词器,在公司的网站(www.richmap.com.cn)上用了一段时间,感觉效果还行 ,故此特地优化了一下效能,想回馈广大网友,但不知道哪里发布比较好(自己没有blog ,也没有网站),故想借助您老人家的blog(学lucene的地球人都知道)发布,这样就有更多人收益咯,不知意下如何!!
如果收到我的信息请联系我,email:linliangyi2005@gmail.com
QQ: 36668534 , MSN : linliangyi@hotmail.com

For: http://www.chedong.com/
老车(请允许我这样称呼你:)
偶素看着你的lucene文章入门的,可以说你算是偶滴老师咯!
前段时间,自己写了一个Lucene中文分词器,在公司的网站(www.richmap.com.cn)上用了一段时间,感觉效果还行 ,故此特地优化了一下效能,想回馈广大网友,但不知道哪里发布比较好(自己没有blog ,也没有网站),故想借助您老人家的blog(学lucene的地球人都知道)发布,这样就有更多人收益咯,不知意下如何!!
如果收到我的信息请联系我,email:linliangyi2005@gmail.com
QQ: 36668534 , MSN : linliangyi@hotmail.com

For: http://www.chedong.com/tech/google.html
谢谢,非常有用的资料。

For: http://www.chedong.com/tech/
根据车东的这篇文章,再加上参考官方站点上的说明,我配置了一篇跟为详细的再IIS的设置的说明,欢迎大家提意见
http://www.anywolfs.com/liuhui/article.asp?id=180

你好,我看你的awstats做的不错,向你请教一些问题??如方便请加
qq:106375263 msn:xiangfeilulu@hotmail.com

For: http://www.chedong.com/
一直以来中文技术文章大部分都是粗制滥造,我对此深恶痛绝。
你不同,看过多篇阁下的文章受益,再次表示感谢!

我是web开发人员,经常看chedong的文章, 受益非浅, 比如关于cvs,lucene等很多知识, 谢谢你了!
提个建议:
http://www.chedong.com/sitemap.html#sitemap
看这个不要跳转, 有时候想从sitemap去查看各个链接,

For: http://www.chedong.com/tech/rotate_merge_log.html
好像awstats分别分析日志的话能实现日志合并,但是好像必须要按照日志的时间从旧到新分析,否则如果遇到有比已经分析过的日志更旧的文件时会分析不出来

For: http://www.chedong.com/tech/cms.html

這個關於 CMS 站點內容很豐富, 真不錯, 保持水平啊!

Elvis

For: http://www.chedong.com/tech/resin.html
chedong 你好,昨天刚打算学习JAVA,别人推荐了RESIN,下载了一个还不会用,正好搜到你的网址,顺便请教一下。
1、RESIN在windows2003中能用吗?
2、运行和数据库ORACLE关联的网页还需要别的软件吗?
3、我现在有RESIN+EDITPLUS,对于初学者够用了吗?
4、我没有编程过——0起点,能推荐几本好书 吗?我手边只有一本IDG的《JavaScript宝典》98年的,能用吗?

先谢谢了

我有一个在线听力网站,是用织梦系统做的,很早就做的。当时没有什么播放系统,就用织梦系统里面嵌套播放代码,后来,听力网站多了。
都盗链我的网站,造成服务器负载过重。于是请人做防盗链,现在在每篇文章里加了一个play.php,来防盗,没想到,现在新的问题来了,服务器apache动不动就占满内存了(内存是2G的),但是在线也就200~300人吧。
请问,该怎么解决呢?有人说,装流媒体服务器会好点,但是我没装过,该怎么装呢??目前apache版本是1.3

同是Yahooer,我是UED的相辉。早就听说车东,今日才来看。

我想知道可否连接?我的blog是关于用户体验与设计

From: http://www.exdooky.com/

刚学习使用,谢谢版主的费心,这些资料对我很有帮助,不甚感激

我有一个朋友经常用yahoo的电子邮箱和一些外国商人通信,他很想在yahoo的电子邮箱上增加一个选项目是可以显示 “邮件发送日期”是“发送者当地时间”(我想主要是时区转换问题吧)
主要他是不习惯用pop3邮件客户端来收邮件,而又想知道对方发邮件时间,如果知道从邮件发送到邮件成功接收相隔比较短的时间,我那朋友就可以更好安排如何安排迎接他们的时间。

For: http://www.chedong.com/
嗨,有没有什么关于国内外实况转播技术的文章,这话题也该成为热点了。法国倒是已经有几家公司在做。。。

python编写的搜索引擎,欢迎测试
http://www.ftf365.com:8081/sozone/query.py

1.蜘蛛的性能:采用多线程机制,在宽带网接入的情况下,平均每分钟1200张网页。可以断点续抓。
2.查询性能:百万数据的情况下,查询响应速度低于0.5秒,召回率98% 。
3.适用范围:可用于构建针对一个或一批网站的垂直搜索引擎
4.运行环境:Python2.5+Karrigell2.3 ,操作系统不限

For: http://www.chedong.com/tech/cvs_card.html
谢谢您,看了后了解了很多,在以后的工作中希望您能给予更多的帮助。

For: http://www.chedong.com/tech/cms.html ,一直很喜欢你的文章,思路明了,言简意赅,是我学习的好东东,恩是bridge

For: http://www.chedong.com/tech/google_url.html

请问 用 mod_rewrite 的时候,动态页面输出的中的动态url可以改成改成静态的吗?

我用oracle ias 10.1.3 作为应用服务器,
我有2个jsp文件

--------------list.jsp----------------------

'>
---------------------------------------------

--------------detail.jsp---------------------

---------------------------------------------

在httpd.conf中配置了

RewriteEngine On
RewriteLog "/home/oracle/rewrite.log"
RewriteLogLevel 3
RewriteRule ^/web/list_(.*)\.html$ /web/list.jsp?p=$1 [PT,L]
RewriteRule ^/web/detail_(.*)\.html$ /web/detail.jsp?id=$1 [PT,L]


在浏览器中地址栏输入 http://localhost:7777/web/list_1.htmlhttp://localhost:7777/web/detail_1.html 都能显示出正确的结果。
但是list_1.html 的输出中的连接仍然是 /web/detail.jsp?id=2 的动态连接,mod_rewrite是否有办法让输出为 /web/detail_2.html。如果没有,那么有什么简便的方法吗?

谢谢

我只是不会用这邮件你能有什么好方法可以用的吗?

用户行为的研究,我是06年初有这个想法的,那时自己突发灵感,感觉到用户行为的研究和分析是非常有必要的,而且决定下一时代谁会领先于科技之上。那时我研究的时候,不知道微软和GOOGLE也在研究这东东,
呵呵。看来和我研究的并不偏差,不过,我还是有一些更具创新的想法。总之我的《用户学原理-行为学》分析得知,internet行业里形为学的真正成熟,应该是在2010年左右,现在所有的形为研究,都只是不成熟体,08年应该会有一些数据的分析和研究结果,不过还得再等两三年的样子。

华尔纳斯新互联网研究院

For: http://www.chedong.com/tech/apache_install.html
会用的人不需要看这种文章
不会用的人看了也不会配置。
一句话:本文贡献小于零!

恭喜你今天当爸爸了。

哎哟,不咬这么麻烦吧,在启动resin前 source /etc/profile 一下就好了吧

For: http://www.chedong.com/tech/click.html
可以改成firefox兼容的:
clickStat(evt)
{
alert(evt.clientX);
}

For: 你好,关于AWStats的千万级日志解决方案
报表输出时增加: &databasebreak=day&day=DD
如果DD值用“日”代表可以输出当月这天的报表。但不知道怎样查看过去月份的报表。帮忙指教,谢谢。

你好,我也是注册的POWWEB的服务器建自己的网站,可是国内却打不开,为什么你的可以打开~
急~~

发表一个评论

(如果你此前从未在此 Blog 上发表过评论,则你的评论必须在 Blog 主人验证后才能显示,请你耐心等候。)