blog性别测试

今天在杜师兄的blog上看到yodao推出了一款测试blog性别的小东西,兴致勃勃地跑去看了看,随手抓了几个经常更新的朋友的blog去测测,准确率还是挺高的。经过权威认定,蜗牛是100%的纯爷们,cool!我决定拿着这个结果去嘲笑米豆,哼,让你丫抛弃祖国~

各位八卦男女的结果都列在这里,自己对号入座,ladies first.

爱SA死性不改!
18.0%男性倾向,82.0%女性倾向
   
评点:明净雅致的语言让人为之倾倒,人生的感悟、生活情趣都融合在其中,自有一番细腻的心思在其间。
yodao | 博客男女
Milano 的 晶海岸
25.0%男性倾向,75.0%女性倾向
   
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。
yodao | 博客男女
Susan说
31.0%男性倾向,69.0%女性倾向
   
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。
yodao | 博客男女
☆滴落的记忆☆
37.0%男性倾向,63.0%女性倾向
   
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。
yodao | 博客男女
马不停蹄的忧伤
43.0%男性倾向,57.0%女性倾向
   
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。
yodao | 博客男女
米豆就米豆
50.0%男性倾向,50.0%女性倾向
   
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。
yodao | 博客男女
漫子の戴着耳机飞行.
56.0%男性倾向,44.0%女性倾向
   
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。
yodao | 博客男女
锋语无阻
62.0%男性倾向,38.0%女性倾向
   
评点:不论语句的斟酌、信手拈来不拘俗套的观点,都给人一种豪情洒脱的形象,倜傥中有大丈夫气。
yodao | 博客男女
Never Island
100.0%男性倾向,0.0%女性倾向
   
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女
雨停了
100.0%男性倾向,0.0%女性倾向
   
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女
笨蜗居
100.0%男性倾向,0.0%女性倾向
   
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女

下面部分涉及些许技术分析和业界观察,只喜欢看热闹的同学请飘过。

显然这是个文本分类问题,根据blog内容文本判断性别,属于最简单的两类分类问题。yodao给的描述基本上都是基于行文风格,所以我推测他们很有可能使用语言模型,也就是通过文中词汇的频率作为判据,计算文本属于某一分类的似然概率。比方说,一篇包含“粉底液”的文章比一篇包含“实况足球”的文章更可能是女生写的。

有一位朋友没有开通RSS,yodao就没能判别出来,说明他家是使用RSS提取而不是直接抓取网页内容。这样很聪明,省去了sparsing的工夫,也不用花力气去掉友情链接、广告和侧边栏等噪声,直接提取文本内容进行分析。

从上面几个小样本的测试来看,yodao这个测试的准确率有望达到90%以上,这对于开放文本测试来说算是不坏的成绩。至少比我做的好。我现在手上正在做的大作业也是用语言模型做文本分类,从搜狐抓了八万个网页来统计词频,现在也只能勉强达到85%的准确率。改天有空向yodao请教一下模型参数。

另外一个容易被大多数人忽略的是,网易从这个小游戏中可以获得大量的真实用户行为数据,也许会用于下一步研究。用户反馈是最近几年互联网炒得比较热的一个概念,旨在通过人工的标注来对网络信息获得更好的理解。

人工和机器究竟哪个能做的更好,这个一直有争议。比较广泛接受的意见是,人工比机器更准确,而机器的优势在于处理大规模数据。95年刚出现搜索引擎的时候,yahoo坚持手动收录网站并分类,挖出了互联网的第一桶金。但是三年后google通过机器自动抓取网页链接计算pagerank,迅速以惊人的准确率和召回率赢得了市场。yahoo之所以败给google,主要原因就在于人工分拣完全无法应付互联网的海量信息。但是十年之后风水忽变,大家发现机器找回来的结果正确率不能满足需求,人工标注重新获得了关注。与95年不同的是,人工标注的主体由yahoo的几十位职员变成了千千万万的网民。比方说,在搜索引擎中引入用户反馈,通过记录用户的点击行为来确定哪些网页是真正相关的,可以把搜索引擎的准确率提高一大截。

现在很多研究者希望能通过各种各样的方式吸引用户参与,提交他们的反馈,以此作为研究的样本。美国某大学教授在研究图像理解的时候,在网上做了个小游戏网站,每次游戏随机地配对两名互不相识的网友,请他们用一个词来描述某一幅图片,若两人结果相同则得分,最后排名全世界谁的得分最高。这个小游戏短时间就吸引了大量网友参加,教授轻而易举地获得了大约10万张图片的文本标签描述,真是聪明。

那么网易旗下的yodao希望通过这个小测试从用户那里获得什么信息呢?一个比较明显的收获是精确统计blog的人气。从他们主页页面右侧可以看到人气排行榜。只要能识别剔除机器人投票,由用户自发推荐的样本质量应该会优于PageRank抓取链接的推荐。其它的我还没有想到,欢迎各位IT牛人补充。

24 thoughts on “blog性别测试”

  1. 100.0%男性倾向,0.0%女性倾向

    评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。

    我OTZ…

  2. 真好玩的游戏……真长知识的分析:)第一次看这种技术性文体也看得津津有味~
    snail 今天我把你的博客推荐给我称之为蜗牛的那个好友了
    她看了一会儿 说 :是个牛人
    我说:嘿嘿 成都人

Leave a Reply

Your email address will not be published. Required fields are marked *

使用新浪微博登陆