今天在杜师兄的blog上看到yodao推出了一款测试blog性别的小东西,兴致勃勃地跑去看了看,随手抓了几个经常更新的朋友的blog去测测,准确率还是挺高的。经过权威认定,蜗牛是100%的纯爷们,cool!我决定拿着这个结果去嘲笑米豆,哼,让你丫抛弃祖国~
各位八卦男女的结果都列在这里,自己对号入座,ladies first.
爱SA死性不改! |
18.0%男性倾向,82.0%女性倾向 |
|
评点:明净雅致的语言让人为之倾倒,人生的感悟、生活情趣都融合在其中,自有一番细腻的心思在其间。 |
yodao | 博客男女 |
|
Milano 的 晶海岸 |
25.0%男性倾向,75.0%女性倾向 |
|
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。 |
yodao | 博客男女 |
|
Susan说 |
31.0%男性倾向,69.0%女性倾向 |
|
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。 |
yodao | 博客男女 |
|
☆滴落的记忆☆ |
37.0%男性倾向,63.0%女性倾向 |
|
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。 |
yodao | 博客男女 |
|
马不停蹄的忧伤 |
43.0%男性倾向,57.0%女性倾向 |
|
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。 |
yodao | 博客男女 |
|
米豆就米豆 |
50.0%男性倾向,50.0%女性倾向 |
|
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。 |
yodao | 博客男女 |
|
漫子の戴着耳机飞行. |
56.0%男性倾向,44.0%女性倾向 |
|
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。 |
yodao | 博客男女 |
|
锋语无阻 |
62.0%男性倾向,38.0%女性倾向 |
|
评点:不论语句的斟酌、信手拈来不拘俗套的观点,都给人一种豪情洒脱的形象,倜傥中有大丈夫气。 |
yodao | 博客男女 |
|
Never Island |
100.0%男性倾向,0.0%女性倾向 |
|
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。 |
yodao | 博客男女 |
|
雨停了 |
100.0%男性倾向,0.0%女性倾向 |
|
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。 |
yodao | 博客男女 |
|
笨蜗居 |
100.0%男性倾向,0.0%女性倾向 |
|
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。 |
yodao | 博客男女 |
|
下面部分涉及些许技术分析和业界观察,只喜欢看热闹的同学请飘过。
显然这是个文本分类问题,根据blog内容文本判断性别,属于最简单的两类分类问题。yodao给的描述基本上都是基于行文风格,所以我推测他们很有可能使用语言模型,也就是通过文中词汇的频率作为判据,计算文本属于某一分类的似然概率。比方说,一篇包含“粉底液”的文章比一篇包含“实况足球”的文章更可能是女生写的。
有一位朋友没有开通RSS,yodao就没能判别出来,说明他家是使用RSS提取而不是直接抓取网页内容。这样很聪明,省去了sparsing的工夫,也不用花力气去掉友情链接、广告和侧边栏等噪声,直接提取文本内容进行分析。
从上面几个小样本的测试来看,yodao这个测试的准确率有望达到90%以上,这对于开放文本测试来说算是不坏的成绩。至少比我做的好。我现在手上正在做的大作业也是用语言模型做文本分类,从搜狐抓了八万个网页来统计词频,现在也只能勉强达到85%的准确率。改天有空向yodao请教一下模型参数。
另外一个容易被大多数人忽略的是,网易从这个小游戏中可以获得大量的真实用户行为数据,也许会用于下一步研究。用户反馈是最近几年互联网炒得比较热的一个概念,旨在通过人工的标注来对网络信息获得更好的理解。
人工和机器究竟哪个能做的更好,这个一直有争议。比较广泛接受的意见是,人工比机器更准确,而机器的优势在于处理大规模数据。95年刚出现搜索引擎的时候,yahoo坚持手动收录网站并分类,挖出了互联网的第一桶金。但是三年后google通过机器自动抓取网页链接计算pagerank,迅速以惊人的准确率和召回率赢得了市场。yahoo之所以败给google,主要原因就在于人工分拣完全无法应付互联网的海量信息。但是十年之后风水忽变,大家发现机器找回来的结果正确率不能满足需求,人工标注重新获得了关注。与95年不同的是,人工标注的主体由yahoo的几十位职员变成了千千万万的网民。比方说,在搜索引擎中引入用户反馈,通过记录用户的点击行为来确定哪些网页是真正相关的,可以把搜索引擎的准确率提高一大截。
现在很多研究者希望能通过各种各样的方式吸引用户参与,提交他们的反馈,以此作为研究的样本。美国某大学教授在研究图像理解的时候,在网上做了个小游戏网站,每次游戏随机地配对两名互不相识的网友,请他们用一个词来描述某一幅图片,若两人结果相同则得分,最后排名全世界谁的得分最高。这个小游戏短时间就吸引了大量网友参加,教授轻而易举地获得了大约10万张图片的文本标签描述,真是聪明。
那么网易旗下的yodao希望通过这个小测试从用户那里获得什么信息呢?一个比较明显的收获是精确统计blog的人气。从他们主页页面右侧可以看到人气排行榜。只要能识别剔除机器人投票,由用户自发推荐的样本质量应该会优于PageRank抓取链接的推荐。其它的我还没有想到,欢迎各位IT牛人补充。
有趣的东东!
我自己测出来跟你测的不一样。。。。。。。。。。。。。
我是两个月前测的了。这两个月添了很多新日志,所以结果会不一样
我的怎么……
准确率挺高?俺去测测
你居然是成都人
我死了
奇怪2,为啥没有100%的女性倾向?
奇怪~?! 我没有写过粉底液之类的东东,它是怎么测出性别的呢?~~~
copy到我那去了,哈哈,技术就不懂了,我这等人就玩玩而已了,hoho
100.0%男性倾向,0.0%女性倾向
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
我OTZ…
真好玩的游戏……真长知识的分析:)第一次看这种技术性文体也看得津津有味~
snail 今天我把你的博客推荐给我称之为蜗牛的那个好友了
她看了一会儿 说 :是个牛人
我说:嘿嘿 成都人
谢谢,欢迎常来做客
你这个引用了自动在评论里显示咋搞的?
Quote Comment插件,地址是http://www.viper007bond.com/wordpress-plugins/quote-comment/
汗~~~~~我还一直以为我的文风偏沉郁、感性的呢……
我经过思考后认定:由于我在blog里频繁使用脏话,导致有40%多的男性倾向……
原来“自然率真之美”是这个意思
我汗,我确实比较汗,这是啥子飞机哦。。。
我完全分裂了
我的居然……sigh~
所以我没贴你的,嘿嘿