今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我们就开始讨论第一道题,第一道题的内容说清楚了,然后师兄要看一下示例代码,但是关键的地 方,SQL语句抽出来的特征分别代表什么被我忘记了,非常尴尬。讨论的结果大概是这样的:
还整理了一下我们手里现在都有哪些牌:
后
来师兄提醒我们,如果能使用外部数据的话,那么参考文献是非常强的特征,另外师兄还说,如果不做成分类器,而是做成回归也不错,毕竟最后答案无论正例反例
都要排序。回归的话我的理解就是按照相关度排序我们只要统计一下相关读界值就可以了,小于这个界值的就算他不是这个人写的,大于的就是,这样本身就是排好
序的了。
然后晚上跟中秋进行了又一次探讨,首先就是把晚上的SQL语句抽出来的特征搞明白了,所有特征大概是这样的:
然 后就是又让中秋给我讲了一下第二道题的意思,其实按照我的看法更应该说是共指问题,中秋说他对“消岐”这个词也不是很理解,让我去实验室主页或者哪个地方
再调查一下。总的来说其实这题很显然,就是数据库中有三个高文老师(id不一样),然后他们分别是中科院的,哈工大的,北大的。但事实上这都是同一个人,
你要做的就是对他们进行消岐。
最后中秋说有机会的话想让我安排他们俩聊一下,因为他在想在topic model上面使劲,不过不是现在,还要再等等。。。
还有就是我说我SQL都不会,跟学长谈得时候很尴尬,然后中秋说他把今天谈的需要的资料包括SQL明天给我发到邮件里面去。
其
他事情就是,今天晚上跟伟杰料了一下关于编译器的事情,我说我想放弃,改成递归下降分析直接做个Lisp的语法得了,实在不行我就用郑茂和韩冰的那个。然
后伟杰的意思是现在放弃还是太早了,毕竟下周的下周才是DeadLine,还有很多挣扎的余地,而且就算是递归下降还是要写First集的,伟杰对我很鼓
励,认为我一定能做出来。
原文:http://www.cnblogs.com/SnakeHunt2012/p/3553050.html