珞珈讲坛第117讲
10月26日,世界顶尖信息学院联盟iSchool主席Michael Seadle教授应邀在樱顶老图书馆进行关于管理和验证研究数据的学术交流讲座。讲座由信息管理学院院长方卿教授主持,武汉大学党委副书记骆郁廷教授出席讲座。
Michael Seadle教授首先从数据库系统的历史和概念讲起。数据库系统最初的雏形始于穿孔卡片,它可以将数据按照序列存储,但是数据的排序、存储介质和容量都十分有限。随着技术的逐渐发展、数据源的多样化,先后出现了磁性存储、光盘存储和以记录为基础的数据结构。之后的数据库也在不断发展扩充,数据的存取更加灵活和集中,八十年代出现了并非程序的SQL搜索语言。发展到如今,出现了机器学习,机器通过以三元组存储为数据结构的数据库为数据来源,能够分析出事件的相关性,这与统计算法息息相关。
接下来,他从研究数据的完整性和真实性向我们介绍了其特殊性。完整性是指数据在思想上不随时间推移而改变,真实性是指这些数据是真实的。
研究数据要远复杂于商用数据,数据背后更丰富的背景信息是必不可少的。在这种前提下,数据的完整性变得十分重要。然而,现实生活中却时常发现数据造假的情况,他举了一个例子来说明,国外有一学者的学术成果是基于统计严密的数据,然而数据信息过于完整严密以至于让人产生怀疑。随着人们的发问,谜团被揭开:研究人员所声称的数据来源机构早已关闭,数据是凭空捏造的。
近年来,数据伪造和怎样发现它的问题的重要性日益显著,存储虚假数据将危害科学的进程,破坏以之为基础的后续的工作,但是这种检测侦察远非易事。
最后,他做出总结,现如今,对数据的管理特别是研究是我们长时间关注的事。最初往往是对数据的抽取,现在则更多的是针对特定需求去建立数据间的关系。在这种情况下,数据的完整性格外重要。
在提问环节中,老师和同学分别对研究数据过程中非精准数据应如何处理、社会学等非结构化数据如何收集、对学术造假有无科学的管理系统、对数据标准化与多样化的平衡如何把握等问题进行了提问,Seadle教授一一进行了详细解答。在回答“对数据标准化与多样化的平衡如何把握”时,教授用了这样的例子进行解释:就像一栋大楼无法用同一种砖块建成一样,对于信息世界,也需要多种多样的数据分析模型。