机房360首页
当前位置:首页 » 技术前沿 » 什么是开放数据,它为什么重要?

什么是开放数据,它为什么重要?

来源:机房360 作者:Harris编译 更新时间:2022/3/10 7:54:11

摘要:尽管对开放数据的含义缺乏共识,但随着我们进入计算的未来,组织和开源项目正在解决它。

   尽管对开放数据的含义缺乏共识,但随着我们进入计算的未来,组织和开源项目正在解决它。
  
  如果“开源”是过去二十年的口号,那么“开放数据”可能是未来两年的号召。或者它会是,只要我们能弄清楚它的含义。
  
  我最近举起了那面旗帜,得到了雷鸣般的掌声。尽管多巴胺受到打击(你喜欢我,你真的很喜欢我!),但每个人似乎都在为不同的事情欢呼。爱它或恨它,由于开源计划的努力,开源已经成为相对标准的东西。开放数据不存在这样的组织。
  
  让我感到震惊的是,有人需要帮助为开放数据设定标准;开放数据,不仅仅是开源,将定义下一个计算时代。但“开放数据”是什么意思?正如DirkRiehle教授所假设的那样,20年后我们还会问这个问题吗?
  
  来源和标准
  
  正如我最近所说,当企业想要的是托管服务而不是软件/源代码时,假设开源在云时代失去了它的重要性是很方便但错误的。原因之一是开源有助于培养标准,例如可观察性空间中的OpenTelemetry或数据库中的PostgreSQL。我并不是说OpenTelemetry是一个标准,因为某些标准机构已经花费了数年时间来定义可访问性等规则。相反,我的意思是一个项目,各种供应商都接受作为他们自己的发行版或增值软件/服务的共同起点。
  
  软件不需要是开源的(根据开源定义)来达到这个状态,尽管它有帮助。例如,SQL已经引起了各种供应商的各种类型的、大部分兼容的实现,而且它似乎可以工作。或者采用像MicrosoftWindows这样的纯专有软件,我可以从各种供应商处获得。事实上,在2020年我在AWS工作时,我写了一篇关于为什么Windows在AWS而不是MicrosoftAzure上运行得最好的帖子。另一个例子是(诚然充满希望的)建议,即我们“将AWS的权限检查器作为通用标准,细化到程序可以使用的资源。有了通用权限,云供应商只需在价格上竞争——没有讨厌的软件锁定。”
  
  祝您好运,尝试让PostgreSQL在您的数据中心运行,以便使用适用于PostgreSQL的AmazonAurora或适用于PostgreSQL的GoogleCloudSQL进行苹果对苹果的映射。他们都是PostgreSQL,对吧?当然。但也不完全是。不同的供应商添加不同的东西来满足不同的客户需求。那么,PostgreSQL是一个标准吗?是的,在我上面提到的意义上,但不是“一次编写,随处运行”的意义上。
  
  同样,开放数据很快就会演变成对它的实际含义或如何使其重要的一系列相互矛盾的意见。像开源和标准一样,您的里程可能会有所不同,有时甚至会很大。
  
  部分问题归结为供应商的优先事项。一些人,如前Gartner分析师、现任Cribl市场战略高级总监NickHeudecker认为:“从AWS到Oracle、Snowflake和Splunk,数据锁定是传统供应商保护和增加收入的方式。开放数据的想法对用户来说是有希望的,但没有供应商会放弃这种锁定。”
  
  除此之外,这些供应商也看到了为自己的产品开放入口的价值。很难在完全锁定数据出口的同时锁定入口。在类似的主题上,CrunchyData执行官CraigKerstiens在谈到SQL如何实现数据移动时说,“SQL在应用程序方面有所帮助,但数据引力是困难的部分。”即使是死心塌地的供应商,有时也不得不放下桥来越过护城河。因此,似乎每个人都对开放数据感兴趣。但是,这究竟是什么意思?
  
  对于各种Apache项目(Lucene、Nutch、Hadoop和Avro)的创始人DougCutting来说,开放数据在本质上有些特殊,指的是可以在人或系统之间共享的数据:“有些数据应该是开放的(例如公民金融),但很多不应该(例如摄像镜头),有些应该由受信任的各方有选择地共享(例如医疗记录)。没有一刀切的政策,而是一个复杂的实践挂毯,经过精心编纂和修改。”
  
  根据数据可移植性主题,AWS副总裁MattWilson将企业数据比作电话号码可移植性。在北美,要求运营商将电话号码转移给竞争对手增加了竞争(如果“勉强”,正如威尔逊正确强调的那样)。
  
  然后还有其他思考开放数据的方式。例如,Mergeflow的创始人兼首席执行官FlorianWolf将PubMed称为“开放数据最大的成功案例之一”。PubMed是“支持搜索和检索生物医学和生命科学文献的免费资源”。换句话说,它是一个数据库,或者是一个搜索引擎,可以更容易地找到可能存储在专有付费墙后面的科学出版物。开放数据发现,但可能不开放访问该数据(无论如何,不是不付费)。
  
  看到问题了吗?开放数据对不同的人意味着非常不同的事情。
  
  挑战数据重力并弥合数据孤岛
  
  然后是我们希望数据如何移动的问题。当我说“开放数据”时,我猜大多数读者都认为我在谈论将数据移动到其他地方,比如我想从AWS迁移到Azure。有时可能会出现这种情况,尽管出口定价,除了任何固有的数据格式锁定之外,还抑制了数据的移动。然而,企业通常很难在自己的数据中心或云的四堵墙内移动数据。
  
  Subbu Allamaraju是建立Expedia搜索和发现团队的IT领导者,他认为,由于组织固有的原因(“分散的所有权和跨组织边界的责任”)和数据本身(“粘合技术,你需要挖掘和转换数据以支持分析用例,包括机器学习”)。数据可能具有开放的标准或格式,但负责将数据从系统A移动到系统B的组织可能比他们的数据更加分散。
  
  这并不是说一切都丢失了。我们有像OpenDataInstitute这样的优秀组织致力于解决这个问题和相关问题,还有像ApacheArrow(内存分析的跨语言开发平台)这样的开源项目。Airbyte(开源数据集成)或Databricks(开源DeltaLakeOSS以创建开源存储层,将ACID事务引入ApacheSpark)等公司也在解决这个问题。
  
  感觉还是需要更多的东西。然而,弄清楚“更多”应该是什么,将与任何特定的实现一样重要。
  
  编辑:Harris

机房360微信公众号订阅
扫一扫,订阅更多数据中心资讯

本文地址:http://www.jifang360.com/news/2022310/n4266144241.html 网友评论: 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
转载声明:凡注明来源的文章其内容和图片均为网上转载,非商业用途,如有侵权请告知,会删除。
相关评论
正在加载评论列表...
评论表单加载中...
  • 我要分享
推荐图片