大数据AI Notebook产品介绍和对比

标签: 大数据 ai notebook | 发表时间:2022-03-29 02:02 | 作者:aibigdata
出处:https://juejin.cn/backend

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

背景

大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook,其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模,相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发,zeppelin notebook比较偏重于大数据数据查询分析可视化,支持多种大数据计算引、存储引擎擎如:Spark、Flink、Hive、Kylin等,现在对这两个产品进行介绍

image.png

两个产品对比

Apache Zeppelin简介

Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表,notebook可以包括多个paragraph(段)。paragraph是进行数据分析的最小单位,即在 paragraph中可以完成数据分析代码的编写以及结果的可视化查看。因此,一个paragraph 可看做是一个基本的任务单元。Zeppelin的后台数据引擎可以是Spark、flink、Python等,开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。

  • 多解释器支持

image.png

  • 丰富的数据可视化

image.png

  • 其他功能

image.png

  • IDEA插件 作为一个开发来说,通过idea插件跟zeppelin连接,可以很方便的编写代码,快速的进行数据查询分析。

image.png

Zeppelin 架构

image.png image.png

Zeppelin的核心功能就是:通过不同的解释器支持多种语言的repl,并对返回结果进行可视化展示。

主要分成三块 1.Zeppelin 前端 2.Zeppelin Server 3.Zeppelin Interpreter

Zeppelin前端是基于AngularJS

Zeppelin Server是一个基于Jetty的轻量级Web Server,主要负责以下一些功能:1.登陆权限管理 、 2.Zeppelin配置信息管理 、3.Interpreter 配置信息和生命周期管理、 4.Note存储管理 、5.插件机制管理

zeppelin采用WebSocket技术的必要性问题,zeppelin是共享式、Notebook式的大数据分析环境,以repl的方式执行以Paragraph为最小粒度的代码段。

首先repl的方式强调实时反馈执行结果,特别是在大数据环境下,一段代码可能需要执行很长时间,在执行的过程中,zeppelin的用户期望看到执行进度和中间结果,需要在前后端之间建立一个长连接,便于实时传递数据。

另外zeppelin的另一个亮点是其结果可视化能力,需要在前后台传递图片,并且支持较大数据量的传输的能力(相对传统http技术)。

再者,由于是共享式环境,一个Note可能被多个用户同时看到、甚至编辑,需要在各个已经打开了同一个Note的web客户端之间同步Note的代码、执行结果和进度信息。

Jupyter 简介

Jupyter Notebook是一个开源的Web应用程序,允许用户创建和共享包含代码、方程式、可视化和文本的文档。它的用途包括:数据清理和转换、数值模拟、统计建模、数据可视化、机器学习等等。它具有以下优势:

可选择语言:支持超过40种编程语言,包括Python、R、Julia、Scala等。

分享笔记本:可以使用电子邮件、Dropbox、GitHub和Jupyter Notebook Viewer与他人共享。

交互式输出:代码可以生成丰富的交互式输出,包括HTML、图像、视频、LaTeX等等。

大数据整合:通过Python、R、Scala编程语言使用Apache Spark等大数据框架工具。支持使用pandas、scikit-learn、ggplot2、TensorFlow来探索同一份数据。

image.png

jupyter项目架构

架构图

image.png

项目关系图

image.png

jupyter项目利用了利用了ZeroMQ的Publisher-Subscriber模式来做通信,前后端通过websockets和http 请求进行交互。整个项目看起来挺负责,提供了灵活的可扩展的方式,可以通过定制kernel去实现。juypter 相比于zeppelin多进程的实现方式,资源利用率高,但是隔离性不如zeppelin。

总结

两个产品功能都差不多,不过相比较而言zeppeplin比较是适合企业级部署应用,支持比较多的大数据计算引擎,而juypter notebook比较适合于个人用户以及AI建模人员去使用,目前各大云厂商都有类似的解决方案,如果需要企业生产化的化基本上都是以云原生的方式去部署。

参考文档

http://wwj718.github.io/post/架构/jupyter-notebook-architecture/

相关 [大数据 ai notebook] 推荐:

大数据AI Notebook产品介绍和对比

- - 掘金 后端
本文已参与「新人创作礼」活动,一起开启掘金创作之路. Apache Zeppelin简介. Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表,notebook可以包括多个paragraph(段). paragraph是进行数据分析的最小单位,即在 paragraph中可以完成数据分析代码的编写以及结果的可视化查看.

人工智能遇冷,腾讯云升级之后的大数据AI版图

- - 雷锋网
一年半以前,腾讯云副总裁王龙在与腾讯系创业公司内部分享时提出,AI期望值已经到了一个比较高的阶段,潜在风险浮现. 2019年这样的趋势变得更加明显,最典型的事实是从2017年的顶点到2019年,AI投资融资事件频次降落了70%. 本质上各大人工智能平台都是厂商自身能力外化的结果,和厂商原有业务属性高度相似.

大数据和AI策略–面向投资的机器学习和另类数据方法(附280页报告)

- - 互联网数据中心-199IT
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌.

马化腾:云计算、AI和大数据,是腾讯愿意大力投入的三点

- - 钛媒体:网罗天下创新事
9月8日,腾讯董事会主席兼首席执行官马化腾在清华大学洞见论坛上发表演讲,谈及科技和商业的融合时表示,随着数字经济的发展,科技越来越融入到各行各业,在数字化和智能化的大浪潮里面,科技是我们所有产业界都必须要去关注的. 马化腾表示,有三点基础性的因素是腾讯正在大力投入的,分别是AI、云计算以及大数据. 他还强调,过去把用电量作为衡量一个工业社会发展的指标,未来,用云量也会成为衡量数字经济发展的重要指标.

望海康信发布五大DRG方案:AI、大数据,如何掀起医保支付的“蝴蝶效应”?

- - 雷锋网
6月18日,国家医保局为落实试点工作“三步走”目标,指导各地规范DRG分组工作,制定发布了《医疗保障疾病诊断相关分组(CHS-DRG)细分组方案(1.0版)》(以下简称“CHS-DRG细分组规范”). 不久后,望海康信发布了支持国家医保CHS-DRG细分组规范的分组器. 在这样的背景下,近日,望海康信发布了“DRG精益管理整体解决方案”,其中包含了 DRG质控与分组解决方案、成本解决方案、控费解决方案、专病运营解决方案、绩效解决方案等.

Google Notebook 正式宣告關閉!筆記轉移搬家方案

- jejer - 電腦玩物
不知道還有多少朋友目前仍然在使用Google Notebook筆記服務呢. 來自Google官方部落格的消息:「A fall spring-clean」,Google Notebook赫然在這次10個即將被掃地出門關閉下架的服務之列. 當然,早在2009年初Google就已經宣布不再更新這個筆記服務,但這次是真的要徹底關閉它了.

AI vs AI--当AI与自己聊天

- Tim - Solidot
Shawn the R0ck 写道 "最烦人的事情之一莫过于被强迫与一个白痴对话. 但当你发现你最讨厌与之交谈的白痴其实就是你自己的基于人工智能程序的拷贝...康奈尔创造性机器实验室决定看看当AI尝试跟自己交谈会发生什么. 他们的健谈的AI程序Cleverbot与自己进行文本交互,之后朗读出文本并且显示到视频中.

Google开始全面大扫除,Desktop,Notebook,Fast Flip等将不复存在

- pestwave - 36氪
今天google在其博客上宣布一些产品和服务将于近期停止. 在6月的季收入会议上CEO Larry Page就说过Google将要进行大扫除. Google将剔除一些增长缓慢甚至没有增长的产品,但这对于Google的雇员意味着什么. 博客上说这些产品将于近几个月内停止,一些产品会被并入其他产品中进行整合.

一家公司的 AI 教育观:AI 管「教」,真人来「育」

- - 极客公园
叮咚课堂 App 上线不过八个月,他们一面竭力在竞争异常激烈的在线少儿英语赛道上保持着刻意的低调,一面又疯狂地收获了平均 300% 月度的用户增长率. 这让他们创始人邱明丰对未来信心更盛了. 在艾瑞咨询发布的《2018 年中国在线幼儿启蒙英语行业白皮书》中提到,近年来人工智能在互联网教育领域大规模展开,但在在线幼儿启蒙英语教育中的应用甚少,随着资本的注入和行业的发展,其有望通过人工智能进一步提升用户在线启蒙英语学习的体验和效率.

贪吃蛇AI挑战赛第二季

- 温柔一刀 - 黑客志
如果你对这个活动感兴趣,可以先从这里开始,编写一个AI程序,然后将你的AI程序以及你对平台的改进建议发送到jin.cai20#gmail.com,主办方将会从中选择12名选手参加6月24到25持续一个周末的编程派对,并提供往返交通及住宿费用,下面是活动的详情:. 时间: June 24th – June 26th *.