【持续更新】阿里云大数据&AI开源项目合集

了解全部阿里云AI&大数据开源项目,点击链接https://www.aliyun.com/activity/bigdata/opensource_bigdata__ai


AI开源项目

1.BladeDISC

简介:BladeDISC 是针对机器学习工作负载的端到端动态形状编译器项目,是阿里巴巴PAI-Blade的关键组件之一 。该项目基于MLIR,与 mlir-hlo项目高度相关。

Github地址:https://github.com/alibaba/BladeDISC


2.Graph-Learn

简介:Graph-Learn是面向大规模图神经网络的研发和应用而设计的分布式框架。 从大规模图训练实际问题出发,提炼抽象了一套适合于常见图神经网络模型的编程范式。

Github地址:https://github.com/alibaba/graph-learn


3.DeepRec

简介:DeepRec是阿里巴巴集团统一的稀疏模型场景训练引擎,支持了主搜索、首猜、定向广告、直通车广告等核心业务,支撑千亿特征、万亿样本超大规模稀疏训练。

Github地址:https://github.com/alibaba/DeepRec


4.Proxima Bilin Engine

简介:Proxima 是阿里巴巴达摩院系统 AI 实验室自研的向量检索内核。核心能力广泛应用于阿里巴巴和蚂蚁集团众多业务,如淘宝搜索和推荐、优酷视频搜索等。

Github地址:https://github.com/alibaba/proximabilin


5.EasyRec

简介:EasyRec实现了先进的深度学习模型,用于常见的推荐任务,在模型、调参、性能优化等方面具有显著的优势。

Github地址:https://github.com/alibaba/EasyRec


6.Easy Reinforcement Learning

简介:基于tensorflow引擎搭建的深度强化学习算法库,支持大规模分布式训练的actor-learner架构,具备轻量化,模块化等特点,经过阿里集团多业务场景打磨。

Github地址:https://github.com/alibaba/EasyRL


7.EasyTransfer

简介:EasyTransfer致力于让自然语言处理场景的迁移学习开发与部署更加简单,降低NLP的预训练和知识迁移的门槛。

Github地址:https://github.com/alibaba/EasyTransfer


8.Alink

简介:基于Flink的机器学习算法平台,提供丰富的算法组件。2017年研发,2019年开源,去年Flink社区将机器学习作为重点领域,我们将Alink贡献到Flink,成为FlinkML。

Github地址:https://github.com/alibaba/Alink


9.EPL(Easy Parallel Library)

简介:EPL(Easy Parallel Library) 是统一多种并行策略的、灵活易用的自研分布式深度学习训练框架。

Github地址:https://github.com/alibaba/easyparallellibrary


大数据开源项目

1.Apache Flink

简介:Apache Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。能在所有常见集群环境中运行,以内存速度和任意规模进行计算。

Github地址:https://github.com/apache/flink


2.Flink CDC

简介:Flink CDC Connectors 是Apache Flink的一组源连接器,使用变更数据捕获 (CDC) 从不同的数据库中获取变更。

Github地址:https://github.com/ververica/flink-cdc-connectors


3.flink-extended/dl-on-flink

简介:Deep Learning on Flink 旨在整合 Flink 和深度学习框架(例如 TensorFlow、PyTorch 等),以在 Flink 集群上实现分布式深度学习训练和推理。

Github地址:https://github.com/flink-extended/dl-on-flink


4.Flink Remote Shuffle

简介:本项目通过采用存储和计算分离的架构,实现了Flink批量数据处理的远程 shuffle 服务。

Github地址:https://github.com/flink-extended/flink-remote-shuffle


5.flink-extended/clink

简介:Clink 是一个提供 API 和基础设施的库,以促进可在 C++ 和 Java 运行时中使用的可并行特征工程运算符的开发。

Github地址:https://github.com/flink-extended/clink


6.apache/flink-ml

简介:Flink ML 是一个提供机器学习 (ML) API 和基础设施的库,可简化ML管道的构建。用户可以使用标准ML API实现ML算法,构建用于训练和推理作业的ML管道。

Github地址:https://github.com/apache/flink-ml


7.EMR remote shuffle service

简介:Aliyun Remote Shuffle Service(RSS)致力于提高不同map-reduce引擎的效率和弹性。RSS 为 shuffle 数据提供了一种弹性、高效的管理服务。

Github地址:https://github.com/alibaba/RemoteShuffleService



上一篇:阿里云IoT推出零售门店解决方案 聚焦防盗损与AI计量


下一篇:Serverless 架构应用场景