Mystars Save

精选了5K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉、前后端开发等内容。Selected more than 5000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc. Let more excellent projects be discovered by people. Continue to update! Welcome to star!

Project README

StarrySky

GitHub issues GitHub stars GitHub forks GitHub license

精选了5K+项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

Selected more than 5000 projects, including machine learning, deep learning, NLP, GNN, recommendation system, biomedicine, machine vision, etc.

让更多优秀的项目被人发现,让更多的人感受开源的魅力。

Let more excellent projects be discovered by people, let more people feel the charm of open source.

持续更新!欢迎🌟star!😀😀😀 Continue to update! Welcome to star! 😀😀😀

目录

Star🌟数变化

  • 关注者

加入社区

加入discord社区

机器学习与深度学习

  • Coursera-ML-AndrewNg-Notes stars 吴恩达老师的机器学习课程个人笔记

  • d2l-ai/d2l-zh stars 《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被60多个国家的400多所大学用于教学。

  • apachecn/AiLearning stars AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP

  • microsoft/ai-edu stars 微软人工智能教育与学习共建社区。由基础教程实践案例实践项目三大模块构成,通过系统化的理论教程和丰富多样的实践案例,帮助学习者学习并掌握人工智能的知识,并锻炼在实际项目中的开发能力。

  • microsoft/Data-Science-For-Beginners stars 10 周20 节课,全民数据科学!

  • mli/paper-reading stars 深度学习经典、新论文逐段精读。包括视频讲解。

  • josephmisiti/awesome-machine-learning 机器学习框架、库和软件的精选列表

  • AMAI-GmbH/AI-Expert-Roadmap 2022年成为人工智能专家的路线图

  • dair-ai/ML-YouTube-Courses 在 YouTube 上发现最新的机器学习/人工智能课程。

  • visenger/awesome-mlops 机器学习操作 (MLOps),可自动执行并加速机器学习生命周期。精选的参考文献列表。

  • fengdu78/lihang-code 《统计学习方法》第二版的代码实现

  • Dod-o/Statistical-Learning-Method_Code 实现李航《统计学习方法》中全部算法

  • datawhalechina/pumpkin-book 本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节。

  • ShusenTang/Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。

  • datawhalechina/leedl-tutorial 《李宏毅深度学习教程》,PDF下载

  • ageron/handson-ml2 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • fengdu78/deeplearning_ai_books deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)

  • GokuMohandas/Made-With-ML 了解如何设计、开发、部署和迭代生产级 ML 应用程序。在本课程中,将从实验(设计 + 开发)到生产(部署 + 迭代)。我们将通过激励组件来迭代地做到这一点,这些组件将使我们能够构建可靠的生产系统。

  • kmario23/deep-learning-drizzle 通过从这些令人兴奋的讲座中学习,让自己沉浸在深度学习、强化学习、机器学习、计算机视觉和 NLP

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。算法大牛笔记汇总

  • EthicalML/awesome-production-machine-learning 精选的开源库列表,用于部署、监控、版本控制和扩展您的机器学习

  • FavioVazquez/ds-cheatsheets 统治世界的数据科学备忘单列表

  • nndl/nndl.github.io 《神经网络与深度学习》 邱锡鹏著

  • ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code 500个AI机器学习 深度学习 计算机视觉 NLP 代码项目

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • NirantK/awesome-project-ideas 机器学习、NLP、视觉、推荐系统项目创意的精选列表

  • Mikoto10032/DeepLearning 深度学习入门教程, 优秀文章

  • chefyuan/algorithm-base 用动画将算法说的通俗易懂

  • MorvanZhou/tutorials 机器学习相关教程

  • rougier/scientific-visualization-book 一本关于使用 python 和 matplotlib 进行科学可视化的开放获取书籍

  • bangoc123/learn-machine-learning-in-two-months 在 2 个月内学习好机器学习所需的知识。

  • ukas/ml-class 专为工程师设计的机器学习课程和教学项目

  • Mohitkr95/Best-Data-Science-Resources 该存储库包含最好的数据科学免费精选资源,可为您提供所有行业驱动的技能和面试准备工具包。

  • academic/awesome-datascience 很棒的数据科学存储库,用于学习和应用现实世界的问题。

  • eugeneyan/applied-ml 生产中的数据科学和机器学习的精选论文、文章和博客。

  • eriklindernoren/ML-From-Scratch 从头开始机器学习。机器学习模型和算法的裸骨 NumPy 实现,重点关注可访问性。旨在涵盖从线性回归到深度学习的所有内容。

  • roboticcam/machine-learning-notes 不间断更新的机器学习,概率模型和深度学习的讲义(2000+页)和视频链接

  • donnemartin/data-science-ipython-notebooks 数据科学Python笔记本:深度学习(TensorFlow,Theano,Caffe,Keras),scikit-learn,Kaggle,大数据(Spark,Hadoop MapReduce,HDFS),matplotlib,pandas,NumPy,SciPy,Python essentials,AWS和各种命令行。

  • NLP-LOVE/ML-NLP 机器学习(Machine Learning)、深度学习(Deep Learning)、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。

  • tangyudi/Ai-Learn 人工智能学习路线图,整理近200个实战案例与项目,免费提供配套教材,零基础入门,就业实战!包括:Python,数学,机器学习,数据分析,深度学习,计算机视觉,自然语言处理,等热门领域

  • dragen1860/Deep-Learning-with-TensorFlow-book 深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • openmlsys/openmlsys-zh 《机器学习系统:设计与实现》- 中文版

  • PKUFlyingPig/cs-self-learning 计算机自学指南深度学习入门开源书,基于TensorFlow 2.0案例实战。

  • mml-book/mml-book.github.io 《机器学习数学》一书的配套网页

  • afshinea/stanford-cs-229-machine-learning 斯坦福大学 CS 229 机器学习的 VIP 备忘单

  • abmlai/annotated_deep_learning_paper_implementations 神经网络和相关算法的简单 PyTorch 实现的集合。将这些呈现为并排格式化的笔记。我们相信这些将帮助您更好地理解这些算法。

  • yunjey/pytorch-tutorial 深度学习研究人员的 PyTorch 教程

  • PyTorchLightning/PyTorch-lightning 基于Pytorch的轻量高级计算框架,相当于Keras框架。

  • bharathgs/Awesome-pytorch-list github上pytorch相关内容的完整列表,例如不同的模型,实现,帮助程序库,教程等。

  • sgrvinod/Deep-Tutorials-for-PyTorch 使用 PyTorch 自行实现深度学习模型的深入教程。

  • apachecn/pytorch-doc-zh Pytorch 中文文档

  • zergtant/pytorch-handbook pytorch handbook是一本开源的书籍,目标是帮助那些希望和使用PyTorch进行深度学习开发和研究的朋友快速入门,其中包含的Pytorch教程全部通过测试保证可以成功运行

  • pytorch/examples 一组关于 pytorch 在视觉、文本、强化学习等方面的示例。

  • ELS-RD/kernl 第一个使用 OpenAI Triton 编写的 OSS 推理引擎,这是一种由 OpenAI 设计的新语言,可以更轻松地编写 GPU 内核。每个内核不到200行代码,易于理解和修改。

  • BoltzmannEntropy/interviews.ai 深度学习面试书:数百个完全解决的工作面试问题,来自 AI 的广泛关键主题。

  • ChristosChristofidis/awesome-deep-learning 精选深度学习教程、项目和社区列表。

  • microsoft/AI-For-Beginners Microsoft的 Azure 云倡导者很高兴提供为期 12 周、每节课的人工智能课程。

  • google-research/tuning_playbook 系统地最大化深度学习模型性能的手册。重点是超参数调优的过程。我们涉及深度学习训练的其他方面,例如管道实现和优化,但我们对这些方面的处理并不打算完整。

  • floodsung/Deep-Learning-Papers-Reading-Roadmap 深度学习论文阅读路线图,适合任何渴望学习这项惊人技术的人!

  • scutan90/DeepLearning-500-questions 深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 分为18个章节,50余万字。

  • mrdbourke/pytorch-deep-learning 学习用于深度学习的 PyTorch:从零到精通课程的材料。

  • ageron/handson-ml3 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • girls-in-ai/Girls-In-AI 免费学代码系列:小白python入门、数据分析data analyst、机器学习machine learning、深度学习deep learning、kaggle实战

  • kailashahirwar/cheatsheets-ai 深度学习和机器学习工程师的基本备忘单

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。

  • apachecn/pytorch-doc-zh Pytorch 中文文档,PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (张量库)

  • PaddlePaddle/Paddle 『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署

  • alibaba/MNN 轻量级的深度神经网络推理引擎

  • Tencent/TNN 移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势

  • microsoft/nnfusion 灵活高效的深度神经网络(DNN)编译器,可从DNN模型描述生成高性能的可执行文件。

  • apache/incubator-tvm 用于深度学习系统的编译器堆栈。它旨在缩小以生产力为中心的深度学习框架与以性能和效率为重点的硬件后端之间的差距。TVM与深度学习框架一起使用,以提供对不同后端的端到端编译

  • geohot/tinygrad 不到1000行的深度学习框架,麻雀虽小,但五脏俱全,这个深度学习框架使用起来和PyTorch类似

  • karpathy/micrograd 微型标量自动求导引擎,类似PyTorch API的神经网络库

  • Jittor/jittor 基于 JIT 编译和元运算符的高性能深度学习框架。整个框架和元运算符是及时编译的。它使我们能够生成专门针对您的模型的高性能代码。Jittor 还包含丰富的高性能模型库,包括:图像识别、检测、分割、生成、可微渲染、几何学习、强化学习等。

  • wandb/client Weights and Biases 组织和分析机器学习实验 它与框架无关,并且比TensorBoard轻巧。每次您运行带有的脚本时wandb,都会保存您的超参数和输出指标。在训练过程中可视化模型,并轻松比较模型的版本。我们还将自动跟踪您的代码状态,系统指标和配置参数。

  • NUAA-AL/ALiPy 基于Python实现的主动学习工具包

  • facebookresearch/nevergrad 无梯度优化平台

  • yzhao062/combo 用于机器学习模型组合的 Python 工具箱。模型组合可以被认为是整体学习的子任务,并且已被广泛用于诸如Kaggle [3]之类的现实任务和数据科学竞赛中。

  • google/trax 代码更清晰的神经网络代码库

  • Oneflow-Inc/oneflow OneFlow是一个以性能为中心的开源深度学习框架。

  • jonasrauber/eagerpy 编写与PyTorch,TensorFlow,JAX和NumPy本地兼容的代码

  • tensorlayer/TensorLayerX 跨平台开发框架,支持TensorFlow, Pytorch, MindSpore, PaddlePaddle, OneFlow和Jittor,用户不需要修改任何代码即可以运行在各类操作系统和AI硬件上(如Nvidia-GPU 和 Huawei-Ascend),并支持混合框架的开发。

  • borgwang/tinynn 用 Python3 编写的轻量级深度学习框架(用于学习目的)。

  • rushter/MLAlgorithms 机器学习算法

  • MLEveryday/100-Days-Of-ML-Code 100-Days-Of-ML-Code中文版

  • csuldw/MachineLearning csuldw/MachineLearning

  • luwill/machine-learning-code-writing luwill/machine-learning-code-writing

  • geekinglcq/CDCS CDCS 中国数据竞赛优胜解集锦

  • mlpack/mlpack C++ 快速、灵活的机器学习库

  • apple/coremltools 包含用于 Core ML模型转换、编辑和验证的支持工具。

  • tensorflow/ranking TensorFlow中的排名学习

  • scikit-survival 生存分析

  • ShichenXie/scorecardpy Scorecard Development in python, 评分卡

  • lavender28/Credit-Card-Score 申请信用评分卡模型

  • modin-project/modin 通过更改一行代码来扩展加速pandas

  • vaexio/vaex 适用于Python的核外DataFrame,以每秒十亿行的速度可视化和探索大型表格数据

  • cupy/cupy 使用 CUDA 加速类似 NumPy 的 API

  • serge-sans-paille/pythran 将 Python 代码转成 C++ 代码执行 一个 AOT (Ahead-Of-Time - 预先编译) 编译器,大幅度提升性能。

  • RAPIDS Open GPU Data Science RAPIDS 开放 GPU 数据科学库

    • cudf cuDF - GPU DataFrame Library GPU数据表库
    • cuml cuML - RAPIDS Machine Learning Library RAPIDS 机器学习库
    • cugraph cuGraph - RAPIDS Graph Analytics Library RAPIDS 图分析库
    • cusignal cuSignal - RAPIDS Signal Processing Library RAPIDS信号处理库
  • AtsushiSakai/PythonRobotics 包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM 、路径跟踪算法。

  • sql-machine-learning/sqlflow 连接 SQL 引擎的桥接,与机器学习工具包连接

  • esa/pagmo2 大规模并行优化的科学库 生物启发式算法和进化算法

  • geatpy-dev/geatpy 高性能遗传进化算法工具箱

  • guofei9987/scikit-opt 强大的启发式算法Python模块 遗传算法 粒子群优化 模拟退火 蚁群算法 免疫算法 人工鱼群算法

  • interpretml/interpret 训练可解释的机器学习模型和解释黑匣子系统

  • alexmojaki/heartrate 调试 Python程序执行的简单实时可视化

  • bojone/keras_recompute 通过重计算来节省显存,参考论文《Training Deep Nets with Sublinear Memory Cost》。

  • yuanming-hu/taichi_mpm 带有切割和耦合(CPIC)的高性能MLS-MPM(基于移动最小二乘法的物质点法)求解器

  • pytorch/opacus Opacus是一个库,可以使用不同的隐私训练PyTorch模型。

  • pycaret/pycaret Python中的开源,低代码机器学习库

  • thuml/Transfer-Learning-Library 用于迁移学习的开源且文档齐全的库。它基于具有高性能和友好API的纯PyTorch。当前支持的算法包括:领域对抗神经网络(DANN)深度适应网络(DAN)联合适应网络(JAN)条件域对抗网络(CDAN)最大分类器差异(MCD)Margin Disparity Discrepancy 保证金差异(MDD)

  • jxhe/unify-parameter-efficient-tuning 参数高效迁移学习 (PETL) 方法仅调整少量(额外)参数以使大型预训练模型适应下游任务。

  • FedML-AI/FedML 面向研究的联邦学习库。支持分布式计算,移动/IoT设备训练和模拟

  • bytedance/fedlearner 字节开源联邦机器学习平台,采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。

  • mit-han-lab/mcunet IoT硬件上精简的深度学习库 Tiny Deep Learning on IoT Devices

  • Aimhubio/Aim 一个超级简单的记录、查找、比较AI实验的库。

  • microsoft/onnxruntime 跨平台深度学习训练和推理机加速器,与深度学习框架,可以兼容TensorFlow、Keras和PyTorch等多种深度学习框架。Open Neural Network Exchange 是用于表示深度学习模型的开放格式,定义了通用运算符、机器学习和深度学习模型的构建块以及通用文件格式,可与各种框架工具和编译器一起使用。

  • microsoft/hummingbird 将训练有素的机器学习模型编译为张量计算,以加快推理速度。 用于将经过训练的传统ML模型编译为张量计算的库。

  • microsoft/EdgeML Microsoft Research India开发的边缘设备提供了机器学习算法。

  • ml-tooling/best-of-ml-python 很棒的机器学习Python库的排名列表。

  • terryyz/PyArmadillo Python 语言的线性代数库,强调易用性。该库旨在提供类似于 Matlab 或者 Octave 的高级语法和功能,使得用户以熟悉且自然的方式表达数学运算。提供了用于矩阵和多维数据集(cube)的对象,以及 200 多个用于处理对象中存储数据的相关函数。所有功能都可以在一个平面结构中访问,并且支持整数、浮点数和复数。通过集成 LAPACK 或者 Intel MKL、OpenBLAS 等高性能替代产品,该库可以提供各种矩阵分解。

  • raminmh/liquid_time_constant_networks 一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据。

  • mlech26l/keras-ncp 设计灵感直接来自秀丽隐杆线虫 由感官神经元接收环境信息、而后经过中间神经元,传递给指令神经元进而形成决策信息,最后由动作神经元完成决策的执行并完成动作。

  • skorch-dev/skorch 综合scikit-learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。

  • OpenMined/PySyft 用于安全和私有深度学习的Python库。PySyft使用联合学习,差分隐私和加密计算(例如PyTorch和TF中的多方计算 (MPC) 和同态加密 (HE) 将模型训练中的私人数据进行解耦。

  • pyro-ppl/pyro 基于PyTorch作为后端的通用概率编程语言 (PPL)。

  • PytorchLightning/metrics PyTorch原生的函数和度量模块的集合,用于简单的性能评估。可以使用常见的指标,如准确性,召回率,精度,AUROC, RMSE, R²等,或者创建你自己的指标。支持超过25个指标,并不断增加更多通用任务和特定领域的标准(目标检测,NLP等)。

  • teddykoker/torchsort 快速可微分排序算法PyTorch包,配有自定义C ++和CUDA

  • man-group/dtale pandas数据结构的可视化工具

  • google/model_search 帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。

  • neuronika/neuronika 纯Rust的张量和动态神经网络库。

  • matazure/mtensor 一个tensor计算库, 支持cuda的延迟计算

  • e-tony/best-of-ml-rust 一个令人赞叹的Rust机器学习排名表。

  • awslabs/autogluon 为文本、图像、表格数据开发的自动机器学习库(AutoML)。

  • luwill/Machine_Learning_Code_Implementation 机器学习算法的数学推导和纯Python代码实现。

  • ml-tooling/best-of-ml-python 一个令人赞叹的python机器学习排名表,每周更新。

  • thuwyh/InferLight 提高模型的线上推理吞吐量近2.5倍。

  • ContrastiveSR/Contrastive_Learning_Papers 对比学习的相关论文列表。内容包括:计算机视觉、NLP、推荐系统、图模型等方面的应用。

  • Tencent/WeChat-TFCC C++深入学习推理框架。提供以下工具包,便于您开发和部署训练 DL 模型:TFCC深度学习推理库的核心、TFCC 代码生成器、TFCC 运行时。

  • idrl-lab/idrlnet 基于内嵌物理知识神经网络的开源求解框架

  • KaiyuYue/torchshard 马里兰大学帕克分校计算机科学系的研究者开源了一个轻量级的引擎,用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层(例如 BERT、GPT)或者很多类(数百万)时,TorchShard 可以减少 GPU 内存并扩展训练规模,它具有与 PyTorch 相同的 API 设计。

  • marcotcr/lime LIMELocal Interpretable Model-agnostic Explanations被用作解释机器学习模型。

  • MAIF/shapash 非常炫酷的模型解释性工具包。

  • microsoft/ML-For-Beginners 微软给初学者开源了一份机器学习课程。

  • sfu-db/dataprep Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

  • scikit-learn-contrib/hdbscan 用无监督学习来查找数据集的集群聚类或密集区域的工具。主要算法是HDBSCAN。该算法的高性能实现,以及用于分析结果聚类的工具。

  • nvidia/TensorRT C++库,用于对 NVIDIA GPU 和深度学习加速器进行高性能推论。

  • dropreg/R-Drop 填补Dropout缺陷,简单又有效的正则方法。在每个 mini-batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。

  • ucbrise/actnn PyTorch的激活压缩训练框架。在同样内存限制下,通过使用 2 bit 激活压缩,可将 batch size 扩大 6-14 倍,将模型尺寸或者输入图片扩大 6-10 倍。

  • softsys4ai/FlexiBO 基于成本感知的多目标优化深度神经网络

  • XuezheMax/apollo Apollo:用于非凸随机优化的自适应参数对角拟牛顿法

  • statsmodels/statsmodels Statsmodels:Python 中的统计建模和计量经济学库。

  • evidentlyai/evidently 在验证或生产监控期间分析机器学习模型的交互式报告。

  • louisfb01/best_AI_papers_2021 按发布日期列出的人工智能最新突破(2021 年)的精选列表,附有清晰的视频说明、更深入文章的链接和代码。

  • DataCanvasIO/DeepTables DeepTables:表格数据的深度学习工具包

  • arogozhnikov/Einops 深度学习操作被彻底改造(用于 pytorch、tensorflow、jax 等). einops(爱因斯坦标记法),让代码可读性更强.

  • haifengl/smile Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

  • wesm/pydata-book Wes McKinney的“Python for Data Analysis”材料和IPython笔记本,由O'Reilly Media出版

  • Visualize-ML/Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习

  • roatienza/Deep-Learning-Experiments 了解深度学习的视频、笔记和实验

  • MingchaoZhu/DeepLearning 该书为《深度学习》(花书) 数学推导、原理剖析与源码级别代码实现

  • aladdinpersson/Machine-Learning-Collection 在此存储库中,您将找到与机器学习相关的教程和项目。我尝试使代码尽可能清晰,目标是用作学习资源和查找问题以解决特定问题的方法。对于大多数人,如果您想要代码的演练,我还在YouTube上做了视频解释。

  • fastai/fastai 一个深度学习库,它提供了高级组件,可以在标准深度学习领域快速轻松地提供最先进的结果,并为研究人员提供可以混合和匹配以构建新方法的低级组件。它旨在做到这两件事,而不会在易用性、灵活性或性能方面做出实质性妥协。这要归功于精心分层的架构,该架构以解耦抽象的形式表达了许多深度学习和数据处理技术的共同底层模式。这些抽象可以通过利用底层Python语言的动态性和PyTorch库的灵活性来简洁明了地表达。

  • rasbt/deeplearning-models 各种深度学习架构、模型和技巧的集合。Jupyter Notebooks中TensorFlow和PyTorch的深度学习架构、模型和技巧的集合。

  • bfortuner/ml-glossary 机器学习术语表

  • fastai/fastbook 这些笔记本介绍了深度学习、fastai 和 PyTorch。fastai 是用于深度学习的分层 API。

  • ZuzooVn/machine-learning-for-software-engineers 学习成为机器学习工程师的完整日常计划。

  • terryum/awesome-deep-learning-papers 被引用最多的深度学习论文 on Oct 19, 2018

  • d2l-ai/d2l-en 交互式深度学习书籍,包含多框架代码、数学和讨论。被斯坦福大学、麻省理工学院、哈佛大学和剑桥大学等 60 个国家的 400 所大学采用。

  • dragen1860/TensorFlow-2.x-Tutorials TensorFlow 2.x版本的教程和示例,包括CNN,RNN,GAN,Auto-Encoders,FasterRCNN,GPT,BERT示例等。 TF 2.0版入门实例代码,实战教程。

  • BayesWitnesses/m2cgen 将 ML 模型转换为零依赖的本机代码(Java、C、Python、Go、JavaScript、Visual Basic、C#、R、PowerShell、PHP、Dart、Haskell、Ruby、F#、Rust)

  • Jack-Cherish/Machine-Learning 机器学习实战(Python3):kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归

  • Vay-keen/Machine-learning-learning-notes 周志华《机器学习》又称西瓜书是一本较为全面的书籍,书中详细介绍了机器学习领域不同类型的算法(例如:监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等),记录了本人在学习过程中的理解思路与扩展知识点,希望对新人阅读西瓜书有所帮助!

  • Yorko/mlcourse.ai 由 OpenDataScience (ods.ai) 领导的开放式机器学习课程,由 Yury Kashnitsky(Yorko)领导。Yury拥有应用数学博士学位和Kaggle竞赛大师级学位,旨在设计一门在理论与实践之间取得完美平衡的ML课程。因此,该课程在讲座中为您提供数学公式,并以作业和 Kaggle 课堂竞赛的形式进行大量练习。目前,该课程处于自定进度模式。

  • lawlite19/MachineLearning_Python 机器学习算法python实现

  • jindongwang/MachineLearning 一些关于机器学习的学习资料与研究介绍

  • dotnet/machinelearning .NET 的开源和跨平台机器学习框架。

  • dustinvtran/ml-videos 机器学习视频资源的集合

  • Visualize-ML/Book4_Power-of-Matrix Book_4_《矩阵力量》 | 鸢尾花书:从加减乘除到机器学习;上架!

  • ShusenTang/Deep-Learning-with-PyTorch-Chinese 将PyTorch官方书籍《Deep learning with PyTorch》(基本摘录版)翻译成中文版并给出可运行的相关代码。

  • ritchieng/the-incredible-pytorch 一个精选的教程、项目、库、视频、论文、书籍以及与令人难以置信的 PyTorch 相关的任何内容。

  • virgili0/Virgilio 开源计划,旨在指导和指导数据科学领域的任何人。我们的愿景是让每个人都有机会参与这个领域,从实践者开始,获得新技能,并学会在无限的资源网络中导航,并找到对您有用的资源。

  • louisfb01/start-machine-learning 机器学习 (ML)、人工智能 (AI) 的完整指南,无需任何该领域背景,并随时了解最新消息和最先进的技术!

  • scipy/scipy SciPy(发音为“Sigh Pie”)是一款用于数学、科学和工程的开源软件。它包括用于统计、优化、积分、线性代数、傅里叶变换、信号和图像处理、常微分方程求解器等模块。

  • numpy/numpy 使用 Python 进行科学计算的基础包。它提供:一个强大的 N 维数组对象、复杂的(广播)功能、用于集成 C/C++ 和 Fortran 代码的工具、有用的线性代数、傅里叶变换和随机数功能。

  • jakevdp/PythonDataScienceHandbook 包含完整的 Python 数据科学手册,其形式为 (免费!Jupyter 笔记本。

  • andkret/Cookbook 数据工程手册

  • ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide 为本科生或任何想在扎实基础上深入研究人工智能领域的任何人提供详细和量身定制的指南。本指南适用于任何具有基本编程知识或计算机科学背景的人,有兴趣成为深度学习和 NLP 研究科学家。

  • doccano/doccano 面向机器学习从业者的开源注释工具。

  • mrdbourke/machine-learning-roadmap 2020 年机器学习路线图(2023 年仍有 90% 有效),连接机器学习中许多最重要概念的路线图,如何学习它们以及使用哪些工具来执行它们。

  • VowpalWabbit/vowpal_wabbit 机器学习系统,它通过在线、哈希、allreduce、reductions、learning2search、active 和交互式学习、Bandit等技术推动了机器学习的前沿。

  • janishar/mit-deep-learning-book-pdf 麻省理工学院深度学习书 PDF 格式(完整和部分),作者:Ian Goodfellow、Yoshua Bengio 和 Aaron Courville

  • amusi/Deep-Learning-Interview-Book 深度学习面试宝典(含数学、机器学习、深度学习、计算机视觉、自然语言处理和SLAM等方向)

  • xenova/transformers.js 最先进的 Web 机器学习。直接在浏览器中运行🤗Transformers,无需服务器! 被设计为在功能上等同于 Hugging Face 的 transformers python 库,这意味着您可以使用非常相似的 API 运行相同的预训练模型。这些模型支持不同模式的常见任务,例如:自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。计算机视觉:图像分类、物体检测和分割。音频:自动语音识别和音频分类。多模态:零样本图像分类。Transformers.js使用 ONNX 运行时在浏览器中运行模型。最好的部分是,您可以使用 🤗 Optimum 轻松地将预训练的 PyTorch、TensorFlow 或 JAX 模型转换为 ONNX。

特征工程

  • FeatureLabs/featuretools 特征工程工具箱

  • ScienceKot/kydavra 特征筛选工具

  • aerdem4/lofo-importance LOFO(Leave One Feature Out)重要性基于选择的度量计算一组特征的重要性,对于选择的模型,通过迭代地从集合中删除每个特征,并评估模型的性能。

  • imbalanced-learn 解决机器学习中不平衡数据集

  • ResidentMario/missingno 灵活且易于使用的缺失数据可视化和实用程序,可让您快速直观地了解数据集的完整性(或缺乏完整性)。

  • RUCAIBox/Negative-Sampling-Paper 该知识库收录了与负采样方法相关的 100 篇论文,涵盖推荐系统(RS)、计算机视觉(CV)、自然语言处理(NLP)和对比学习(CL)等多个研究领域。

  • haifengl/smile Smile(统计机器智能和学习引擎)是Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

异常检测

参数优化

梯度提升和树模型

  • dmlc/xgboost 可扩展、可移植和分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 在单机、Hadoop、Spark、Dask、Flink 和 DataFlow 上运行。

  • microsoft/LightGBM 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。

  • motefly/DeepGBM 为在线预测任务提炼的深度学习GBDT框架

  • catboost/catboost 一个快速、可扩展、高性能的决策树梯度提升库,用于 Python、R、Java、C++ 的排名、分类、回归和其他机器学习任务。 支持在 CPU 和 GPU 上进行计算。

  • Xtra-Computing/thundergbm ThunderGBM:GPU 上的快速 GBDT 和随机森林

  • GBDT-PL/GBDT-PL 使用分段线性树进行梯度提升

  • mesalock-linux/gbdt-rs MesaTEE GBDT-RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE

  • tensorflow/decision-forests 一组最先进的算法,用于训练、服务和解释 Keras 决策森林模型。

  • kingfengji/gcForest 这是论文“深度森林:走向深度神经网络的替代方案”的官方实现

  • LAMDA-NJU/Deep-Forest Deep Forest 2021.2.1的实现

  • hlamotte/decision-tree 在C++的决策树

  • augboost-anon/augboost 逐步特征增强的梯度提升。

  • DataCanvasIO/HyperGBM 用于表格数据的完整管道 AutoML 工具, 涉及多个梯度提升树模型(GBM),即XGBoost、LightGBM和Catboost。

  • Microstrong0305/WeChat-zhihu-csdnblog-code Regression Tree 回归树 深入理解提升树(Boosting tree)算法 深入理解GBDT回归 GBDT二分类算法 GBDT多分类算法 XGBoost LightGBM CatBoost 深入浅出Word2Vec原理解析 Doc2vec原理解析及代码实践

  • antmachineintelligence/mtgbmcode 提出了多任务梯度提升机 (MT-GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。

分布式机器学习

  • horovod/horovod Uber开源的分布式训练框架。它的发展吸取了Facebook "Training ImageNet In 1 Hour" 与百度 "Ring Allreduce" 的优点,可为用户实现分布式训练提供帮助。

  • dask/dask 用Python编写的,是一个灵活的、开源的并行计算库,提供大规模性能 高级并行性。

  • hpcaitech/ColossalAI 用于大规模并行训练的统一深度学习系统,具有高效并行化技术的集成大规模模型训练系统。可以让您在几行代码内快速开始分布式训练,通过并行化策略、异构内存管理为深度学习任务加速或者节省显存。

  • microsoft/DeepSpeed 深度学习优化库,它使分布式训练变得容易,高效和有效。

  • FMInference/FlexGen 高吞吐量的生成引擎,用于在GPU内存有限的情况下运行大型语言模型。FlexGen允许通过IO高效分载、压缩和大有效批处理大小生成高吞吐量。

  • microsoft/SynapseML 简单和分布式机器学习。基于 Apache Spark 分布式计算框架构建,与 SparkML/MLLib 库共享相同的 API,允许您将 SynapseML 模型无缝嵌入到现有的 Apache Spark 工作流程中。

  • Oneflow-Inc/libai 基于OneFlow的大规模模型训练开源工具箱。支持丰富的并行训练配置,包括但不限于分布式训练、混合精度训练、后向重计算、ZeRO,多样化的训练技巧,同时支持视觉与自然语言处理任务、简单易用,便于上手。

  • Qihoo360/XLearning 支持多种机器学习、深度学习框架调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。

  • sql-machine-learning/elasticdl Kubernetes原生的深度学习框架,支持容错和弹性调度,支持TensorFlow和PyTorch。

  • kubeflow/kubeflow 用于机器学习操作的云原生平台 - 管道、训练和部署。

  • alibaba/euler 大规模分布式的图学习框架,配合TensorFlow或者阿里内部的XDL等深度学习工具,可以支持数十亿点数百亿边的复杂异构图上进行模型训练。

  • Angel-ML/angel 用于大规模机器学习的灵活而强大的参数服务器。基于参数服务器理念的高性能分布式机器学习和图计算平台。

  • ray-project/ray 提供用于构建分布式应用程序的简单通用API的开源框架。Ray与RLlib(可扩展的强化学习库和Tune(可扩展的超参数调优库)打包在一起。

  • alibaba/Alink Alink是基于Flink的机器学习算法平台,由阿里巴巴计算平台的PAI团队开发。

  • kakaobrain/torchgpipe pytorch的可扩展管道并行性库,可有效地训练大型的,消耗内存的模型。

  • tensorflow/mesh 简化模型并行化 Mesh TensorFlow: Model Parallelism Made Easier

  • uber/fiber 简化AI的分布式计算 该项目是实验性的,API不稳定。

  • petuum/adaptdl 资源自适应深度学习(DL)训练和调度框架。AdaptDL的目标是使分布式DL在动态资源环境(如共享集群和云)中变得轻松高效。

  • learning-at-home/hivemind 一个用于在互联网上训练大型神经网络的库

  • petuum/adaptdl 一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。

  • huggingface/accelerate 一个简单的API,将与多GPUTPU、fp16相关的样板代码抽离了出来,保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码,就可以直接上手多 GPU 或 TPU。Accelerate 支持的集成包括:CPU 单 GPU 单一节点多 GPU 多节点多 GPU TPU 带有本地 AMP 的 FP16.

  • BaguaSys/bagua 八卦是由快手科技和DS3 Lab共同开发的PyTorch深度学习训练加速框架。目前支持:高级分布式训练算法:用户只需添加几行代码(可选择弹性模式)即可将单个 GPU 上的训练扩展到多 GPU(可能跨多台机器)。

  • facebookresearch/fairscale 用于高性能和大规模训练的 PyTorch 扩展。

  • PKU-DAIR/Hetu 针对大规模和自动化分布式训练的高性能分布式深度学习系统。

  • alibaba/FederatedScope 综合性的联邦学习平台,为学术界和工业界的各种联邦学习任务提供方便的使用和灵活的定制。FederatedScope基于事件驱动的架构,集成了丰富的功能集合,以满足联邦学习日益增长的需求,旨在构建一个易于使用的平台,以安全有效地促进学习。

  • Xtra-Computing/FedTree 基于树的模型的联合学习系统。它的设计目的是高效、有效和安全。目前具有以下特点:梯度提升决策树的联合训练。多核 CPU 和 GPU 上的并行计算。支持同态加密、安全聚合和差分隐私。支持分类和回归。

  • youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data 图形和表格数据相关论文、框架和数据集的联邦学习。

  • microsoft/PersonalizedFL 面向研究的个性化联邦学习代码库

其他_机器学习与深度学习

  • JuliaLang/julia 用于科学计算的高级、高性能动态语言。

  • vikasverma1077/manifold_mixup 数据增强⽅法,目标是通过插入示例的隐藏状态来学习鲁棒的特征。 我们的方法学习到的表征更具判别性和紧凑性。

  • pytorch/serve 在生产环境中提供、优化和扩展 PyTorch 模型。特色:模型管理 API:通过优化从角色到模型的分配进行多模型管理、推理 API:对批量推理的 REST 和 gRPC 支持、TorchServe 工作流:使用多个相互依赖的模型部署复杂的 DAG、导出模型以进行优化推理:开箱即用的Torchscript,ORT和ONNX,IPEX,TensorRT,FasterTransformer、性能指南:内置支持优化、基准测试和分析 PyTorch 和 TorchServe 性能、富有表现力的处理程序:一种富有表现力的处理程序体系结构,通过开箱即用的支持,支持对用例的推理变得微不足道、指标 API:通过 Prometheus 导出、自定义指标和 PyTorch 分析器支持对系统级指标的开箱即用支持

  • PaddlePaddle/PaddleHub 基于PaddlePaddle的真棒预训练模型工具包。(400+模型,包括图像,文本,音频,视频和跨模态,易于推理和服务)

  • streamlit/streamlit 用 Python 构建数据应用程序的最快方法

  • ml-explore/mlx Apple 机器学习研究团队推出的基于 Apple 芯片的机器学习阵列框架。主要功能包括:熟悉的 API:MLX 有一个紧跟 NumPy 的 Python API。MLX 还有一个功能齐全的 C++ API,它与 Python API 非常相似。MLX 具有更高级别的包,例如 API mlx.optimizers ,这些包与 PyTorch 密切相关, mlx.nn 以简化构建更复杂的模型。可组合函数变换:MLX支持可组合函数变换,实现自动微分、自动矢量化、计算图优化等功能。延迟计算:MLX 中的计算是延迟的。数组仅在需要时具体化。动态图构建:MLX中的计算图是动态构建的。更改函数参数的形状不会触发缓慢的编译,并且调试简单直观。多设备:操作可以在任何受支持的设备(当前为 CPU 和 GPU)上运行。统一内存:与 MLX 和其他框架的显着区别是统一内存模型。MLX 中的数组位于共享内存中。可以在任何受支持的设备类型上执行对 MLX 阵列的操作,而无需传输数据。

  • huggingface/optimum 性能优化工具,AI 生态发展迅速,越来越多的专用硬件及其优化每天都在涌现,可实现在目标硬件上训练和运行模型的最高效率。

  • mosaicml/composer 将神经网络训练速度提高 7 倍 更低的成本和更高的准确度更快地训练神经网络。我们已经实现了两打以上的加速方法,只需几行代码即可应用于您的训练循环,或与我们的内置 Trainer 一起使用。

  • China-UK-ZSL/Resources_for_KZSL KZSL:对知识驱动的零样本学习进行基准测试.用于零样本图像分类 ( ZS-IMGC)、零样本关系提取 ( ZS-RE) 和零样本知识图 (KG) 完成 ( ZS-KGC )

  • alibaba/Elastic-Federated-Learning-Solution 经过百亿规模工业级场景实战验证的跨互联网企业信息合作的联邦学习框架。EFLS有以下核心特性:云原生支持自定义特征工程——大规模高可用;首开水平聚合,层次聚合双模型——更强大更便捷。

  • wuba/dl_inference 通用深度学习推理工具,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。

  • activeloopai/Hub AI的数据集格式。为深度学习构建、管理和可视化数据集。将数据实时流式传输到PyTorch/TensorFlow并对其进行版本控制。

  • gradio-app/gradio 在 3 分钟内使用 Python 为您的机器学习模型创建 UI

  • PKU-DAIR/mindware 一个高效的开源 AutoML 系统,用于自动化机器学习生命周期,包括特征工程、神经架构搜索和超参数调整。

  • DataCanvasIO/Hypernets 通用自动化机器学习框架,用于简化特定领域中端到端 AutoML 工具包的开发。包括 tensorflow、keras、pytorch 等深度学习框架,以及 sklearn、lightgbm、xgboost 等机器学习库。引入了抽象的搜索空间表示,同时兼顾了超参数优化和神经架构搜索(NAS)的要求,使 Hypernets 成为能够适应各种自动化机器学习需求的通用框架。

  • KindXiaoming/pykan Kolmogorov-Arnold 网络 (KAN) 是多层感知器 (MLP) 的有前途的替代品。KAN 与 MLP 一样具有强大的数学基础:MLP 基于通用近似定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。KAN 和 MLP 是双重的:KAN 在边缘具有激活函数,而 MLP 在节点上具有激活函数。这个简单的变化使KAN在模型准确性和可解释性方面都比MLP更好。KAN 比 MLP 具有更快的扩展速度,KAN 比参数较少的 MLP 具有更好的准确性。KAN可以直观地可视化。KAN 提供 MLP 无法提供的可解释性和交互性。我们可以使用KAN来潜在地发现新的科学定律。

  • RadeonOpenCompute/ROCm ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台

  • PaddlePaddle/Paddle-Lite 飞桨多端多平台高性能深度学习推理引擎.支持多平台:涵盖 Android、iOS、嵌入式 Linux 设备、Windows、macOS 和 Linux 主机。支持多种语言:包括 Java、Python、C++。轻量化和高性能:针对移动端设备的机器学习进行优化,压缩模型和二进制文件体积,高效推理,降低内存消耗

  • nvdla/hw NVIDIA 深度学习加速器 (NVDLA) 是一种免费的开放式架构,它促进了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA 具有可扩展性、高度可配置性,并且旨在简化集成和可移植性。

  • lowRISC/opentitan OpenTitan是一个开源硅信任根 (RoT) 项目。使企业、平台提供商和芯片制造商的硅 RoT 设计和实现更加透明、可信和安全,以生产高质量的开放 IP 以作为全功能产品的实例化。制造商越来越多地开始关注防篡改处理器(或其中一部分),通常被称为“安全区域(Secure Enclave)”,以阻止各种攻击。芯片中使用“信任根(Root of Trust)”,在系统每次启动时进行加密检查,确保没有任何内容被恶意篡改。如果发现问题,安全区域会阻止计算机启动。

  • scikit-hep/awkward-1.0 使用类似 NumPy 的习语来处理类似 JSON 的数据。

  • alibaba/Curvature-Learning-Framework 基于Tensorflow的非欧深度学习框架。实现了多种非欧流形、非欧算子和黎曼优化器,基于与Tensorflow相似的底层接口,可以便捷的迁移模型空间而不改变模型细节。背景:欧氏空间不可能无损表征树、环结构,然而双曲(负曲率)、球面(正曲率)空间无损表征。由于对结构性强的如无尺度网络、层次数据、环状数据等的优良表征能力,非欧深度学习逐渐应用到各个领域并展示出优越性,包括链接预测、推荐系统等。

  • facebookresearch/bitsandbytes 用于 8 位优化器和量化例程的库。

  • openai/triton OpenAI的Triton是一种类 Python 的开源编程语言。能够高效编写 GPU 代码。它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核。此外,使用 Triton 成功生成比同类实现效率高 2 倍的内核。

  • nebuly-ai/nebullvm 易于使用的库,可利用最先进的优化技术促进 AI 推理。利用多种优化技术(深度学习编译器、量化、稀疏性、蒸馏等),以确定在特定硬件上执行 AI 模型的最佳方式。可以在不损失性能的情况下将您的模型加速 2 到 10 倍,如果为超低延迟和更轻的模型牺牲准确度/精度,则可加速至 30 倍.

  • baifanxxx/awesome-active-learning 很棒的主动学习精选列表。主动学习是机器学习的特殊情况,它可以与专家进行交互(或其他信息源),再使用输出的新样本进行学习。

  • 4paradigm/OpenMLDB 一个开源机器学习数据库,它提供了一个计算一致特征的特征平台,用于训练和推理。

  • scikit-learn-contrib/MAPIE 用于估计预测间隔的 scikit-learn 兼容模块。

  • 4paradigm/AutoX 高效的 automl 工具,针对具有表格数据的数据挖掘任务。

  • dair-ai/ml-visuals 包含图形和模板,重复使用和自定义以改进您的科学写作。

  • mindsdb/mindsdb 使用 SQL语法,在数据库和数据仓库启用机器学习工作流。

  • kaidic/LDAM-DRW 使用标签分布感知边际损失学习不平衡数据集

  • Jianf-Wang/RSG 可以在训练过程中生成稀有类样本,并且可以与任何骨干网络相结合。RSG 仅用于训练阶段,因此在测试阶段不会给骨干网带来额外的负担。

  • ZhiningLiu1998/mesa 设计元知识驱动的采样器解决类别不平衡问题

  • YyzHarry/imbalanced-regression 深度不平衡回归(DIR)旨在从具有连续目标的不平衡数据中学习,解决某些区域的潜在缺失数据,并推广到整个目标范围。

  • dataease/dataease 开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。

  • google/tensorstore 用于读取和写入大型多维数组的库。

  • ahkarami/Deep-Learning-in-Production 有关在生产中部署基于深度学习的模型的有用说明和参考。

  • bentoml/BentoML ML模型服务框架.创建部署和扩展机器学习服务变得容易。

  • iterative/dvc Data 版本控制、用于数据和模型的 Git、机器学习实验管理

  • bokeh/bokeh 浏览器中的交互式数据可视化,来自 Python

  • nterpretml/interpret 适合可解释的模型。 解释黑盒机器学习。

  • Guang000/Awesome-Dataset-Distillation 数据集蒸馏是合成一个小数据集的任务,使得在其上训练的模型在原始大数据集上实现高性能。 数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估。 一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,持续学习、隐私、神经架构搜索等)。

  • TimDettmers/bitsandbytes PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;LLM.int8() 推理;8 位优化器:Adam、AdamW、RMSProp、LARS、LAMB(节省 75% 的内存);稳定嵌入层:通过更好的初始化和规范化;提高稳定性 8 位量化:分位数、线性和动态量化;快速分位数估计:比其他算法快 100 倍

  • ydataai/ydata-profiling 从 pandas DataFrame 对象创建 HTML 分析报告

  • fbdesignpro/sweetviz 用一行代码可视化和比较数据集、目标值和关联。

  • AutoViML/AutoViz 使用一行代码自动可视化任何大小的任何数据集。

  • pola-rs/polars 速度极快的 DataFrames 库,使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现。

  • facebookincubator/AITemplate Python 框架,可将神经网络渲染为高性能 CUDA/HIP C++ 代码。 专门用于 FP16 TensorCore(NVIDIA GPU)和 MatrixCore(AMD GPU)推理。

  • salesforce/OmniXAI 用于可解释 AI (XAI) 的 Python 机器学习库,提供全向可解释 AI 和可解释机器学习功能,以解决实践中解释模型做出的决策时的许多痛点。

  • MegEngine/MegCC 一个运行时超轻量,高效,移植简单的深度学习模型编译器

  • microsoft/Semi-supervised-learning 统一的半监督学习基准,可应用于人脸识别、语音识别和音频分类

  • polyaxon/traceml 用于机器学习/数据跟踪、可视化、可解释性、漂移检测和仪表板的引擎。

  • dabl/dabl 数据分析基线库,当前主要侧重于探索性可视化和预处理。

  • Speedml/speedml 一个Python包,用于加速启动机器学习项目。

  • TimDettmers/bitsandbytes 用于 PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;8位优化器:Adam,AdamW,RMSProp,LARS,LAMB,Lion(节省75%的内存);稳定嵌入层:通过更好的初始化和规范化提高稳定性;8 位量化:分位数、线性和动态量化、快速分位数估计:比其他算法快 100 倍。

  • yassouali/awesome-semi-supervised-learning 最新和精选的令人敬畏的半监督学习论文,方法和资源列表。未标记的数据可能相对容易收集,但很少有方法可以使用它们。半监督学习通过使用大量未标记的数据以及标记的数据来构建更好的分类器来解决此问题。由于半监督学习需要更少的人力并且具有更高的准确性,因此它在理论和实践中都非常有趣。

  • vespa-engine/vespa 开放的大数据服务引擎。开放的大数据服务引擎 - 在服务时存储、搜索、组织和对大数据进行机器学习推理。

  • ctgk/PRML 实现Bishop的书“模式识别和机器学习”中描述的算法的Python代码

  • slundberg/shap 一种博弈论方法,用于解释任何机器学习模型的输出。SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。它将最优信用分配与局部解释联系起来,使用博弈论中的经典Shapley值及其相关扩展(有关详细信息和引用,请参阅论文)。虽然SHAP可以解释任何机器学习模型的输出,但我们已经为树集成方法开发了一种高速精确算法(请参阅我们的Nature MI论文)。XGBoost,LightGBM,CatBoost,scikit-learn和pyspark tree模型支持快速C++实现。

  • Baiyuetribe/paper2gui 让每个人都简单方便的使用前沿人工智能技术。一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 40+AI 模型,内容涵盖 AI 绘画、语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域。支持 Windows、Mac、Linux 系统。

  • zjhellofss/KuiperInfer 带你从零实现一个高性能的深度学习推理库

  • huggingface/datasets 最大的 ML 模型即用型数据集中心,提供快速、易用和高效的数据处理工具

  • NVIDIA/DeepLearningExamples 按模型组织的最先进的深度学习脚本 - 易于训练和部署,在企业级基础架构上具有可重现的准确性和性能。最新 NVIDIA 示例。

  • xorbitsai/xorbits 一个开源计算框架,可以轻松扩展数据科学和机器学习工作负载 - 从数据预处理到调优、训练和模型服务。Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或者横向扩展到数千台机器,以支持处理数 TB 的数据以及训练或为大型模型提供服务。

  • plotly/dash 下载量最大,最值得信赖的Python框架,用于构建ML和数据科学Web应用程序。

  • trekhleb/homemade-machine-learning 流行的机器学习算法的Python示例,并解释了交互式Jupyter演示和数学

  • MorvanZhou/tutorials 莫烦Python 机器学习相关教程

  • rougier/numpy-100 100 个 numpy 练习(含解决方案)

  • fastai/numerical-linear-algebra 用于计算线性代数课程 fast.ai Jupyter 笔记本的免费在线教科书

  • numba/numba 开源的、NumPy 感知的 Python 优化编译器,由 Anaconda, Inc. 赞助。它使用 LLVM 编译器项目从 Python 语法生成机器代码。Numba 可以编译一个以数字为中心的 Python 子集,包括许多 NumPy 函数。此外,Numba 还支持循环的自动并行化、GPU 加速代码的生成以及 ufuncs 和 C 回调的创建。

  • lanpa/tensorboardX PyTorch的张量板(以及Chainer,MXNET,Numpy等)。使用简单的函数调用编写张量板事件。

  • swyxio/ai-notes 软件工程师了解新 AI 开发速度的说明。用latent.space 编写和产品头脑风暴的数据存储,但已清理 /Resources 文件夹下的规范引用。

  • tensorflow/tfjs WebGL 加速的 JavaScript 库,用于训练和部署 ML 模型。

  • aws/sagemaker-python-sdk 用于在 Amazon SageMaker 上训练和部署机器学习模型的库

  • ggerganov/ggml 用于机器学习的张量库,用 C 语言编写、16 位浮点支持、整数量化支持(4 位、5 位、8 位等)、自动区分、ADAM和L-BFGS优化器、针对苹果芯片进行了优化、在x86架构上利用AVX / AVX2内部函数、在 ppc64 架构上利用 VSX 内部函数、无第三方依赖关系、运行时内存分配为零

  • probml/pyprobml Kevin Murphy的“概率机器学习”一书的Python代码

  • rasbt/python-machine-learning-book “Python Machine Learning (1st edition)” 一书代码存储库和信息资源

  • huggingface/candle Rust 的极简主义 ML 框架,专注于性能(包括 GPU 支持)和易用性。

  • ashleve/lightning-hydra-template PyTorch Lightning + Hydra。一个非常用户友好的 ML 实验模板。

  • mljar/mljar-supervised 用于表格数据 AutoML 的 Python 包,具有特征工程、超参数优化、解释和自动文档

  • kserve/kserve 提供了一个 Kubernetes 自定义资源定义,用于在任意框架上提供机器学习 (ML) 模型。它旨在通过为 Tensorflow、XGBoost、ScikitLearn、PyTorch 和 ONNX 等常见 ML 框架提供高性能、高抽象的接口来解决生产模型服务用例。

  • Kanaries/pygwalker 将 pandas 数据帧转换为交互式 UI 以进行可视化分析

  • mars-project/mars 基于张量的统一框架,用于大规模数据计算,可扩展numpy,pandas,scikit-learn和Python函数。

  • CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers 又名“黑客的贝叶斯方法”:介绍贝叶斯方法+概率编程,以计算/理解为先,数学为第二的观点。一切都在纯python

  • tracel-ai/burn 使用 Rust 构建的新的综合动态深度学习框架,其主要目标是极高的灵活性、计算效率和可移植性。

  • rayon-rs/rayon Rust 的数据并行库。它非常轻巧,可以轻松地将顺序计算转换为并行计算。它还保证了数据竞争的自由。

  • flyteorg/flyte 可扩展且灵活的工作流编排平台,可无缝统一数据、ML 和分析堆栈。

  • davisking/dlib 用于在 C++ 中制作真实世界机器学习和数据分析应用程序的工具包

  • HumanSignal/label-studio 具有标准化输出格式的多类型数据标注和标注工具

  • metabase/metabase 以最简单、快捷的方式为公司中的每个人提供商业智能和分析

  • chenzomi12/DeepLearningSystem 跟大家一起探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 系统全栈的内容。希望跟所有关注 AI 开源项目的好朋友一起探讨研究,共同促进学习讨论。

  • datastacktv/data-engineer-roadmap 2021 年成为数据工程师的路线图

  • ujjwalkarn/Machine-Learning-Tutorials 包含机器学习和深度学习教程、文章和其他资源的主题精选列表。其他很棒的列表可以在此列表中找到。

  • lexfridman/mit-deep-learning 麻省理工学院深度学习相关课程的教程、作业和竞赛。deeplearning.mit.edu

  • google-deepmind/sonnet 基于 TensorFlow 2 构建的库,旨在为机器学习研究提供简单、可组合的抽象。

  • Hvass-Labs/TensorFlow-Tutorials 带有 YouTube 视频的 TensorFlow 教程

  • aamini/introtodeeplearning 麻省理工学院 6.S191 实验室资料:深度学习简介

  • dusty-nv/jetson-inference Hello AI World 指南,介绍如何使用 TensorRT 和 NVIDIA Jetson 部署深度学习推理网络和深度视觉基元。

  • unifyai/ivy Ivy 是一个开源机器学习框架,使您能够:自动调整模型:使用 ivy. autotune 自动查找适合您特定用例的最佳框架、编译器基础结构和硬件。将代码转换为任何框架:通过使用 ivy.transpile 将任何代码从一个框架转换为另一个框架,在任何模型、库或设备的基础上使用和构建。编写与框架无关的代码:在 ivy 中编写一次代码,然后选择最合适的 ML 框架作为后端,以利用所有优势和工具。

  • tencentmusic/cube-studio 开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式算法训练,超参搜索,推理服务VGPU,多集群调度,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型一键微调,llmops,私有知识库,AI应用商店,支持模型一键开发/推理/微调,私有化部署,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/ tf/ mxnet/ deepspeed/ paddle/ colossalai/ horovod/ spark/ ray/ volcano分布式

  • bleedline/aimoneyhunter ai副业赚钱资讯信息的大合集,将在全网搜索并整理ai副业赚钱的相关方法、技术、工具、以及一些可以赚钱的平台和渠道。 期望能在AI时代,打破信息茧房,利用AI智能化做副业,赚取工作之余的额外收益。

  • cleanlab/cleanlab 通过自动检测 ML 数据集中的问题来帮助您清理数据和标签。为了促进对混乱的真实数据进行机器学习,这个以数据为中心的 AI 包使用现有模型来估计数据集问题,这些问题可以修复以训练更好的模型。

  • owainlewis/awesome-artificial-intelligence 人工智能 (AI) 课程、书籍、视频讲座和论文的精选列表。

  • aws/amazon-sagemaker-examples 示例 Jupyter 笔记本,演示如何使用 Amazon SageMaker 构建、训练和部署机器学习模型

  • Netflix/metaflow 轻松构建和管理现实生活中的 ML、AI 和数据科学项目

  • chenyuntc/pytorch-book 书籍《深度学习框架PyTorch:入门与实践(第2版)》的对应代码,但是也可以作为一个独立的PyTorch入门指南和教程。

  • NVIDIA-AI-IOT/torch2trt 易于使用的 PyTorch 到 TensorRT 转换器

  • PaddlePaddle/models 飞桨产业级开源模型库,官方维护,PaddlePaddle支持,包括CV、NLP、Speech、Rec、TS、大模型等。

  • dair-ai/ML-Papers-Explained ML 中关键概念的解释

  • automl/auto-sklearn 使用 scikit-learn 进行自动化机器学习

  • probml/pml-book “概率机器学习”——凯文·墨菲 (Kevin Murphy) 的系列丛书

  • paperswithcode/ai-deadlines 倒数计时,用于跟踪CV/NLP/ML/RO 会议截止日期。

  • openvinotoolkit/openvino 用于优化和部署 AI 推理的开源工具包,提高计算机视觉、自动语音识别、自然语言处理和其他常见任务中的深度学习性能。使用通过 TensorFlow、PyTorch 等流行框架训练的模型。减少资源需求,并在从边缘到云的一系列英特尔®平台上高效部署。

  • Unstructured-IO/unstructured 开源库和 API,用于构建用于标记、训练或生产机器学习管道的自定义预处理管道。

  • NVIDIA/nvidia-container-toolkit NVIDIA 容器工具包允许用户构建和运行 GPU 加速容器。该工具包包括一个容器运行时库和实用程序,用于自动配置容器以利用 NVIDIA GPU。

  • microsoft/CNTK 统一的深度学习工具包,它通过有向图将神经网络描述为一系列计算步骤。在此有向图中,叶节点表示输入值或网络参数,而其他节点表示输入的矩阵运算。CNTK允许用户轻松实现和组合常用模型类型,例如前馈 DNN、卷积网络 (CNN) 和循环网络 (RNN/LSTM) 。它实现了随机梯度下降(SGD,误差反向传播)学习,并在多个 GPU 和服务器之间实现了自动微分和并行化。

  • guipsamora/pandas_exercises 练习python Pandas库, 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析),提供高性能、易于使用的数据结构和数据分析工具。

  • kedro-org/kedro 用于生产就绪型数据科学的工具箱。它使用软件工程最佳实践来帮助你创建可重现、可维护和模块化的数据工程和数据科学管道。基于Cookiecutter数据科学的标准、可修改且易于使用的项目模板。一系列轻量级数据连接器,用于跨多种不同的文件格式和文件系统(包括本地和网络文件系统、云对象存储和 HDFS)保存和加载数据。数据目录还包括基于文件的系统的数据和模型版本控制。使用 Kedro-Viz 自动解析纯 Python 函数和数据管道可视化之间的依赖关系。部署策略,包括单机或分布式计算机部署,以及对在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 上部署的额外支持。

  • great-expectations/great_expectations 由数据工程师设计并为数据工程师设计的数据质量平台。它可以帮助您快速、清晰地发现问题,同时还可以更轻松地与非技术利益相关者协作。

  • lancedb/lance 用于 ML 的现代列式数据格式,并在 LLMs Rust 中实现。只需 2 行代码即可从 parquet 转换,随机访问、矢量索引和数据版本控制速度提高 100 倍。兼容 Pandas、DuckDB、Polars、Pyarrow,还有更多集成即将推出。

  • allegroai/clearml ClearML - 自动神奇的 CI/CD,可简化您的 AI 工作负载。实验管理、数据管理、管道、编排、调度和服务在一个 MLOps/LLMOps 解决方案中

  • personqianduixue/Math_Model 数学建模、美赛、美国大学生数学建模竞赛、全国大学生数学建模竞赛、华为杯研究生数学建模、国赛LaTeX模板、美赛LaTeX模板、mathorcup、电工杯、华中赛、APMCM、深圳杯、中青杯、华东杯、数维杯、东三省数学建模、认证杯、数学建模书籍、常用matlab算法、国赛评阅要点、软件模型算法汇总、智能算法、优化算法、现代的算法

  • BrainJS/brain.js GPU 加速了适用于浏览器和 Node.js 的 JavaScript 中的神经网络

  • OpenRefine/OpenRefine 基于 Java 的强大工具,它允许您加载数据、理解数据、清理数据、协调数据,并使用来自 Web 的数据进行扩充。所有这些都来自网络浏览器以及您自己计算机的舒适性和隐私性。

  • saulpw/visidata 用于表格数据的交互式多功能工具。它将电子表格的清晰度、终端的效率和 Python 的强大功能结合到一个轻量级实用程序中,可以轻松处理数百万行。VisiData 支持 tsv、csv、sqlite、json、xlsx (Excel)、hdf5 和许多其他格式。

  • finos/perspective 数据可视化和分析组件,特别适用于大型和/或流数据集。使用它来创建用户可配置的报告、仪表板、笔记本和应用程序,然后在浏览器中独立部署,或与 Python 和/或 Jupyterlab 协同部署。一个快速、内存高效的流式查询引擎,用 C++ 编写并针对 WebAssembly 和 Python 编译,具有用于 Apache Arrow 的读/写/流式处理,以及基于 ExprTK 的高性能列式表达式语言。一个与框架无关的用户界面,打包为自定义元素,通过 WebAssembly 在浏览器内提供支持,或通过 WebSocket 服务器 (Python/Node) 虚拟提供支持。JupyterLab 小部件和 Python 客户端库,用于笔记本中的交互式数据分析,以及可扩展的生产 Voila 应用程序。

  • HigherOrderCO/HVM 基于Rust的一个大规模并行交互的高阶虚拟机。通过将高级语言(如 Python 和 Haskell)的程序编译为 HVM,可以直接在大规模并行硬件(如 GPU)上运行这些语言,并具有近乎理想的加速。HVM2 是 HVM1 的继任者,HVM1 是该概念的 2022 年原型。与其前身相比,HVM2 更简单、更快,最重要的是更正确。HOC为其PAPER上列出的所有功能提供长期支持。该存储库提供了用于指定 HVM2 网络的低级 IR 语言,以及从该语言到 C 和 CUDA 的编译器。它不适合直接供人类使用。如果您正在寻找一种与 HVM2 交互的高级语言,请选Bend。

  • tensorflow/serving 灵活、高性能的机器学习模型服务系统,专为生产环境而设计。它涉及机器学习的推理方面,在训练后获取模型并管理其生命周期,通过高性能、引用计数的查找表为客户提供版本化访问。TensorFlow Serving 提供与 TensorFlow 模型的开箱即用集成,但可以轻松扩展以服务其他类型的模型和数据。

  • feast-dev/feast 用于机器学习的开源功能存储。Feast 是管理现有基础设施的最快途径,用于生产用于模型训练和在线推理的分析数据。通过管理离线存储(用于处理用于横向扩展批量评分或模型训练的历史数据)、低延迟在线存储(支持实时预测)和经过实战测试的功能服务器(用于在线提供预先计算的功能),使功能始终可用于训练和服务。通过生成时间点正确的特征集来避免数据泄露,以便数据科学家可以专注于特征工程,而不是调试容易出错的数据集连接逻辑,这可确保将来的特征值不会在训练期间泄漏到模型中。通过提供单个数据访问层将特征存储从特征检索中抽象出来,将 ML 与数据基础架构分离,确保模型在从训练模型迁移到服务模型、从批处理模型迁移到实时模型以及从一个数据基础设施系统迁移到另一个数据基础设施时保持可移植性。

  • pytorch/tutorials PyTorch 教程。熟悉 PyTorch 概念和模块。在本快速入门指南中了解如何加载数据、构建深度神经网络、训练和保存模型。

  • SeldonIO/seldon-core MLOps 框架,用于打包、部署、监视和管理数千个生产机器学习模型。Seldon core 将您的 ML 模型(Tensorflow、Pytorch、H2o 等)或语言包装器(Python、Java 等)转换为生产 REST/GRPC 微服务。Seldon 可处理扩展到数千个生产机器学习模型,并提供开箱即用的高级机器学习功能,包括高级指标、请求日志记录、解释器、异常值检测器、A/B 测试、金丝雀等。

  • https://github.com/kubeflow/pipelines 机器学习 (ML) 工具包,致力于使 Kubernetes 上的 ML 工作流部署变得简单、可移植和可扩展。Kubeflow 流水线是使用 Kubeflow Pipelines SDK 构建的可重用的端到端 ML 工作流。Kubeflow 流水线服务具有以下目标:端到端编排,启用和简化端到端机器学习管道的编排;轻松实验,让您轻松尝试众多想法和技术,并管理您的各种试验/实验;易于重用,使您能够重用组件和管道,以快速拼凑端到端解决方案,而无需每次都重新构建。

  • hibayesian/awesome-automl-papers 自动化机器学习论文、文章、教程、幻灯片和项目的精选列表,自动化机器学习 (AutoML) 提供了使机器学习可供非机器学习专家使用的方法和流程,以提高机器学习的效率并加速机器学习的研究。

  • lazyprogrammer/machine_learning_examples 机器学习示例和教程的集合。

  • https://github.com/PAIR-code/facets 包含两个用于理解和分析机器学习数据集的可视化效果:Facets Overview 和 Facets Dive。可视化作为 Polymer Web 组件实现,由 Typescript 代码提供支持,可以轻松嵌入到 Jupyter 笔记本或网页中。

NLP自然语言处理

Transformer库与优化

  • huggingface/transformers 支持Pytorch、TensorFlow和JAX的最先进的机器学习Transformers库。提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。

  • jadore801120/attention-is-all-you-need-pytorch PyTorch 实现的Transformer模型在“注意力就是你所需要的一切”。

  • adapter-hub/adapter-transformers HuggingFace 的 Transformers 的友好分支,将适配器添加到 PyTorch 语言模型。可用作 HuggingFace 的直接替代品,并定期同步新的上游更改。

  • microsoft/DeBERTa 注意力分散的增强解码的BERT,使用了BERT和RoBERTa模型,显着提高了预训练的效率和下游任务的性能。

  • pytorch/fairseq Python的Facebook AI Research Sequence-to-Sequence包。

  • ml-jku/hopfield-layers NLP 领域里大热的 Transformer,其网络更新规则其实是和 Hopfield 网络在连续状态下是相同的。Transformer 中的这种注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。作者来自奥地利林茨大学、挪威奥斯陆大学,与 Jürgen Schmidhuber 合著 LSTM 的 Sepp Hochreiter 也是作者之一。

  • laiguokun/Funnel-Transformer Transformer优化,一种新的自我注意模型,可以将隐藏状态的序列逐渐压缩为较短的状态,从而降低了计算成本。

  • mit-han-lab/hardware-aware-transformers 用于高效自然语言处理的硬件感知型Transformers.实现高达3倍的加速和3.7倍的较小模型尺寸,不会降低性能。

  • mit-han-lab/lite-transformer 具有长距离短距离注意的Lite transformer

  • allenai/longformer 用于长文档的类似BERT的模型

  • Tencent/TurboTransformers 在 CPU 和 GPU 上进行Transformer推断的快速且用户友好的运行库。

  • idiap/fast-transformers Pytorch实现的快速Transformer库

  • bytedance/lightseq 高效的序列处理与生成库,提供 Bert, GPT, Transformer,beam search, diverse beam search, topp/topk sampling

  • google-research/bigbird 基于稀疏注意力(随机注意力机制+局部注意力机制+全局注意力机制)的transformer,它将基于transformer的模型(例如 BERT)扩展到更长的序列。 由于能够处理更长的上下文,BigBird 极大地提高了各种 NLP 任务(例如问答和摘要)的性能。

  • lucidrains/performer-pytorch 一个高效的线性广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+(Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。

  • microsoft/fastformers 实现Transformers在CPU上223倍的推理加速 它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。论文FastFormers的作者表明,利用知识蒸馏、结构化剪枝和数值优化可以大幅提高推理效率。我们表明,这种改进可以达到200倍的加速,并在22倍的能耗下节省超过200倍的推理成本。

  • mit-han-lab/lite-transformer 轻量级Transformer,注意力长短搭配 长依赖和短依赖的剥离,并引入卷积来捕捉短依赖,总体思想和Transformer之自适应宽度注意力有点类似。文章中发现低层次上的注意力都比较短,层次越高,注意力的所关注的依赖越长。

  • ThilinaRajapakse/simpletransformers 用于分类、NER、QA、语言建模、语言生成、T5、多模态和会话AI的transformer

  • cloneofsimo/RealFormer-pytorch 通过在Transformer架构上进行改造来提升BERT训练效果,具体为:使用attention残差机制改造Transformer。1、realformer在标签数量较少的分类任务上有一定的提升效果,提升的幅度与数据集和任务难度有关,一般越难的任务提升的幅度越大。2、realformer在标签数量达到一定的数值时,其效果便会大打折扣,在某些数据集上甚至会无法学习。

  • openai/sparse_attention 稀疏Attention

  • sacmehta/delight 提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。

  • BSlience/transformer-all-in-one 记录了学习Transformer过程中的一些疑问和解答,并且实现Transformer的全过程。

  • mlpen/Nystromformer 利用了 Nyström 方法来近似标准的Attention。

  • xuanqing94/FLOATER 基于连续动态系统学习更加灵活的位置编码

  • ELS-RD/transformer-deploy Hugging Face Transformer 亚毫秒推理和部署到生产环境

  • lucidrains/x-transformers 一个简单但完整的全注意力转换器,具有来自各种论文的一组有希望的实验特征 Full encoder / decoder 、Decoder-only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。

  • lucidrains/FLASH-pytorch 线性时间的Transformer变体

  • NVIDIA/FasterTransformer Transformer相关优化,包括BERT、GPT 。提供了一个脚本和配方来运行高度优化的基于转换器的编码器和解码器组件,它由 NVIDIA 测试和维护。可以带来性能加速。

  • HazyResearch/flash-attention 快速且节省内存的精确注意力

  • NetEase-FuXi/EET 针对Transformer-based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。

  • NVIDIA/transformer-ls 将原始 Transformer 的全部自注意力替换为考虑长期和短期相关性的有效注意力。每个查询都关注分段滑动窗口中的标记以捕获短期相关性,以及动态投影特征以捕获长期相关性。为了对齐原始特征、投影特征向量的范数并提高聚合的效率,使用两组层归一化对原始特征向量和投影特征向量进行归一化。

  • thuml/Flowformer 任务通用的线性复杂度Transformer 。在图论中的经典网络流(Flow network)模型中,“守恒”(Conservation)是一个重要现象,即每个节点的流入量等于流出量。受到“固定资源情况下,必定引起竞争”的启发,通过网络流视角重新分析经典注意力机制中的信息流动,并通过守恒性质将竞争引入注意力机制设计,以避免平凡注意力问题。

  • alipay/Pyraformer 用于长期时间序列建模和预测的低复杂度金字塔注意。

  • NVIDIA/Megatron-LM 由 NVIDIA 的应用DL研究团队开发的大型、强大的transformer。开发了高效、模型并行(张量、序列和流水线)和多节点预训练,基于 Transformer 的模型(例如 GPT、BERT 和 T5)使用混合精度。

  • facebookresearch/bit 鲁棒二值化多次蒸馏Transformer

  • Tongjilibo/bert4torch 优雅的pytorch transformers库

  • cmhungsteve/Awesome-Transformer-Attention 包含视觉转换器和注意力机制(Vision Transformer&Attention)的综合论文列表,包括论文,代码和相关网站。

  • FlagOpen/FlagAttention 用 Triton 语言实现的内存高效注意力运算符的集合。它的灵感来自FlashAttention和FlashAttention v2,并扩展了它们以满足大型语言建模研究的需求。FlashAttention 和 FlashAttention-2 可以节省内存占用和流量以提高内存效率,但要修改它们并添加更多选项和功能需要熟练掌握 cuda 编程。因此,Flag Attention 是用 Triton 语言实现的,它更容易用于编写自定义 GPU 内核。

  • microsoft/torchscale PyTorch 库,允许研究人员和开发人员高效地扩展 Transformers。为基础模型和 A(G)I 开发新的架构,重点是建模通用性和能力,以及训练稳定性和效率。

  • NielsRogge/Transformers-Tutorials HuggingFace的 Transformers 库制作的演示。

  • lucidrains/recurrent-memory-transformer-pytorch 在 Pytorch 中实现 Recurrent Memory Transformer (openreview)。他们最近发表了一篇简短的后续论文,证明它至少能够复制 100 万个代币的信息。毫无疑问,在我看来,RMT 会成为比 AdA 更强大的 RL 代理,AdA 只是一个 Transformer-XL - 更新:递归内存决策转换器

  • lhao499/RingAttention 使用块态变换器实现近乎无限的上下文的环形(Ring)注意力。Blockwise Parallel Transformer (BPT) 以分块方式计算注意力和前馈,允许训练和推断序列,其长度是标准内存效率注意力方法(如flash(闪光)注意力)可管理的序列的四倍。Ringwise Parallel Transformer 的环形注意力使训练序列的长度达到“设备数量”的长度,比 BPT 的长度长几倍。这是通过将注意力和前馈计算分布在多个设备上并将通信与计算重叠来实现的。由于注意力和前馈网络的块计算,可以在上下文大小上使用数千万个令牌进行训练,而不会增加任何通信或计算开销。

  • lucidrains/MEGABYTE-pytorch 在 Pytorch 中实现 MEGABYTE,使用多尺度转换器预测百万字节序列。为了解决当前transformer模型对输入的限制,MetaAI提出的MetaByte引入了一个概念,称为patch,将模型的输入序列分割成固定大小的patches,这是一个类似于token的概念,但是显然比token覆盖的范围要宽。然后通过一个全局的模块,建立一个大的自回归transformer,把输入和输出从tokens变成patches。同时,引入了一个本地的模块,用于每个patch内部的字节的预测,其输入是从全局模块来的上下文patches表示结果,输出是预测下一个patch,这是一个小的自回归模型。

BERT优化

  • google-research/bert Bidirectional Encoder Representations from Transformers 来自Transformers的双向编码器表示法

  • google-research/ALBERT 用于语言表达自我监督学习的Lite BERT

  • bojone/bert-of-theseus BERT 模型压缩方法 ,theseus(忒修斯之船 如果忒修斯的船上的木头被 逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),将原始大模型切分为多个大模块,固定大模型权重,训练时随机替换为小模块,充分训练后,将小模型继续微调。

  • brightmart/albert_zh 使用TensorFlow 进行自我监督学习语言表示的Lite Bert的实现预训练的汉语模型

  • bojone/bert4keras 更清晰、更轻量级的keras版bert,提供丰富的应用例子。

  • codertimo/BERT-pytorch 谷歌AI 2018 BERT pytorch实现。Google AI的BERT论文显示了各种NLP任务(新的17个NLP任务SOTA)的惊人结果,包括在SQuAD v1.1 QA任务上优于人类F1分数。本文证明了基于Transformer(自注意力)的编码器可以作为先前语言模型的替代方法,并采用适当的语言模型训练方法。

  • huawei-noah/Pretrained-Language-Model 华为诺亚方舟实验室开发的预训练语言模型及其相关优化技术NEZHA是一种经过预训练的中文语言模型,可以在多项中文NLP任务上实现最先进的性能TinyBERT是一种压缩的BERT模型,推理时可缩小7.5倍,加快9.4倍

  • ymcui/MacBERT MacBERT是一种改进的BERT,具有新颖的M LM校正预训练任务,它减轻了预训练和微调的差异。我们建议使用类似的词来进行掩蔽,而不是使用在微调阶段从未出现过的 [MASK] 令牌进行掩蔽。通过使用基于 word2vec (Mikolov et al., 2013) 相似度计算的Synonyms 工具包 (Wang and Hu, 2017)获得相似词。如果选择 N-gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。

  • Lisennlp/TinyBert 基于华为的TinyBert进行修改的,简化了数据读取的过程,方便我们利用自己的数据进行读取操作。

  • epfml/collaborative-attention 整合多头注意力,任何经过预训练的注意力层重新配置为协作注意力层。

  • ZhuiyiTechnology/WoBERT 以词为基本单位的中文BERT(Word-based BERT)

  • autoliuweijie/FastBERT 具有自适应推断时间的自蒸馏BERT pip install fastbert

  • alexa/bort 论文 Optimal Subarchitecture Extraction for BERT. “ BERT的最佳子体系结构提取”的代码。Bort是用于BERT架构的最佳子集,它是通过对神经架构搜索应用完全多项式时间近似方案(FPTAS)提取的。 Bort的有效(即不计算嵌入层)大小是原始BERT大型体系结构的5.5%,是净大小的16%。它在CPU上也比基于BERT的速度快7.9倍,并且比体系结构的其他压缩变体和某些非压缩变体性能更好。与多个公共自然语言理解(NLU)基准上的BERT-large相比,它的平均性能提高了0.3%至31%。

  • valuesimplex/FinBERT 基于 BERT 架构的金融领域预训练语言模型

  • yitu-opensource/ConvBert ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。依图研发团队从模型结构本身的冗余出发,提出了一种基于跨度的动态卷积操作,并基于此提出了 ConvBERT 模型。

  • wtma/CharBERT 字符敏感的预训练语言模型 通过结合字符级别和词级别的信息实现了更为全面的输入编码,同时,结合 RNN 和 CNN 的优势,基本上 CNN,RNN,Transformer 都使用上了,体现了新老研究成果的结合在一定程度上能进一步提升方法的性能。

  • Sleepychord/CogLTX 将BERT应用于长文本CogLTX遵循一种特别简单直观的范式,即抽取关键的句子=>通过BERT得到答案的两步流程。

  • ShannonAI/service-streamer 服务流媒体BERT服务,每秒处理1400个句子的BERT服务.

  • Sleepychord/CogLTX 可将当前类似BERT的预训练语言模型应用于长文本。使用动态规划算法将长文本划分为文本块集合;使用MemRecall对原长句中的子句进行打分:从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。

  • bojone/BERT-whitening 简单的线性变换(白化)操作,就可以达到BERT-flow的效果。

  • thunlp/ERNIE 用知识图谱增强 BERT 的预训练效果

      1. 对于抽取并编码的知识信息,研究者首先识别文本中的命名实体,然后将这些提到的实体与知识图谱中的实体进行匹配。研究者并不直接使用 KG 中基于图的事实,相反他们通过知识嵌入算法(例如 TransE)编码 KG 的图结构,并将多信息实体嵌入作为 ERNIE 的输入。基于文本和知识图谱的对齐,ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
      1. 与BERT类似,采用了带Mask的语言模型,以及预测下一句文本作为预训练目标。除此之外,为了更好地融合文本和知识特征,研究者设计了一种新型预训练目标,即随机 Mask 掉一些对
  • ShannonAI/ChineseBert 融合字形与拼音信息的中文Bert预训练模型

  • alibaba/AliceMind/LatticeBERT Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models 利用多粒度的词格信息(word lattice),相对字级别的模型取得了性能提升。

  • Langboat/Mengzi 孟子预训练模型 轻量级但更强大,对部署和工业落地更友好的模型。

  • huawei-noah/DynaBERT dynamic BERT 可以通过选择自适应宽度和深度来灵活地调整网络大小,从而得到一个尺寸可变的网络。首先通过知识蒸馏的方法将teacher BERT的知识迁移到有自适应宽度的子网络student  DynaBERTw中,然后再对DynaBERTw进行知识蒸馏得到同时支持深度自适应和宽度自适应的子网络DynaBERT。

  • microsoft/LoRA 大型语言模型的低秩适应。 冻结原始权重的同时学习成对的秩分解矩阵来减少可训练参数的数量。降低了适用于特定任务的大型语言模型的存储需求,并在部署期间实现了高效的任务切换,所有这些都不会引入推理延迟。在 GLUE 基准上获得与完全微调相当或更好的结果,同时只训练和存储一小部分参数。

  • guillaume-be/rust-bert Rust-native 最先进的自然语言处理模型和管道。 Hugging Face 的 Transformers 库的端口,使用 tch-rs crate 和 rust-tokenizers 预处理。 支持多线程标记化和GPU推理。 公开了模型基础架构、特定于任务的头和随时可用的管道。

  • volcengine/veGiantModel 字节跳动应用ML团队的基于torch的高效训练库。 使巨型模型(例如GPT、BERT和T5)训练变得简单高效。 建立在 Megatron 和 DeepSpeed 之上,通过集成高效通信库BytePs并提供定制的管道分区来提高通信效率。

  • extreme-bert/extreme-bert 可加速 BERT 在自定义数据集上的预训练和微调。

预训练模型

  • THUDM/GLM 一种预训练的通用语言模型,具有自回归空白填充目标,可以根据各种自然语言理解和生成任务进行微调。

  • facebookresearch/metaseq Meta AI开放了一个“重达”1750亿参数的大语言模型OPT-175B,Open Pre-trained Transformers,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3。从完整模型到训练代码、部署代码全部开放。

  • dbiir/UER-py 一个用于对通用语料进行预训练并对下游任务进行微调的工具包。提供了非常丰富的模型库。包括:中文RoBERTa、基于词的中文RoBERTa、中文GPT-2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。

  • OpenBMB/BMInf BMInf (Big Model Inference) 是一个用于大规模预训练语言模型(PLM)推理阶段的低资源工具包。最低支持在NVIDIA GTX 1060单卡运行百亿大模型。在此基础上,使用更好的gpu运行会有更好的性能。模型能力覆盖文本补全、文本生成与对话场景。文本生成能力大幅提高。目前支持下列模型:

    • CPM2.1. CPM2.1是CPM2 [1] 的升级版本。拥有110亿参数的通用中文预训练语言模型。基于CPM2,CPM2.1新增了一个生成式的预训练任务并基于持续学习范式进行训练。CPM2.1比CPM2具有更好的生成能力。
    • CPM1. CPM1 [2] 是拥有26亿参数的生成式中文预训练语言模型。CPM1的模型架构与GPT [4] 类似,它能够被应用于广泛的自然语言处理任务,如对话、文章生成、完形填空和语言理解。
    • EVA. EVA [3] 是有着28亿参数的中文预训练对话模型。EVA在很多对话任务上表现优异,尤其是在多轮人机交互对话任务上。
  • CyberZHG/keras-xlnet XLNet的非官方实现。

  • hwchase17/langchain 通过可组合性使用大型语言模型构建应用程序 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度

  • IDEA-CCNL/Fengshenbang-LM Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。

  • ymcui/Chinese-XLNet 面向中文的XLNet预训练模型

  • microsoft/unilm UniLM-NLP及更高版本的统一语言模型预训练

    • layoutlm 多模态文档理解预训练模型LayoutLM 2.0,模型首先将文本、图像、布局三种模态的输入转换成向量表示,然后再交给编码器网络,最终输出的表示向量可以供下游任务使用。下游任务:表单理解、票据理解、复杂布局长文档理解、文档图像分类、视觉问答。
  • YunwenTechnology/Unilm UniLM模型既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。论文来自微软研究院。模型虽然强大,但微软并没有开源中文的预训练模型。因此云问本着开源之前,将我们预训练好的中文unilm_base模型进行开源。

  • ymcui/Chinese-ELECTRA 中文ELECTRA预训练模型 其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10

  • THUDM/GLM-130B 开放的双语(英汉)双向密集模型,1300亿参数,使用通用语言模型(GLM)进行预训练。 支持单台A100(40G * 8)或V100(32G * 8)服务器上具有130B参数的推理任务。 通过 INT4 量化,降低到 4 * RTX 3090(24G),而性能几乎没有下降。 截至 2022 -7-3 ,已接受了超过 4000 亿个文本标记(中文和英文各 200B)的训练。

  • alibaba/EasyTransfer 自然语言处理的迁移学习工具。主要特性:预训练语言模型工具,丰富且高质量的预训练模型库 BERT, ALBERT, RoBERTa, T5, etc,丰富且易用的NLP应用 如文本匹配、分本分类、机器阅读理解MRC,自动化的知识蒸馏,易用且高效的分布式训练。

  • microsoft/unilm/layoutlm 多模态预训练模型 LayoutLM 2.0,不仅考虑了文本和页面布局信息,还将图像信息融合到了多模态框架内。下游任务微调:表单理解 票据理解 复杂布局长文档理解 文档图像分类 视觉问答

  • google-research/byt5 ByT5:通过预先训练的字节到字节模型迈向无令牌的未来.ByT5 是 mT5 模型的无标记器扩展。 我们的 ByT5 模型不像大多数其他预训练语言模型(BERT、XLM-R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。

  • sunyilgdx/NSP-BERT 利用句子级别(sentence-level) 的预训练任务 NSP (下一句预测,Next Sentence Prediction) 来实现不同的NLP下游任务, 例如 单句分类(single sentence classification), 双句分类(sentence pair classification), 指代消解(coreference resolution), 完形填空(cloze-style task), 实体链接(entity linking), 实体类型识别(entity typing).

  • thunlp/OpenPrompt Prompt-learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。

  • google-research/flan 微调语言模型是零样本学习器

  • PaddlePaddle/ERNIE ERNIE 家族各种预训练模型的官方实现,涵盖语言理解与生成、多模态理解与生成等主题。

  • airaria/TextPruner 用于预训练语言模型的基于 PyTorch 的模型修剪工具包.它提供了低成本免训练的方法,通过去除冗余神经元来减小模型大小并加快模型推理速度。在 TextPruner 中,共有三种剪枝模式:词汇剪枝变压器剪枝管道剪枝

  • Tencent/PatrickStar 提供更大、更快、更环保的预训练模型,并为所有人普及人工智能。PatrickStar 的内存管理支持将模型的当前计算部分以外的所有内容卸载到 CPU 以节省 GPU。此外,在扩展到多个 GPU 时,基于块的内存管理对于集体通信非常有效。通过异构训练(DeepSpeed Zero Stage 3 也使用它),PatrickStar 可以充分利用 CPU 和 GPU 内存,这样您就可以使用更少的 GPU 来训练更大的模型。

  • ymcui/PERT 提出了一种基于乱序语言模型的预训练模型,在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。PERT在部分中英文NLU任务上获得性能提升,但也在部分任务上效果较差,请酌情使用。

  • THUDM/P-tuning-v2 P-tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。

  • EleutherAI/gpt-neox 基于 DeepSpeed 库的 GPU 上模型并行自回归转换器(autoregressive transformers)的实现。目前基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。希望在此过程中训练和开源 175B 参数 GPT-3 复制。

  • OpenBMB/BMTrain 高效的大型模型训练工具包,可用于训练具有数百亿参数的大型模型。 它可以以分布式方式训练模型,同时保持代码像单机训练一样简单。

  • microsoft/CodeBERT 针对编程语言的预训练模型,在Py、Java、JS、PHP、Ruby、Go的 NL-PL 对上进行预训练的多编程语言模型。

  • clue-ai/PromptCLUE 大规模多任务Prompt预训练中文开源模型。千亿中文token上大规模预训练,累计学习1.5万亿中文token,亿级中文任务数据上完成训练,训练任务超过150+。比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。

  • BlinkDL/RWKV-LM 具有 Transformer 级 LLM 性能的 RNN。它可以像 GPT(可并行化)一样直接训练。因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入。

  • FlagOpen/FlagEmbedding 可以将任何文本映射到低维密集向量,该向量可用于检索、分类、聚类或语义搜索等任务。它也可以用于LLM的矢量数据库。

  • XiaoMi/MiLM-6B 由小米开发的一个大规模预训练语言模型,参数规模为64亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。

  • yuzhimanhua/Awesome-Scientific-Language-Models 科学领域(例如,数学、物理、化学、生物学、医学、材料科学和地球科学)中预训练语言模型的精选列表,涵盖不同的模型大小(从 <100M 到 70B 参数)和模态(例如,语言、视觉、分子、蛋白质、图形和表格)。

  • CLUEbenchmark/CLUEPretrainedModels 高质量中文预训练模型集合:最先进大模型、最快小模型、相似度专门模型

文本分类

  • kk7nc/Text_Classification 一项文本分类算法的调查

  • cnn_multilabel_classification 基于TextCNN和Attention的多标签分类

  • ilivans/tf-rnn-attention Tensorflow实现文本分类任务的关注机制。

  • skdjfla/toutiao-text-classfication-dataset 中文文本分类数据集 共38.2万条,分布于15类中。

  • xiaoqian19940510/text-classification-surveys 文本分类资源汇总,包括深度学习文本分类模型,如SpanBERT、ALBERT、RoBerta、Xlnet、MT-DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…

  • 649453932/Chinese-Text-Classification-Pytorch 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。

  • 649453932/Bert-Chinese-Text-Classification-Pytorch 使用Bert,ERNIE,进行中文文本分类

  • SanghunYun/UDA_pytorch Unsupervised Data Augmentation with BERT 一种半监督学习方法,可在多种语言和视觉任务上实现SOTA结果。仅用20个标记的示例,UDA的性能就优于之前在25,000个标记的示例上训练的IMDb上的SOTA。

  • TextCNN与ALBERT分类效果的实践 详解小样本短文本多分类-对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)

  • GT-SALT/MixText 文本半监督方法MixText 提出一种全新文本增强方式——TMix,在隐式空间插值,生成全新样本。对未标注样本进行低熵预测,并与标注样本混合进行TMix。MixText可以挖掘句子之间的隐式关系,并在学习标注样本的同时利用无标注样本的信息。超越预训练模型和其他半监督方法

  • beyondguo/label_confusion_learning 利用标签之间的混淆关系,提升文本分类效果。利用标签信息时能够充分考虑标签之间的重叠或者依赖关系。

  • AIRobotZhang/STCKA 基于知识图谱的文本分类.将每个短文本与其在KB中的相关概念相关联,将概念信息作为先验知识整合到深度神经网络中。

  • ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果.足量的领域内语料U使模型不需要再在通用领域语料上预训练;无论是采用预训练还是自训练的方式,都可以显著提升模型效果,二者结合可以得到最佳结果;当领域内标注数据D较小的时候,在伪平行数据D'上训练、再在D上微调可以提升更多的效果;当D更大的时候,在D和D'上联合训练取得的效果更好。

  • xmu-xiaoma666/External-Attention-pytorch 17篇注意力机制 PyTorch 实现

  • DunZhang/LM-MLC 基于完型填空(模板)的多标签分类算法.

  • bojone/r-drop 使用r-drop机制实验了中文文本分类、文本生成任务,有提升。

  • BUPT-GAMMA/CompareNet_FakeNewsDetection 与知识比较:使用外部知识进行图神经假新闻检测 (ACL 2021)

  • pangwong/pytorch-multi-label-classifier pytorch 实现的多标签分类分类器

  • xuyige/BERT4doc-Classification 如何微调 BERT 进行文本分类

  • timoschick/pet 该存储库包含“利用小样本文本分类和自然语言推理的完形填空题”的代码.介绍了模式利用训练 (PET),这是一种半监督训练程序,可将输入示例重新表述为完形填空式短语。在低资源环境中,PET 和 iPET 显着优于常规监督训练、各种半监督基线甚至 GPT-3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。

  • YerevaNN/warp ACL'2021 论文 WARP Cyclone Word-level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。

  • whatissimondoing/CoG-BART 对比度和生成使BART成为很好的对话情感识别器

  • hiyouga/Dual-Contrastive-Learning 双重对比学习。 通过在同一空间内同时学习输入样本的特征和分类器的参数,为监督分类任务提出了一种新颖的对比学习框架。

  • thunlp/KnowledgeablePromptTuning 将知识整合到 Prompt Verbalizer 中进行文本分类

  • zhouj8553/FlipDA 提供了一种基于 T5 和翻转标签自训练的自动数据增强方法。 我们在 FewGLUE 上对其进行评估,并提高其性能。

文本摘要

  • xcfcode/Summarization-Papers 文本摘要论文总结

  • abisee/pointer-generator 使用指针生成器网络进行汇总

  • AIKevin/Pointer_Generator_Summarizer 指针生成器网络:具有关注,指向和覆盖机制的Seq2Seq,用于抽象性摘要。 tensorflow 2.0

  • kjc6723/seq2seq_Pointer_Generator_Summarizer 中文会话中生成摘要总结的项目 tensorflow 2.0

  • steph1793/Pointer_Transformer_Generator 指针生成器网络 tensorflow 2.0

  • magic282/NeuSum 通过共同学习评分和选择句子进行神经文本摘要

  • dmmiller612/bert-extractive-summarizer BERT易于使用的提取文本摘要

  • nju-websoft/NEST 输入知识图谱的基于联合编码的弱监督神经实体摘要方法

  • bojone/SPACES 端到端的长本文摘要模型(法研杯2020司法摘要赛道)

  • xcfcode/Summarization-Papers 文本摘要论文列表,包括各种主题。

  • yym6472/ms_pointer_network 用多来源Pointer Network的产品标题摘要方法.从两个信息来源:原始商品标题和知识信息knowledge中抽取信息,然后将二者进行综合得到最后的结果。

  • FeiSun/ProductTitleSummarizationCorpus Dataset for CIKM 2018 paper "Multi-Source Pointer Network for Product Title Summarization" 用于产品标题摘要的多源指针网络

  • jiacheng-ye/kg_one2set 解决关键词生成任务,给一篇源文档(比如论文的摘要),关键词预测任务就是预测出一些表达文档重点信息的关键词,或者更准确的说是关键短语。提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。并行预测,在 inference 效率上是Transfomer的6.44倍。

  • MaartenGr/keyBERT 一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。

  • xcfcode/PLM_annotator 探索对话总结的 DialoGPT

  • RowitZou/topic-dialog-summ 具有显着性感知主题建模的客户服务的面向主题的口语对话摘要。数据集是从阿里巴巴客户服务中心收集的。所有对话都是在客户和服务代理之间进行的普通话来电。脱敏数据可在 Google Drive百度盘(提取码:t6nx)上获得。

  • maszhongming/MatchSum 背景: 传统抽取式摘要模型都是基于句子级提取的,即未考虑句子间关系,对所有句子逐个打分,取topN的句子为摘要。主要贡献:考虑句子间的关系,通过候选句间的组合句来抽取摘要;基于摘要与原文档在语义上应该有较大匹配度的考量,本文提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的模型.对六个摘要提取数据集进行分析,验证了句子级得分高的摘要并不是摘要级得分最高的。如果仅以句子级,容易产生pearl-summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。

  • nlpyang/PreSumm 基于BERT的文档级编码器,该编码器能够表达文档的语义,并获得文档的句子表示。并分别提出了抽取式和生成式的摘要模型。

  • nlpyang/BertSum BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。(1)将文档中每句话前加 [CLS]后加[SEP],然后输入 BERT,而每个[CLS]对应的位置就是每句的句向量。(2)为了进一步增加句之间的互动,在 BERT 之上加了一层 Transformer 的 Summarization Layer,只输入每个[CLS]的向量,最后输出预测当前句是否保留,finetune。

  • OpenSUM/CPSUM 半监督抽取式摘要的噪声注入一致性训练和熵约束伪标签

  • krystalan/ClidSum 一个跨语言对话摘要的基准数据集

文本生成、文本对话

类ChatGPT大语言对话模型及数据

  • Significant-Gravitas/Auto-GPT 使用GPT4来自动完成目标任务。一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“思想”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。

  • meta-llama/llama3 Meta Llama 3 官方 GitHub 站点。我们正在释放大型语言模型的力量。我们最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业使用,以便他们可以负责任地试验、创新和扩展他们的想法。此版本包括预训练和指令调整的 Llama 3 语言模型的模型权重和起始代码,包括 8B 到 70B 参数的大小。此存储库旨在作为加载 Llama 3 模型和运行推理的最小示例。

  • facebookresearch/llama facebook LLaMA 模型的推理代码。最新版本的 Llama 现在可供各种规模的个人、创作者、研究人员和企业访问,以便他们可以负责任地进行实验、创新和扩展他们的想法。

  • facebookresearch/llama-recipes facebook LLaMA 模型的示例和手册

  • THUDM/ChatGLM3 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • THUDM/ChatGLM2-6B 开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了如下新特性:更强大的性能:全面升级了基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。更长的上下文:基于 FlashAttention 技术,我们将基座模型的上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文,我们发布了 ChatGLM2-6B-32K 模型。LongBench 的测评结果表明,在等量级的开源模型中,32K 有着较为明显的竞争优势。更高效的推理:基于 Multi-Query Attention 技术,有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。更开放的协议:权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。

  • THUDM/ChatGLM-6B 开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

  • THUDM/GLM-130B GLM-130B是一个开放的双语(英汉)双向密集模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 (40G * 8) 或 V100 (32G * 8) 上具有 130B 参数的推理任务。通过 INT4 量化,硬件可以进一步降低到具有 4 * RTX3090 24G 的单个服务器,几乎没有性能下降。

  • QwenLM/Qwen 阿里云提出的 Qwen (通义千问) 聊天和预训练大型语言模型的官方存储库。开源了Qwen(通义千问)系列工作,当前开源模型的参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。当前基础模型已经稳定训练了大规模高质量且多样化的数据,覆盖多语言(当前以中文和英文为主),总量高达3万亿token。在相关基准评测中,Qwen系列模型拿出非常有竞争力的表现,显著超出同规模模型并紧追一系列最强的闭源模型。此外,我们利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。在此基础上,我们针对LLM对接外部系统等方面针对性地做了优化,当前具备较强的工具调用能力,以及最近备受关注的Code Interpreter的能力和扮演Agent的能力。

  • QwenLM/Qwen1.5 Qwen1.5 是 Qwen 团队、阿里云开发的大型语言模型系列 Qwen 的改进版本。即 Qwen2 的 beta 版本。与 Qwen 类似,它仍然是一个仅解码器的变压器模型,具有 SwiGLU 激活、RoPE、多头注意力。目前,我们已经取得了以下成就:6种型号尺寸:0.5B、1.8B、4B、7B、14B、72B;聊天模型中的模型质量显著提高;加强了基础模型和聊天模型中的多语言功能;所有模型都支持令牌的 32768 上下文长度;所有型号都启用系统提示,这意味着可以进行角色扮演。

  • baichuan-inc/Baichuan2 百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化。所有版本对学术研究完全开放。同时,开发者通过邮件申请并获得官方商用许可后,即可免费商用。

  • baichuan-inc/Baichuan-13B 由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。开源免费可商用:B对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,可免费商用。

  • 01-ai/Yi 01.AI 从头开始训练的下一代开源大型语言模型。作为双语语言模型,并在 3T 多语言语料库上进行训练,Yi 系列模型成为全球最强大的LLM模型之一,在语言理解、常识推理、阅读理解等方面显示出前景。Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二(仅次于 GPT-4 Turbo),表现优于其他LLMs模型(如 GPT-4、Mixtral、Claude)(基于截至 2024 年 1 月的数据)。Yi-34B模型在各种基准测试中,包括Hugging Face Open LLM Leaderboard(预训练)和C-Eval(基于截至2023年11月的数据)中,在所有现有的开源模型(如Falcon-180B、Llama-70B、Claude)中排名第一。感谢 Transformer 和 Llama 开源社区,因为它们减少了从头开始构建所需的工作量,并能够在 AI 生态系统中使用相同的工具。

  • CrazyBoyM/llama3-Chinese-chat Llama3 中文仓库(聚合资料:各种网友及厂商微调、魔改版本有趣权重 & 训练、推理、部署教程视频 & 文档)

  • mlabonne/llm-course 使用路线图和 Colab 笔记本来学习大型语言模型 (LLMs) 的课程。该LLM课程分为三个部分:LLM 基础知识涵盖有关数学、Python 和神经网络的基本知识。科学家LLM专注于LLMs使用最新技术构建最佳产品。LLM 工程师专注于创建LLM基于应用程序并部署它们。

  • rasbt/LLMs-from-scratch 从头开始逐步实现类似ChatGPT的 LLM

  • imoneoi/openchat 使用不完善的数据推进开源语言模型。OpenChat是一系列基于监督微调(SFT)的开源语言模型。我们利用 ~80k ShareGPT 对话与条件反射策略和加权损失,尽管我们的方法很简单,但仍实现了卓越的表现。我们的最终愿景是开发一个高性能、开源和商用的大型语言模型,并且我们正在不断取得进展。

  • lonePatient/awesome-pretrained-chinese-nlp-models 高质量中文预训练模型集合。包括:基础大模型、对话大模型、多模态对话大模型、大模型评估基准、开源模型库平台、开源数据集库、中文指令数据集。

  • Vision-CAIR/MiniGPT-4 MiniGPT-4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。

  • ggerganov/llama.cpp 纯C/C++中LLaMA模型的CPU推理。2023年FacebookResearch 开源了大规模语言模型LLaMA,包含从 7B 到 65B 的参数范围,训练使用多达 1.4万亿 tokens 语料。LLaMA-13B在大部分基准测评上超过了GPT3-175B,LLaMA可能是目前公开模型权重中效果最好的语言模型。

  • juncongmoo/pyllama LLaMA - 在单个 4GB GPU 中运行 LLM

  • tatsu-lab/stanford_alpaca 斯坦福大学的LLaMA羊驼模型。用2K数据微调模型,构建和共享一个遵循指令的LLaMA模型。

  • LC1332/Chinese-alpaca-lora 在LLaMA、斯坦福大学Alpaca、Alpaca LoRA、Cabrita、Japanese-Alpaca-LoRA的基础上,调试了一个中国LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。

  • tloen/alpaca-lora 在消费者硬件上使用指令来微调LLaMA模型。使用低秩自适应(LoRA)重现斯坦福大学Alpaca结果的代码。我们提供了一个与 text-davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。

  • mymusise/ChatGLM-Tuning 平价的chatgpt实现方案, 基于ChatGLM-6B + LoRA

  • OpenLMLab/MOSS 支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。

  • baichuan-inc/baichuan-7B 百川开发的大规模7B预训练语言模型。一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿词元上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。

  • InternLM/InternLM InternLM开源了70亿和200亿参数基础模型,以及针对实际场景和训练系统量身定制的聊天模型。开源的轻量级训练框架,旨在支持模型预训练,而无需广泛的依赖关系。通过单个代码库,它支持在具有数千个 GPU 的大规模集群上进行预训练,并在单个 GPU 上进行微调,同时实现卓越的性能优化。InternLM 在 1024 个 GPU 上训练期间实现了近 90% 的加速效率。InternLM-20B选择了更深的架构,深度设置为60层。这超过了使用32或40层的传统7B和13B型号。当参数有限时,增加层数可以增强模型的整体功能。此外,与InternLM-7B相比,InternLM-20B使用的预训练数据经过了更高质量的清理,并补充了丰富的知识数据,旨在增强理解和推理能力。因此,它在理解、推理、数学和编程能力方面表现出显着的改进——所有这些都测试了语言模型的技术熟练程度。

  • InternLM/InternLM-techreport 书生·浦语由上海人工智能实验室和商汤科技(同等贡献)与香港中大、复旦和上海交大联合开发的多语言大语言模型。具有104B参数的多语言基础语言模型。在具有 1.6T 代币的大型语料库上进行预训练,并具有多阶段渐进过程,然后进行微调以符合人类偏好。我们还开发了一个名为Uniscale-LLM的训练系统,用于高效的大型语言模型训练。对多项基准的评估表明,InternLM在知识理解、阅读理解、数学和编码等多个方面都取得了最先进的表现。凭借如此全面的能力,InternLM在综合考试中取得了出色的表现,包括MMLU,AGIEval,C-Eval和高考-Bench,而无需借助外部工具。在这些基准测试中,InternLM 不仅明显优于开源模型,而且与 ChatGPT 相比,还获得了卓越的性能。此外,InternLM在理解中文和中国文化方面表现出出色的能力,这使其成为支持面向中文的语言应用的合适基础模型,并提供了跨各种知识领域和任务的基准和示例。

  • mistralai/mistral-src Mistral AI 7B v0.1 模型的参考实现。一个功能强大且快速的模型,适用于许多用例。虽然速度快 6 倍,但它在所有基准测试中都与 Llama 2 70B 相当或更胜一筹,会说多种语言,具有自然的编码能力。它处理 32k 序列长度。

  • clue-ai/ChatYuan 用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

  • Xwin-LM/Xwin-LM 旨在为大型语言模型开发和开源对齐技术,包括监督微调(SFT),奖励模型(RM),拒绝采样,来自人类反馈的强化学习(RLHF)等。我们的第一个版本建立在Llama2基本模型的基础上,在AlpacaEval上排名TOP-1。值得注意的是,它是第一个在此基准测试上超过 GPT-4 。

  • PCL-Platform.Intelligence/PanGu-Alpha 2000亿开源中文预训练语言模型「鹏城·盘古α」,以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏城·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。

  • PCL-Platform.Intelligence/PanGu-Dialog 鹏城.盘古对话生成大模型,简称PanGu-Dialog。PanGu-Dialog是以大数据和大模型为显著特征的大规模开放域对话生成模型,充分利用了大规模预训练语言模型的知识和语言能力,基于预训练+持续微调的学习策略融合大规模普通文本和对话数据训练而成。

  • CStanKonrad/long_llama 一种大型语言模型,能够处理256k个甚至更多的长上下文。建立在OpenLLaMA的基础上,并使用聚焦变压器(FoT)方法进行微调。聚焦转换器:上下文缩放的对比训练 (FoT) 提供了一种简单的方法,使语言模型能够处理可能包含数百万个令牌的上下文,同时在明显更短的输入上进行训练。FoT 允许注意力层的子集访问(键、值)对的内存缓存,以扩展上下文长度。FoT的独特之处在于其训练程序,借鉴了对比学习。具体来说,将内存注意层暴露给相关和不相关的键(如来自不相关文档的负样本)。这种策略激励模型区分与语义上不同的值相关的键,从而增强它们的结构。反过来,这使得推断有效上下文长度远远超出训练中看到的范围成为可能。

  • lm-sys/FastChat 令人印象深刻的 GPT-4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。

  • project-baize/baize-chatbot 使用 LoRA 训练的开源聊天模型.它使用通过让 ChatGPT 与自己聊天生成的 100k 对话。还使用羊驼的数据来提高其性能。已发布了 7B、13B 和 30B 模型。

  • wenge-research/YaYi 为客户打造安全可靠的专属大模型,基于大规模中英文多领域指令数据训练的 LlaMA 2 & BLOOM 系列模型,由中科闻歌算法团队研发。在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

  • AI4Finance-Foundation/FinGPT 以数据为中心的 FinGPT。开源开放金融!革新

  • EleutherAI/gpt-neox 在GPU上训练大规模语言模型。基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。目标是使这个存储库成为一个集中且可访问的地方,以收集用于训练大规模自回归语言模型的技术,并加速对大规模训练的研究。

  • visual-openllm/visual-openllm 文心一言的开源版,基于 ChatGLM + Visual ChatGPT + Stable Diffusion

  • hikariming/alpaca_chinese_dataset 人工精调的中文对话数据集和一段chatglm的微调代码

  • michael-wzhu/Chinese-LlaMA2 META最新发布的LlaMA2的汉化版! (完全开源可商用)

  • ymcui/Chinese-LLaMA-Alpaca 中文LLaMA模型和经过指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,在中文LLaMA的基础上,本项目使用了中文指令数据进行指令精调,显著提升了模型对指令的理解和执行能力。

  • Facico/Chinese-Vicuna 一个中文低资源的llama+lora方案,结构参考alpaca

  • lucidrains/PaLM-rlhf-pytorch 在PaLM架构上实现RLHF(人工反馈强化学习),类似ChatGPT

  • liltom-eth/llama2-webui 从任何地方(Linux/Windows/Mac)在GPU或CPU上本地运行任何Llama 2。使用“llama2-wrapper”作为生成代理/应用程序的本地llama2后端。

  • togethercomputer/OpenChatKit 一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。该工具包包括一个指令调优的语言模型,一个审核模型,和一个可扩展的检索系统,用于包括来自自定义存储库的最新响应。

  • LianjiaTech/BELLE 开源中文对话大模型,现阶段基于开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。开放了数据集:Stanford Alpaca 生成的中文数据集1M + 0.5M;0.25M数学指令数据集和0.8M多轮任务对话数据集。

  • carbonz0/alpaca-chinese-dataset alpaca中文指令微调数据集

  • cryscan/multilingual-share 为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了 ShareGPT-90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。RWKV-Wiki/MultilingualShareGPT

  • TigerResearch/TigerBot 多语言多任务LLM,在 BLOOM 基础上的模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。

  • masa3141/japanese-alpaca-lora 日文指令来微调LLaMA模型

  • nlpxucan/WizardLM 由Evol-Instruct提供支持的遵循指令的LLM系列:WizardLM,WizardCoder和WizardMath。基于GPT-4的自动评估框架来评估聊天机器人模型的性能。WizardLM-30B取得了比Guanaco-65B更好的结果。

  • luban-agi/Awesome-Domain-LLM 本项目旨在收集和梳理垂直领域的开源模型、数据集及评测基准。

  • 22-hours/cabrita 葡萄牙语微调指令LLaMA

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。将您的LLM API成本降低10倍,将速度提高100倍。采用了语义缓存等替代策略。语义缓存识别并存储相似或相关的查询,从而提高缓存命中概率并提高整体缓存效率。采用嵌入算法将查询转换为嵌入,并使用向量存储对这些嵌入进行相似性搜索。此过程允许 GPTCache 从缓存存储中识别和检索类似或相关的查询。

  • Stability-AI/StableLM 稳定性AI语言模型。使用 Stanford Alpaca 的程序对模型进行了微调,结合了五个最近的对话代理数据集:Stanford 的 Alpaca 、Nomic-AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。

  • LC1332/Luotuo-Chinese-LLM 中文大语言模型开源项目,包含了一系列语言模型。Luotuo-Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。

  • FreedomIntelligence/LLMZoo 一个为大型语言模型提供数据,模型和评估基准的项目。发布基于BLOOMZ的凤凰Phoenix7B模型、Chimera奇美拉模型。Phoenix-inst-chat-7b 达到85.2% 的ChatGPT效果。

  • openai/evals 一个评估LLM和LLM系统的框架,也是一个开源的基准测试表。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • mlfoundations/open_flamingo 用于训练大型多模态模型的开源框架。DeepMind Flamingo模型的开源版本。提供了用于训练和评估模型的PyTorch 实现。还提供了在新的多模式 C4 数据集上训练的初始 9B 模型。

  • dandelionsllm/pandallm 海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练。

  • OptimalScale/LMFlow 一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型。我们的目标是开发一套用户友好、快速可靠,并对整个社区开放的全流程微调代码库。

  • yangjianxin1/Firefly Firefly(流萤): 中文对话式大语言模型,包括高质量的包含1.1M中文多任务指令微调数据集,包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重

  • PlexPt/awesome-chatgpt-prompts-zh ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。

  • dalinvip/Awesome-ChatGPT ChatGPT资料汇总学习

  • rockbenben/ChatGPT-Shortcut 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。

  • PhoebusSi/Alpaca-CoT 将CoT数据扩展到Alpaca以提高其推理能力,同时我们将不断收集更多的instruction-tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。Alpaca-CoT · Datasets

  • unit-mesh/unit-minions 《AI 研发提效研究:自己动手训练 LoRA》,包含 Llama (Alpaca LoRA)模型、ChatGLM (ChatGLM Tuning)相关 Lora 的训练。训练内容:用户故事生成、测试代码生成、代码辅助生成、文本转 SQL、文本生成

  • microsoft/JARVIS 一个将LLM与ML社区联系起来的系统。该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。

  • mlc-ai/mlc-llm 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型。解决方案的基石是机器学习编译(MLC),我们利用它来有效地部署AI模型。我们建立在开源生态系统的肩膀上,包括来自Hugging Face和Google的令牌化器,以及Llama,Vicuna,Dolly,MOSS,RWKV等开源LLM。我们的主要工作流程基于 Apache TVM Unity。

  • mlc-ai/web-llm 将大语言模型和聊天引入 Web 浏览器。一切都在浏览器中运行,没有服务器支持。WebLLM是MLC LLM的姊妹项目。它重用了模型工件并构建了MLC LLM的流程。

  • wangzhaode/ChatGLM-MNN 纯C++,易于部署的ChatGLM-6B。

  • vllm-project/vllm 适用于 LLM 的高吞吐量和内存效率推理和服务引擎。在吞吐量方面,vLLM 的性能比拥抱面转换器 (HF) 高出 24 倍,文本生成推理 (TGI) 高出 3.5 倍。使用PagedAttention分页注意力高效管理注意力键和值存储器。

  • yizhongw/self-instruct 一种将预训练语言模型与指令对齐的方法。可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。

  • adams549659584/go-proxy-bingai用 Vue3 和 Go 搭建的微软 New Bing 演示站点,拥有一致的 UI 体验,支持 ChatGPT 提示词,国内可用。

  • f/awesome-chatgpt-prompts 包含 ChatGPT 提示,以更好地使用 ChatGPT

  • humanloop/awesome-chatgpt ChatGPT和GPT-3的惊人工具、演示和文档

  • encx/ChatGPT ChatGPT 桌面应用程序(Mac、Windows 和 Linux)

  • xtekky/chatgpt-clone 具有更好用户界面的聊天GPT界面

  • wong2/chatgpt-google-extension 浏览器扩展,用ChatGPT增强搜索引擎效果

  • acheong08/ChatGPT 逆向工程 ChatGPT 的API

  • ddiu8081/chatgpt-demo 基于 OpenAI GPT-3.5 Turbo API 的 demo。

  • LAION-AI/Open-Assistant 基于聊天的助理,它理解任务,可以与第三方系统互动,并能动态地检索信息。将提供基于RLHF的大型语言模型,并公开训练数据。

  • acheong08/EdgeGPT 微软必应聊天的逆向工程API

  • yoheinakajima/babyagi 使用GPT3/4来自动完成任务。一个 AI 支持的任务管理系统示例. 该系统使用 OpenAI 和 Pinecone API 创建, 优先级排序和执行任务. 该系统背后的主要思想是基于先前任务的结果和预定义的目标创建任务. 脚本然后使用 OpenAI 的自然语言处理(NLP)能力根据目标创建新任务, 并使用 Pinecone 存储和检索任务结果以获得上下文. 这是原始的任务驱动的自驱代理的简化版本.

  • TransformerOptimus/SuperAGI SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。

  • StanGirard/quivr 将所有文件和想法转储到您的生成式AI(如chatgpt)的第二大脑中并与之聊天。旨在轻松存储和检索非结构化信息。

  • transitive-bullshit/chatgpt-api OpenAI提供的ChatGPT的Node.js包装器。

  • zhayujie/chatgpt-on-wechat 用ChatGPT搭建微信聊天机器人

  • openai/openai-python OpenAI Python库提供了从用Python语言编写的应用程序对OpenAI API的方便访问。

  • chenking2020/FindTheChatGPTer ChatGPT/GPT4开源“平替”汇总,持续更新

  • madawei2699/myGPTReader 由chatGPT提供支持,Slack上的一个机器人,可以阅读和总结任何网页,包括电子书在内的文档,甚至是YouTube上的视频。它可以通过语音和你交流。

  • JosephusCheung/GuanacoDataset Guanaco 模型的数据集旨在增强多语言能力并解决各种语言任务。以 Alpaca 模型的 175个任务为基础,提供了用不同语言重写的种子任务,并添加了专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别设计的新任务。数据集总共包含53万个条目,以6k美元的低成本生成。英语\中文\日语。

  • thunlp/UltraChat 大规模、信息丰富、多样化的多轮聊天数据(和模型)

  • ziliwangnlp/RefGPT 包含5万对中文多轮对话数据。用如下方法自动生成数据。采集优质的事实型文档,reference,来源是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题。利用已有LLM生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。

  • gururise/AlpacaDataCleaned 经过清理和整理的斯坦福的羊驼数据集

  • wangrui6/Zhihu-KOL 知乎对话数据,parquet格式400多MB的大小

  • BAAI/COIG 中文开放教学通才 (COIG) 项目,以维护一套无害、有用且多样化的中文对话语料库。具体包括:人工验证的翻译指令 (67798) 、考试指令 (63532) 、人类价值对齐指令 (34471) 、反事实修正多轮聊天(13653)、Leetcode 指令 (11737)

  • nomic-ai/pyllamacpp 支持 llama.cpp + gpt4all 的 Python 绑定

  • abetlen/llama-cpp-python llama.cpp 的 Python 绑定

  • BlinkDL/ChatRWKV 使用RWKV语言模型(100%RNN)的类ChatGPT开源聊天模型。

  • rawandahmad698/PyChatGPT 非官方 ChatGPT API 的 Python 客户端,具有自动令牌重新生成、对话跟踪、代理支持等功能。

  • qunash/chatgpt-advanced 一种浏览器扩展,可通过网络结果增强您的 ChatGPT 提示。

  • liady/ChatGPT-pdf 用于将 ChatGPT 历史下载为 PNG、PDF 或创建可共享链接的 Chrome 扩展

  • imartinez/privateGPT 使用 LLM 的强大功能,无需互联网连接就可以对您的文档提出问题。 100% 私有,任何时候都没有数据离开您的执行环境。您可以在没有互联网连接的情况下提取文档和提问!

  • xtekky/gpt4free 免费使用GPT4模型 typescript版本

  • saharmor/awesome-chatgpt 精选的 ChatGPT 演示、工具、文章等

  • JushBJJ/Mr.-Ranedeer-AI-Tutor GPT-4 AI 导师提示,用于可定制的个性化学习体验。

  • binary-husky/chatgpt_academic 科研工作专用ChatGPT/GLM拓展,特别优化学术Paper润色体验,模块化设计支持自定义快捷按钮&函数插件,支持代码块表格显示,Tex公式双显示,新增Python和C++项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持gpt-3.5/gpt-4/chatglm

  • AetherCortex/Llama-X 关于将LLaMA提高到SOTA LLM的开放学术研究

  • WangRongsheng/ChatGenTitle 使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型

  • nishiwen1214/ChatReviewer 使用ChatGPT分析论文优缺点,提出改进建议

  • bhaskatripathi/pdfGPT 允许您使用 GPT 功能与 PDF 文件的内容聊天。在聊天机器人中转换您的 pdf 文件的唯一开源解决方案

  • kaixindelele/ChatPaper 全流程加速科研,利用chatgpt进行论文总结+润色+审稿+审稿回复

  • eimenhmdt/autoresearcher 使用 GPT 自动化科学工作流程

  • gragland/chatgpt-chrome-extension ChatGPT Chrome 扩展。将 ChatGPT 集成到互联网上的每个文本框中。

  • vincelwt/chatgpt-mac Mac 版 ChatGPT,就在您的菜单栏中。

  • huggingface/chat-ui 开源模型的聊天界面,例如OpenAssistant或Llama。SvelteKit应用程序,它为 hf.co/chat 上的HuggingChat应用程序提供支持。

  • GaiZhenbiao/ChuanhuChatGPT 为ChatGPT ChatGLM LLaMA StableLM MOSS等多种LLM提供了一个轻快好用的Web图形界面

  • sonnylazuardi/chat-ai-desktop 使用 Tauri 和 Rust 的 Mac 和 Windows 菜单栏的非官方 ChatGPT 桌面应用程序

  • xx025/carrot 准备了众多免费好用的ChatGPT镜像站点,当前100+站点

  • LiLittleCat/awesome-free-chatgpt 免费的 ChatGPT 镜像网站列表,持续更新。

  • yzfly/awesome-chatgpt-zh ChatGPT 中文指南,ChatGPT 中文调教指南,指令指南,精选资源清单,更好的使用 chatGPT 让你的生产力

  • terry3041/pyChatGPT OpenAI的ChatGPT API的非官方Python包装器

  • platelminto/chatgpt-conversation 用你的声音与 ChatGPT 对话,让它回话。

  • 202252197/ChatGPT_JCM OpenAI管理界面,聚合OpenAI的所有接口进行界面操作(所有模型、图片、音频、微调、文件)等,支持Markdown格式(公式、图表,表格)等

  • memochou1993/gpt-ai-assistant 使用 OpenAI API 和 LINE 消息传递 API 实现的应用程序。通过安装过程,您可以使用LINE移动应用程序开始与自己的AI助手聊天。

  • ai-boost/awesome-prompts 来自 GPT 商店中最受好评的 GPT 的精选 chatgpt 提示列表。提示工程,提示攻击和提示保护。高级提示工程论文。

  • yanqiangmiffy/Chinese-LangChain 小必应,Q.Talk,强聊,QiangTalk,基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成

  • cesarhuret/docGPT ChatGPT 直接在 Google Docs 中作为编辑器的插件

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-3.5 + DALL·E + Whisper)= 飞一般的工作体验 rocket 语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • terror/chatgpt.nvim 在 Neovim 中查询 ChatGPT

  • clmnin/summarize.site 浏览器扩展使用ChatGPT总结网页内容

  • Zero6992/chatGPT-discord-bot 将 ChatGPT 集成到您自己的discord机器人中

  • m1guelpf/chatgpt-telegram 运行您自己的GPT电报机器人,只需一个命令

  • transitive-bullshit/chatgpt-twitter-bot ChatGPT API支持的Twitter机器人

  • kxxt/chatgpt-action 让 ChatGPT 为您审查 PR 拉取请求

  • RomanHotsiy/commitgpt 使用 ChatGPT 自动生成git提交消息

  • oceanlvr/ChatGPT-ProBot 基于 ChatGPT 的 GitHub APP,键入 /chatgpt 与机器人 robot 聊天。

  • kazuki-sf/ChatGPT_Extension 非常简单的Chrome扩展(v3),您可以从网络上的任何地方访问OpenAI的ChatGPT。

  • abielzulio/chatgpt-raycast ChatGPT raycast(Mac的快捷启动器) 扩展

  • bupticybee/ChineseAiDungeonChatGPT 中文版的ai地牢,直接使用的openai的ChatGPT api作为讲故事的模型。

  • domeccleston/sharegpt 轻松与您的朋友分享 ChatGPT 对话的永久链接

  • Yidadaa/ChatGPT-Next-Web 一键拥有你自己的 ChatGPT 网页服务。

  • pengzhile/pandora 实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • Chanzhaoyu/chatgpt-web 用Express和Vue3搭建的 ChatGPT 演示网页

  • elyase/awesome-gpt3 关于 OpenAI GPT-3 API 的演示和文章的集合。

  • dair-ai/Prompt-Engineering-Guide 提示工程是一门相对较新的学科,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解大型语言模型 (LLM) 的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。开发人员使用提示工程来设计与 LLM 和其他工具交互的强大且有效的提示技术。

  • reworkd/AgentGPT 在浏览器中组装、配置和部署自治 AI 代理。为您自己的自定义 AI 命名,让它开始任何可以想象的目标。它将尝试通过思考要完成的任务、执行它们并从结果中学习来达到目标。

  • openai/chatgpt-retrieval-plugin ChatGPT 检索插件可让您通过自然语言提问来轻松查找个人或工作文档。

  • kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference 在本地CPU推理上运行Llama 2和其他开源LLM,用于文档问答

  • Bin-Huang/chatbox 开源的 ChatGPT API (OpenAI API) 桌面客户端,Prompt 的调试与管理工具,支持 Windows、Mac 和 Linux

  • openai/openai-cookbook 使用 OpenAI API 的示例和指南

  • smol-ai/developer 随着Anthropic Claude的100k 上下文窗口的出现,现在每个开发人员都可以拥有自己的辅助开发助手

  • e2b-dev/e2b 允​​许您创建和部署虚拟软件开发人员。这些虚拟开发人员由专门的 AI 代理提供支持,这些代理可以根据您的指令构建软件并可以使用工具。

  • csunny/DB-GPT 使用本地 GPT 与您的数据和环境交互,无数据泄漏,100% 私密,100% 安全 目前支持Vicuna(7b, 13b), ChatGLM-6b(int4, int8)

  • acheong08/Bard Google 的 Bard 聊天机器人 API 的逆向工程

  • jtsang4/claude-to-chatgpt 将 Anthropic 的 Claude 模型的 API 转换为 OpenAI Chat API 格式。

  • databrickslabs/dolly dolly-v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布

  • openlm-research/open_llama 一个在RedPajama数据集上训练的Meta AI的LLaMA 7B的许可开源复制品。

  • mbzuai-nlp/LaMini-LM 来自大规模指令的多样化蒸馏模型群。从ChatGPT提炼出来的小型高效语言模型的集合,并在2.58M指令的大规模数据集上进行训练。我们通过执行句子/离线提炼从大型语言模型中提取知识。我们基于几个现有的提示资源,使用 gpt-3.5-turbo 生成总共 2.58M 对指令和响应。

  • microsoft/TaskMatrix 连接了ChatGPT和一系列Visual Foundation模型,以便在聊天期间发送和接收图像。

  • huggingface/peft 最先进的参数高效微调 (PEFT) 方法,LoRA、Prefix Tuning、P-Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。

  • artidoro/qlora 量化LLM的有效微调。QLoRA使用bitsandbytes进行量化。QLoRA是一种高效的微调方法,可减少内存使用量,足以在单个 48GB GPU 上微调 65B 模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练LM将梯度反向传播到低秩适配器 (LoRA) 中。我们最好的模型 Guanaco,在 Vicuna 基准测试中优于之前所有公开的模型,达到了 ChatGPT 性能水平的 99.3%,而只需在单个 GPU 上进行 24 小时的微调。QLoRA 引入了许多创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种理论上最适合正态分布权重的新数据类型 (b) 双重量化,通过量化常量来减少平均内存占用,以及 (c) 分页优化器来管理内存峰值。我们使用QLoRA对1k个模型进行微调,对 8 个指令数据集、多种模型(LLaMA、T5)和模型规模(如33B和65B参数)的指令遵循和聊天机器人性能进行详细分析。结果表明,QLoRA在小型高质量数据集上进行微调可以产生最先进的结果,即使用比以前的SoTA更小的模型也是如此。GPT4评估是人类评估的廉价且合理的替代方案。当前的聊天机器人基准测试不值得信赖,无法准确评估聊天机器人的性能水平。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。

  • hiyouga/ChatGLM-Efficient-Tuning 基于 PEFT 的高效 ChatGLM 微调

  • ZrrSkywalker/LLaMA-Adapter 在1小时内遵循指令微调LLaMA , 1.2M参数

  • h2oai/h2o-llmstudio 用于微调LLM的框架和无代码GUI。轻松有效地微调LLM,无需任何编码经验。使用专为大型语言模型设计的GUI。使用各种超参数微调任何LLM。使用最新的微调技术,例如低秩适配 (LoRA) 和具有低内存占用的 8 位模型训练。使用强化学习 (RL) 微调模型(实验性)。使用高级评估指标来判断模型生成的答案。直观地跟踪和比较模型性能。

  • stochasticai/xTuring 轻松构建、定制和控制您自己的 LLM。提供快速、高效和简单的LLM微调,如LLaMA,GPT-J,Galactica等。通过提供一个易于使用的界面来微调LLM到您自己的数据和应用程序,xTuring使构建,自定义和控制LLM变得简单。整个过程可以在您的计算机内部或私有云中完成,确保数据隐私和安全。

  • punica-ai/punica 将多个 LoRA 微调 LLM 作为一个整体提供服务。Punica 支持运行多个 LoRA 微调模型,但代价是运行一个模型。通过分段收集矩阵向量乘法 (SGMV)的 LoRA 是高效的,并保留了强大的批处理效果.

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。存储库包含:

    • 英语教学 - 遵循数据由 GPT-4 使用 Alpaca 提示进行微调 LLM。
    • 由 GPT-4 使用由 ChatGPT 从羊驼翻译的中文提示生成的中文指令跟踪数据。
    • 按 GPT-4 排名以训练奖励模型的比较数据。
    • 关于非自然指令的答案 来自 GPT-4 的数据,用于大规模量化 GPT-4 和指令调整模型之间的差距。
  • lxe/simple-llm-finetuner 初学者友好的界面,旨在通过商用NVIDIA GPU上的PEFT库,使用LoRA方法微调各种语言模型。使用较小的数据集和 256 的样本长度,您甚至可以在常规的 Colab Tesla T4 实例上运行它。

  • Jittor/JittorLLMs 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点。成本低:相比同类框架,本库可大幅降低硬件配置要求(减少80%),没有显卡,2G内存就能跑大模型;支持广:目前支持了4种大模型:ChatGLM大模型、鹏程盘古大模型、BlinkDL的ChatRWKV、国外Meta的LLaMA大模型等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。

  • RUCAIBox/LLMSurvey 与大型语言模型相关的论文和资源集合。

  • Lunabot 在任何网页为你服务的AI助理,通过快捷指令释放AI工作潜力,无需KEY和ChatGPT账号

  • jerryjliu/llama_index 您的 LLM 应用程序的数据框架。高级 API 允许初学者使用 LlamaIndex 在 5 行代码中摄取和查询他们的数据。我们的低级 API 允许高级用户自定义和扩展任何模块(数据连接器、索引、检索器、查询引擎、重新排名模块)以满足他们的需求。

  • amazon-science/mm-cot 语言模型中的多模式思维链推理。包括两个训练阶段:(i) 基本原理生成和 (ii) 答案推理。这两个阶段共享相同的模型架构,但输入和输出不同。

  • haotian-liu/LLaVA 面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。

  • BradyFU/Awesome-Multimodal-Large-Language-Models 多模态大型语言模型的最新论文和数据集

  • THUDM/VisualGLM-6B 多模态中英双语对话语言模型

  • LC1332/Luotuo-Silk-Road 中文大语言模型的数据。对话与指令数据集:Luotuo-Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding

  • logspace-ai/langflow LangChain(大语言模型链式开发工具,强大的框架,可以简化构建高级语言模型应用程序的过程。) 的 UI,采用反应流设计,提供一种轻松的方式来实验和原型流。

  • liaokongVFX/LangChain-Chinese-Getting-Started-Guide LangChain 的中文入门教程

  • YeungNLP/firefly-train-1.1M 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。

  • togethercomputer/RedPajama-Data 包含用于准备大型数据集以训练大型语言模型的代码。重现LLaMA训练数据集的开源配方。Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia、StackExchange。合计1.2万亿令牌

  • Voine/ChatWaifu_Mobile 移动版二次元 AI 老婆聊天器 语言大模型来自 GhatGPT\语音推理为客户端本地 VITS - ncnn\图形渲染基于 Native Live2D\语音输入识别为客户端本地 Sherpa - ncnn

  • yizhongw/self-instruct 将预训练的语言模型与自身生成的指令数据对齐。自我指导是一个框架,可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己的代数来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。自指令过程是一种迭代引导算法,它从一组手动编写的指令种子开始,并使用它们来提示语言模型生成新指令和相应的输入输出实例。然后对这些世代进行过滤以删除低质量或类似的代数,并将生成的数据添加回任务池。此过程可以重复多次,从而产生大量教学数据,可用于微调语言模型以更有效地遵循说明。

  • Timothyxxx/Chain-of-ThoughtsPapers 大型语言模型中的思维链促使引出推理。思想链论文集合

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • YiVal/YiVal 一个开源的 GenAI-Ops 工具,用于使用可自定义的数据集、评估方法和改进策略来调整和评估提示、配置和模型参数。

  • jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 聚宝盆(Cornucopia): 基于中文金融知识的LLaMA微调模型;涉及SFT、RLHF、GPU训练部署等

  • THUDM/WebGLM 迈向具有人类偏好的高效网络增强问答系统。WebGLM希望使用100亿参数的GLM,提供高效且具有成本效益的Web增强问答系统。它旨在通过将 Web 搜索和检索功能集成到预先训练的语言模型中来改进实际应用程序部署。

  • FlowiseAI/Flowise 拖放UI以构建自定义LLM流程

  • xcanwin/KeepChatGPT ChatGPT的畅聊与增强插件。开源免费。不仅能解决所有报错不再刷新,还有保持活跃、取消审计、克隆对话、净化首页、展示大屏、展示全屏、言无不尽、拦截跟踪、日新月异等多个高级功能。让我们的AI体验无比顺畅、丝滑、高效、简洁。

  • ShishirPatil/gorilla LLM的API商店 。使 LLM 能够通过调用 API 来使用工具。给定一个自然语言查询,Gorilla 会提出语义和语法上正确的 API 来调用。通过Gorilla,我们是第一个演示如何使用LLM准确调用1,600+(并且不断增长的)API调用,同时减少幻觉的人。

  • microsoft/guidance 指南使你能够比传统的提示或链接更有效、更高效地控制新式语言模型。指导程序允许您将生成、提示和逻辑控制交错到单个连续流中,以匹配语言模型实际处理文本的方式。简单的输出结构,如思维链及其许多变体(例如,ART,Auto-CoT等)已被证明可以提高LLM的性能。像 GPT-4 这样更强大的 LLM 的出现允许更丰富的结构,而 guidance 使该结构更容易、更便宜。

  • fuergaosi233/wechat-chatgpt 通过微信在微信上使用ChatGPT

  • steven-tey/novel Notion风格的所见即所得编辑器,具有 AI 驱动的自动完成功能。

  • h2oai/h2ogpt 私人问答和文档+图像摘要或与本地GPT聊天,100%私人,Apache 2.0。支持 LLaMa2、llama.cpp等。

  • chat2db/Chat2DB 一个智能且通用的通用SQL客户端和数据库报告工具,集成了ChatGPT功能。能够将自然语言转换为SQL。还可以将SQL转换为自然语言,并为SQL提供优化建议,从而大大提高开发人员的效率。

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 旨在共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。

  • akoksal/LongForm 使用语料库提取生成长文本的指令调优数据集和模型。通过利用英语语料库示例和增强指令创建的。从现有的语料库(如C4和维基百科)中选择一组多样化的人类编写的文档,并通过LLM为给定的文档生成指令。然后,用结构化的语料库示例(如Stack Exchange和WikiHow)和任务示例(如问答,电子邮件写作,语法错误更正,故事/诗歌生成和文本摘要)来扩展这些示例。

  • BelleGroup/train_3.5M_CN 约350万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_2M_CN 约200万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_1M_CN 约100万条由BELLE项目生成的中文指令数据。

  • BelleGroup/train_0.5M_CN 约50万条由BELLE项目生成的中文指令数据。

  • BelleGroup/generated_chat_0.4M 包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。

  • BelleGroup/school_math_0.25M 包含约25万条由BELLE项目生成的中文数学题数据,包含解题过程。

  • juletxara/mgsm 多语言小学数学基准(MGSM)是小学数学问题的基准。8.5K高质量语言多样化的小学数学单词问题的数据集。创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。

  • XueFuzhao/InstructionWild InstructWild v2,其中包括超过 110K 个基于用户的高质量指令。我们没有使用自导来生成任何指令。我们还用指令类型和特殊标签标记这些指令的子集。

  • sunzeyeah/chinese_chatgpt_corpus 该存储库收集了用于监督微调(SFT)和来自人类反馈的强化学习(RLHF)的中文语料库。

  • PlexPt/chatgpt-corpus ChatGPT 中文语料库 对话语料 小说语料 客服语料 用于训练大模型

  • zxbsmk/webnovel_cn 从12560本网文提取的约21.7M条可用于训练小说生成的中文指令数据

  • QingyiSi/Alpaca-CoT 该存储库将不断收集各种指令调优数据集。并且我们将不同的数据集标准化为相同的格式,可以直接通过羊驼模型的代码加载。

  • datasets/BAAI/COIG 中文开放教学通才(COIG)项目来维护一套无害、有用和多样化的中文教学语料库。BAAI-Zlab/COIG

  • CLUEbenchmark/pCLUE 基于提示的大规模预训练数据集,用于多任务学习和零样本学习,120万训练数据。

  • X-PLUG/CValues 面向中文大模型价值观的评估与对齐研究。邀请中国知名专家学者,每位专家提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。项目吸引了环境科学、心理学、法理学等多个领域专家参与,并召开了专家研讨会,会后发布业内首个大语言模型治理开源中文数据集100PoisonMpts,包含专家提出的问题、专家自己撰写或认可的答案。

  • DA-southampton/RedGPT 提出一种自动生成事实型对话的方法,并公开我们的部分数据。我们公开的第一批数据(RedGPT-Dataset-V1-CN)共包含5万条中文多轮对话。目标是自动生成海量、高质量、事实型多轮对话,用于训练GPT,提升GPT的事实正确性。我们采用如下方法自动生成数据。1. 采集优质的事实型文档,我们称之为reference,其来源可以是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题,包括但不限于人物、机构、科技、医疗、法律、人文、经济、家居、汽车、出行、美食、时尚、体育、教育、宠物。2. 利用已有的LLM(例如付费API)生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API会输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。3. 第2步收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型(可以基于LLaMA或BLOOM的预训练基座)。我们将微调出的模型称作Reference-Enlightened-Dialogue GPT,缩写RedGPT。有了RedGPT,即可基于reference生成多轮对话,获得海量的数据。

  • X-PLUG/ChatPLUG 旨在建立和共享一个中文开放域对话系统。在推理过程中集成外部知识是灵活的,这是一个可选的输入。您可以利用 获取最新信息或使用本地知识库获取 search engine 领域知识。通过设置 bot profiles 或使用 role-paly instructions 来自定义对话和字符的样式很容易。它通过多轮对话展示了其在开放领域对话方面的熟练程度,同时也在广泛的 NLP 任务上表现出色 multi-task abilities 。

  • chathub-dev/chathub 多合一的聊天机器人客户端。在一个应用程序中使用不同的聊天机器人,目前支持ChatGPT,新的Bing Chat,Google Bard,Claude和10 +开源模型,包括Alpaca,Vicuna,ChatGLM等。

  • lencx/nofwl 一个跨平台的桌面应用,它可以让你和一个基于 GPT-3 的聊天机器人进行有趣的对话。

  • songquanpeng/one-api OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问以及 360 智脑,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用.

  • labring/FastGPT 基于 LLM 构建的基于知识的 QA 系统,提供开箱即用的数据处理和模型调用功能,允许通过 Flow 可视化进行工作流编排

  • go-skynet/LocalAI 自托管、社区驱动、本地 OpenAI 兼容 API。在消费级硬件上运行LLM的OpenAI的直接替代品。免费的开源OpenAI替代品。LocalAI是一个运行ggml兼容模型的API:llama,gpt4all,rwkv,whisper,vicuna,koala,gpt4all-j,cerebras,falcon,dolly,starcoder和许多其他

  • getumbrel/llama-gpt 一个自托管的、离线的、类似 ChatGPT 的聊天机器人。由骆驼 2 提供动力。100%私密,没有数据离开您的设备。新功能:代码支持

  • sunner/ChatALL 同时与ChatGPT,Bing Chat,Bard,Alpaca,Vicuna,Claude,ChatGLM,MOSS,讯飞星火,文心一言等聊天,发现最佳答案

  • li-plus/chatglm.cpp C++实现ChatGLM-6B和ChatGLM2-6B,以便在MacBook上进行实时聊天。

  • ztxz16/fastllm 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行

  • gventuri/pandas-ai Python库,它将生成人工智能功能集成到Pandas中,使数据帧成为对话式的。为流行的数据分析和操作工具pandas添加了生成AI功能。

  • howl-anderson/unlocking-the-power-of-llms 使用 Prompts 和 Chains 让 ChatGPT 成为神奇的生产力工具

  • eugeneyan/open-llms 可用于商业用途的开放LLM列表。

  • Mooler0410/LLMsPracticalGuide LLM实用指南资源的精选列表。它基于我们的调查论文:在实践中利用LLM的力量:关于ChatGPT及其他的调查。该调查部分基于本博客的后半部分。我们还构建了现代大型语言模型(LLM)的进化树,以追踪近年来语言模型的发展,并重点介绍一些最著名的模型。

  • imaurer/awesome-decentralized-llm LLM资源的集合,可用于构建您可以“拥有”的产品或进行可重复的研究。

  • Open LLM Leaderboard 开放LLM排行榜旨在跟踪,排名和评估LLM和聊天机器人的发布。

  • EwingYangs/awesome-open-gpt GPT相关开源项目合集

  • botpress/botpress 由 OpenAI 提供支持的下一代聊天机器人和助手的终极平台。开始以闪电般的速度为您的项目或业务构建令人难以置信的助手。

  • dice2o/BingGPT 新必应AI聊天的桌面应用程序(Windows,macOS和Linux)

  • josStorer/chatGPTBox 将 ChatGPT 深度集成到您的浏览器中,您需要的一切都在这里

  • lss233/chatgpt-mirai-qq-bot 一键部署!真正的 AI 聊天机器人!支持ChatGPT、文心一言、讯飞星火、Bing、Bard、ChatGLM、POE,多账号,人设调教,虚拟女仆、图片渲染、语音发送 | 支持 QQ、Telegram、Discord、微信 等平台

  • promptslab/Promptify 使用 LLM 解决 NLP 问题,并使用 Promptify 轻松为流行的生成模型(如 GPT、PaLM 等)生成不同的 NLP 任务提示

  • enricoros/big-agi 由 GPT-4 及更高版本提供支持的个人 AI 应用程序,具有 AI 角色、AGI 功能、文本到图像、语音、响应流、代码突出显示和执行、PDF 导入、开发人员预设等等。使用Next.js,React,Joy。

  • jaymody/picoGPT NumPy实现的一个不必要的微小的GPT-2。40 行代码。

  • bentoml/OpenLLM 用于在生产中操作大型语言模型 (LLM) 的开放平台。轻松微调、服务、部署和监控任何 LLM。

  • karpathy/llama2.c 在一个纯 C 文件中推理Llama 2大型语言模型

  • geekan/MetaGPT 多代理框架:给定一行需求,返回 PRD、设计、任务、存储库。为 GPT 分配不同的角色,以形成用于复杂任务的协作软件实体。

  • ModelTC/lightllm 基于Python的LLM(大型语言模型)推理和服务框架,以其轻量级设计,易于扩展和高速性能而著称。LightLLM利用了许多备受推崇的开源实现的优势,包括但不限于FasterTransformer,TGI,vLLM和FlashAttention。

  • PanQiWei/AutoGPTQ 易于使用的LLM量化包,有用户友好的API,基于GPTQ算法。

  • princeton-nlp/tree-of-thought-llm 正式实现“思想之树:用大语言模型刻意解决问题”

  • thomas-yanxin/LangChain-ChatGLM-Webui 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答

  • ssbuild/chatglm_finetuning Chatglm 6b微调和羊驼微调

  • liucongg/ChatGLM-Finetuning 基于ChatGLM-6B、ChatGLM2-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等

  • HqWu-HITCS/Awesome-Chinese-LLM 整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。

  • OpenGVLab/Ask-Anything [视频聊天GPT]聊天GPT与视频理解!还有更多支持的LM,如miniGPT4,StableLM和MOSS。

  • OpenMotionLab/MotionGPT 一个统一且用户友好的运动语言模型,用于学习两种模态的语义耦合,并在多个运动任务上生成高质量的运动和文本描述。

  • Hannibal046/Awesome-LLM 大型语言模型(LLM)已经席卷了NLP社区AI社区的整个世界。以下是关于大型语言模型的精选论文列表,尤其是与 ChatGPT 相关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和API。

  • DSXiangLi/DecryptPrompt 总结Prompt&LLM论文,开源数据&模型,AIGC应用

  • GoogleCloudPlatform/generative-ai 包含笔记本、代码示例、示例应用和其他资源,用于演示如何使用 Google Cloud 上的生成式 AI 使用、开发和管理生成式 AI 工作流程,这些工作流由 Vertex AI 和生成式 AI App Builder 提供支持。

  • catqaq/ChatPiXiu 开源chatgpt替代方案/实现的调查,复制和领域/任务适应。

  • DAMO-NLP-SG/LLM-Zoo 本项目收集了以下各种开源和闭源LLM的信息

  • wgwang/LLMs-In-China 旨在记录中国大模型发展情况

  • OpenBMB/BMList 希望使用此列表来显示大模型的最新趋势。

  • nichtdax/awesome-totally-open-chatgpt ChatGPT 的完全开放的替代品列表

  • ikaijua/Awesome-AITools 收藏AI相关的实用工具,大型语言模型

  • datawhalechina/prompt-engineering-for-developers 面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版

  • datawhalechina/hugging-llm 拥抱LLM,拥抱未来。介绍 ChatGPT 原理、使用和应用,降低使用门槛,让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

  • promptingguide.ai/zh 提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。基于对大语言模型的浓厚兴趣,我们编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。

  • phodal/aigc 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

  • prompt-engineering/understand-prompt 理解 Prompt:基于编程、绘画、写作的 AI 探索与总结

  • brexhq/prompt-engineering 使用大型语言模型(如 OpenAI 的 GPT-4)的提示和技巧。

  • mshumer/gpt-prompt-engineer 只需输入任务的描述和一些测试用例,系统就会生成、测试和排名大量提示,以找到性能最佳的提示。

  • km1994/LLMsNineStoryDemonTower 分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。

  • iguodongiot/llm-action 本项目旨在分享大模型相关技术原理以及实战经验。

  • hiyouga/LLaMA-Efficient-Tuning 易于使用的LLM微调框架(LLaMA-2,BLOOM,Falcon,Baichuan,Qwen,ChatGLM2)

  • FlagOpen/FlagEval AI大型基础模型的评估工具包。我们的目标是探索和整合科学、公平、开放的基础模型评估基准、方法和工具。FlagEval将在未来支持在不同模态(如NLP,音频,CV和多模态)中/跨基础模型的多维评估(如准确性,效率,鲁棒性等)。我们希望通过对基础模型的评估,加深对基础模型的理解,促进相关的技术创新和产业化应用。

  • InternLM/opencompass LLM评估平台,支持超过50 +数据集的各种模型(LLaMA,LLaMa2,ChatGLM2,ChatGPT,Claude等)。

  • OpenLMLab/GAOKAO-Bench 一个评估框架,利用高考问题作为数据集来评估大型语言模型。

  • mikegu721/xiezhibenchmark 獬豸是语言模型(LMs)的综合评估套件。它由249587道多项选择题组成,涵盖 516 个不同的学科和四个难度级别。希望可以帮助开发人员跟踪进度并分析其LM的重要优势/缺点。

  • haonan-li/CMMLU 综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

  • CLUEbenchmark/SuperCLUElyb SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准

  • Felixgithub2017/MMCU 本评测只是对大模型语义理解能力的测试,并不能代表模型的全面能力评测,评测结果仅供参考。整个评测方式、评测数据集、评测记录都公开,确保可以复现。

  • Felixgithub2017/CG-Eval 此项测试中,受测的中文大语言模型需要对科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试这六个大科目类别下的55个子科目的1.1W不同类型问题做出准确且相关的回答。 我们设计了一套复合的打分系统,对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和。对于计算题目,我们会提取最终计算结果和解题过程,然后综合打分。

  • GAIR-NLP/factool 工具增强框架,用于检测由大型语言模型(例如ChatGPT)生成的文本的事实错误。Factool现在支持4个任务:基于知识的QA:Factool检测基于知识的QA中的事实错误。代码生成:Factool检测代码生成中的执行错误。数学推理:Factool检测数学推理中的计算错误。科学文献综述:Factool检测幻觉的科学文献。

  • jeinlee1991/chinese-llm-benchmark 中文大模型能力评测榜单:覆盖文心一言、chatgpt、通义千问、讯飞星火、belle / chatglm 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

  • CLUEbenchmark/CLUE 中文语言理解测评基准 中文理解评估基准:数据集、基线、预训练模型、语料库和排行榜

  • CLUEbenchmark/SuperCLUE 中文通用大模型综合性基准。superclueai

  • hkust-nlp/ceval 一个全面的中文基础模型评估套件。它由 13948 道多项选择题组成,涵盖 52 个不同的学科和四个难度级别

  • LaVi-Lab/CLEVA 由香港中文大学LaVi实验室开发的中文模型评估平台,主要功能包括:综合中文基准,包含31个任务(11个应用评估+20个能力评估任务),共37万个中文测试样本(33.98%是新采集的,缓解数据污染问题);标准化的基于提示的评估方法,包含对所有数据的统一预处理,并使用一套一致的中文提示模板进行评估。值得信赖的排行榜,因为使用大量新数据来最大限度地减少数据污染并定期组织评估。

  • EleutherAI/lm-evaluation-harness 自回归语言模型的少样本评估框架。

  • declare-lab/instruct-eval 用于定量评估指令调优模型的代码。Flan-T5和Alpaca等指令调整模型代表了一个令人兴奋的方向,以更低的成本接近ChatGPT等大型语言模型(LLM)的性能。但是,定性比较不同模型的性能具有挑战性。为了评估模型在各种看不见和具有挑战性的任务中的泛化程度,我们可以使用MMLU和BBH等学术基准。与评估工具和 HELM 等现有库相比,此存储库可以简单方便地评估多个模型。支持HuggingFace Transformers 的大多数模型。

  • DAMO-NLP-SG/M3Exam 一种新颖的基准,来自真实和官方的人类考试问题,用于在多语言,多模态和多层次的背景下评估LLM。

  • tjunlp-lab/M3KE 面向汉语大语言模型的大规模多层次多学科知识评估基准

  • thu-coai/Safety-Prompts 中文安全prompts,评估和提升大模型的安全性。

  • linexjlin/GPTs 此存储库收集泄露的 各种 GPT 提示词。

  • RUCAIBox/HaluEval 大型语言模型的大规模幻觉评估基准。包括 5,000 个带有 ChatGPT 响应的一般用户查询和来自三个任务的 30,000 个特定于任务的示例,即问答、基于知识的对话和文本摘要。

  • noahshinn024/reflexion 反思:语言代理与语言强化学习,提出了Reflexion框架,使用语言反馈信号(verbalre inforcement)来帮助agent从先前的失败经验中学习。具体地,Reflexion将传统梯度更新中的参数信号转变为添加在大模型上下文中的语言总结,使得agent在下一个episode中能参考上次执行失败的失败经验,从而提高agent的执行效果。这个过程和人类反思(reflexion)过程十分相似。

  • Azure-Samples/azure-search-openai-demo 在 Azure 中运行的检索增强生成模式的示例应用,使用 Azure 认知搜索进行检索,并使用 Azure OpenAI 大型语言模型为 ChatGPT 风格和问答体验提供支持。

  • sindresorhus/awesome-chatgpt 基于ChatGPT 开发的应用的列表 — 由 OpenAI 开发的人工智能聊天机器人

  • smol-ai/GodMode AI聊天浏览器:快速,完整的网络应用程序访问ChatGPT / Claude / Bard / Bing / Llama2

  • llm-workflow-engine/llm-workflow-engine 适用于 LLM 的 命令行工具 和工作流管理器(核心包)

  • Yue-Yang/ChatGPT-Siri Siri的快捷方式使用ChatGPT API gpt-3.5-turbo和gpt-4模型,支持连续对话,配置API密钥并保存聊天记录。由 ChatGPT API gpt-3.5-turbo & gpt-4 模型驱动的智能 Siri,支持连续对话,配置API key,配置系统prompt,保存聊天记录。

  • skydoves/chatgpt-android 在 Android 上使用 Stream Chat SDK for Compose 演示 OpenAI 的 ChatGPT。

  • Licoy/ChatGPT-Midjourney 一键拥有自己的 ChatGPT+Midjourney 网页服务

  • JimmyLv/BibiGPT-v1 音视频内容 AI 一键总结 & 对话:哔哩哔哩丨YouTube丨推特丨小红书丨抖音丨快手丨百度网盘丨阿里云盘丨网页丨本地文件等

  • 0xk1h0/ChatGPT_DAN 越狱提示,巧妙的解决方法,使我们能够充分利用 ChatGPT 的全部潜力。

  • waylaidwanderer/node-chatgpt-api ChatGPT 和 Bing AI 的客户端实现。可用作node.js模块、REST API 服务器和 CLI 应用程序。

  • khoj-ai/khoj 第二个大脑的AI副驾驶。在线或离线搜索和聊天您的个人知识库

  • yihong0618/xiaogpt 使用小米AI扬声器播放ChatGPT和其他LLM

  • openai/plugins-quickstart 在 5 分钟内启动并运行 ChatGPT 插件!

  • futantan/OpenGpt 在几秒钟内创建您自己的聊天GPT应用程序。

  • wzpan/wukong-robot 一个简单、灵活、优雅的中文语音对话机器人/智能音箱项目,支持ChatGPT多轮对话能力,还可能是首个支持脑机交互的开源智能音箱项目。

  • openai-translator/bob-plugin-openai-translator 基于 ChatGPT API 的文本翻译、文本润色、语法纠错 Bob 插件,让我们一起迎接不需要巴别塔的新时代

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-4 + DALL·E + Whisper)= 飞一般的工作体验,语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • xiangsx/gpt4free-ts 提供免费的OpenAI GPT-4 API!这是 xtekky/gpt4free 版本的复制项目

  • sashabaranov/go-openai 为 OpenAI API 提供了非官方的 Go 客户端

  • ztjhz/BetterChatGPT OpenAI的ChatGPT(网站+ Windows + MacOS + Linux)的惊人UI。Better ChatGPT 是任何想要体验对话式 AI 无限力量的人的终极目的地。没有限制,完全免费使用,充分利用OpenAI的ChatGPT API的全部潜力,为您提供无与伦比的聊天机器人体验。

  • ramonvc/freegpt-webui GPT 3.5/4 与聊天网页用户界面。无需 API 密钥。

  • vercel/ai 使用 React、Svelte、Vue 和 Solid 构建 AI 驱动的应用程序

  • reorx/awesome-chatgpt-api 精选的应用程序和工具列表,这些应用程序和工具不仅使用新的 ChatGPT API,还允许用户配置自己的 API 密钥,从而免费和按需使用自己的配额。

  • embedchain/embedchain LLM 的数据平台 - 加载、索引、检索和同步任何非结构化数据,可以在任何数据集上轻松创建LLM驱动的机器人。支持的数据类型:视频、PDF、网页、网站地图、文档等

  • shibing624/textgen 文本生成模型的实现,包括LLaMA,BLOOM,GPT2,BART,T5,SongNet等。文本生成模型,实现了包括LLaMA,ChatGLM,BLOOM,GPT2,Seq2Seq,BART,T5,UDA等模型的训练和预测,开箱即用。

  • wangrui6/Zhihu-KOL 用于训练开放助手的知乎数据

  • JosephusCheung/GuanacoDataset Guanaco模型的数据集旨在增强多语言能力并解决各种语言任务。它以 Alpaca 模型中的 175 个任务为基础,提供不同语言的种子任务重写,并添加专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别而设计的新任务。该数据集总共包含 534,530 个条目,以 6K 美元的低成本生成。

  • shawwn/llama-dl 高速下载 LLaMA,Facebook 的 65B 参数 GPT 模型

  • mit-han-lab/streaming-llm 具有注意力接收器的高效流语言模型,可以无限长度地输入LLM进行推理,而不会牺牲效率和性能。在需要长时间交互的多轮对话等流应用程序中部署大型语言模型 (LLM),但存在两个主要挑战。首先,在解码阶段,缓存先前令牌的键和值状态 (KV) 会消耗大量内存。其次,流行的LLM不能推广到比训练序列长度更长的文本。窗口注意,其中仅缓存最新的 KV,是一种自然的方法---但我们表明,当文本长度超过缓存大小时,它会失败。我们观察到一个有趣的现象,即注意力下沉,即保留初始代币的 KV 将在很大程度上恢复窗口注意力的性能。在本文中,我们首先证明了注意力下沉的出现是由于对初始令牌作为“接收器”的强烈注意力得分,即使它们在语义上并不重要。基于上述分析,我们引入了StreamingLLM,这是一个高效的框架,使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度,而无需任何微调。StreamingLLM可以使Llama-2,MPT,Falcon和Pythia使用多达400万个代币或更多代币执行稳定高效的语言建模。此外,发现在预训练期间添加占位符令牌作为专用的注意力接收器可以进一步改进流式处理部署。在流设置中,StreamingLLM 的性能优于滑动窗口重新计算基线高达 22.2 倍的加速。

  • OpenBMB/AgentVerse 提供了一个灵活的框架,简化了为大型语言模型 (LLM) 构建自定义多代理环境的过程。

  • hahnyuan/PB-LLM 提出了部分二值化LLM(PB-LLM)的方法,可以实现极端低比特量化,同时保持量化LLM的语言推理能力。 具体来说,我们的探索首先揭示了现有二值化算法朴素应用的无效性,并强调了显著权重在实现低比特量化中的重要作用。因此,PB-LLM在二值化过程中过滤了一小部分突出权重,将它们分配给更高位的存储,即部分二值化。PB-LLM通过从训练后量化(PTQ)和量化感知训练(QAT)的角度进行分析,扩展以恢复量化LMM的能力。在PTQ下,结合GPTQ的概念,我们重构了以Hessian矩阵为指导的二值化权重矩阵,并成功恢复了PB-LLM在低位的推理能力。在QAT下,我们在训练过程中冻结了显著权重,探索了对最小化量化误差至关重要的最优比例因子的推导,并提出了一种基于该派生的残差二值化权重缩放策略的缩放机制。这些探索和开发的方法大大有助于恢复低比特量化LLM的性能,并在LLM的网络二值化领域取得实质性进展。

  • openai/openai-python OpenAI API 的官方 Python 库。提供了从用 Python 语言编写的应用程序对 OpenAI API 的便捷访问。它包括一组预定义的API资源类,这些类从API响应动态初始化自身,使其与各种版本的OpenAI API兼容。

  • Lightning-AI/lit-llama 基于nanoGPT的LLaMA语言模型的实现。支持flash注意力, Int8 和 GPTQ 4 位量化, LoRA 和 LLaMA 适配器微调, 预训练.Apache 2.0 许可。

  • NVIDIA/TensorRT-LLM TensorRT-LLM 为用户提供了一个易于使用的 Python API,用于定义大型语言模型 (LLM) 并构建包含最先进优化的 TensorRT 引擎,以便在 NVIDIA GPU 上高效执行推理。TensorRT-LLM还包含用于创建Python的组件,以及执行这些TensorRT引擎的C++运行时。

  • HuiMi24/chatppt 由chatgpt提供支持,它可以帮助您生成PPT /幻灯片。它支持英文和中文输出

  • zhile-io/pandora 潘多拉实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • cpacker/MemGPT 创建具有自我编辑记忆的永久聊天机器人!Memory-GPT是一个系统,它智能地管理LLM中的不同内存层,以便在LLM的有限上下文窗口中有效地提供扩展上下文。例如,MemGPT 知道何时将关键信息推送到矢量数据库,以及何时在聊天中检索它,从而实现永久对话。

  • NExT-GPT/NExT-GPT 任意多模态大语言模型,第一个端到端MM-LLM,可感知输入并以文本,图像,视频和音频等的任意组合(任意对任意)生成输出。NExt-GPT建立在现有的预训练LLM,多模态编码器和SoTA扩散模型之上,具有足够的端到端指令调谐。1. 多模态编码阶段。利用已建立的编码器以各种模式对输入进行编码,其中这些表示通过投影层投影为LLM可理解的类似语言的表示。2. LLM理解和推理阶段。利用现有的开源LLM作为核心来处理语义理解和推理的输入信息。LLM不仅直接生成文本标记,而且还生成独特的“模态信号”标记,这些令牌作为指令来指示解码层是否以及相应地输出什么模态内容。3. 多模式生成阶段。基于变压器的输出投影层通过来自LLM(如果有)的特定指令接收多模态信号,将信号令牌表示映射到以下多模态解码器可以理解的表示中。

  • mleoking/PromptAppGPT 一个基于提示的低代码快速应用开发框架。包含低代码提示开发、GPT 文本生成、DALLE 图像生成、在线提示编辑器+编译器+运行器、自动用户界面生成、支持插件扩展等功能。PromptAppGPT旨在实现基于GPT的自然语言应用程序开发。

  • EmbraceAGI/LifeReloaded 由GPT-4的“高级数据分析”功能提供支持的生活模拟游戏,为您提供第二次生活机会。由GPT4的Advanced Data Analysis功能驱动的人生重来模拟器,给您人生第二春。

  • srush/llama2.rs CPU 上 Llama2 推理的 Rust 实现

  • OpenLMLab/LOMO 提出了一个新的优化器,LOw-Memory Optimization,它将梯度计算和参数更新融合在一步中,以减少内存使用。 我们的方法使得在单张 RTX 3090 上可以进行 7B 模型的全参数微调,或者在单个 8×RTX 3090 的机器上可以进行 65B 模型的全参数微调(RTX 3090 的内存为 24GB)。

  • spcl/graph-of-thoughts 思想图Graph of Thoughts (GoT):用大型语言模型解决复杂问题的官方实现。此框架使您能够通过将复杂问题建模为操作图 (GoO) 来解决复杂问题,该操作图以大型语言模型 (LLM) 作为引擎自动执行。该框架设计为灵活且可扩展,不仅允许您使用新的 GoT 方法解决问题,还可以实现类似于以前方法(如 CoT 或 ToT)的 GoO。

  • TheoKanning/openai-java 用于使用 OpenAI 的 GPT API 的 Java 库。支持 GPT-3、ChatGPT 和 GPT-4。

  • langgenius/dify 开源助手 API 和 GPT 的替代方案。Dify.AI 是一个 LLM 应用程序开发平台。它集成了后端即服务和 LLMOps 的概念,涵盖了构建生成式 AI 原生应用程序所需的核心技术堆栈,包括内置的 RAG 引擎。

  • mckaywrigley/chatbot-ui 一个开源的 ChatGPT UI。

  • oobabooga/text-generation-webui 用于大型语言模型的 Gradio Web UI。支持变压器,GPTQ,AWQ,EXL2,llama.cpp(GGUF),Llama模型。

  • pytorch-labs/gpt-fast 在 python 的 <1000 LOC 中简单高效地生成 pytorch-native transformer 文本。

  • rustformers/llm 用于处理大型语言模型的 Rust 库生态系统 - 它建立在用于机器学习的快速、高效的 GGML 库之上。

  • AprilNEA/ChatGPT-Admin-Web 在团队和组织内共享使用AI的一站式解决方案。

  • ParisNeo/lollms-webui LLM(大型语言模型)模型的中心。该项目旨在提供一个用户友好的界面,以访问和利用各种LLM模型来完成广泛的任务。

  • mit-han-lab/llm-awq AWQ:用于 LLM 压缩和加速的激活感知权重量化

  • vectorch-ai/ScaleLLM 高效的 LLM 推理解决方案,主要特点:高效率:在高性能 LLM 推理方面表现出色,利用最先进的技术和技术,如 Flash Attention、Paged Attention、Continuous Batching 等。张量并行性:利用张量并行性实现高效的模型执行。兼容 OpenAI 的 API:与 OpenAI 兼容的高效 golang rest api 服务器。Huggingface 型号:与大多数流行的 HF 型号无缝集成,支持 safetensors。可定制:提供自定义灵活性以满足您的特定需求,并提供添加新模型的简单方法。生产就绪:ScaleLLM 在设计时考虑到了生产环境,配备了强大的系统监控和管理功能,以确保无缝的部署体验。

  • tjunlp-lab/Awesome-LLMs-Evaluation-Papers 评估大型语言模型:一项综合调查。将LLM的评估分为三大类:知识和能力评估、对齐评估和安全性评估。

  • microsoft/promptflow 构建高质量的 LLM 应用程序 - 从原型设计、测试到生产部署和监控。旨在简化基于 LLM 的 AI 应用程序的端到端开发周期,从构思、原型设计、测试、评估到生产部署和监控。它使快速工程变得更加容易,并使您能够构建具有生产质量的 LLM 应用程序。

  • WooooDyy/LLM-Agent-Paper-List 一项基于大型语言模型的代理的兴起和潜力的调查,由于大型语言模型 (LLM) 表现出的多功能和卓越的功能,它们被视为通用人工智能 (AGI) 的潜在希望的火花,为构建通用 AI 代理提供了希望。许多研究工作都利用 LLM 作为构建 AI 代理的基础,并取得了重大进展。

  • SillyTavern/SillyTavern 面向高级用户的 LLM 前端。本地安装界面,可让您与文本生成 AI (LLM) 交互,以与自定义角色进行聊天和角色扮演。

  • BerriAI/litellm 使用 OpenAI 格式调用所有 LLM API。使用 Bedrock、Azure、OpenAI、Cohere、Anthropic、Ollama、Sagemaker、HuggingFace、Replicate (100+ LLM)

  • mosaicml/llm-foundry 用于 MosaicML 基础模型的 LLM 训练代码,包含用于训练、微调、评估和部署 LLM 的代码,以便使用 Composer 和 MosaicML 平台进行推理。该代码库设计为易于使用、高效和灵活,旨在支持使用最新技术进行快速实验。

  • Mintplex-Labs/anything-llm 您的个人私人 ChatGPT。在一个非常干净的 UI 中支持无限的文档、线程以及并发用户和管理。

  • dataelement/bisheng 领先的开源大模型应用开发平台,赋能和加速大模型应用开发落地,帮助用户以最佳体验进入下一代应用开发模式。

  • kyrolabs/awesome-langchain 使用LangChain的工具和项目的精选列表。LangChain是一个了不起的框架,可以在短时间内完成LLM项目,并且生态系统正在快速发展。这里试图跟踪围绕LangChain的举措。

  • danny-avila/LibreChat 增强的 ChatGPT 克隆:具有 OpenAI、GPT-4 Vision、Bing、Anthropic、OpenRouter、Google Gemini、AI 模型切换、消息搜索、langchain、DALL-E-3、ChatGPT 插件、OpenAI 功能、安全多用户系统、预设、完全开源的自托管。更多功能正在开发中

  • run-llama/rags 一个 Streamlit 应用程序,可让您使用自然语言从数据源创建 RAG (Retrieval Augmented Generation,检索增强生成)管道。

  • stas00/ml-engineering 一个开放的方法集合,可帮助成功训练大型语言模型和多模态模型。这是一本适合LLM/VLM培训工程师和操作员的技术材料。也就是说,这里的内容包含大量脚本和复制粘贴命令,使您能够快速满足您的需求。

  • steven2358/awesome-generative-ai 现代生成式人工智能项目和服务的精选列表。生成式人工智能是一种通过使用在大量数据上训练的机器学习算法来创建图像、声音和文本等原创内容的技术。与其他形式的人工智能不同,它能够创建独特且以前看不见的输出,例如逼真的图像、数字艺术、音乐和写作。这些作品通常有自己独特的风格,甚至很难与人工创作的作品区分开来。生成式人工智能在艺术、娱乐、营销、学术界和计算机科学等领域有着广泛的应用。

  • lobehub/lobe-chat 开源的高性能聊天机器人框架,支持语音合成、多模态和可扩展的函数调用插件系统。支持一键免费部署您的私人 ChatGPT/LLM Web 应用程序。

  • iryna-kondr/scikit-llm 将 LLM 无缝集成到 scikit-learn 中。将 ChatGPT 等强大的语言模型无缝集成到 scikit-learn 中,以增强文本分析任务。

  • argilla-io/argilla 以数据为中心的 LLM 开发的开源平台。集成人工和模型反馈循环,以实现持续的 LLM 优化和监督。

  • taranjeet/awesome-gpts 社区创建的所有 GPTs 的集合。

  • ai-boost/Awesome-GPTs 精选的超棒 GPTs列表。展示全球 AI 爱好者创建的创新和令人兴奋的 GPT 模型的空间。

  • friuns2/BlackFriday-GPTs-Prompts 不需要 plus 订阅的免费 GPTs 列表

  • GitHub - all-in-aigc/gpts-works: A Third-party GPTs store 第三方 GPTs 商店

  • Anil-matcha/Awesome-GPT-Store 精心策划的专用自定义 GPTs 聊天机器人列表,旨在帮助您完成从技术问题到创造性工作的各种任务。

  • devisasari/awesome-chatgpt-store 展示全球 AI 爱好者创建的 GPTs 的空间。

  • snwfdhmp/awesome-gpt-prompt-engineering 精选的 GPT 提示工程资源、工具和其他闪亮事物的清单。

  • SamurAIGPT/EmbedAI 利用本地 LLM 的功能,在不依赖 Internet 的情况下在文档上创建 QnA 聊天机器人。 确保完全的隐私和安全,因为您的任何数据都不会离开您的本地执行环境。即使没有互联网连接,也可以无缝处理和查询您的文档。

  • pandora-next/deploy 更强大,但还是那个让你呼吸顺畅的ChatGPT。支持GPTs,最新UI。可配置共享的tokens,会有一个功能等同chat-shared3.zhile.io的共享站(目前2622个普号、22个Plus)。

  • LouisShark/chatgpt_system_prompt 收集Agent的系统提示,分享一些提示注入知识。可以通过向 ChatGPT 发送以下命令来获取 ChatGPT 的系统提示(核心概念是转移 ChatGPT 的注意力,使其不会意识到自己违反了规则)。

  • taishi-i/awesome-ChatGPT-repositories 专门用于与 ChatGPT 相关的开源 GitHub 存储库的精选资源列表

  • DefTruth/Awesome-LLM-Inference 精选的 Awesome LLM 推理论文列表,包含代码、TensorRT-LLM、vLLM、streaming-llm、AWQ、SmoothQuant、WINT8/4、Continuous Batching、FlashAttention、PagedAttention 等。

  • gmpetrov/databerry 用于构建自定义 LLM 代理的无代码平台

  • beyondguo/LLM-Tuning LoRA 微调和 RLHF 全流程

  • chatpire/chatgpt-web-share ChatGPT Plus 共享方案。适用于个人、组织或团队的 ChatGPT 共享方案。共享一个 ChatGPT Plus 账号给多人使用,提供完善的管理和限制功能。

  • dirk1983/chatgpt 全网最易部署,响应速度最快的ChatGPT环境。PHP版调用OpenAI接口进行问答和画图,采用Stream流模式通信,一边生成一边输出。前端采用EventSource,支持Markdown格式解析,支持公式显示,代码有着色处理,支持画图。页面UI简洁,支持上下文连续会话。源码只有几个文件,没用任何框架,支持所有PHP版本,全部开源,极易二开。

  • Grt1228/chatgpt-java ChatGPT Java SDK支持流式输出、Gpt插件、联网。支持OpenAI官方所有接口。ChatGPT的Java客户端。OpenAI GPT-3.5-Turb GPT-4 Api Client for Java

  • x-dr/chatgptProxyAPI 使用cloudflare 搭建免费的 OpenAI api代理 ,解决网络无法访问问题。支持流式输出

  • Hello-SimpleAI/chatgpt-comparison-detection 论文“ChatGPT 与人类专家有多接近?比较语料库、评估和检测”。我们提出了第一个 Human vs. ChatGPT 对比语料, 叫做 HC3,在 Huggingface Datasets 上🤗提供:HC3-English \HC3-Chinese

  • openchatai/OpenCopilot 适用于您自己的 SaaS 产品的 AI Copilot。Shopify Sidekick 替代品。允许您拥有自己产品的 AI 副驾驶。它与您的底层 API 集成,可以在需要时执行 API 调用。它使用 LLM 来确定用户的请求是否需要调用 API 端点。然后,它决定调用哪个终结点,并根据给定的 API 定义传递相应的有效负载。

  • LC1332/Chat-Haruhi-Suzumiya Chat凉宫春日,一个开源的角色扮演聊天机器人 Cheng Li、Ziang Leng 等。通过大型语言模型在现实中复活动漫角色

  • eon01/awesome-chatgpt 精选的 ChatGPT 资源列表,包括库、SDK、API 等。

  • awesome-assistants/awesome-assistants 精选的令人敬畏的 AI 助手列表。带有所有这些助手的示例 Telegram 机器人可以在下面的链接上进行测试。

  • voidful/awesome-chatgpt-dataset 释放 LLM 的力量:探索这些数据集来训练你自己的 ChatGPT!

  • yaodongC/awesome-instruction-dataset 用于训练指令遵循 LLM 的开源数据集集合(ChatGPT、LLaMA、Alpaca)

  • ntunlplab/traditional-chinese-alpaca 基于羊驼数据集的繁体中文指令数据集。

  • Tongji-KGLLM/RAG-Survey 大型语言模型的检索-增强生成:一项调查

  • allenai/RL4LMs 模块化 RL 库,可根据人类偏好微调语言模型。为训练语言模型提供易于定制的构建块,包括策略算法、奖励函数、指标、数据集和基于 LM 的参与者-批评策略的实现。

  • gptshunter.com 发现 GPTs 项目的商店

  • hyperonym/basaran OpenAI 文本完成 API 的开源替代品。它为基于 Hugging Face Transformer 的文本生成模型提供兼容的流式处理 API。

  • microsoft/generative-ai-for-beginners 一门 12 节课的课程,教授开始构建生成式 AI 应用程序所需的一切知识

  • bleedline/Awesome-gptlike-shellsite 深入探索精选的gpt套壳站和必备API资源。本文为初学者和经验丰富的运营者提供一站式指南,涵盖常见问题解答和基础攻略,助您迈向套壳站副业成功之路。便宜且高并发的api。

  • nat/openplayground 您可以在笔记本电脑上运行的LLM游乐场。特征:使用 OpenAI、Anthropic、Cohere、Forefront、HuggingFace、Aleph Alpha、Replicate、Banana 和 llama.cpp 中的任何模型。完整的 playground UI,包括历史记录、参数调优、键盘快捷键和 logprops。使用相同的提示并排比较模型,单独调整模型参数,然后使用不同的参数重试。自动检测 HuggingFace 缓存中的本地模型,并允许您安装新模型。在手机上工作正常。

  • GAIR-NLP/auto-j 用于评估对齐的生成式判断的官方存储库。新的开源生成判断器,可以有效地评估它们LLMs如何与人类偏好保持一致。它的特点是:通用性:Auto-J 基于来自真实世界用户查询的数据和来自各种LLMs响应的数据进行训练,涵盖 58 个真实世界场景。灵活性:Auto-J 支持成对响应比较和单响应评估,只需切换到相应的提示即可。可解释性:Auto-J 提供详细的自然语言评论,可提高其评估结果的可靠性,并促进人类参与评估循环。

  • thu-coai/BPO 在不进行模型训练的情况下对齐大型语言模型,黑盒提示优化 (BPO) 提供了一种概念上的新视角来弥合人类和 LLMs在 Vicuna Eval 的成对评估中,BPO 在没有训练的情况下进一步对齐 gpt-3.5-turbo 和 claude-2。性能也优于PPO和DPO,并呈现出正交的改进。通过优化用户指令,从输入角度对模型进行对齐。过程分三步:1、反馈数据收集:为了建模人类偏好,首先搜集了一系列带有反馈信号的开源指令微调数据集,并对这些数据经过精心筛选和过滤。2、构造提示优化对:使用这些反馈数据来引导大型模型识别出用户偏好的特征。首先让模型分析用户喜欢的回复和不喜欢的回复,找出其中蕴含的人类偏好特征。接着,基于这些特征,再利用模型优化原始的用户输入,以期得到更符合用户喜好的模型输出。3、训练提示优化器:经过步骤一和步骤二,我们得到了大量隐含人类偏好的提示对。利用这些提示对,我们训练一个相对较小的模型,从而构建提示偏好优化器。最终,我们可以利用该提示优化器对用户指令进行优化,并应用在广泛的LLM上。 BPO 数据集

  • kwai/KwaiYii 由快手AI团队从零到一独立自主研发的一系列大规模语言模型(Large Language Model),当前包含了多种参数规模的模型,并覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat)。

  • deepseek-ai/DeepSeek-MoE DeepSeekMoE 16B 是一种具有 16.4B 参数的专家混合 (MoE) 语言模型。它采用了创新的 MoE 架构,该架构涉及两个主要策略:细粒度专家细分和共享专家隔离。它在 2T 英文和中文词元上从头开始训练,表现出与 DeekSeek 7B 和 LLaMA2 7B 相当的性能,只有大约 40% 的计算。

  • Mozilla-Ocho/llamafile 目标是使开发人员和最终用户更容易访问开源大型语言模型。我们通过将 llama.cpp 与 Cosmopolitan Libc 合并到一个框架中来做到这一点,该框架将所有复杂性LLMs折叠成一个单文件可执行文件(称为“llamafile”),该可执行文件可在大多数计算机上本地运行,无需安装。

  • flexflow/FlexFlow 开源编译器和分布式系统,用于低延迟、高性能的 LLM 服务。FlexFlow Serve 在单节点、多 GPU 推理方面比现有系统高出 1.3-2.0 倍,在多节点、多 GPU 推理方面比现有系统高出 1.4-2.4 倍。

  • OpenBMB/UltraFeedback 大规模、细粒度、多样化的偏好数据集(和模型)。UltraFeedback 是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。从各种资源(包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN,数据集统计信息见此处)收集了大约 64k 个提示。然后,使用这些提示来查询多个 LLM,并为每个提示生成 4 个不同的响应,从而产生总共 256k 个样本。为了收集高质量的偏好和文本反馈,设计了一个细粒度的注释指令,其中包含 4 个不同的方面,即指令遵循、真实性、诚实性和帮助性。然后,我们要求 GPT-4 根据指令对收集到的样本进行注释。

  • xiaogang00/white-paper-for-large-model-security-and-privacy 大型模型安全和隐私白皮书,大型生成模型也存在数据/模型安全和隐私问题。我们应该注意到,大型生成模型会带来很多安全和隐私问题,因为它们在改变我们生活方面表现出巨大的力量,例如数据泄露和假新闻的传播。在本白皮书中,我们首先总结了大型生成模型的发展,包括其影响和社会影响。然后,我们总结了现有大型生成模型中当前存在的安全和隐私问题,例如数据和模型安全、版权问题和伦理问题。最后,我们针对当前的安全和隐私问题给出了相应的建议。它们可以用来指出未来的研究和发展方向,也可以作为政府决策的参考。

  • guardrails-ai/guardrails 开源Py包,验证和纠正大语言模型的输出

  • OpenMOSS/HalluQA “中文大型语言模型中的幻觉评估”数据集和评估脚本,包含 450 个精心设计的对抗性问题,跨越多个领域,考虑了中国的历史文化、习俗和社会现象。第 1 步,可能会诱发模型幻觉的问题。第 2 步,使用 ChatGPT3.5 / Puyu / GLM-130B 生成答案并收集对抗性问题。第3步,为每个对抗性问题编写多个正确和错误的答案,并添加支持证据。第4步,检查所有带注释的问答对并删除低质样本。

  • liziniu/ReMax 论文代码(ReMax:一种简单、高效、有效的强化学习方法,用于对齐大型语言模型)。一种强化学习方法,专为 RLHF 中的奖励最大化而量身定制。ReMax 具有内存效率。与PPO相比,ReMax可以节省约50%的GPU内存消耗,可以分配1.3倍的大批量。ReMax 运行速度很快。它不需要训练价值模型,并且需要更少的计算。通常,它可以实现大约 2 倍的训练加速。ReMax易于调整以获得良好的性能。在 AlpacaEval 基准测试中,当被 GPT-4 判断时,ReMax 的胜率分别比 SFT、DPO 和 PPO 高出 84.22%、75.28% 和 63.60%。

  • OpenLLMAI/OpenRLHF 基于Ray的高性能RLHF框架(支持70B+全调谐& LoRA & Mixtral &KTO)

  • tatsu-lab/alpaca_farm RLHF和替代方案的仿真框架。在不收集人工数据的情况下开发 RLHF 方法。

  • anthropics/hh-rlhf “通过从人类反馈中强化学习来训练有用且无害的助手”的人类偏好数据

  • alan-ai/alan-sdk-web 适用于 Web 的生成式 AI SDK,用于为使用 JavaScript、React、Angular、Vue、Ember、Electron 构建的应用程序构建 AI 助手

  • archiki/ADaPT 使用语言模型进行按需分解和规划

  • ai-collection/ai-collection 一系列令人敬畏的生成式 AI 应用程序

  • SJTU-IPADS/PowerInfer 在具有消费级 GPU 的 PC 上提供高速大型语言模型

  • danswer-ai/danswer 用自然语言提问,并获得私人资源支持的答案。连接到 Slack、GitHub、Confluence 等工具。允许您使用自然语言提出问题,并根据团队特定文档获得答案。想想 ChatGPT,如果它可以访问您团队的独特知识。

  • xlang-ai/OpenAgents 现实世界的开放平台的语言智能体,用于在日常生活中使用和托管语言智能体的开放平台。

  • langchain4j/langchain4j Java版LangChain,简化将 AI/LLM功能集成到 Java 应用程序中的过程。

  • weaigc/bingo 高度还原 New Bing 网页版的主要操作,国内可用,兼容绝大多数微软 Bing AI 的功能,可自行部署使用。

  • e2b-dev/awesome-ai-agents AI 自主代理列表

  • hao-ai-lab/LookaheadDecoding 用 Lookahead 解码打破推理的LLM顺序依赖关系

  • TaskingAI/TaskingAI TaskingAI 将 Firebase 的简单性带入了 AI 原生应用开发。该平台支持使用LLMs来自各种提供商的各种应用程序创建类似 GPT 的多租户应用程序。它具有独特的模块化功能,如推理、检索、助手和工具,无缝集成以增强开发过程。TaskingAI 的凝聚力设计确保了 AI 应用程序开发的高效、智能和用户友好的体验。

  • salesforce/DialogStudio 为对话式 AI 提供最丰富、最多样化的统一数据集集合和指令感知模型

  • YuchuanTian/AIGC_text_detector 我们在AIGC检测方面工作的官方代码:“AI生成文本的多尺度阳性-未标记检测”(ICLR'24 Spotlight)

  • open-webui/open-webui 用户友好的 WebUILLMs,支持的LLM运行器包括 Ollama 和 OpenAI 兼容的 API。直观的界面。响应式设计:在桌面和移动设备上享受无缝体验。快速响应。轻松设置:使用 Docker 或 Kubernetes(kubectl、kustomize 或 helm)无缝安装。代码语法高亮显示。完整的 Markdown 和 LaTeX 支持。本地 RAG 集成:通过开创性的检索增强生成 (RAG) 支持深入了解聊天交互的未来。此功能将文档交互无缝集成到您的聊天体验中。您可以将文档直接加载到聊天中或将文件添加到文档库中,使用 # 提示符中的命令轻松访问它们。网页浏览功能:使用 # 命令后跟 URL 将网站无缝集成到您的聊天体验中。提示预设支持:使用聊天输入中 / 的命令立即访问预设提示。毫不费力地加载预定义的对话启动器并加快您的交互速度。通过Open WebUI社区集成轻松导入提示。RLHF 注释:通过竖起大拇指和竖起大拇指对消息进行评分来增强您的消息,从而促进创建用于人类反馈强化学习 (RLHF) 的数据集。利用您的消息来训练或微调模型,同时确保本地保存数据的机密性。对话标记:轻松分类和定位特定聊天,以便快速参考和简化数据收集。下载/删除模型。GGUF 文件模型创建。多种模式支持:在不同的聊天模式之间无缝切换,实现多样化的互动。多模态支持:与支持多模态交互的模型无缝交互,包括图像(例如 LLava)。模型文件生成器。多种模型对话:毫不费力地同时与各种模型互动,利用它们的独特优势来获得最佳响应。通过并行利用一组不同的模型来增强您的体验。协作聊天:通过无缝编排群组对话,利用多个模型的集体智慧。使用该 @ 命令指定模型,从而在聊天界面中启用动态和多样化的对话。让自己沉浸在编织在聊天环境中的集体智慧中。OpenAI API 集成。历史访问。聊天记录。导入/导出聊天记录。语音输入支持:通过语音交互与模型互动;享受直接与模特交谈的便利。此外,探索在静音 3 秒后自动发送语音输入的选项,以获得简化的体验。使用高级参数进行微调控制:通过调整温度等参数和定义系统提示来根据您的特定偏好和需求定制对话,从而获得更深层次的控制。外部 Ollama 服务器连接。基于角色的访问控制 (RBAC):使用受限权限确保安全访问;只有经过授权的个人才能访问您的 Ollama,并且为管理员保留独家模型创建/提取权限。后端反向代理支持:通过Open WebUI后端和Ollama之间的直接通信来增强安全性。持续更新。

  • CopilotKit/CopilotKit 构建、部署和操作完全自定义的 AI Copilot。应用内 AI 聊天机器人、应用内 AI 代理和 AI 驱动的文本区域的框架。

  • n4ze3m/dialoqbase 使用个性化知识库创建自定义聊天机器人。该应用程序利用高级语言模型来生成准确且上下文感知的响应。此外,它还利用 PostgreSQL(一种强大的关系数据库管理系统)进行高效的向量搜索操作和存储知识库。

  • yangjian102621/chatgpt-plus AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 ChatGPT, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。支持 MJ AI 绘画,Stable Diffusion AI 绘画,微博热搜等插件工具。采用 Go + Vue3 + element-plus 实现。

  • paulpierre/RasaGPT 第一个建立在 Rasa 和 Langchain 之上的无LLM头聊天机器人平台。使用 Rasa、FastAPI、Langchain、LlamaIndex、SQLModel、pgvector、ngrok、telegram 构建

  • xusenlinzy/api-for-open-llm LLaMA, LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, Xverse, SqlCoder, CodeLLaMA, ChatGLM, ChatGLM2, ChatGLM3 etc. 开源大模型的统一后端接口

  • refuel-ai/autolabel  Python 库,用于使用您选择的任何大型语言模型 (LLM) 标记、清理和丰富文本数据集。访问大型、干净和多样化的标记数据集是任何机器学习工作成功的关键组成部分。LLMs像 GPT-4 这样的先进技术能够以高精度自动标记数据,而且与手动标记相比,成本和时间只是其中的一小部分。

  • mckaywrigley/chatbot-ui-lite 一个简单的聊天机器人入门工具包,用于使用 Next.js、TypeScript 和 Tailwind CSS 的 OpenAI 聊天模型。

  • jxnl/instructor 处理大型语言模型的结构化输出变得轻而易举 (LLMs)。它建立在 Pydantic 之上,提供了一个简单、透明且用户友好的 API 来管理验证、重试和流式响应。准备好为您的LLM工作流程增添动力

  • lmstudio-ai/model-catalog 大型语言模型文件的标准化 JSON 描述符集合。

  • adamcohenhillel/ADeus 一种开源 AI 可穿戴设备,可捕获您在现实世界中所说和听到的内容,然后将其转录并存储在您自己的服务器上。然后,您可以使用该应用程序与 Adeus 聊天,它将包含有关您想要谈论的内容的所有正确上下文 - 一个真正个性化的个人 AI。

  • FasterDecoding/Medusa 简单的框架,它使具有多个解码头LLM的生成加速技术民主化。美杜莎添加了额外的“头”来LLMs同时预测多个未来的代币。当使用美杜莎增强模型时,原始模型保持不变,并且在训练过程中只会对新头部进行微调。在生成过程中,这些头每个头都会为相应的位置产生多个可能的单词。然后使用基于树的注意力机制对这些选项进行组合和处理。最后,采用典型的验收方案从候选者中选择最长的合理前缀进行进一步解码。

  • promptfoo/promptfoo 用于测试和评估LLM输出质量的工具。测试您的提示、模型、RAG。评估和比较LLM输出,捕获回归,并提高提示质量。LLM适用于 OpenAI/Azure GPT、Anthropic Claude、VertexAI Gemini、Ollama、本地和专用模型(如 Mistral/Mixtral/Llama with CI/CD)的评估

  • tmc/langchaingo LangChain for Go,Go 编写基于LLM程序的最简单方法

  • AnswerDotAI/fsdp_qlora 使用量化 LoRA + FSDP 进行LLMs训练。FSDP-QLoRA 结合了数据并行性(Fully Sharded Data Parallelism(FSDP) 支持跨 GPU 分片模型参数、优化器状态和梯度)、4 位量化和 LoRA(QLoRA Quantized LoRA),可在双 24GB GPU 系统上训练 LLMs 多达 70B 参数。该技术由 Answer.AI 与 BitsandBytes 合作发布,旨在使训练 LLMs 更加高效,并且对每个人来说都更容易使用。bitsandbytes/fsdp_qlora

  • getzep/zep 人工智能助手的长期记忆。从聊天记录中回忆、理解和提取数据。为个性化 AI 体验提供支持。

  • XueFuzhao/OpenMoE 一系列开源专家混合 (MoE) 大型语言模型

  • tensorchord/Awesome-LLMOps 为开发人员提供的最佳 LLMOps 工具列表,包括各种大型语言模型、大型模型服务、LLMOps 平台、向量检索、训练微调、ML 平台、工作流、管理分析等。

  • Arize-ai/phoenix 以闪电般的速度提供 MLOps 和 LLMOps 见解,具有零配置可观测性。Phoenix 通过提供以下功能,为监视模型和LLM应用程序提供笔记本优先体验:LLM跟踪。LLM Evals。嵌入分析。RAG 分析。结构化数据分析 。

  • Giskard-AI/giskard 自动检测 AI 模型中的漏洞,从表格模型到 LLM,包括性能偏差、数据泄露、虚假相关性、幻觉、毒性、安全问题等等。

  • huggingface/trl 全栈工具,使用监督微调步骤 (SFT)、奖励建模 (RM) 和近端策略优化 (PPO) 以及直接偏好优化 (DPO) 等方法微调和调整转换器语言和扩散模型。该库建立在 transformers库之上,因此允许使用那里可用的任何模型架构。accelerate 是 trl 其骨干,允许使用 DDP 和 DeepSpeed 等方法将模型训练从单个 GPU 扩展到大规模多节点集群。PEFT 完全集成,允许在适度的硬件上使用量化和 LoRA 或 QLoRA 等方法训练最大的模型。unsloth 还集成了专用内核,可以显着加快训练速度。

  • unslothai/unsloth 速度提高 2-5 倍,内存减少 70%,QLoRA 和 LoRA 微调。所有内核均用 OpenAI 的 Triton 语言编写。精度损失为 0% - 无近似方法 - 全部准确无误。无需更换硬件。自 2018+ 起支持 NVIDIA GPU。最低 CUDA 功能 7.0。支持 4 位和 16 位 QLoRA / LoRA 通过bitsandbytes进行微调。开源训练速度提高 5 倍。

  • ray-project/ray-llm 一个LLM服务解决方案,可以轻松部署和管理各种LLMs开源,建立在 Ray Serve 之上。RayLLM 利用 Ray Serve,它对自动缩放和多节点部署提供本机支持。RayLLM 可以扩展到零,并创建新的模型副本(每个副本由多个 GPU 工作线程组成)以响应需求。

  • pathwaycom/llm-app LLM用于 RAG、知识挖掘和流分析的应用模板。准备与 Docker 一起运行,与您的数据源同步。

  • jackmpcollins/magentic 轻松地将大型语言模型集成到 Python 代码中。只需使用 @prompt 装饰器创建函数,即可从 LLM.将查询和函数调用与常规 Python 代码混合LLM使用,以创建复杂的逻辑。

  • deep-diver/LLM-As-Chatbot 让人们使用大量开源的指令遵循微调LLM模型作为聊天机器人服务。互联网搜索支持serper.dev

  • pezzolabs/pezzo 开源、开发人员优先的 LLMOps 平台,旨在简化提示设计、版本管理、即时交付、协作、故障排除、可观测性等。

  • msoedov/langcorn 使用 FastAPI 自动为 LangChain LLM 应用程序和代理提供服务。

  • OpenBMB/ProAgent 从机器人流程自动化到代理流程自动化,引入了 Agentic Process Automation (APA),这是一种突破性的自动化范式,使用LLM基于代理的代理,通过将人力卸载到与构建和执行相关的代理来实现高级自动化。然后,我们实例化 ProAgent ,一个LLM基于代理,旨在根据人类指令制作工作流程,并通过协调专业代理做出复杂的决策。通过实证实验,详细阐述了APA的工作流程构建和执行流程,展示了APA的可行性,揭示了由智能体驱动的自动化新范式的可能性

  • daveebbelaar/langchain-experiments 侧重于试验 LangChain 库,以构建具有大型语言模型的强大应用程序 (LLMs)。通过利用 GPT-3.5 Turbo 、GPT-4等最先进的语言模型,该项目展示了如何从 YouTube 视频成绩单创建可搜索的数据库,使用 FAISS 库执行相似性搜索查询,并用相关和准确的信息回答用户问题。

  • BradyFU/Woodpecker 引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样,它会从生成的文本中挑选并纠正幻觉。具体来说,啄木鸟包括五个阶段:关键概念提取、问题表述、视觉知识验证、视觉声明生成和幻觉纠正。啄木鸟以补救后的方式实施,可以轻松地为不同的MLLM提供服务,同时可以通过访问五个阶段的中间输出进行解释。我们从定量和定性两个方面对啄木鸟进行了评估,并展示了这种新范式的巨大潜力。在 POPE 基准测试中,我们的方法比基线 MiniGPT-4/mPLUG-Owl 的准确率提高了 30.66%/24.33%。

  • locuslab/wanda 一种简单有效的大型语言模型修剪方法(按权重和激活进行修剪)

  • VILA-Lab/ATLAS 为大型语言模型制定有效查询和提示的资源和研究(LLMs)。主要贡献是引入了 26 项 prompts 指导原则,旨在优化与LLMs各种规模的交互,例如 LLaMA-1/2、GPT-3.5 和 GPT-4。

  • postgresml/postgresml GPU 驱动的 AI 应用程序数据库。利用 SQL 的简单性和最新的 NLP、ML + LLM 模型,更快地将您的应用推向市场。

  • llmware-ai/llmware 提供基于企业级LLM的开发框架、工具和微调模型。

  • arcee-ai/mergekit 用于合并预训练大型语言模型的工具。当前支持的合并方法的快速概述:Linear 线性,经典的合并方法,简单的加权平均值。SLERP系列,球形插值两个模型的参数。Task Arithmetic 任务算术,通过减去基础模型来计算每个模型的“任务向量”,线性合并任务向量并加回基数,非常适合从共同祖先微调的模型,对于几种更复杂的合并方法来说,也是一个超级有用的合并框架。TIES,建立在任务算术框架之上,通过稀疏化任务向量并应用符号共识算法来解决模型之间的干扰,允许您合并更多模型并保留其更多优势。DARE,与TIES一样,稀疏化任务向量以减少干扰,DARE使用随机修剪和新颖的重新缩放,以更好地匹配原始模型的性能。passthrough 是一种无操作,它只是通过未修改的输入张量传递,它旨在用于只有一个输入模型的层堆叠类型合并。Model Stock,使用微调模型的一些简洁的几何属性来计算线性插值的良好权重,至少需要三个模型,包括一个基本模型。

  • google/BIG-bench 协作基准测试,旨在探索大型语言模型并推断其未来能力。BIG-bench 中包含的 200 多个任务。

  • bigscience-workshop/promptsource 用于创建、共享和使用自然语言提示的工具。

  • FranxYao/chain-of-thought-hub 使用思维链提示对大型语言模型的复杂推理能力进行基准测试

  • langchain-ai/langserve 帮助开发人员将 LangChain 可运行的可运行程序和链部署为 REST API。该库与 FastAPI 集成,并使用 pydantic 进行数据验证。

  • BCG-X-Official/agentkit 使用 Nextjs、FastAPI 和 Langchain 构建受约束的代理

  • stitionai/devika 一名代理 AI 软件工程师,可以理解高级人类指令,将它们分解为步骤,研究相关信息,并编写代码以实现给定的目标。Devika 旨在成为 Cognition AI 的 Devin 的有竞争力的开源替代品。Devika 利用大型语言模型、规划和推理算法以及 Web 浏览能力来智能开发软件。Devika 旨在通过提供 AI 对程序员来彻底改变我们构建软件的方式,该程序员可以在最少的人工指导下承担复杂的编码任务。无论您是需要创建新功能、修复错误还是从头开始开发整个项目,Devika 都能为您提供帮助。主要特点:通过 Ollama 支持 Claude 3、GPT-4、GPT-3.5 和 LocalLLMs。为获得最佳性能:使用 Claude 3 系列型号。

  • missuo/FreeGPT35 利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 服务。

  • nilsherzig/LLocalSearch 使用LLM代理的完全本地运行的搜索聚合器。用户可以提出一个问题,系统将使用一连串来LLMs找到答案。用户可以看到代理的进度和最终答案。不需要 OpenAI 或 Google API 密钥。

  • DachengLi1/LongChat 支持训练和评估基于长上下文LLM的聊天机器人。

  • fanqiwan/FuseAI 大型语言模型的知识融合,专注于模型融合主题的开源研究社区。在 Foundation 和 Chat 上应用模型融合LLMs,未来计划融合 Agent/MoELLMs。FuseChat-7B-VaRM,它融合了三个LLMs具有不同架构和规模的著名聊天,即 NH2-Mixtral-8x7B、NH2-Solar-10.7B 和 OpenChat-3.5-7B。FuseChat-7B-VaRM 在 MT-Bench 上的平均性能为 8.22,优于 Starling-7B、Yi-34B-Chat 和 Tulu-2-DPO-70B 等各种强大的聊天,LLMs甚至超过了 GPT-3.5(March)、Claude-2.1,并接近 Mixtral-8x7B-Instruct。FuseChat采用融合后合并的策略,有两个主要阶段。首先,对源LLMs进行成对知识融合,通过轻量级微调推导出多个结构和大小相同的目标LLMs;然后,将这些目标LLMs合并到参数空间中,提出了一种基于参数矩阵微调前后变化比确定合并权重的新方法VaRM。

  • katanaml/sparrow 用于从各种文档和图像中高效提取和处理数据。它可以无缝处理表单、发票、收据和其他非结构化数据源。Sparrow 以其模块化架构脱颖而出,提供独立的服务和管道,所有这些都针对强大的性能进行了优化。Sparrow 的关键功能之一 - 可插拔架构。您可以使用 LlamaIndex、Haystack 或 Unstructured 等工具和框架轻松集成和运行数据提取管道。Sparrow 通过 Ollama 或 Apple MLX 启用本地LLM数据提取管道。使用 Sparrow 解决方案,您可以获得 API,这有助于处理数据并将其转换为结构化输出,随时可以与自定义工作流程集成。

  • GPT-Fathom/GPT-Fathom 开源且可LLM复制的评估套件,在一致设置下对领先的开源和闭源LLMs以及OpenAI的早期模型进行基准测试,以 20+个精选基准测试。

  • RUCAIBox/StructGPT 大型语言模型对结构化数据进行推理的通用框架

  • FranxYao/Long-Context-Data-Engineering 实现论文数据工程,将语言模型扩展到 128K 上下文。使用 tensor_parallel 从这个存储库实现的 device_map ,因为它比 huggingface 快得多,比 vLLM 轻量级。但它有一个小错误,如果你的 GPU 内存不够大,它会卡住而不是通过内存溢出异常。因此,请确保您有足够的 GPU 内存。

  • OpenBMB/InfiniteBench 尖端的基准测试,用于评估语言模型在超长上下文(100k+ 令牌)上处理、理解和推理的能力。长上下文对于增强应用程序LLMs并实现高级交互至关重要。InfiniteBench 旨在通过针对 100k+ 的上下文长度(比传统数据集长 10 倍)来测试语言模型的界限,从而突破语言模型的界限。

  • jzhang38/TinyLlama 在 3 万亿个代币上预训练 1.1B Llama 模型。采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以在许多基于 Llama 构建的开源项目中插入和播放。此外,TinyLlama 结构紧凑,只有 1.1B 参数。这种紧凑性使其能够满足众多需要有限计算和内存占用的应用程序。

  • openai/openai-node OpenAI API 的官方 Node.js / Typescript 库

  • openai-php/client 由社区维护的增强型 PHP API 客户端,允许您与 OpenAI API 进行交互。

  • InternLM/xtuner 高效、灵活且功能齐全的工具包,用于微调大型模型(InternLM2、Llama3、Phi3、Qwen、Mistral 等)。自动调度 FlashAttention 和 Triton 内核等高性能算子,以提高训练吞吐量。与 DeepSpeed 兼容,轻松利用各种 ZeRO 优化技术。

  • hiyouga/FastEdit 帮助开发人员使用单个命令有效地将新鲜和自定义的知识注入大型语言模型中。实现的算法:Rank-One Model Editing (ROME)

  • SkyworkAI/Skywork 天工系列模型在3.2TB高质量多语言和代码数据上进行预训练。我们开源了模型参数,训练数据,评估数据,评估方法。

  • microsoft/promptbench 用于评估和理解大型语言模型的统一库。快速模型性能评估:我们提供用户友好的界面,允许快速构建模型、加载数据集和评估模型性能。提示工程:我们实施了几种提示工程方法。例如:Few-shot Chain-of-Thought、Emotion Prompt、Expert Prompting等。评估对抗性提示:promptbench 集成了提示攻击 ,使研究人员能够模拟模型上的黑盒对抗性提示攻击并评估其鲁棒性。动态评估以减轻潜在的测试数据污染:我们集成了动态评估框架DyVal,该框架以可控的复杂性即时生成评估样本。

  • HowieHwong/TrustGPT 我们能信任大型语言模型吗?:通过毒性、偏见和价值一致性评估实现负责任的大型语言模型的基准

  • llmeval/llmeval-1 中文大语言模型评测第一期,涵盖了17个大类、453个问题,包括事实性问答、阅读理解、框架生成、段落重写、摘要、数学解题、推理、诗歌生成、编程等各个领域。 在这些问题上,为大模型的回答设置了5个评分项,分别是:正确性、流畅性、信息量、逻辑性和无害性。 在构造了评测目标的基础上,有多种方法可以对模型进行评测。包括分项评测、众包对比评测、公众对比评测、GPT 4自动分项评测、GPT 4 对比评测等方式。

  • llmeval/llmeval-2 评测以用户日常使用为主线,结合线上用户问题分布情况,重点考察不同专业本科生和研究生在日常学习和生活中希望借助大模型得到帮助的任务。12个学科分别构造领域知识测试集,出题人基于外部数据库,对每个学科领域构造对应测试题集,题型为单项选择题与问答题。

  • llmeval/llmeval-3 聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目(后续我们将继续收集题目将总题库扩充至100W)。

  • xingyaoww/mint-bench ICLR 2024 论文 MINT 的官方 Repo:使用工具和语言反馈LLMs进行多回合交互评估

  • HITsz-TMG/awesome-llm-attributions 归因是指模型(例如 LLM)生成和提供证据的能力,通常以参考文献或引用的形式,以证实其产生的主张或陈述。这些证据来自可识别的来源,确保可以从基础语料库中逻辑地推断出声明,使其易于理解和验证。归因的主要目的包括使用户能够验证模型提出的声明,促进生成与引用来源密切相关的文本,以提高准确性并减少错误信息或幻觉,以及建立一个结构化框架来评估与所提出的声明相关的支持证据的完整性和相关性。

  • stanford-oval/storm 一个LLM强大的知识管理系统,用于研究一个主题并生成带有引文的完整报告。一个LLM基于互联网搜索从头开始编写类似维基百科的文章的系统。虽然该系统无法生成通常需要大量编辑的可出版文章,但经验丰富的维基百科编辑发现它在他们的写作前阶段很有帮助。STORM 将生成带有引文的长篇文章分为两个步骤:写作前阶段:系统进行基于互联网的研究,以收集参考文献并生成大纲。写作阶段:系统使用大纲和参考文献生成带有引文的完整文章。STORM 将研究过程自动化的核心确定为自动提出要提出的好问题。直接提示语言模型提问效果不佳。为了提高问题的深度和广度,STORM采用了两种策略:视角引导提问:给定输入主题,STORM 通过调查来自相似主题的现有文章来发现不同的观点,并使用它们来控制提问过程。模拟对话:STORM模拟维基百科作者与基于互联网资源的主题专家之间的对话,使语言模型能够更新其对主题的理解并提出后续问题。基于两个阶段的分离,STORM使用dspy以高度模块化的方式实现。

  • stanfordnlp/dspy 用于编程(而非提示)基础模型的框架。用于通过算法优化 LM 提示和权重的框架,尤其是当 LM 在管道中使用一次或多次时。要使用 LM 构建一个没有 DSPy 的复杂系统,您通常必须:(1) 将问题分解为多个步骤,(2) 很好地提示您的 LM,直到每个步骤单独工作良好,(3) 调整步骤以很好地协同工作,(4) 生成合成示例来调整每个步骤,以及 (5) 使用这些示例对较小的 LM 进行微调以降低成本。目前,这很困难,也很混乱:每次更改管道、LM 或数据时,所有提示(或微调步骤)都可能需要更改。为了使它更系统、更强大,DSPy 做了两件事。首先,它将程序的流程 ( modules ) 与每个步骤的参数(LM 提示和权重)分开。其次,DSPy 引入了新的 optimizers ,这是 LM 驱动的算法,可以调整 LM 调用的提示和/或权重, metric 前提是您想要最大化。DSPy 可以定期教授强大的模型(如 GPT-3.5 or GPT-4 )和本地模型(如 T5-base or Llama2-13b )在任务中更加可靠,即具有更高的质量和/或避免特定的故障模式。DSPy 优化器会将同一程序“编译”为不同的指令、小样本提示和/或每个 LM 的权重更新(微调)。这是一种新的范式,在这种范式中,LM 及其提示逐渐淡出背景,作为可以从数据中学习的更大系统的可优化部分。顶级域名;更少的提示,更高的分数,以及更系统地解决 LM 的艰巨任务的方法。

  • TheDuckAI/arb Advanced LLMs Reasoning Benchmark 数据集,新颖的基准数据集,由高级推理问题组成,旨在评估LLMs文本理解和专家领域推理,提供比以前的基准更具挑战性的测试,其特点是测试更深入的数学、物理、生物学、化学和法律知识的问题

  • sambanova/toolbench ToolBench 是一个基准测试,为了研究各类LLMs在软件工具操作上的差距。由用于实际任务的各种软件工具组成。还提供了易于使用的基础设施,以直接评估每个模型的执行成功率。

  • karpathy/llm.c LLM简单、纯 C/CUDA 的培训。不需要 245MB 的 PyTorch 或 107MB 的 cPython。训练 GPT-2 (CPU, fp32) 在单个文件 train_gpt2.c 中是 ~1,000 行干净代码,在 GPU 上训练它是 ~2,000 行(添加 CUDA 内核)在 train_gpt2.cu 中。代码立即编译并运行,它与 PyTorch 参考实现完全匹配,并且它 ~匹配(编译)PyTorch 的速度(fp32,无闪存注意)。我选择 GPT-2 作为第一个工作示例,因为它是 LLMs的祖父,第一次将现代堆栈放在一起。

  • HowieHwong/TrustLLM 关于可信度的综合研究LLMs,包括可信度不同维度的原则,建立的基准,评估和主流LLMs可信度的分析,以及对开放挑战和未来方向的讨论。具体来说,我们首先提出了一套跨越八个不同维度的可信赖LLMs原则。基于这些原则,我们进一步建立了六个维度的基准,包括真实性、安全性、公平性、鲁棒性、隐私和机器伦理。然后,我们提出了一项研究,评估了 TrustLLM 中的 16 个主流LLMs,包括 30 多个数据集。本文档解释了如何使用 trustllm python 包来帮助您更快地评估可信度的性能LLM。

  • thunlp/InfLLM 揭示使用免训练记忆理解超长序列的内在能力LLMs,InfLLM 将远程上下文存储到额外的内存单元中,并采用一种有效的机制来查找与令牌相关的单元以进行注意力计算。因此,InfLLM 允许LLMs有效地处理长序列,同时保持捕获长距离依赖关系的能力。在没有任何训练的情况下,InfLLM 可以在LLMs几千个令牌的序列上进行预训练,从而获得比在长序列上不断训练这些LLMs令牌的竞争基线更好的性能。即使序列长度缩放到 1024K,InfLLM 仍然有效地捕获长距离依赖关系。

  • lrhh123/ChatGPT-On-CS 基于大模型的智能对话客服工具,支持微信、千牛、哔哩哔哩、抖音企业号、抖音、抖店、微博聊天、小红书专业号运营、小红书、知乎等平台接入,可选择 GPT3.5/GPT4.0/ 懒人百宝箱 (后续会支持更多平台),能处理文本、语音和图片,通过插件访问操作系统和互联网等外部资源,支持基于自有知识库定制企业 AI 应用。

  • LuckyyySTA/Awesome-LLM-hallucination 大型语言模型中的幻觉调查:原则、分类法、挑战和开放性问题。我们调查了与大型语言模型幻觉相关的论文。这包括相关的调查或分析论文、幻觉原因、幻觉检测和基准、幻觉缓解,以及该领域的挑战和开放性问题。

  • ninehills/llm-inference-benchmark LLM-推理基准测试

  • turboderp/exllamav2 用于在现代消费级 GPU 上本地运行LLMs的快速推理库

  • OpenNMT/CTranslate2 C++ 和 Python 库,用于使用 Transformer 模型进行高效推理。该项目实现了一个自定义运行时,该运行时应用了许多性能优化技术,例如权重量化、层融合、批量重新排序等,以加速和减少 Transformer 模型在 CPU 和 GPU 上的内存使用。

  • InternLM/lmdeploy 用于压缩、部署和提供LLMs的工具包。高效推理:LMDeploy 通过引入持久批处理(又称连续批处理)、阻塞 KV 缓存、动态拆分和融合、张量并行、高性能 CUDA 内核等关键功能,提供比 vLLM 高 1.8 倍的请求吞吐量。有效量化:LMDeploy 支持纯权重和 k/v 量化,4 位推理性能比 FP16 高 2.4 倍。量化质量已通过 OpenCompass 评估得到确认。轻松的分发服务器:利用请求分发服务,LMDeploy 有助于在多台机器和卡上轻松高效地部署多模型服务。交互式推理模式:通过缓存多轮对话过程中的注意力 k/v,引擎可以记住对话历史,从而避免对历史会话的重复处理。

  • freshllms/freshqa 新颖的动态 QA 基准测试,包含多种问答类型,包括需要快速变化的世界知识的问题以及需要揭穿的具有错误前提的问题。LLMs我们在双模式评估程序下对各种封闭和开源进行了基准测试,使我们能够衡量正确性和幻觉。通过涉及超过50K个判断的人工评估,我们揭示了这些模型的局限性,并展示了巨大的改进空间:例如,所有模型(无论模型大小如何)都在涉及快速变化的知识和错误前提的问题上挣扎。在这些结果的激励下,我们提出了 FreshPrompt,这是一种简单的几次提示方法,通过将从搜索引擎检索到的相关和最新信息合并到提示中,大大提高了 FreshQA LLM 的性能。

  • LC1332/Luotuo-QA 骆驼QA是指给定一段特定的文本,用户针对文本中的内容,进行一个提问。语言模型试图理解文本中的内容,对用户的问题进行回答。这里我们从陈丹琦学姐参与的CoQA数据集出发,基于唐杰老师实验室发布的GLM6B模型,建立了中文的骆驼QA模型。

  • CLUEbenchmark/SuperCLUE-safety 中文大模型多轮对抗安全基准,生成式大模型生成内容具有一定的不可控性,输出的内容并不总是可靠、安全和负责任的。比如当用户不良诱导或恶意输入的时候, 模型可能产生一些不合适的内容,甚至是价值观倾向错误的内容。这些都限制了大模型应用的普及以及大模型的广泛部署。

  • CrazyBoyM/phi3-Chinese phi3以小搏大(从微软放出的跑分数据看),用不到1/2的小体积(3.8b)超越llama3 8b版性能表现,增大了在手机上部署的可行性。该仓库致力于收录分散在开源社区的各种phi3的训练变体版本,让更多网友发现那些不为人知的特色有趣权重。同时也会顺便整理phi相关训练、推理、部署的简单教程。

  • vahe1994/AQLM 用于通过加法量化对大型语言模型进行极端压缩,与GPTQ等更简单的量化方法相比,AQLM量化需要更长的时间来校准。这只会影响量化时间,而不会影响推理时间。我们的工作建立在 MCQ 系列中的经典算法 Additive Quantization 之上,并使其适应语言模型的量化。

  • openai/summarize_from_feedback 在“从人类反馈中学习”( Learning to Summarize from Human Feedback paper)一文中,根据人类反馈训练了一个奖励模型(reward model)。然后使用奖励模型来训练总结模型,使其与人类的偏好保持一致。这是为奖励建模而发布的人类反馈数据集。此数据集分为两部分: comparisons 和 axis 。在这一 comparisons 部分中,人类注释者被要求从两个摘要中选择最好的。在这一 axis 部分中,人类注释者对摘要的质量进行了李克特量表的评分。 comparisons 该部件仅具有训练和验证拆分,并且 axis 该部件仅具有测试和验证拆分。

  • openai/webgpt_comparisons 在 WebGPT 论文中,作者根据人类反馈训练了一个奖励模型。他们使用奖励模型来训练一个长篇问答模型,以符合人类的偏好。这是在 WebGPT 项目结束时被标记为适合奖励建模的所有比较的数据集。总共有 19,578 个比较。数据集中的每个示例都包含一个问题的一对模型答案以及关联的元数据。每个答案都有一个来自人类的偏好分数,可用于确定两个答案中哪一个更好。

  • xfactlab/orpo 提出了一种称为ORPO的方法(Odds Ratio Preference Optimization,赔率比偏好优化),这种方法针对不受欢迎的生成内容施与小小惩罚就足以实现偏好对齐的 SFT,通过将 SFT 和对齐结合到一个新的目标(损失函数)中来训练基础大语言模型,从而免去了耗时耗力的SFT阶段。根据论文架构图显示,ORPO不需要监督微调、奖励模型和参考模型。

  • Shenzhi-Wang/Llama3-Chinese-Chat 第一个基于Meta-Llama-3-8B-Instruct模型的ORPO专门针对中文进行微调的中文聊天模型。

  • chtmp223/topicGPT 通过提示大型语言模型进行主题建模”的脚本和提示。

  • pjlab-sys4nlp/llama-moe 通过持续的预培训建立来自 LLaMA 的专家组合。于 LLaMA 和 SlimPajama 的一系列开源专家混合 (MoE) 模型。我们通过以下两个步骤构建 LLaMA-MoE:将 LLaMA 的 FFN 划分为稀疏专家,并为每一层专家插入 top-K 门。使用来自 Sheared LLaMA 的优化数据采样权重和来自 SlimPajama 的过滤数据集,持续预训练初始化的 MoE 模型。

  • https://github.com/X-PLUG/CValues 面向中文大模型价值观的评估与对齐研究。联合天猫精灵团队发起「给AI的100瓶毒药」项目,邀请中国知名专家学者,每位专家提出100个诱导偏见、歧视回答的刁钻问题,并对大模型的回答进行标注。项目吸引了环境科学、心理学、法理学等多个领域专家参与,并召开了专家研讨会,会后发布业内首个大语言模型治理开源中文数据集100PoisonMpts,包含专家提出的问题、专家自己撰写或认可的答案。提出一个评估中文大模型价值观水平的benchmark,基于safety和responsibility两个评价准则。我们评测了10+大模型,实验既包含人工评测、也构造多项选择题进行自动化评测。

  • PandaBearLab/prompt-tutorial chatGpt提示词课程,文包括的内容:prompt 原理、prompt 技巧、我的一些经验、一些公开的prompt模板、AI工具系列

  • stanfordnlp/pyreft 一种强大、高效且可解释的微调方法。pyreft ,一个表示微调 (ReFT) 库,支持通过可训练的干预调整内部语言模型表示。通过更少的微调参数和更健壮的性能, pyreft 可以提高微调效率,降低微调成本,同时为研究适配参数的可解释性打开大门。

  • xlang-ai/UnifiedSKG 使用文本到文本语言模型进行统一和多任务结构化知识基础,结构化知识基础 (SKG) 利用结构化知识来完成用户请求,例如对数据库进行语义解析和对知识库进行问答。由于SKG任务的输入和输出是异质的,因此它们在历史上被不同的社区分开研究,这限制了对SKG的系统性和兼容性研究。在本文中,我们通过提出 UnifiedSKG 框架来克服这一局限性,该框架将 21 个 SKG 任务统一为文本到文本的格式,旨在促进系统的 SKG 研究,而不是专属于单个任务、领域或数据集。我们表明,像 T5 这样的大型语言模型,在必要时进行简单的修改,几乎可以在所有 21 个任务上实现最先进的性能。UnifiedSKG促进多任务学习。我们表明,多任务前缀调整对大多数任务都有好处,大大提高了整体性能。UnifiedSKG 是一个具有挑战性的零样本和少样本学习测试平台,T0、GPT-3 和 Codex 都在其中苦苦挣扎。UnifiedSKG 还支持对 SKG 任务中的结构化知识编码变体进行一系列对照实验。我们发现 T5 对结构化知识编码变化的敏感性因任务而异。

  • google-research/xtreme 评估预训练多语言模型跨语言泛化能力的基准,涵盖 40 种类型不同的语言,包括 9 个任务。XTREME中包含的任务涵盖了自然语言处理中的一系列标准范式,包括句子分类、结构化预测、句子检索和问答。

  • princeton-nlp/LLM-Shearing 剪切 LLaMA:通过结构化修剪加速语言模型预训练,与从头开始预训练相比,修剪强大的基础模型是获得强大的小规模语言模型的一种极具成本效益的方法。下图显示,给定 Llama-2-7B 模型(使用 2T 令牌预训练)的存在,修剪它会产生一个与 OpenLLaMA 模型一样强大的模型,其预训练成本仅为 3%。

  • agi-templar/Stable-Alignment 多智能体社交模拟 + RLHF 的高效、有效和稳定的替代方案。论文“在模拟人类社会中训练社会一致的语言模型”的代码。目标是提供一种 RLHF 替代方案,该替代方案在对齐性能方面具有卓越性,在数据学习方面非常高效,并且易于在扩展环境中部署。我们没有训练一个可以在优化过程中进行游戏的额外奖励模型,而是直接在模拟社交游戏中训练记录的交互数据。我们发现高质量的数据+可靠的算法是稳定对齐学习的秘诀。

  • lm-sys/llm-decontaminator 在没有更强的去除训练样本污染的情况下,Llama-rephraser:13B 模型在主要基准测试 (MMLU/GSK-8K/HumanEval) 中达到 GPT-4 性能!为了确保结果的有效性,我们遵循了 OpenAI 的去污方法,没有发现数据污染的证据。本文提出了一种基于更强LLM的去污器,并将其应用于现实世界的训练数据集(例如, the Stack、RedPajama),揭示了训练数据集与广泛使用的基准测试的显着重叠。现有的检测方法(例如,n-gram重叠,嵌入相似性)无法检测到这种污染。嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。而本文提出可以使用“LLM去污器”来量化数据集相对于基准的重新表述的样本。根据检测结果,您可以估计数据集中改写样本的污染情况,并将其从训练集中移除。该LLM净化器包括两个步骤:对于每个测试用例,“LLM去污器”使用嵌入相似性搜索识别相似度最高的前 k 个训练项。从这些项目中,“LLM去污器”生成 k 个潜在的改写对,每对都使用高级 LLM,例如 GPT-4 进行改写评估。结果表明,我们提出LLM的方法在去除改写样本方面明显优于现有方法。

  • thu-coai/SafetyBench 评估安全性LLMs的综合基准,它包括 11,435 个不同的多项选择题,涵盖 7 个不同的安全问题类别。SafetyBench 还整合了中文和英文数据,便于以两种语言进行评估。

  • OpenLMLab/LEval L-Eval 的数据和代码,一个全面的长上下文语言模型评估基准,全面的长上下文语言模型(LCLM)评估套件,具有20个子任务,508个长文档和2,000多个人工标记的查询-响应对,包括不同的问题风格,域和输入长度(3k~200k标记)。L-Eval 有 2 组:封闭式任务和开放式任务。封闭式组主要测试对较长上下文的推理和理解能力,开放式组由需要聚合长文档信息(下载数据)的更多总结任务组成。

  • bigai-nlco/LooGLE 一个LLM全面的评估基准,用于长时间理解上下文,其中包含最新的(全部在2022年之后)和超长的现实文档(每个文档超过24k令牌,其中许多超过100k字)和6,000个新生成的问题,跨越不同的领域和类别。

  • https://github.com/dwzhu-pku/PoSE 位置跳跃训练,将上下文窗口有效扩展至LLMs极长 (ICLR 2024),引入了位置跳跃 (PoSE) 训练,用于高效适应大型语言模型~(LLMs) 到极长的上下文窗口。PoSE 通过在训练期间使用具有操纵位置索引的固定上下文窗口模拟长输入来模拟长输入,从而将训练长度与目标上下文窗口大小分离。以上下文窗口从 2,048 扩展到 8,192 为例,我们将 2,048 个标记的原始上下文窗口划分为两个块,并通过添加一个明显的跳过偏差项来调整第二个块的位置索引。对于每个训练示例,这些偏差项以及每个块的长度都会发生变化,以便模型可以通过微调来适应目标上下文窗口的所有相对位置。值得注意的是,通过将微调长度与目标上下文窗口解耦,PoSE 理论上可以无限扩展上下文窗口,仅受推理内存使用的限制。随着高效推理的不断进步~(例如,vLLM、Flash Attention),我们相信 PoSE 在进一步扩展上下文窗口方面具有巨大的前景。

  • https://github.com/IAAR-Shanghai/UHGEval 基于无约束生成的中国大型语言模型幻觉基准测试,一个综合框架,旨在评估幻觉现象。其架构提供了灵活性和可扩展性,允许轻松集成新的数据集、模型和评估指标。该框架对评估常见的幻觉任务是用户友好的,包括我们的新华幻觉和牛津的TruthfulQA等。

  • OpenAccess-AI-Collective/axolotl 旨在简化各种 AI 模型微调的工具,支持多种配置和架构。 特征:训练各种 Huggingface 模型,如llama、pythia、falcon、mpt;支持 fullfinetune、lora、qlora、relora 和 gptq;使用简单的 yaml 文件或 CLI 覆盖自定义配置;加载不同的数据集格式,使用自定义格式,或自带标记化数据集;集成了 xformer、flash注意力、rope缩放和多重包装;通过 FSDP 或 Deepspeed 与单个 GPU 或多个 GPU 配合使用;在本地或云端使用 Docker 轻松运行;将结果和检查点(可选)记录到 wandb 或 mlflow

  • bigscience-workshop/xmtf 通过多任务微调实现跨语言泛化

  • https://github.com/tangqiaoyu/ToolAlpaca 具有 3000 个模拟案例的语言模型的通用工具学习。用于在最少的人工监督下学习紧凑语言模型中的通用工具使用能力。它通过多智能体仿真环境生成工具使用语料库,提供来自 400 多个工具的 3.9k 工具使用实例,从而解决了工具学习的挑战。

  • aurora-develop/aurora (带UI)免费的GPT3.5,支持使用3.5的access 调用,注:仅ip属地支持免登录使用ChatGpt可以使用(也可以自定义Baseurl来绕过限制)

  • McGill-NLP/webllama 使用Llama 3 构建的最强大的代理,并针对带有对话的 Web 导航进行了微调。构建有效的以人为本的代理来浏览网页。我们不想取代用户,而是为他们配备强大的助手。

  • FMInference/H2O 用于大型语言模型高效生成推理的重磅 Oracle,大型语言模型(LLMs)尽管最近取得了令人瞩目的成就,但部署成本明显过高,特别是对于涉及长内容生成的应用程序,例如对话系统和故事写作。通常,除了模型参数外,还存储了大量瞬态状态信息(称为 KV 缓存),并随序列长度和批量大小线性缩放。在本文中,我们介绍了一种实现 KV 缓存的新方法,该方法可显着减少其内存占用。我们的方法基于一个值得注意的观察结果,即在计算注意力分数时,一小部分代币贡献了大部分价值。我们称这些代币为重击者(H2)。通过全面的调查,我们发现 (i) H2 的出现是自然的,并且与文本中频繁同时出现标记密切相关,以及 (ii) 删除它们会导致显着的性能下降。基于这些见解,我们提出了 Heavy Hitter Oracle (H2O),这是一种 KV 缓存驱逐策略,可动态保留最近代币和 H2 代币的平衡。我们将KV缓存逐出表述为一个动态子模问题,并证明了(在温和的假设下)我们新颖的逐出算法的理论保证,可以帮助指导未来的工作。我们使用 OPT、LLaMA 和 GPT-NeoX 在各种任务中验证了算法的准确性。在 OPT-6.7B 和 OPT-30B 上,我们实施了 20% 重击器的 H2O,将吞吐量提高了 29×、29× 和 3× 三个领先的推理系统 DeepSpeed Zero-Inference、Hugging Face Accelerate 和 FlexGen。在相同的批量大小下,H2O 最多可以减少 1.9× 的延迟。

  • OpenMOSS/CoLLiE 帮助您从零开始训练大模型的完整工具箱。它提供了数据预处理、模型微调、模型保存以及训练过程各项指标监测等功能。CoLLiE集成了现有的并行策略、高效参数微调方法和高效优化器,以加快训练的速度,提高训练的质量,降低训练的开销。CoLLiE支持主流的多种模型(如MOSS, InternLM, LLaMA, ChatGLM等),您可以轻松在不同的模型之间切换。此外,CoLLiE提供了丰富的文档,使初学者可以快速入门。同时,CoLLiE还提供了高度可定制化的功能和灵活的配置选项,使有经验的用户能够根据自己的需求进行个性化定制。无论您是初学者还是有经验的专业人士,CoLLiE都可以为您提供满足需求的解决方案。CoLLiE 基于 DeepSpeed 和 PyTorch,为大型语言模型提供协作式和高效的调优方法。

  • aurorax-neo/free-gpt3.5-2api 免费chat GPT API

  • open-compass/T-Eval 逐步评估大型语言模型的工具利用能力

  • ymcui/Chinese-LLaMA-Alpaca-3 基于Meta最新发布的新一代开源大模型Llama-3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。

  • https://github.com/zjukg/KnowPAT 一种LLMs与人类知识偏好保持一致的新管道。KnowPAT结合领域知识图谱来构建偏好集并设计新的对齐目标,以微调.LLMs

  • usyd-fsalab/fp6_llm 高效的 GPU 支持 6 位量化 (FP6) LLM 推理。与 4 位和 8 位量化对应物相比,6 位量化 (FP6) 可以在模型质量和推理成本之间实现更好的权衡,从而有效地减小大型语言模型的大小 (LLMs),并在各种应用程序中保持一致地保持模型质量。为了支持现代 GPU LLMs 的 6 位推理,我们提供了 FP6-LLM 的官方实现,在 fp16/int8 基线上实现了线性层的显著加速和 GPU 内存的缩减。高效的 CUDA 实现,用于启用 Tensor Core 的线性层(FP6 中的权重和 FP16 格式的激活)的混合输入矩阵乘法。

  • https://github.com/Abbey4799/CELLO CELLO 是系统评估大型语言 MOdels 的 ComplEx 指令理解能力的基准 (AAAI 2024)。我们为复杂指令设计了八个特征,并根据真实场景构建了一个全面的评估数据集。我们建立了四个标准并制定了相应的指标,因为目前的指标是不充分的、有偏见的或过于严格和粗糙的。我们通过大量的实验比较了具有代表性的面向中文和面向英语的模型在遵循复杂指令方面的性能。

  • tmlr-group/DeepInception 催眠大型语言模型成为越狱者。披露了一种轻量级的方法,称为DeepInception,它可以很容易地催眠LLM成为越狱者并解锁其滥用风险。具体来说,《深度盗梦空间》利用拟LLM人化能力构建新颖的嵌套场景来表现,实现了正常场景下逃避使用控制的自适应方式,为进一步的直接越狱提供了可能性。根据经验,我们进行了全面的实验以证明其功效。我们的 DeepInception 可以达到与前代同行竞争的越狱成功率,并在后续交互中实现连续越狱,这揭示了 Falcon、Vicuna、Llama-2 和 GPT-3.5/4/4V 等开源/闭源LLMs自输的关键弱点。我们的调查呼吁人们应该更加关注安全方面,LLMs并加强对滥用风险的防御。

  • Datayoo/HuggingFists 一个低代码数据流工具,允许方便地LLM使用 和 HuggingFace 模型,其中一些功能被认为是 Langchain 的低代码版本。

  • datawhalechina/self-llm 《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程

  • developersdigest/llm-answer-engine 使用 Next.js、Groq、Mixtral、Langchain、OpenAI、Brave 和 Serper 构建受Perplexity(LLM智能搜索)启发的答案搜索引擎。包含构建复杂的应答引擎所需的代码和说明,该引擎利用了 Groq、Mistral AI 的 Mixtral、Langchain.JS、Brave Search、Serper API 和 OpenAI 的功能。该项目旨在根据用户查询有效地返回源、答案、图像、视频和后续问题,对于对自然语言处理和搜索技术感兴趣的开发人员来说,这是一个理想的起点。

  • Zjh-819/LLMDataHub 指令微调数据集的快速指南,提供了专为聊天机器人训练设计的精选数据集集合,包括链接、大小、语言、用法以及每个数据集的简要描述。我们的目标是让研究人员和从业者更容易识别和选择最相关和最有用的数据集,以满足他们的聊天机器人LLM培训需求。无论您是致力于提高聊天机器人对话质量、响应生成还是语言理解,此存储库都能满足您的需求。

编程语言大模型及相关项目

  • AntonOsika/gpt-engineer GPT 工程师易于调整、扩展,它根据提示生成整个代码库。指定您希望它构建的内容,AI 要求澄清,然后构建它。

  • THUDM/CodeGeeX2 更强大的多语言代码生成模型。基于 ChatGLM2 架构加入代码预训练实现,得益于 ChatGLM2 的更优性能,CodeGeeX2 在多项指标上取得性能提升(+107% > CodeGeeX;仅60亿参数即超过150亿参数的 StarCoder-15B 近10%)

  • KillianLucas/open-interpreter 终端中的 OpenAI 代码解释器,在本地运行。允许LLM在本地运行代码(Python,Javascript,Shell等)。您可以通过终端中类似 ChatGPT 的界面与开放解释器聊天。

  • THUDM/CodeGeeX 一个具有130亿个参数的大型多语言代码生成模型,在20多种语言的大型代码语料库上进行了预训练。

  • fauxpilot/fauxpilot GitHub Copilot服务器的开源替代品。构建GitHub Copilot的本地托管替代方案的尝试。它在NVIDIA的Triton Inference Server中使用SalesForce CodeGen模型和FasterTransformer后端。

  • QwenLM/CodeQwen1.5 Qwen 的代码版本,是 Qwen 团队开发的大型语言模型系列,阿里云。基于 Transformer 的纯解码器语言模型,在大量代码数据上进行了预训练。强大的代码生成能力和在一系列基准测试中的竞争性能;支持长上下文理解和生成,上下文长度为 64K 令牌;支持92种编码语言;在文本转SQL、bug修复等方面具有出色的性能。

  • facebookresearch/codellama 基于 Llama 2 的代码大型语言模型系列,在开放模型中提供最先进的性能、填充功能、对大型输入上下文的支持以及编程任务的零镜头指令跟踪能力。我们提供多种风格来涵盖广泛的应用:基础模型(Code Llama),Python 专业化(Code Llama - Python)和指令遵循模型(Code Llama - Instruct),每个模型都有 7、13 和 34B 参数。所有模型都在16k 个令牌的序列上进行训练,并显示对最多 100k 个令牌的输入的改进。7B 和 13B 代码骆驼和代码骆驼 - 指示变体支持基于周围内容的填充。通过使用更高的代码采样微调 Llama 2 开发的。

  • bigcode-project/starcoder 一种在源代码和自然语言文本上训练的语言模型 (LM)。它的训练数据包含了 80 多种不同的编程语言,以及从 GitHub 问题和提交以及笔记本中提取的文本。

  • microsoft/TypeChat 一个库,可以轻松使用类型构建自然语言界面。传统上,构建自然语言界面是很困难的。这些应用通常依靠复杂的决策树来确定意图并收集采取行动所需的输入。LLM使我们能够从用户那里获取自然语言输入并与意图匹配,从而使这变得更容易。这带来了新的挑战,包括需要约束模型的响应以确保安全性,构建模型的响应以进行进一步处理,以及确保模型的响应有效。提示工程旨在解决这些问题,但随着提示大小的增加,学习曲线陡峭,脆弱性增加。TypeChat 用模式工程取代了提示工程。只需定义NLP程序中支持的意向的类型即可。这可以像用于对情绪进行分类的界面一样简单,也可以像购物车或音乐应用程序的类型一样简单。例如,若要向架构添加其他意向,开发人员可以将其他类型添加到可区分的联合中。要使架构分层,开发人员可以使用“元架构”根据用户输入选择一个或多个子架构。定义类型后,TypeChat 会通过以下方式处理其余工作:1.使用类型构造 LLM 的提示。2.验证 LLM 响应是否符合架构。如果验证失败,则通过进一步的语言模型交互来修复不符合项的输出。3.简明扼要地总结(不使用 LLM)实例,并确认它与用户意图一致。

  • OpenDevin/OpenDevin 自主的 AI 软件工程师,能够执行复杂的工程任务并与用户在软件开发项目上积极协作。希望通过开源社区的力量复制、增强和创新 Devin。利用了 shell、代码编辑器和 Web 浏览器等工具的组合,展示了软件开发LLMs中未开发的潜力。目标是探索和扩展 Devin 能力,确定其优势和需要改进的领域,以指导开放代码模型的进展。

  • salesforce/CodeGen 一系列用于程序合成的开源模型。接受过 TPU-v4 训练。与 OpenAI Codex 竞争。

  • Pythagora-io/gpt-pilot 使用GPT 帮助开发人员将构建应用的速度提高 20 倍

  • codefuse-ai/MFTCoder CodeFuse 的一个开源项目,用于多任务处理 Code-LLM(代码任务的大型语言模型),其中包括模型、数据集、训练代码库和推理指南。

  • salesforce/CodeT5 CodeT5的主页:用于代码理解和生成的开放代码LLM

  • getcursor/cursor 基于 VSCode 🤖 的 AI 代码编辑器。聊天:与了解整个代码库的机器人交谈。编辑:要求 AI 更改代码块,查看编辑的内联差异。调试:将鼠标悬停在 linter 错误或堆栈跟踪上以自动修复它们。

  • mckaywrigley/ai-code-translator 使用 AI 将代码从一种语言翻译成另一种。

  • joshpxyne/gpt-migrate 轻松地将代码库从一种框架或语言迁移到另一种。由于 GPT-Migrate 旨在编写(并可能重写)整个代码库,因此成本可能会迅速增加。

  • microsoft/semantic-kernel 快速轻松地将尖端的LLM技术集成到您的应用程序中。将OpenAI,Azure OpenAI和Hugging Face等大型语言模型(LLM)与C#,Python和Java等传统编程语言集成在一起。语义内核通过允许您定义可以在几行代码中链接在一起的插件来实现这一点。

  • gencay/vscode-chatgpt 一个非官方的Visual Studio Code - OpenAI ChatGPT集成,在编程集成环境中使用GPT-4、3.5、3 或 Codex 模型加速编程开发。

  • shobrook/stackexplain 用 ChatGPT 解释您编程中的错误消息

  • eth-sri/lmql 一种用于类型化、约束引导和高效 LLM 编程的语言。一种基于Python超集的大型语言模型(LLM)的编程语言。LMQL 提供了一种将传统编程与在代码中调用 LLM 的能力交织在一起的新方法。它超越了传统的模板语言,在程序代码级别原生集成LLM交互。

  • ricklamers/gpt-code-ui OpenAI的ChatGPT代码解释器(生成代码、运行代码)的开源实现。

  • leetcode-mafia/cheetah Mac 应用程序,用于粉碎 AI 的远程技术面试。由 AI 驱动的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间为用户提供帮助。

  • continuedev/continue 软件开发的开源自动驾驶仪——将 ChatGPT 的强大功能引入 VS Code

  • TheR1D/shell_gpt 由 GPT-3 和 GPT-4 提供支持的命令行生产力工具将帮助您更快、更高效地完成任务。作为开发人员,我们可以利用 AI 功能来生成 shell 命令、代码片段、注释和文档等。忘记备忘单和笔记,使用此工具,您可以在终端中获得准确的答案,您可能会发现自己减少了日常Google搜索,从而节省了宝贵的时间和精力。

  • paul-gauthier/aider 命令行工具,可让您将程序与 GPT-3.5/GPT-4 配对,以编辑存储在本地 git 存储库中的代码。可以启动新项目或使用现有存储库。您可以在帮助者聊天(要求 GPT 编辑代码)和您自己的编辑器自己进行更改之间流畅地来回切换。

  • di-sukharev/opencommit 1秒内用AI自动生成令人印象深刻的git commit提交

  • zurawiki/gptcommit 一个 git prepare-commit-msg 钩子,用于使用 GPT-3 创作提交消息。使用此工具,您可以轻松生成清晰、全面和描述性的提交消息,让您专注于编写代码。

  • intitni/CopilotForXcode 一个 Xcode 源代码编辑器扩展,为 Xcode 提供 GitHub Copilot、Codeium 和 ChatGPT 支持。

  • mpociot/chatgpt-vscode 允许您使用 ChatGPT 的 VSCode 扩展

  • sahil280114/codealpaca 在代码生成指令上训练的 Instruction-following LLaMA Model。包括用于微调模型的 20K 数据。

  • ddzipp/AutoAudit 专门针对网络安全领域的大语言模型,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。采用了数据集组织方法Self-Instruct,该方法结合了人工标注和自我生成的数据。数据集主要来自于Github、Kaggle、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据。数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分,我们规定在output输出中应当包含对具体内容的分析(analysis),安全评级(label),安全风险(risk),以及对应的解决方案(solution)。

  • shroominic/codeinterpreter-api ChatGPT 代码解释器的 LangChain 实现。使用 CodeBox 作为沙盒 python 代码执行的后端。CodeBox是LLM应用程序的最简单的云基础架构。您可以使用自己的OpenAI API密钥在本地运行除LLM之外的所有内容。

  • gofireflyio/aiac 命令行工具,用于通过 OpenAI 的 API 生成 IaC(基础设施即代码)模板、配置、实用程序、查询等。CLI 允许您要求模型为不同的场景生成模板。它将发出请求,并将结果代码存储到文件中,或者只是将其打印到标准输出。

  • anc95/ChatGPT-CodeReview 由 ChatGPT 提供支持的代码审查机器人

  • sqlchat/sqlchat 基于聊天的 SQL 客户端和编辑器。基于聊天的 SQL 客户端,它使用自然语言与数据库通信,实现数据库的查询、修改、添加、删除等操作。

  • CodedotAl/gpt-code-clippy GitHub Copilot的开源版本,这是一种基于GPT-3的语言模型,称为GPT-Codex,根据GitHub公开可用的代码进行微调。

  • kuafuai/DevOpsGPT 用于 AI 驱动软件开发的多智能体系统。将LLM与DevOps工具相结合,将自然语言需求转换为工作软件。支持任何开发语言并扩展现有代码。

  • OpenBMB/ChatDev 使用自然语言创意创建定制软件(通过LLM驱动的多代理协作)

  • pleisto/flappy 适用于每个开发人员的生产就绪型 LLM 代理 SDK

  • TabbyML/tabby 自托管的AI编码助手,提供GitHub Copilot的开源和本地替代方案。

  • WisdomShell/codeshell PKU-KCL开发的一系列代码大型语言模型。北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。

  • sweepai/sweep AI 驱动的初级开发人员,用于小功能和错误修复。

  • SkalskiP/awesome-chatgpt-code-interpreter-experiments 你可以用 ChatGPT + Code Interpreter 组合做的很棒的事情

  • huybery/Awesome-Code-LLM 精心策划的最佳代码列表 -LLM 用于研究。

  • unit-mesh/build-your-ai-coding-assistant 《构建你自己的 AI 辅助编码助手》 —— 介绍如何 DIY 一个端到端(从 IDE 插件、模型选型、数据集构建到模型微调)的 AI 辅助编程工具,类似于 GitHub Copilot、JetBrains AI Assistant、AutoDev 等。

  • codefuse-ai/Awesome-Code-LLM 针对代码和相关数据集的语言建模研究的精选列表。

  • OpenCodeInterpreter/OpenCodeInterpreter 开源代码生成系统,旨在弥合大型语言模型和 GPT-4 Code Interpreter 等复杂专有系统之间的差距。它通过集成执行和迭代优化功能,显著增强了代码生成功能。

  • whoiskatrin/sql-translator 使用人工智能将自然语言查询转换为 SQL 代码的工具。这个项目是100%免费和开源的。

  • arcee-ai/mergekit 可扩展的框架,可以在任何硬件上有效地合并模型,MergeKit 包含广泛的合并技术,并在数千个合并模型的开发中发挥了重要作用,其中许多模型的评估处于或接近 Open LLM 排行榜的前列。开源语言模型领域的快速扩展提供了一个机会,可以通过组合这些模型检查点(checkpoint)的参数来合并它们的能力。迁移学习的进步,即为特定任务微调预训练模型的过程,促成了大量用特定于任务的模型的发展,这些模型通常专门用于单个任务,无法利用彼此的优势。模型合并有助于创建多任务模型,而无需额外的训练,为提高模型性能和多功能性提供了一条有前途的途径。通过保留原始模型的内在功能,模型合并解决了人工智能中的复杂挑战,包括灾难性遗忘和多任务学习的困难。当前支持的合并方法的快速概述:Linear (Model Soups 经典的合并方法 - 一个简单的加权平均值。) 、SLERP、Task Arithmetic、TIES 、DARE TIES、DARE Task Arithmetic 、Passthrough、Model Stock

  • ingyamilmolinar/doctorgpt 将 GPT 投入生产,用于应用程序日志错误诊断

  • openai/human-eval openai在2021年提出的,评估大型语言模型在代码上的表现

  • liutiedong/goat 擅长算术任务的微调 LLaMA

  • HC-Guo/Owl 大型语言模型,专为 AIOps 字段设计,用于处理与 IT 运营相关的任务(故障诊断、日志分析等)

  • bigcode-project/octopack 指令调优代码大型语言模型,数据bigcode/commitpack 4TB 的 GitHub 提交,涵盖 350 种编程语言,bigcode/commitpackft CommitPack 的过滤版本,用于类似于指令的高质量提交消息,在 CommitPackFT + OASST 上调整的 StarCoder-16B 模型,在 CommitPackFT + OASST 上优化的 CodeGeeX2-6B 指令。bigcode/humanevalpack 扩展 OpenAI 的 HumanEval 以涵盖 6 种语言的 3 个场景

  • OFA-Sys/gsm8k-ScRel 基于大型语言模型学习数学推理的扩展关系的代码和数据

  • albertan017/LLM4Decompile 逆向工程:使用大型语言模型反编译二进制代码

健康医学大模型及语料库

  • FreedomIntelligence/HuatuoGPT-II 医学适应的一阶段训练LLMs.(一个开放的医疗GPT)。采用创新的领域适应方法,显著提升其医学知识和对话能力。它在多个医学基准测试中展示了最先进的性能,尤其是在专家评估和新的医疗执照考试中超过了 GPT-4。开源7B、13B、34B版本。HuatuoGPT2 数据:发布部分预训练和微调指令。中医LLM评价:综合自动评价方法,对医学反应能力LLM和新鲜专业药师考试考核进行评价。
  • FreedomIntelligence/HuatuoGPT 华佗GPT,迈向驯服语言模型成为医生。在庞大的中国医学语料库上训练的大型语言模型(LLM)。我们与华拓GPT的目标是为医疗咨询场景构建更专业的“ChatGPT”。demo
  • SCIR-HI/Huatuo-Llama-Med-Chinese 本草(原名:华驼)模型仓库,基于中文医学知识的大语言模型指令微调

  • microsoft/LLaVA-Med 用于生物医学的大型语言和视觉助手,专为多模态 GPT-4 级功能而构建。

  • FreedomIntelligence/HuatuoGPT-sft-data-v1 华驼大语言模型的微调数据集

  • shibing624/medical 医疗数据集,可用于医疗领域大模型训练。共36万条,来自医疗百科数据。共8475条,来自医疗教材的文本数据。共195万条,来自1)中文医疗对话数据集 2)在线医疗百科 3)医疗知识图谱

  • michael-wzhu/PromptCBLUE 面向医学领域多任务少样本学习的中文大规模指令调优数据集

  • UCSD-AI4H/Medical-Dialogue-System 包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。数据的所有版权均属于 haodf.com。

  • lemuria-wchen/imcs21 IMCS-21 的新语料库基准,用于自动医疗咨询系统

  • 中文医疗信息处理评测基准CBLUE_数据集-阿里云天池 中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云、腾讯天衍、平安医疗、阿里夸克、北京、郑州、鹏城实验室、哈工大(深圳)、同济、中山、复旦、华东师范等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。

  • shibing624/MedicalGPT 训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。

  • SupritYoung/Zhongjing 基于LLaMa的中国医学ChatGPT,基于大规模训练前语料库和多回合对话数据集的训练。

  • PharMolix/OpenBioMed PharMolix和AI产业研究院(AIR)联合发布的首个商业友好型多模式生物医学基础模型。它将生命语言(分子结构和蛋白质序列)与人类自然语言保持一致,在生物医学QA基准上的表现与人类专家不相上下,并在跨模态分子和蛋白质问答任务中表现出强大的性能。DrugFM是由AIR和北京人工智能研究院(BAAI)联合开发的多模态分子基础模型。它利用UniMAP,一种预先训练的分子模型,可以捕获分子的细粒度属性和表示,并结合了我们的多模态分子基础模型MolFM。DrugFM在跨模态检索上实现了SOTA。

  • datasets/medical_dialog MedDialog数据集(中文)包含医生和患者之间的对话(中文)。它有 110 万次对话和 400 万条话语。数据在不断增长,并将添加更多对话。原始对话来自 haodf.com。MedDialog数据集(英语)包含医生和患者之间的对话(英语)。它有26万次对话。数据在不断增长,并将添加更多对话。原始对话来自 healthcaremagic.com 和 icliniq.com。

  • FreedomIntelligence/huatuo_encyclopedia_qa 该数据集共有 364,420 条医学 QA 数据,其中一些以不同的方式存在多个问题。我们从纯文本(例如,医学百科全书和医学文章)中提取医学QA对。我们在中文维基百科上收集了8,699个疾病百科词条和2,736个药物百科词条。此外,我们还从前文健康网站上抓取了226,432篇高质量的医学文章。

  • BillGPT/Chinese-medical-dialogue-data 中文医疗对话数据

  • FreedomIntelligence/CMB 全方位多层次测评模型医疗知识;测评复杂临床问诊能力;中药科考试;临床项目

  • WangRongsheng/XrayGLM 首个会看胸部X光片的中文多模态医学大模型

  • WangRongsheng/CareLlama 医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

  • michael-wzhu/ChatMed 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题

  • X-jun-0130/LLM-Pretrain-FineTune 医疗大模型、预训练、微调

  • michael-wzhu/ShenNong-TCM-LLM “神农”大模型,首个中医药中文大模型.

  • michaelwzhu/ShenNong_TCM_Dataset 中医药指令数据集

  • michaelwzhu/ChatMed_Consult_Dataset 来自于互联网上的医疗问诊问题(11W),反映了真实世界的不同用户/患者的医疗问诊需求。目前response都是由OpenAI GPT-3.5引擎回答的。后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。

  • CMKRG/QiZhenGPT 利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。

  • scutcyr/BianQue 中文医疗对话模型扁鹊(BianQue)。实际的医生与用户交谈往往会存在“医生根据用户当前的描述进行持续多轮的询问”。并且医生在最后根据用户提供的信息综合给出建议,如下图所示。我们把医生不断问询的过程定义为 询问链(CoQ, Chain of Questioning) ,当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。对话数据通过“病人:xxx\n医生:xxx\n病人:xxx\n医生:”的形式统一为一种指令格式,训练数据当中混合了大量target文本为医生问询的内容而非直接的建议,这将有助于提升AI模型的问询能力。基于扁鹊健康大数据BianQueCorpus,我们选择了 ChatGLM-6B 作为初始化模型,经过全量参数的指令微调训练得到了新一代BianQue2.0。扩充了药品说明书指令、医学百科知识指令以及ChatGPT蒸馏指令等数据,强化了模型的建议与知识查询能力。BianQue

  • thomas-yanxin/Sunsimiao 孙思邈中文医疗大模型 :提供安全、可靠、普惠的中文医疗大模型

  • scutcyr/SoulChat 中文领域心理健康对话大模型

  • kbressem/medAlpaca 用于医学问答的微调大型语言模型,包括相关数据。

  • llSourcell/DoctorGPT 一种通过了美国医疗执照考试的大型语言模型。使命是为每个人提供自己的私人医生。基于 Meta 的 Llama2 70 亿参数语言模型,该模型在医学对话数据集上进行微调,然后使用强化学习和进一步改进。由于该模型的大小仅为 3 GB,因此它适用于任何本地设备,因此无需 API 即可使用它。免费的,供离线使用,可以保护患者的机密性,并且可以在iOS,Android和Web上使用。

  • itsharex/CareLlama 一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

  • FudanDISC/DISC-MedLLM 利用大型语言模型在端到端对话式医疗保健服务中提供准确和真实的医疗响应。它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询等,为您提供高质量的健康支持服务。构建了一个高质量的数据集Flmc/DISC-Med-SFT,包含超过47万个衍生于现有的医疗数据集重新构建得到的样本。采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。

  • HIT-SCIR-SC/QiaoBan 中文儿童情感陪伴大模型“巧板”。基于通用大模型,使用了通用域人机对话数据、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,训练得到,是通用大语言模型迁移至儿童情感陪伴领域的一次成功实践。三大特点:首先,基于情绪辅导理论构建的儿童情感陪伴对话数据,能够更有效地守护孩子的心理健康。其次,具有儿童心理学背景的志愿者与专家参与完成高质量对话数据的收集。使得能够更加准确地理解和回应儿童的需求,真正与他们建立深入的情感连接。最后,模型与儿童的交互方式更加贴心,让他们能够感受到温暖和认同,成为他们坚实成长道路上的得力伙伴。

  • qiuhuachuan/smile 开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。

  • camel-ai/camel 骆驼:大规模语言模型社会“心灵”探索的交际代理。一种名为角色扮演的新型交流代理框架。我们的方法涉及使用开始提示来指导聊天代理完成任务,同时保持与人类意图的一致性。我们展示了如何使用角色扮演来生成对话数据,以研究聊天代理的行为和功能,为研究对话语言模型提供宝贵的资源。我们的贡献包括引入一种新的通信代理框架,为研究多智能体系统的协作行为和能力提供可扩展的方法,以及开源我们的库以支持通信代理及其他方面的研究。演示,展示了两个 ChatGPT 代理之间的对话,扮演 python 程序员和股票交易员的角色,合作开发股票市场的交易机器人。

  • pariskang/CMLM-ZhongJing 首个中医大语言模型——"仲景"。受古代中医学巨匠张仲景深邃智慧启迪,专为传统中医领域打造的预训练大语言模型。有史以来第一个中医大语种模型——“CMLM-中京”。受中国古代医学大师张仲景深邃智慧的启发,是专为中医领域设计的预训练大语言模型。

  • Zlasejd/HuangDI 在 Ziya-LLaMA-13B-V1的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的语言模型(pre-trained ),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。以《中华医典》数据库为语料来源,约338MB,由两部分组成:①非结构化的“古籍文本”:涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”:包含“名医”、“名言”、“名词”、“名著”等六大类,由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理,是中医古籍内容精华最为直接的集中体现。

  • 2020MEAI/TCMLLM 通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。构建的指令微调数据集包含8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《中医妇科学》和《中医儿科学》(即“内外妇儿”,Internal medicine,Surgery, Gynecology,Pediatrics,简称ISGP)、2020版中国药典(Chinese pharmacopeia,简称CHP)、中医临床经典医案数据(Chinese Medicine Clinical Cases,简称CMCC)、以及多个三甲医院的肺病(Lung)、中风病(Stroke)、糖尿病(Diabetes)、肝病(Liver)、脾胃病(Splenic and stomach diseases)等多病种的临床病历。共68k条,token总数约为10M。

  • Kent0n-Li/ChatDoctor 使用医学领域知识在大型语言模型(LLaMA)上进行微调的医学聊天模型。数据集:来自 HealthCareMagic.com 100k的患者和医生之间的真实对话。 来自 ICLiniq-10K 的患者医生之间的 10k 真实对话。 5k从ChatGPT GenMedGPT-5k疾病数据库 生成了患者和医生之间的对话

  • chaoyi-wu/PMC-LLaMA 迈向构建医学开源语言模型”的官方代码。

  • X-D-Lab/MindChat 从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平. 作为一个心理大模型, MindChat通过营造轻松、开放的交谈环境, 以放松身心、交流感受或分享经验的方式, 与用户建立信任和理解的关系

  • FreedomIntelligence/huatuo_knowledge_graph_qa 华佗医疗知识图谱问答数据集

  • hejunqing/webMedQA 从在线健康咨询网站收集的真实中国医学问答数据集。

  • pubmedqa/pubmedqa 生物医学研究问答数据集

  • WENGSYX/CMCQA 中国医学领域庞大的对话问答数据集。收集自中国医学会话问答网站春雨,拥有男科、风暴科、妇产科等45个科室的医学对话资料。具体来说,CMCQA 有 130 万个完整的会话或 1983 万个语句或 6.5 亿个词元。同时,我们进一步开源所有数据,推动医疗领域会话问答相关领域的发展。

  • wangrongsheng/HealthCareMagic-100k-en 从在线医疗咨询网站HealthCareMagic收集了约10万例真实的医生-患者对话。通过手动和自动方式过滤这些数据,删除医生和患者的身份信息,并使用语言工具纠正语法错误。

  • wangrongsheng/icliniq-10k-en icliniq.com的1万例实际患者与医生之间对话

  • FreedomIntelligence/Huatuo-26M 规模最大的中国医学质量保证数据集:包含 2600万个问答对。

  • liyucheng/zhihu_rlhf_3k 知乎3000个用于RLHF(Reinforcement Learning from Human Feedback 基于人类反馈的强化学习)的数据

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • SCIR-HI/Med-ChatGLM 基于中文医学知识的ChatGLM指令微调

  • xionghonglin/DoctorGLM 基于ChatGLM-6B的中文问诊模型

  • WangRongsheng/MedQA-ChatGLM 基于真实医疗对话数据在ChatGLM上进行LoRA、P-Tuning V2、Freeze、RLHF等微调

  • Toyhom/Chinese-medical-dialogue-data 中文医疗对话数据集:Andriatria_男科 94596个问答对 IM_内科 220606个问答对 OAGD_妇产科 183751个问答对 Oncology_肿瘤科 75553个问答对 Pediatric_儿科 101602个问答对 Surgical_外科115991个问答对 总计 792099个问答对

  • WangRongsheng/IvyGPT 最贴近真实医生问诊效果的医疗大语言模型

  • 189569400/MedicalGPT-zh 基于医疗指令微调的中文医疗问诊模型

  • DUTIR-BioNLP/Taiyi-LLM 太一:一种双语(中英文)微调的大语言模型,适用于各种生物医学任务

  • bigscience-workshop/biomedica 用于管理用于大规模语言建模的生物医学训练数据的工具,大规模轻量级、程序化访问生物医学数据集,提高数据处理的可重复性,126+ 生物医学数据集、10+ 种语言、12 个任务类别、按任务类型协调的数据集架构、有关许可、粗粒度/细粒度任务类型、域等的元数据

  • openmedlab/PULSE: PULSE: Pretrained and Unified Language Service Engine 中文医疗大语言模型,使用约400万个中文医学领域和通用领域的指令微调数据进行进一步调优。PULSE支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。

  • openmedlab/XrayPULSE 基于 PULSE。我们利用MedCLIP作为我们的医疗视觉编码器,并利用Q-former(BLIP2)作为适配器,通过简单的线性变换将图像注入PULSE。为了通过适配器对齐冷冻视觉编码器和LLM,我们借助chatGPT从两个数据集(MIMIC-CXR和OpenI)的自由文本放射学报告中生成中文版Xray-Report配对数据。为了促进生物医学多模态学习的研究,我们将向公众发布数据。

  • stanford-crfm/BioMedLM 用于预训练和微调 BioMedLM 生物医学模型的代码。

  • kyegomez/Med-PaLM 在医疗保健领域实现多模态的生成式 AI 的负责任之路:释放 Med-PaLM 2 的力量,彻底改变医学知识,回答复杂的问题,并通过准确、安全和公平的做法增强医疗保健体验。

法律大模型及语料库

  • PKU-YuanGroup/ChatLaw 中文法律大模型。目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,我们使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

  • AndrewZhe/lawyer-llama 中文法律LLaMA,在大规模法律语料上进行了continual pretraining,让它系统的学习中国的法律知识体系。 在此基础上,我们借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

  • CSHaitao/LexiLaw 经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。

  • LiuHC0428/LAW-GPT 中文法律对话语言模型,由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。

  • siat-nlp/HanFei 国内首个全参数训练的法律大模型 HanFei-1.0 韩非

  • davidpig/lychee_law 律知, 法律咨询大模型,Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调.

  • coastalcph/lex-glue 英语法律语言理解的基准数据集

  • JoelNiklaus/LEXTREME 涵盖24种语言的11个数据集的法律基准测试。

  • zhihaiLLM/wisdomInterrogatory 由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型。核心思想:以“普法共享和司法效能提升”为目标,从推动法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持,形成数字化和智能化的司法基座能力。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • seudl/JurisLMs 根据不同的场景在法律法规、法律咨询、裁判文书等多种不同的语料上进一步预训练了多个模型。其中,AI Judge是由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到的一个可解释法律判决预测模型。基于中文LLaMA的智能法律咨询模型,AI Lawyer。由于缺乏标注法条的咨询语料,我们采用主动学习(Active Learning)在少量数据上进行微调获得一个法律适用模型,使得AI Lawyer可以根据用户咨询适用正确的法律法规回答问题。

  • lvwzhen/law-cn-ai AI 法律助手,使用 pgvector 存储嵌入向量,使用OpenAI GPT 回答用户。

  • LawRefBook/Laws 本项目收集各类法律法规、部门规章、案例等,并将其按照章节等信息进行了处理。

  • FudanDISC/DISC-LawLLM 利用大型语言模型(LLM)提供广泛法律服务的智能法律系统。DISC-Law-SFT 数据集

  • open-compass/LawBench 对大型语言模型的法律知识进行基准测试

其他大模型

  • gmftbyGMFTBY/science-llm 科学领域的大语言模型,在redpajama arXiv上训练

  • IMOSR/MediaGPT 中文的自媒体大语言模型MediaGPT(曾用名Media LLaMA)

  • wenge-research/YAYI2 科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。包括 Base 和 Chat 版本,参数规模为 30B。YAYI2-30B 是基于 Transformer 的大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景,我们采用了百万级指令进行微调,同时借助人类反馈强化学习方法,以更好地使模型与人类价值观对齐。YAYI2 预训练数据 ,选了约100B数据,数据大小约为500GB。在预训练阶段,我们不仅使用了互联网数据来训练模型的语言能力,还添加了通用精选数据和领域数据,以增强模型的专业技能。通用精选数据包含人工收集和整理的高质量数据。涵盖了报纸类数据、文献类数据、APP类数据、代码类数据、书籍类数据、百科类数据。其中,报纸类数据包括广泛的新闻报道和专栏文章,这类数据通常结构化程度高,信息量丰富。文献类数据包括学术论文和研究报告,为我们的数据集注入了专业和深度。代码类数据包括各种编程语言的源码,有助于构建和优化技术类数据的处理模型。书籍类数据涵盖了小说、诗歌、古文、教材等内容,提供丰富的语境和词汇,增强语言模型的理解能力。构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。我们共收集了 240TB 原始数据,预处理后仅剩 10.6TB 高质量数据。

  • ymcui/Chinese-LLaMA-Alpaca-2 中文 LLaMA-2 & Alpaca-2 大模型二期项目 + 本地CPU/GPU训练部署 (Chinese LLaMA-2 & Alpaca-2 LLMs)

  • FlagAlpha/Llama2-Chinese Llama中文社区,最好的中文Llama大模型,完全开源可商用

  • CVI-SZU/Linly 提供中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据。中文基础模型以 LLaMA 和 Falcon 为底座,使用中文和中英平行语料进行增量预训练,将其在英文上的语言能力扩展到中文上。公开的多语言指令数据,对中文模型进行大规模指令跟随训练,实现了 Linly-ChatFlow。此外,本项目开源了从头训练的 Linly-OpenLLaMA 模型,包含 3B、7B、13B 规模,在 1TB 中英文语料上进行预训练,针对中文优化了字词结合tokenizer。

  • OpenBMB/CPM-Bee 一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

  • OpenBMB/VisCPM 基于CPM基础模型的中英双语多模态大模型系列。支持面向图像进行中英双语多模态对话。该模型使用Muffin视觉编码架构,使用CPM-Bee(10B)作为语言基座模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段:1.预训练:我们使用约100M高质量英文图文对数据对VisCPM-Chat进行了预训练,数据包括CC3M、CC12M、COCO、Visual Genome、Laion等。在预训练阶段,语言模型参数保持固定,仅更新视觉编码器的参数,以支持大规模视觉-语言表示的高效对齐。2.指令精调:采用LLaVA-150K英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,更新全部模型参数,以提升指令精调数据的利用效率。有趣的是,发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。表明模型的多语言多模态能力已得到良好泛化。在指令精调阶段进一步加入少量中文翻译数据,可以将模型回复语言和用户问题语言对齐。

  • zjunlp/KnowLM 一个开源的知识渊博的大型语言模型框架。以知识和大模型为中心,利用构建的中英文预训练语料库,对LLaMA等大型模型进行全面预训练。基于KG2Instructions的技术,优化了包括NER、RE和IE在内的知识提取任务,可以使用人工指令完成。

  • zjunlp/KnowLM-IE · Datasets at Hugging Face 基于知识图谱构建的,提取实体关系三元组的指令数据集

  • ictnlp/BayLing “百聆”是基于LLaMA的对齐增强的英语/中文大语言模型,具有优越的中英文能力,在多语言和通用任务等测试中取得ChatGPT 90%的性能。

  • AtomEcho/AtomGPT 基于LLaMA的模型架构,从0开始训练,希望能在训练的过程中,将模型能力得到提升的进化过程展示出来,感受到模型学习的过程。

  • FMInference/FlexGen 单个GPU上运行大型语言模型,实现面向吞吐量的加速方案。

  • BuilderIO/gpt-crawler 抓取网站以生成知识文件,以从 URL 创建自己的自定义 GPT

  • bigscience-workshop/petals 在家运行LLM,BitTorrent风格。微调和推理速度比卸载快10 倍。Petals协作运行像Llama和BLOOM这样的大型语言模型 - 你加载模型的一小部分,然后加入为其他部分提供服务的人来运行推理或微调。

  • janhq/jan ChatGPT 的开源替代品,可在您的计算机上 100% 离线运行。

  • Anthropic/hh-rlhf Human preference data about helpfulness and harmlessness,有用性和无害性的人类偏好数据,关于有用和无害的人类偏好数据,来自从人类反馈中强化学习训练有用和无害的助手。这些数据旨在为后续的RLHF训练训练偏好(或奖励)模型。这些数据不适用于对话代理的监督训练。就这些数据对对话代理进行培训可能会导致有害的模型,应避免这种情况。来自红队语言模型的人工生成和注释的红队对话,以减少危害:方法、缩放行为和经验教训。这些数据旨在了解众包工人红队模型以及哪些类型的红队攻击成功与否。这些数据不用于微调或偏好建模(使用上面的数据进行偏好建模)。这些数据是从上述无害偏好建模数据派生的对话的完整记录,其中只有选择的响应被合并到整个脚本中。此外,成绩单还带有人工和自动测量的注释,以衡量整体对话的危害程度。

  • RUC-GSAI/YuLan-Chat 基于聊天的大型语言模型,由中国人民大学GSAI的研究人员开发(YuLan,代表玉兰,是中国人民大学的校园花)。最新版本是通过不断预训练和指令调整LLaMA-2开发的,具有高质量的中英文数据。

  • Yu-Yang-Li/StarGLM 整合了司天工程相关的语料数据与知识库资料,训练得到了天文大模型。司天工程是时域天文学所提出的“十五五”天文重大基础设施,一期计划在国内多个优选观测台址布置54台(18组)口径1米级的大视场望远镜,组成多波段同时监测网络,每30分钟完成1万平方度天区的高精度三色“凝视”巡天。司天的采样频率比全球其它巡天项目高近两个量级,将突破目前探测时标的限制,在新的空域和时域下发现大批新天体、新现象,在宇宙极端高能爆发源、引力波电磁对应体、系外行星和太阳系天体等理论和观测研究中形成新的突破,在“两暗一黑三起源”等重大科学问题研究以及地球文明灾难预警等国家空间安全问题方面发挥重要作用。

  • OpenBMB/MiniCPM 面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿的非词嵌入参数量, 总计2.7B参数量。经过 SFT 后,在公开综合性评测集上,与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。经过 DPO 后,在当前最接近用户体感的评测集 MTBench上,也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。以 MiniCPM-2B 为基础构建端侧多模态大模型 MiniCPM-V,整体性能在同规模模型中实现最佳,超越基于 Phi-2 构建的现有多模态大模型,在部分评测集上达到与 9.6B Qwen-VL-Chat 相当甚至更好的性能。经过 Int4 量化后,可在手机上进行部署推理,流式输出速度略高于人类说话速度。也直接跑通了多模态大模型在手机上的部署。一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。

  • cocktailpeanut/dalai 在本地计算机上运行LLaMA语言模型的最简单方法

  • Neutralzz/BiLLa 开源的推理能力增强的中英双语LLaMA模型。

  • DUOMO/TransGPT 国内首款开源交通大模型,主要致力于在真实交通行业中发挥实际价值。能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。

  • Duxiaoman-DI/XuanYuan 轩辕:首个千亿级中文金融对话模型。在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。

  • chancefocus/PIXIU 貔貅。第一个开源金融大型语言模型 (LLM)、指令调整数据和评估基准,用于全面评估金融 LLM。我们的目标是不断推动金融人工智能(AI)的开源发展。几个关键组件:FLARE:我们的金融语言理解和预测评估基准。FLARE作为金融LLM的评估套件,重点是理解和预测各种金融环境中的任务。FIT:我们的财务指令数据集。FIT是专门为财务任务量身定制的多任务和多模态指令数据集。它是为这些任务微调LLM的培训基地。FinMA:我们的金融大语言模型(LLM)。FinMA是我们项目的核心,为我们的财务任务提供学习和预测能力。主要特点:开放资源:PIXIU公开提供财务LLM,指令调整数据和评估基准中包含的数据集,以鼓励开放研究和透明度。多任务:PIXIU中的指令调优数据和基准测试涵盖了多种财务任务,包括4个财务NLP任务和1个财务预测任务。多模态:PIXIU的指令调优数据和基准由多模态财务数据组成,包括来自股票运动预测任务的时间序列数据。它涵盖了各种类型的金融文本,包括报告、新闻文章、推文和监管文件。多样性:与以前主要关注财务NLP任务的基准不同,PIXIU的评估基准包括与现实世界场景相一致的关键财务预测任务,使其更具挑战性。以及FLARE 2.0:金融语言理解和预测评估基准。

  • MetaGLM/FinGLM 致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。旨在深度解析上市公司年报的对话交互智能系统。面对金融文本中的专业术语与暗含信息,我们致力于用AI实现专家级别的金融分析。上市公司年报为投资者呈现了公司的经营状况、财务状况和未来规划。专业知识是解读的关键,而我们的目标是通过AI技术让这一过程变得更简单、更准确。

  • SUFE-AIFLM-Lab/FinEval 包含金融、经济、会计和证书等领域高质量多项选择题的集合。

  • SALT-NLP/FLANG 金融领域的基准测试和大型预训练语言模型

  • FudanDISC/DISC-FinLLM 专门针对金融场景下为用户提供专业、智能、全面的金融咨询服务的金融领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源。开源如下资源:DISC-FinLLM-SFT 训练数据样例、DISC-FinLLM 模型参数、DISC-Fin-Eval Benchmark DISC-Fin-Eval 测试、DISC-FinLLM-SFT 完整训练数据

  • blcuicall/taoli 适用于国际中文教育领域的大模型 “桃李”(Taoli)1.0 ,在国际中文教育领域数据上进行了额外训练的模型。基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。 设置了多种形式的指令来充分利用知识,构造了共计 88k 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。

  • icalk-nlp/EduChat 开源中英教育对话大模型。(通用基座模型,GPU部署,数据清理)

  • yongzhuo/chatglm-maths chatglm-6b微调/LORA/PPO/推理, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu

  • MineDojo/Voyager 航海家:具有大型语言模型的开放式具身代理。是 Minecraft 中第一个由 LLM 驱动的体现的终身学习代理,它不断探索世界,获得各种技能,并在没有人为干预下做出新的发现。由三个组件组成:1)最大化探索的自动课程,2)不断增长的可执行代码技能库,用于存储和检索复杂行为,以及3)新的迭代提示机制,其中包含环境反馈,执行错误和自我验证以改进程序。Voyager通过黑盒查询与GPT-4交互,这绕过了模型参数微调。从经验上讲,Voyager表现出强大的上下文终身学习能力,并在玩Minecraft方面表现出非凡的熟练程度。它获得的独特物品增加了 3.3×,旅行距离延长了 2.3×,解锁关键科技树里程碑的速度比之前的 SOTA 快了 15.3×。Voyager能够利用在新的Minecraft中学到的技能库从头开始解决新任务,而其他技术则难以概括。

  • DAMO-NLP-SG/Video-LLaMA 为大型语言模型提供视频和音频理解功能。Video-LLaMA建立在BLIP-2和MiniGPT-4之上。它由两个核心组件组成:(1)视觉语言(VL)分支和(2)音频语言(AL)分支。VL 分支(可视编码器:ViT-G/14 + BLIP-2 Q 前置器),引入两层视频Q-Forform和帧嵌入层(应用于每帧的嵌入)来计算视频表示。使用视频到文本生成任务在 Webvid-2M 视频字幕数据集上训练 VL Branch。我们还将图像文本对(来自LLaVA的~595K图像标题)添加到预训练数据集中,以增强对静态视觉概念的理解。在预训练之后,我们使用来自MiniGPT-4,LLaVA和VideoChat的指令调整数据进一步微调我们的VL Branch。AL 分支(音频编码器:ImageBind-Huge): 引入两层音频Q-Forform和音频段嵌入层(应用于每个音频段的嵌入)来计算音频表示。由于使用的音频编码器(即 ImageBind)已经跨多个模态对齐,因此我们仅根据视频/图像指令数据训练 AL Branch,只是为了将 ImageBind 的输出连接到语言解码器。在跨模态训练期间,只有视频/音频、位置嵌入层和线性层可训练。

  • Timothyxxx/Chain-of-ThoughtsPapers 思维链的相关论文。大型语言模型中的思维链促使了推理能力的产生。

  • kyegomez/tree-of-thoughts 即插即用 思想之树的实现:使用大型语言模型进行深思熟虑的问题解决,将模型推理提升至少 70%

  • promptslab/Awesome-Prompt-Engineering 包含用于提示工程的手工策划资源,重点是生成式预训练变压器 (GPT)、ChatGPT、PaLM 等

  • GitHubDaily/ChatGPT-Prompt-Engineering-for-Developers-in-Chinese 《面向开发者的 ChatGPT 提示词工程》非官方版中英双语字幕

  • timqian/openprompt.co OpenPrompt.co 上加星标最多的提示列表。该列表每 24 小时更新一次。

  • thinkingjimmy/Learning-Prompt 免费的快速提示工程在线课程。ChatGPT 和 Midjourney 教程现在包括在内!

  • trigaten/Learn_Prompting 关于快速提示工程的免费开源指南。

  • prompt-engineering/prompt-patterns Prompt 编写模式:如何将思维框架赋予机器,以设计模式的形式来思考 prompt

  • L1Xu4n/Awesome-ChatGPT-prompts-ZH_CN 如何将ChatGPT调教成一只猫娘。

  • prompt-engineering/click-prompt 简化您的提示设计,使用 ClickPrompt,您只需单击一下即可轻松查看、共享和运行这些提示。ClickPrompt 用于一键轻松查看、分享和执行您的 Prompt。

  • mattnigh/ChatGPT3-Free-Prompt-List 学习创建 ChatGPT3 提示的免费指南

  • yzfly/LangGPT 让每个人都能成为及时的专家! 结构化提示词,结构化提示词。

  • OpenMindClub/awesome-chatgpt 关于ChatGPT的一切,精选的应用程序和工具列表。

  • EgoAlpha/prompt-in-context-learning 用于上下文学习和快速工程的出色资源:掌握 ChatGPT、GPT-3 和 FlanT5 等 LLM,并提供最新和前沿的更新。

  • hegelai/prompttools 用于快速测试和实验的开源工具,支持LLM(例如OpenAI,LLaMA)和矢量数据库(例如Chroma,Weaviate,LanceDB)。

  • uptrain-ai/uptrain 一个Python框架,通过允许用户检查正确性,结构完整性,偏见,幻觉等方面来确保您的LLM应用程序可靠地运行。

  • ypwhs/CreativeChatGLM 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!

  • KevinWang676/ChatGLM2-Voice-Cloning 和喜欢的角色沉浸式对话吧:ChatGLM2 + 声音克隆+视频对话

  • melih-unsal/DemoGPT 只需使用句子即可创建 LangChain 应用程序。具有基础模型功能的自动 Gen-AI 应用程序生成器。

  • soulteary/docker-llama2-chat 一起玩LLaMA2 (官方 / 中文版 / INT4 / 骆驼2.cpp) 一起玩!只需3个步骤!( 非 GPU / 5GB vRAM / 8~14GB vRAM)

  • X-PLUG/mPLUG-Owl 模块化赋能多模态大型语言模型,一种针对大型多模态语言模型的模块化设计的新训练范式。学习视觉知识,同时支持由不同形式(图像/视频/文本)组成的多回合对话。观察能力,如多图像关联和场景文本理解,基于视觉的文档理解。发布与视觉相关的指令评估集 OwlEval。

  • homanp/superagent 超级代理 - 构建、部署和管理 LLM 支持的代理。一个强大的工具,可简化 LLM(大型语言模型)代理到生产的配置和部署。它提供了一系列特性和功能,使开发人员能够更轻松地构建、管理和将 AI 代理部署到生产环境,包括通过矢量数据库、强大的工具、Webhook、cron 作业等构建内存和文档检索等功能。

  • airaria/Visual-Chinese-LLaMA-Alpaca 基于中文LLaMA&Alpaca模型开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力。

  • LinkSoul-AI/LLaSM 第一个支持中英文语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

  • DAMO-NLP-MT/PolyLM 多语言大型语言模型,旨在解决当前LLM研究中的以下空白和局限性,为推进这一领域提供全面和创新的解决方案。涵盖 18 种最常用的语言。PolyLM精通全球主要的非英语语言,如西班牙语,俄语,阿拉伯语,日语,韩语,泰语,印度尼西亚语和中文等。它是对现有开源模型的完美补充,包括:(1)LLaMA,其中英语在整个数据集中占主导地位。(2)BLOOM,未能解决大量人口使用的语言,如日语,韩语和泰语。更好的多语言教学跟踪能力。我们建议MULTIALPACA来补充ALPACA和CHINESEALPACA,使LLM更好地遵循多语言说明,特别是那些来自非英语母语人士的指示。强劲的性能。与具有相似模型大小的流行多语言LLM相比,PolyLM在各种任务(包括QA,理解和生成)上表现出卓越的性能。

  • lyogavin/Anima 第一个开源的基于QLoRA的33B中文大语言模型。基于QLoRA开源的33B guanaco训练了10000 steps。训练使用一个H100 GPU。

  • Alibaba-NLP/EcomGPT 一种面向电子商务的指令调优大语言模型。共有250万条指令数据。使用电子商务基本数据类型(如产品信息,用户评论)构建原子任务来扩展数据大小和任务多样性。原子任务被定义为隐含参与解决最终任务的中间任务,我们也称之为任务链任务。

  • davendw49/k2 一种开源语言模型,首先在收集和清理的地球科学文献(包括地球科学开放获取论文和维基百科页面)上进一步预训练LLaMA,其次使用知识密集型指令调整数据(GeoSignal)进行微调。至于初步评估,我们使用GeoBench(由NPEE和AP地质,地理和环境科学测试组成)作为基准。与具有相似参数的几个基线模型相比,K2 在客观和主观任务上的表现优于基线。

  • neukg/TechGPT “东北大学知识图谱研究组”发布的垂直领域大语言模型。强化了如下任务:以“知识图谱构建”为核心的关系三元组抽取等各类信息抽取任务。以“阅读理解”为核心的各类智能问答任务。以“文本理解”为核心的关键词生成等各类生成任务。

  • microsoft/i-Code 构建集成和可组合的多模态人工智能。“i”代表综合多模态学习。

  • arc53/DocsGPT GPT 支持的文档聊天,与您的文档聊天

  • guangzhengli/ChatFiles 文档聊天机器人 — 多个文件。由 GPT / 嵌入提供支持。

  • whitead/paper-qa 从PDF或文本文件(可以是原始HTML)进行问答。它努力通过文本引用来提供非常好的答案,没有幻觉。使用OpenAI嵌入和称为FAISS的矢量数据库来嵌入和搜索文档。

  • huggingface/text-generation-inference 用于文本生成推理的 Rust、Py 和 gRPC 服务器。在HuggingFace的生产中使用,以支持Hugging Chat,推理API和推理端点。

  • mylxsw/aidea 一款支持 GPT 以及国产大语言模型通义千问、文心一言等,支持 Stable Diffusion 文生图、图生图、 SDXL1.0、超分辨率、图片上色的全能型 APP。

  • jmorganca/ollama 在本地启动并运行 Llama 2 和其他大型语言模型

  • serge-chat/sergellama.cpp运行Alpaca羊驼模型。没有API密钥,完全自托管

  • zetavg/LLaMA-LoRA-Tuner 用于微调和测试您自己的 LoRA 模型的 UI 工具基于 LLaMA, GPT-J 等.一键运行在谷歌Colab上。+ 一个类似 Gradio ChatGPT 的聊天用户界面,用于演示您的语言模型。

  • vercel-labs/ai-chatbot 使用 Next.js、Vercel AI SDK、OpenAI 和 Vercel KV 构建的开源 AI 聊天机器人应用程序模板。

  • RockChinQ/QChatGPT 高稳定性、支持插件、实时联网的 ChatGPT QQ 机器人 | 支持 Claude、Google Bard、gpt4free、One API 的 QQ 机器人平台

  • zhayujie/bot-on-anything 将 ChatGPT、必应、文心一言、谷歌Bard 等对话模型连接各类应用,如微信、公众号、QQ、Telegram、Gmail、Slack、Web、企业微信、飞书、钉钉等。

  • askrella/whatsapp-chatgpt WhatsApp机器人使用OpenAI的GPT和DALL-E 2来响应用户输入。

  • AutumnWhj/ChatGPT-wechat-bot 几步即可获得一个基于 ChatGPT 的微信机器人

  • wangrongding/wechat-bot 基于OpenAi ChatGPT + WeChaty 实现的微信机器人 ,可以用来帮助你自动回复微信消息,或者管理微信群/好友,检测僵尸粉等...

  • OpenGVLab/InternGPT 开源演示平台,您可以在其中轻松展示您的 AI 模型。现在它支持DragGAN,ChatGPT,ImageBind,多模态聊天,如GPT-4,SAM,交互式图像编辑等

  • TBXark/ChatGPT-Telegram-Workers 在Cloudflare Workers上轻松部署您自己的Telegram ChatGPT机器人。

  • leon-ai/leon 您的开源个人助理。Leon的NLU将首先使用自己的模型,而不依赖LLM。重要的是,Leon可以100%离线运行,我相信,通过量化等缩小技术,Leon迟早会以LLM为核心,并且仍然能够在边缘运行。

  • minimaxir/simpleaichat Python 包可轻松与聊天应用程序接口,具有强大的功能和最小的代码复杂性。可轻松与ChatGPT和GPT-4等聊天应用程序接口,具有强大的功能和最小的代码复杂性。

  • josStorer/RWKV-Runner RWKV管理和启动工具,完全自动化,只有8MB。并提供与OpenAI API兼容的接口。RWKV 是一种完全开源的大型语言模型,可用于商业用途。

  • hahahumble/speechgpt 一个Web应用程序,使您能够与ChatGPT交谈。

  • jackMort/ChatGPT.nvim Neovim插件:使用ChatGPT API轻松生成自然语言

  • 869413421/chatgpt-web 基于ChatGPT3.5 API实现的私有化web程序

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

  • ourongxing/chatgpt-vercel 优雅而有力的网页ChatGPT界面。由OpenAI和Vercel提供支持。

  • PlexPt/chatgpt-java ChatGPT Java SDK。支持 GPT3.5、 GPT4 API。开箱即用。

  • Chainlit/chainlit 在几分钟内构建Python LLM应用程序

  • gd3kr/BlenderGPT 使用英语命令通过OpenAI的GPT-4控制Blender。

  • varunshenoy/GraphGPT 使用 GPT-3 从非结构化文本推断知识图谱

  • zhaoyingjun/chatbot ChatGPT带火了聊天机器人,主流的趋势都调整到了GPT类模式,本项目也与时俱进,会在近期更新GPT类版本。基于本项目和自己的语料可以训练出自己想要的聊天机器人,用于智能客服、在线问答、闲聊等场景。

  • Significant-Gravitas/Auto-GPT-Plugins 用于自动 GPT 的插件。插件分为两类:第一方和第三方。第一方插件是广泛使用的插件精选列表。它们在安装插件平台时默认安装。第三方插件需要单独添加。它们可能对您的特定需求有用。

  • chatanywhere/GPT_API_free Free ChatGPT API Key,免费ChatGPT API,支持GPT4 API(低价),ChatGPT国内可用免费转发API,直连无需代理。可以搭配ChatBox等软件/插件使用,极大降低接口使用成本。国内即可无限制畅快聊天。

  • PromtEngineer/localGPT 无缝集成各种开源大模型,在本地设备上与您的文档聊天。没有数据离开您的设备,100%私密。

  • shreyashankar/gpt3-sandbox 使用户能够使用新发布的OpenAI GPT-3 API创建很酷的Web演示,只需几行Python。

  • mayooear/gpt4-pdf-chatbot-langchain GPT4 和 LangChain 聊天机器人,适用于大型 PDF 文档

  • whoiskatrin/chart-gpt 基于文本输入GPT构建图表的AI工具

  • nomic-ai/gpt4all 在 CPU 上本地运行的开源助手样式大型语言模型

  • langchain-ai/chat-langchain 本地托管的聊天机器人的实现,专门针对 LangChain 文档的问答。使用 LangChain、FastAPI 和 Next.js 构建。该应用程序利用 LangChain 的流媒体支持和异步 API 为多个用户实时更新页面。

  • PrefectHQ/marvin 构建激发欢乐的 使用生成式 AIAI 界面。一个轻量级的 AI 工程框架,用于构建可靠、可扩展且易于信任的自然语言界面。

  • microsoft/autogen 支持使用多个代理开发LLM应用程序,这些代理可以相互交谈以解决任务。AutoGen 代理是可定制的、可对话的,并且无缝地允许人工参与。它们可以在各种模式下运行,这些模式采用LLM,人力输入和工具的组合。

  • assafelovic/gpt-researcher 基于 GPT 的自主代理,可对任何给定主题进行在线综合研究。可以生成详细、事实和公正的研究报告,并提供自定义选项,以专注于相关资源、大纲和课程。受最近的计划和求解和RAG(检索增强生成)论文的启发,GPT 研究员解决了速度、确定性和可靠性问题,通过并行代理工作提供更稳定的性能和更高的速度,而不是同步操作。

  • GAIR-NLP/abel 数学大语言模型,为了向尼尔斯·亨里克·阿贝尔(Niels Henrik Abel)在代数和分析方面的开创性工作致敬而创建的,我们的模型也相对较好。

  • ray-project/llm-numbers 每个LLM开发人员都应该知道的数字

  • THUDM/MathGLM GPT 可以在没有计算器的情况下解决数学问题

  • thunlp/WebCPM 中文长篇问答的交互式网络搜索的官方代码。使用中文预训练模型进行交互式Web搜索的项目。开发了一个网络搜索界面,它既收集人类又收集网络搜索行为。然后,使用多达 10B 的参数微调 PLM,以模仿人类的网络搜索行为,并根据收集到的事实生成答案。开源了 Web 搜索界面、数据集、实现和模型参数。

  • huggingface/transformers-bloom-inference BLOOM 的快速推理解决方案

  • OpenLemur/Lemur Lemur 是一种可公开访问的语言模型,针对自然语言和编码功能进行了优化,可作为多功能语言代理的骨干。随着语言模型不断从对话聊天机器人发展到可以在现实世界中采取行动的功能代理,它们既需要强大的语言理解能力,也需要执行操作的能力。狐猴平衡了自然语言和编码技能,使代理能够遵循指令、推理任务并采取脚踏实地的行动。

  • llm-attacks/llm-attacks 对对齐语言模型的普遍和可转移攻击

  • OpenNLPLab/TransnormerLLM 第一个基于线性注意力的LLM,在准确性和效率方面都优于传统的softmax基于注意力的模型。它是在具有多达 1.4 万亿个代币的高质量语料库上进行训练的。从以前的线性注意力架构TransNormer演变而来,进行了高级修改,包括LRPE位置嵌入,闪电注意力加速,新的门控和规范化机制。TransNormerLLM在多个公认的中文,英文和多语言通用和特定领域的基准测试中实现了其规模的竞争性能。此版本包括具有 385M、1B 和 7B 参数的基本版本。所有版本都完全开放给学术研究。开发者只需通过电子邮件申请并获得官方商业许可,即可免费使用商业用途。

  • VPGTrans/VPGTrans 跨LLM传输视觉提示生成器,实现极低成本训练一个高性能多模态大模型。从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。现有的常用的VL-LLM基本采取的架构:VPG(比如1.2B)->Projector(4M)->LLM(比如11B),在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调。(1)第一阶段:我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。(2)第二阶段:直接正常训练VPG和projector。

  • CogStack/OpenGPT 用于创建基于基础指令的数据集和培训会话领域专家大型语言模型 (LLM) 的框架。使用 OpenGPT 训练的医疗保健对话模型。

  • huchenxucs/ChatDB 具有内存的大型语言模型 (LLM) 在计算上是通用的。然而,主流LLM并没有充分利用记忆,设计受到生物大脑的严重影响。由于其近似性质和容易累积错误,传统的神经记忆机制无法支持LLM模拟复杂的推理。在本文中,我们从现代计算机体系结构中寻求灵感,以使用符号记忆增强LLM,以进行复杂的多跳推理。这样的符号内存框架被实例化为LLM和一组SQL数据库,其中LLM生成SQL指令来操作SQL数据库。我们在需要复杂推理的合成数据集上验证了所提出的记忆框架的有效性。

  • intel-analytics/BigDL 用于在英特尔 XPU(从笔记本电脑到 GPU 再到云)上运行 LLM(大型语言模型),使用 INT4 以极低的延迟(适用于任何 PyTorch 模型)。

  • WangHuiNEU/llm 大模型社区每周都要发布近百个模型,本项目会及时整理相关模型和文章并期望成为中文社区的大模型研究人员的模型和技术备忘录,每天会及时更新最新的模型,并详细解读技术细节

  • Magnetic2014/llm-alignment-survey 用于大型语言模型 (LLM) 对齐的精选阅读列表。

  • zjunlp/EasyEdit 一个易于使用的LLM知识编辑框架。其目的是在特定域内有效地改变 LLM 的行为,而不会对其他输入的性能产生负面影响。它的设计易于使用和扩展。EasyEdit 包含编辑器、方法(SERAC、MEND、ROME、MEMIT、Knowledge Neuron)和评估的统一框架,分别表示编辑场景、编辑技术和评估方法。

  • OpenBMB/XAgent XAgent 是一个开源实验性大型语言模型 (LLM) 驱动的自治代理,可以自动解决各种任务。它被设计为可应用于各种任务的通用代理。目标是创建一个可以解决任何给定任务的超级智能代理!具有以下功能:自主性:XAgent可以在没有人类参与的情况下自动解决各种任务。安全:XAgent旨在安全运行。所有操作都约束在 docker 容器内。可扩展性:XAgent 被设计为可扩展的。您可以轻松添加新工具来增强代理的能力,甚至是新代理!GUI:友好的 GUI 来与代理交互。还可以使用命令行与代理进行交互。与人类合作:可以与您合作处理任务。它不仅能够在旅途中按照您的指导解决复杂的任务,而且在遇到挑战时还可以寻求您的帮助。XAgent由三部分组成:调度程序负责动态实例化任务并将其调度给不同的代理。它允许我们添加新代理并提高代理的能力。计划员负责生成和纠正任务计划。它将任务划分为子任务并为其生成里程碑,允许代理逐步解决任务。参与者负责执行操作以实现目标并完成子任务。参与者利用各种工具解决子任务,也可以与人类协作解决任务。ToolServer 是为 XAgent 提供强大而安全的工具来解决任务的服务器。它是一个 docker 容器。提供以下工具:文件编辑器提供了一个文本编辑工具来写入、读取和修改文件。Python Notebook提供了一个交互式Python笔记本,可以运行Python代码来验证想法,绘制图形等。网络浏览器提供用于搜索和访问网页的网页浏览器。Shell 提供了一个 bash shell 工具,可以执行任何 shell 命令,甚至可以安装程序和主机服务。Rapid API 提供了一个从 Rapid API 检索 API 并调用它们的工具,它提供了广泛的 API 供 XAgent 使用。还可以轻松地将新工具添加到ToolServer,以增强XAgent的能力。

  • THUDM/AgentTuning 使用跨多个代理任务的交互轨迹来调整LLM的第一次尝试。评估结果表明,AgentTuning 使 LLM 的代理功能能够在看不见的代理任务上具有强大的泛化能力,同时在一般语言能力方面保持良好。我们已经开源了AgentInstruct数据集和AgentLM。AgentInstruct 是一个精心策划的数据集,包含 1,866 个高质量的交互,旨在增强 6 个不同现实世界任务中的 AI 代理。AgentLM模型是通过对Llama2聊天系列的AgentInstruct数据集和ShareGPT数据集进行混合训练生成的。

  • QwenLM/Qwen-VL 由阿里云提出的Qwen-VL(通义千问-VL)聊天和预训练大视觉语言模型的官方回购。

  • OpenBMB/BMTools 大模型的工具学习,ChatGPT插件的开源解决方案。可以(1)通过编写python函数轻松构建插件(2)使用外部ChatGPT插件。

  • THUDM/AgentBench 第一个旨在评估LLM作为代理在不同环境中的基准测试。它包含 8 个不同的环境,以更全面地评估 LLM 在各种场景中作为自主代理运行的能力。这些环境包括 5 个新创建的域,即 操作系统、数据库、知识图谱、数字纸牌游戏、横向思维难题

  • InternLM/InternLM-XComposer 基于InternLM的视觉语言大型模型(VLLM),用于高级文本图像理解和构图。

  • THUDM/CogVLM 强大的开源视觉语言模型(VLM)。CogVLM-17B具有100亿个视觉参数和70亿个语言参数。在10个经典的跨模态基准测试上实现了最先进的性能,包括NoCaps,Flicker30k字幕,RefCOCO,RefCOCO+,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA和TDIUC,并在VQAv2,OKVQA,TextVQA,COCO字幕等方面排名第二,超过或匹配PaLI-X 55B。CogVLM还可以与您讨论图像。CogVLM 是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在 10 项权威跨模态基准上取得了SOTA性能。目前仅支持英文,后续会提供中英双语版本支持。CogVLM模型包括四个基本组件:视觉转换器(ViT)编码器,MLP适配器,预训练大语言模型(GPT)和视觉专家模块。

  • Shaunwei/RealChar 实时创建、自定义和与您的 AI 角色/同伴交谈(全部在一个代码库中!使用LLM OpenAI GPT3.5 / 4,Anthropic Claude2,Chroma Vector DB,Whisper Speech2Text,ElevenLabs Text2Speech

  • LinkSoul-AI/Chinese-Llama-2-7b 开源社区第一个能下载、能运行的中文 LLaMA2 模型!全部开源,完全可商用的中文版 Llama2 模型及中英文 SFT 数据集,输入格式严格遵循 llama-2-chat 格式,兼容适配所有针对原版 llama-2-chat 模型的优化。

  • EleutherAI/math-lm 数学的开放语言模型

  • 0nutation/SpeechGPT 为大型语言模型提供内在的跨模态对话能力。具有固有跨模态对话能力的大型语言模型,能够按照人类指令感知和生成多模型内容。对于离散语音表示,我们首先构建了SpeechInstruct,这是一个大规模的跨模态语音指令数据集。此外,我们采用三阶段训练策略,包括模态适应预训练、跨模态指令微调和模态链指令微调。实验结果表明,SpeechGPT具有令人印象深刻的遵循多模态人类指令的能力,并突出了用一个模型处理多种模态的潜力。

  • aiwaves-cn/RecurrentGPT 用自然语言(即文本段落)替换了长短期记忆RNN(LSTM)中的矢量化元素(即细胞状态、隐藏状态、输入和输出),并通过提示工程模拟递归机制。

  • eric-ai-lab/MiniGPT-5 论文“MiniGPT-5:通过生成式Vokens交错视觉和语言生成”的正式实现

  • eureka-research/Eureka 通过编码大型语言模型进行人类级奖励设计,大型语言模型(LLM)作为顺序决策任务的高级语义规划者表现出色。然而,利用它们来学习复杂的低级操作任务,例如灵巧的笔旋转,仍然是一个悬而未决的问题。我们弥合了这一基本差距,并提出了Eureka,这是一种由LLM提供支持的人类级奖励设计算法。 Eureka 利用最先进的 LLM(如 GPT-4)的卓越零镜头生成、代码编写和上下文改进功能,对奖励代码执行上下文进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。Eureka 生成的奖励函数优于专家人工设计的奖励,无需任何特定于任务的提示或预定义的奖励模板。在包含 10 种不同机器人形态的 29 种开源强化学习环境中,Eureka 在 83% 的任务中表现优于人类专家,平均标准化改进了 52%。尤里卡的通用性还提供了一种新的无梯度方法来从人类反馈(RLHF)进行强化学习,很容易结合人类监督来提高上下文中生成的奖励的质量和安全性。最后,在课程学习环境中使用尤里卡奖励,我们首次演示了一个模拟的五指影手,能够执行钢笔旋转技巧,熟练地以人类的速度操纵笔。

  • meta-math/MetaMath 元数学:为大型语言模型引导您自己的数学问题

  • luogen1996/LaVIN 提出了一种新颖且经济实惠的视觉语言教学调整解决方案,即模态混合自适应(MMA)。MA是一种端到端的优化机制,它通过轻量级适配器连接图像编码器和LLM。同时,还提出了MMA路由算法,可以帮助模型自动移动单模态和多模态指令的推理路径。基于MMA,开发了LaVIN的大型视觉语言指导模型,该模型在各种指令遵循任务中表现出比现有多模态LLM更高的训练效率和更好的推理能力。

  • OpenBMB/ToolBench 一个开放的平台,用于训练、服务和评估用于工具学习的大型语言模型。旨在构建开源,大规模,高质量的指令调整SFT数据,以促进构建具有通用工具使用能力的强大LLM。我们的目标是使开源LLM能够掌握数千种不同的现实世界API。我们通过收集高质量的指令调整数据集来实现这一目标。它是使用最新的ChatGPT(gpt-3.5-turbo-16k)自动构建的,该ChatGPT通过增强的函数调用功能进行了升级。我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的功能强大的模型ToolLLaMA。

  • billxbf/ReWOO 高效增强语言模型的观察解耦推理,这是一种工具增强的LM范式,利用语言模型的可预见推理能力来提高系统参数和提示效率。

  • MasterAI-EAM/Darwin 致力于为自然科学构建基础大型语言模型,主要涉及物理、化学和材料科学。

  • aiwaves-cn/agents 用于构建自治语言代理的开源库/框架。该库包括长期短期记忆、工具使用、Web 导航、多智能体通信以及包括人代理交互和符号控制在内的全新功能。使用代理,只需用自然语言填写配置文件,并在终端、Gradio 接口或后端服务中部署语言代理,即可自定义语言代理或多代理系统。

  • hitz-zentroa/GoLLIE 信息提取大语言模型遵循指南

  • neulab/prompt2model 从自然语言指令生成可部署模型,采用自然语言任务描述(如 ChatGPT 等 LLM 使用的提示)来训练有利于部署的小型专用模型的系统。

  • web-arena-x/webarena 一个独立的、自托管的 Web 环境,用于构建LLM自治代理

  • learn-anything/learn-anything.xyz 组织世界知识,探索联系并策划学习路径。Learn Anything 的最终目标是成为跟踪您所知道的内容的最佳场所和工具。你有什么想法。你接下来要学习什么。你还不知道的。以及根据您已经知道的知识,如何以最佳方式学习它。LA 的部分目标是达到 AGI 并以完全开放的方式进行。目前,这一旅程的起点是提供最先进的能力来索引一个人的任何知识,并为它提供具有不同隐私控制的聊天机器人界面。

  • dikw/hh_rlhf_cn hh-rlhf中文翻译版本。基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。hh_rlhf_train 合并中英文训练集数据清洗过后17万条,hh_rlhf_test 合并中英文测试集数据 清洗过后9千条,harmless_base_cn_train 42394条,harmless_base_cn_test 2304条,helpful_base_cn_train 43722条,helpful_base_cn_test. 2346条。

  • beyond/rlhf-reward-single-round-trans_chinese 英文 reward 数据集的翻译版本,用于训练一个奖励模型。类似的英文 reward 数据集:yitingxie/rlhf-reward-datasets beyond/rlhf-reward-single-round

  • opendilab/awesome-RLHF 带有人类反馈资源的强化学习的精选列表(持续更新)

  • PKU-Alignment/safe-rlhf 由北京大学 PKU-Alignment 团队开发的高度模块化开源 RLHF 框架。它旨在为比对研究提供训练数据和可重复的代码管道,特别是通过安全 RLHF 方法进行的约束比对LLM研究。特点是:支持SFT、RLHF和Safe RLHF训练,适用于流行的预训练模型:LLaMA、OPT、百川等。提供大型人工标记数据集(最多 1M 对),包括有用和无害的偏好,以支持可重复的 RLHF 研究。支持奖励模型和成本模型的训练,并提供预先训练的检查点。支持 SFT 和 RLHF 的自定义参数和数据集。为安全约束验证提供多尺度指标,例如 BIG-bench、GPT-4 评估。

  • tatsu-lab/alpaca_eval 对指令遵循模型(例如 ChatGPT)的评估通常需要人工交互。这既费时又昂贵,而且难以复制。AlpacaEval 在LLM基于自动评估中,快速、廉价、可复制,并针对 20K 人工注释进行验证。它对模型开发特别有用。尽管我们改进了以前的自动评估管道,但仍然存在一些基本限制,例如偏爱更长的输出。

  • aaamoon/copilot-gpt4-service 将 Github Copilot 转换为 ChatGPT

  • Lightning-AI/lit-gpt 基于 nanoGPT 的最先进的开源LLMs的可破解实现。支持闪光注意力、4 位和 8 位量化、LoRA 和 LLaMA 适配器微调、预训练。Apache 2.0 许可。

  • KudoAI/chatgpt.js 功能强大的 JS 库,允许与 ChatGPT DOM 进行超级轻松的交互。

  • xorbitsai/inference 通过更改一行代码,将 OpenAI GPT 替换为应用程序中的另一个 LLM GPT。Xinference 让您可以自由地使用您需要的任何LLM内容。借助 Xinference,您可以使用任何开源语言模型、语音识别模型和多模态模型运行推理,无论是在云端、本地,还是在笔记本电脑上。

  • modelscope/modelscope-agent 开源版GPTs,将ModelScope中的模型与世界连接起来的智能体框架。单个代理具有角色扮演、呼叫、LLM工具使用、计划和记忆等能力。它主要具有以下特点:简单的代理实现过程:只需指定角色指令、LLM名称和工具名称列表即可实现代理应用程序。该框架会自动安排工具使用、规划和内存的工作流。丰富的模型和工具:框架配备了丰富的LLM接口,如Dashscope和Modelscope模型接口、OpenAI模型接口等。内置丰富的工具,如代码解释器、天气查询、文本到图像、网页浏览等,可以轻松定制专属代理。接口统一,扩展性高:框架具有清晰的工具和LLM注册机制,方便用户扩展更多样化的Agent应用。低耦合:开发人员可以轻松使用内置工具、LLM内存和其他组件,而无需绑定更高级别的代理。

  • DLYuanGod/TinyGPT-V 通过小骨干网实现高效的多模态大型语言模型,性能已经达到了 InstructBLIP 性能的 98%

  • mnotgod96/AppAgent 作为智能手机用户的多模式代理,一个LLM基于多模式代理框架,旨在操作智能手机应用程序。

  • Portkey-AI/gateway 超快的 AI 网关。使用 1 个快速友好的 API 路由到 100+LLMs。它通过统一的 API 简化了对 OpenAI、Anthropic、Mistral、LLama2、Anyscale、Google Gemini 等的 API 请求。速度极快(速度提高 9.9 倍),占用空间小,跨多个模型、提供程序和密钥进行负载均衡,回退可确保应用保持弹性,具有指数回退的自动重试,根据需要插入中间件,超过 100B 词元的测试

  • InternLM/HuixiangDou 基于 LLM 的领域知识助手。特点:应对群聊这类复杂场景,解答用户问题的同时,不会消息泛滥。提出一套解答技术问题的算法 pipeline。部署成本低。

  • OrionStarAI/Orion Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。

  • QwenLM/Qwen-Audio Qwen Large Audio Language Model 是阿里云提出的大型模型系列Qwen的多模态版本。Qwen-Audio接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入,输出文本。贡献包括:基础音频模型:基础的多任务音频语言模型,支持各种任务、语言和音频类型,作为通用音频理解模型。在Qwen-Audio的基础上,我们通过指令微调开发Qwen-Audio-Chat,实现多轮对话,支持多样化的音频场景。适用于所有类型音频的多任务学习框架:为了扩大音频语言预训练的规模,我们通过提出一个多任务训练框架,实现知识共享和避免一对多干扰,解决了与不同数据集相关的文本标签变化的挑战。我们的模型包含 30 多个任务,大量实验表明该模型具有强大的性能。强大的性能:在各种基准测试任务中都取得了令人印象深刻的性能,而无需任何特定任务的微调,超过了同类产品。在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 的测试集上取得先进的结果。从音频和文本输入灵活多运行聊天:支持多音频分析、声音理解和推理、音乐欣赏和工具使用。

  • microsoft/ToRA 一系列工具集成推理代理,旨在通过与工具(例如计算库和符号求解器)交互来解决具有挑战性的数学推理问题。ToRA系列将自然语言推理与外部工具的运用无缝集成,从而融合了语言的分析能力和外部工具的计算效率。

  • intel/intel-extension-for-transformers 在几分钟内在您喜欢的设备上构建您的聊天机器人;为 LLM 提供 SOTA 压缩技术;在英特尔平台上高效运行 LLM

  • microsoft/LLMLingua 为了加快LLMs推理速度并增强LLM对关键信息的感知,压缩提示和 KV-Cache,以最小的性能损失实现高达 20 倍的压缩。利用紧凑、训练有素的语言模型(如 GPT2-small、LLaMA-7B)来识别和删除提示中的非必要标记。这种方法支持使用大型语言模型进行高效推理。

  • langfuse/langfuse 开源LLM可观测性、分析、提示管理、评估、测试、监控、日志记录、跟踪、LLMOps。Langfuse:LLM工程平台。一起调试、分析和迭代 - 适用于 Typescript、Python、OpenAI、Langchain、Litellm、Flowise、Superagent 和 Langflow 的稳定 SDK + 集成

  • vanna-ai/vanna MIT 许可的开源 Python RAG(检索增强生成)框架,用于 SQL 生成和相关功能。与您的 SQL 数据库聊天。LLMs通过使用 RAG准确生成文本到 SQL。

  • bigemon/ChatGPT-ToolBox 由ChatGPT自己编写的ChatGPT工具箱。 当前功能: 1. 绕过高负载禁止登录 2.关闭数据监管 3.链路维持(减少网络错误) 4.API混合接入 5.会话导入导出 6.聊天记录下载 7.解锁GPT4-Mobile

  • sparticleinc/chatgpt-google-summary-extension Chrome扩展程序,可查看ChatGPT摘要以及Google搜索结果和YouTube视频,还支持Yahoo、PubMed、PMC、NewsPicks、Github、Nikkei、Bing、Google Patents,以及任何页面摘要。

  • stanford-oval/WikiChat 通过从维基百科检索数据来阻止大型语言模型的幻觉。

  • awesome-chatgpt/awesome-chatgpt 令人敬畏的资源集合,包括与 ChatGPT 相关的各种工具、文档、资源、应用程序和用例。

  • casibase/casibase 开源 AI 类 LangChain RAG(Retrieval-Augmented Generation)知识数据库,具有 Web UI 和企业 SSO,支持 OpenAI、Azure、LLaMA、Google Gemini、HuggingFace、Claude、Grok 等

  • QwenLM/Qwen-Agent 基于 Qwen 构建的代理框架和应用程序,具有插件、代码解释器、RAG 和 Chrome 扩展。它还附带了示例应用程序,例如浏览器助手、代码解释器和自定义助手。

  • assafelovic/gpt-newspaper 创新的自主代理,旨在创建根据用户偏好量身定制的个性化报纸。GPT 报纸通过利用人工智能的力量根据个人品味和兴趣策划、撰写、设计和编辑内容,彻底改变了我们消费新闻的方式。

  • weijunext/smart-excel-ai 使用 ChatGPT 在几秒钟内生成您需要的 Excel 公式。

  • bclswl0827/ChatGemini 基于 Google Gemini 的网页客户端,对标 ChatGPT 3.5,操作逻辑同 ChatGPT 3.5 一致,同时支持在聊天中上传图片,应用会自动调用 Gemini-Pro-Vision 模型进行识图。

  • yuchenlin/LLM-Blender 创新集成框架,利用多个开源LLMs的不同优势来获得始终如一的卓越性能。通过排名切除劣势,通过融合生成整合优势,增强能力LLMs。

  • zhoudaquan/ChatAnything 使用当前无限的大型语言模型进行增强,产生具有预期视觉外观的假想 Facetime 头像聊天

  • zhangliwei7758/unity-AI-Chat-Toolkit 使用unity实现AI聊天相关功能。包含了对chatgpt、chatglm等大语言模型的api调用的代码实现以及实现了微软Azure以及百度AI的语音功能,语音服务均采用web api实现,支持Win / WebGL / Android等平台

  • AINativeLab/gptstore-data-backup GPT Store 趋势数据的每日存档

  • JimLiu/gpt-games 使用 GPT 构建游戏,游戏北京浮生记的 GPT 版本,让你通过 ChatGPT 也可以体验游戏。

  • tiingweii-shii/Awesome-Resource-Efficient-LLM-Papers 关于资源节约LLMs的高质量论文的精选清单

  • lafmdp/Awesome-Papers-Autonomous-Agent 最近关于构建自主代理的论文集。包括两个主题:基于RL的代理/LLM基于代理。在人工智能中,智能代理(智能体)是以智能方式行事的代理;它感知自己的环境,自主采取行动以实现目标,并可能通过学习或获取知识来提高其表现。智能代理可以是简单的,也可以是复杂的:恒温器其他控制系统被认为是智能代理的一个例子,就像人类一样,任何符合定义的系统,例如公司、国家或生物群落。

  • Aaronhuang-778/BiLLM 突破训练后量化的LLMs极限,预训练的大型语言模型 (LLMs) 表现出卓越的通用语言处理能力,但对内存和计算资源有很大的要求。作为一种强大的压缩技术,二值化可以将模型权重大幅降低到仅 1 位,从而降低昂贵的计算和内存要求。然而,现有的量化技术无法在超低位宽下保持LLM性能。为了应对这一挑战,我们提出了BiLLM,这是一种为预训练LLMs量身定制的突破性1位训练后量化方案。基于权重分布LLMs,BiLLM首先识别并结构性地选择显著权重,并通过有效的二元残差近似策略将压缩损失最小化。此外,考虑到非显著权重的钟形分布,我们提出了一种最佳的拆分搜索,以准确地对它们进行分组和二值化。BiLLM首次实现了高精度推理(例如,LLaMA2-70B上的8.41困惑),在各种LLMs系列和评估指标中仅具有1.08位权重,远远优于SOTA量化方法LLM。此外,BiLLM 可在单个 GPU 上在 0.5 小时内实现 70 亿个权重的二值化过程LLM,表现出令人满意的时间效率。

  • Meituan-AutoML/MobileVLM 适用于移动设备的强大而开放的视觉语言助手

  • FlagAI-Open/FlagAI 快速、易用且可扩展的大型模型工具包。我们的目标是支持在各种下游任务中以多模态的方式训练、微调和部署大规模模型。

  • Nutlope/notesGPT 在几秒钟内从您的笔记中生成操作项。由 Convex(数据库和云函数)、Together.ai (LLM Mixtral)和 Whisper (ASR) 提供支持。

  • zhiweihu1103/AgriMa 后稷-首个开源中文农业大模型。由山西大学、山西农业大学、The Fin AI联合研发,以Baichuan为底座,基于海量有监督农业领域相关数据微调,具备广泛的农业知识和智能分析能力,该模型旨在为农业领域提供全面而高效的信息处理和决策支持。

  • LLaVA-VL/LLaVA-Plus-Codebase 即插即用的大型语言和视觉助手

  • unum-cloud/uform 袖珍型多模态 AI,用于跨多语言文本、图像和视频的内容理解和生成,比 OpenAI CLIP 和 LLaVA 快 5 倍

  • OrionStarAI/OrionStar-Yi-34B-Chat 开源中英文Chat模型,由猎户星空基于Yi-34B开源模型、使用15W+高质量语料微调而成。

  • lightyear-turing/TuringMM-34B-Chat 开源的中英文Chat模型,由北京光年无限科技有限公司基于Yi-34B开源模型、基于14w的精标教育数据进行sft微调以及15W对齐数据进行DPO偏好学习得到的一个微调模型。

  • Tele-AI/Telechat 中电信人工智能科技研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。开源了对话模型TeleChat-7B与TeleChat-12B。TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。数据下载

  • Clouditera/SecGPT 将人工智能技术引入网络安全领域,以提高网络防御的效率和效果。其使命是推动网络安全智能化,为社会提供更安全的数字生活环境。SecGPT可以作为基座安全模型,用于探索各种网络安全任务。

  • iusztinpaul/hands-on-llms 通过设计、培训和部署实时财务顾问LLM系统,免费了解 LLM、LLMOps 和向量数据库 ~ 源代码 + 视频和阅读材料

  • openai/prm800k 一个过程监督数据集,包含 800,000 个步骤级正确性标签,用于模型生成的 MATH 数据集中的问题解决方案。

  • CrazyBoyM/llama2-Chinese-chat llama2 13b 中文多轮对话模型,且"首发版"已在LLM排行榜取得优秀成绩(至今仍在同类模型中处于较领先位置)。llama2 Chinese chat - 本项目是一个教程记录整理的repo,旨在提供给新手的参照价值和开箱即用的中文LLaMa2对话体验。包含训练过程记录,各种主要量化方式,部署后端api的推荐方案,以及在一个具体的前端网页上实现开箱即用的流畅对话体验。

  • SUSTech/SUS-Chat-34B 由南方科技大学和IDEA-CCNL联合发布的34B中英双语对话模型。该模型基于 01-ai/Yi-34B 数百万个高质量的多语言教学数据,并对其进行了微调。在保持基础模型强大的语言能力的同时,通过高质量的指令微调改善了模型对人类指令的响应,并擅长通过思维链模仿人类的思维过程。它在长文本中引入了指令间注意力共享,将窗口大小从 4K 扩展到 8K,显着增强了多回合对话的可用性。采用14亿令牌的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等各类指令数据

  • zjunlp/OceanGPT-7b 使用 KnowLM 训练的海洋科学任务,OceanBench的基准测试,以评估海洋学任务的能力LLMs。它总共包括15个与海洋相关的任务,如问答、提取和描述。

  • GitHub - arielnlee/Platypus: Code for fine-tuning Platypus fam LLMs using LoRA # 鸭嘴兽:快速、廉价、强大的 LLMs。基于 LLaMA 和 LLaMa-2 变压器架构的一系列微调和合并变体。鸭嘴兽利用 LoRA 和 PEFT。

  • HIT-SCIR/huozi 活字3.0为一个稀疏混合专家模型,支持32K上下文,具有丰富的中、英文知识和强大的数学推理、代码生成能力。活字3.0较旧版活字具有更强的指令遵循能力和安全性。中文MT-Bench: 本数据集是英文MT-Bench对话能力评测数据集的中文版。它包含了一系列多轮对话问题,每一组问题都经过了精心的人工校对,并为适应中文语境进行了必要的调整。

  • thu-coai/CharacterGLM-6B 用大型语言模型来进行自定义中文 AI 角色对话,主要考虑了七种属性,包括身份、兴趣、观点、经历、成就、社交关系和其他。行为主要由一些动态的元素组成:语言特征、情感表达和互动模式。例如,老年人更倾向于使用一些更正式的语言,而青少年则更喜欢用网络流行语。CharacterGLM则主要考虑了语言学特征和性格作为行为方面的设计。收集了包含属性和行为的角色描述,并众包构建了一个大规模高质量的对话数据集,并将角色描述转化为了自然语言提示,进而使用从6B到66B参数的ChatGLM模型进行微调来打造CharacterGLM。此外,还收集了一部分线上交互数据来增强 CharacterGLM 的训练,以实现CharacterGLM的自我完善式迭代。

  • IEIT-Yuan/Yuan-2.0 源2.0 是浪潮信息发布的新一代基础语言大模型。我们开源了全部的3个模型:源2.0-102B、源2.0-51B、源2.0-2B。提供预训练、微调、推理服务的相关脚本,以供研发人员做进一步开发。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。

  • Alibaba-NLP/SeqGPT 用于开放域序列理解的开箱即用大型语言模型

  • https://github.com/Kipok/NeMo-Skills 提供了一个管道来提高大型语言模型的“技能”(LLMs)。目前,我们专注于解决简单数学问题的能力,但更多的技能即将到来(例如编码和表格理解)。

  • xverse-ai/XVERSE-65B 由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),参数规模为 650 亿,本次开源的模型为底座模型 XVERSE-65B。

其他_文本生成、文本对话

  • Awesome-TOD-NLG-Survey 面向任务的对话系统 (TOD) 中自然语言生成的调查:最新进展和新前沿

  • openai/gpt-3 语言模型是少样本的学习器。最近的工作表明,通过对大量文本语料库进行预训练,然后对特定任务进行微调,在许多NLP任务和基准测试上取得了实质性进展。虽然在架构中通常与任务无关,但这种方法仍然需要特定于任务的数千或数万个示例的微调数据集。相比之下,人类通常只能从几个例子或简单的指令中执行新的语言任务——这是当前NLP系统仍然难以做到的。在这里,我们表明,扩展语言模型可以大大提高与任务无关的少镜头性能,有时甚至可以通过先前最先进的微调方法达到竞争力。具体来说,我们训练 GPT-3,一种具有 1750 亿个参数的自回归语言模型,比之前任何非稀疏语言模型多 10 倍,并在少数镜头设置中测试其性能。对于所有任务,GPT-3 在没有任何梯度更新或微调的情况下应用,任务和少数镜头演示纯粹通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上实现了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解密单词、在句子中使用新单词或执行 3 位数算术。同时,我们还确定了 GPT-3 的少数镜头学习仍在挣扎的一些数据集,以及 GPT-3 面临与大型网络语料库训练相关的方法问题的一些数据集。最后,我们发现 GPT-3 可以生成人类评估人员难以区分的新闻文章样本与人类撰写的文章。我们讨论了这一发现和一般 GPT-3 更广泛的社会影响。

  • openai/gpt-2 论文“语言模型是无监督的多任务学习者”中的代码和模型。

  • karpathy/minGPT OpenAI GPT(生成预训练转换器)训练的最小PyTorch 重新实现

  • karpathy/nanoGPT 用于训练/微调中型 GPT(GPT-2) 的最简单、最快的存储库。

  • minimaxir/gpt-2-simple Py包可以轻松地在新文本上重新训练 OpenAI 的 GPT-2 文本生成模型

  • XiangLi1999/PrefixTuning 前缀微调:优化文本生成的连续提示模板。提出一种更好的微调方法,通过加入前缀实现统一模型在不同任务上的微调,实现小样本学习,极大地减少了参数量。目前对于前缀的构造,大致可以分为本文的连续前缀和离散前缀(自动生成或手动设计),对于在摘要任务上加入离散前缀,有点类似于从对话中提取特征或结构,但这种方法的优势就在于它不需要大量的样本,而传统的融入结构的方法仍然需要很多样本。

  • RUCAIBox/TextBox 基于Python和PyTorch开发的,用于在一个统一的、全面的、高效的框架中复现和开发文本生成算法,主要面向研究者使用。我们的库包括16种文本生成算法,涵盖了两个主要任务:无条件(无输入)生成、序列到序列(Seq2Seq)生成,包括机器翻译和摘要生成。模型 无条件:LSTMVAE (Bowman et al., 2016)、CNNVAE (Yang et al., 2017)、HybridVAE (Semeniuta et al., 2017)、SeqGAN (Yu et al., 2017)、TextGAN (Zhang et al., 2017)、RankGAN (Lin et al., 2017)、MaliGAN (Che et al., 2017)、LeakGAN (Guo et al., 2018)、MaskGAN (Fedus et al., 2018)。序列到序列 RNN (Sutskever et al., 2014)、Transformer (Vaswani et al., 2017b)、GPT-2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)

  • BART Bidirectional and Auto-Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型

  • fastnlp/CPT 中文预训练非平衡转换器 (CPT) ,它是一种非平衡 Transformer 编码器-解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.

  • songhaoyu/BoB BERTOverBERT用于从有限的个性化数据训练基于角色的对话模型。分解为了两个子任务,从有限的角色化对话数据中进行学习。

  • YunwenTechnology/QueryGeneration 智能扩充机器人的“标准问”库之Query生成

  • beyondguo/genius 强大的有条件文本生成模型,以草稿为输入,在给定的草稿(文本范围、短语或单词的关键信息)中填充缺失的上下文,在大规模文本语料库上进行预训练,用一种极端和选择性的掩蔽策略从草稿目标进行新的重建,使它能够生成给定素描的多样化和高质量的文本。

  • imcaspar/gpt2-ml GPT2 多语言支持, 15亿参数中文预训练模型

  • EleutherAI/gpt-neo 模型并行GPT2和类似GPT3的模型的实现,能够使用mesh-tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。

  • rikdz/GraphWriter 基于图Transformer从知识图谱中生成文本

  • liucongg/GPT2-NewsTitle GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。

  • ZhuiyiTechnology/t5-pegasus 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。

  • google-research/text-to-text-transfer-transformer T5的理念就是“万事皆可 Seq2Seq”,它使用了标准的 Encoder-Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。

  • google-research/multilingual-t5 T5 的多国语言版

  • Morizeyao/GPT2-Chinese GPT2中文文生模型,包括散文、诗词、对联、通用中文、中文歌词、文言文

  • bojone/t5_in_bert4keras 在keras中使用T5模型 ,用mT5 small版本finetune出来的 CSL 标题生成模型,BLEU 指标能持平基于 WoBERT 的 UniLM 模型,并且解码速度快 130%;而用 mT5 base 版本 finetune 出来的 CSL 标题生成模型,指标能超过基于 WoBERT 的 UniLM 模型 1% 以上,并且解码速度也能快 60%。

  • PENS-Personalized-News-Headline-Generation 新闻头条生成数据集和通用框架

  • Aristotle609/Medium-Title-Generator 生成数据科学文章标题的模型

  • yangjianxin1/GPT2-chitchat 用于中文闲聊的GPT2文本对话模型

  • EssayKillerBrain/WriteGPT 基于开源GPT2.0的初代创作型人工智能 | 可扩展、进化

  • RUCAIBox/MVP 自然语言生成的多任务监督预训练。遵循标准的转换器编码器-解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。

  • RUCAIBox/Context-Tuning 上下文调优:学习上下文提示用于自然语言生成

  • samueldobbie/markup 基于Web的文档注释工具,由GPT-3  提供支持

  • deeppavlov/DeepPavlov 用于深度学习端到端对话系统和聊天机器人的开源库。

  • bentrevett/pytorch-seq2seq 使用 PyTorch 和 TorchText 实现一些序列到序列 (seq2seq) 模型的教程。

  • RasaHQ/rasa 开源机器学习框架,用于自动化基于文本和语音的对话:NLU、对话管理、连接到 Slack、Facebook 等 - 创建聊天机器人和语音助手

  • gunthercox/ChatterBot 一个机器学习的对话对话引擎,用于创建聊天机器人

  • howdyai/botkit 一个开源开发人员工具,用于为主要消息传递平台构建聊天机器人、应用程序和自定义集成。

  • 0hq/WebGPT 使用 WebGPU 在浏览器上运行 GPT 模型。在不到 ~1500 行的原版 Javascript 中实现 GPT 推理。

  • huggingface/alignment-handbook 使语言模型与人类和 AI 偏好保持一致的强大配方:OpenAI用ChatGPT打破了互联网,Meta紧随其后发布了Llama系列语言模型,使ML社区能够构建自己有能力的聊天机器人。这导致了一个丰富的数据集和模型生态系统,这些数据集和模型主要集中在通过监督微调(SFT)来教授语言模型遵循指令。该手册的初始版本将侧重于以下技术:Supervised fine-tuning监督微调,教语言模型遵循有关如何收集和策划自己的训练数据集的说明和提示。Reward modeling奖励建模:教授语言模型根据人类或AI偏好区分模型响应。Rejection sampling剔除采样:一种简单但功能强大的技术,可提高SFT模型的性能。直接偏好优化(DPO):PPO的强大而有前途的替代方案。

  • yxuansu/PandaGPT 第一个能够跨六种模式的指令遵循数据的基础模型,而无需明确的监督。它展示了多种多模态功能,例如复杂的理解/推理、基于知识的描述和多回合对话。PandaGPT 是一种通用的指令遵循模型,既能看又能听。可以执行复杂的任务,例如生成详细的图像描述、编写受视频启发的故事以及回答有关音频的问题。更有趣的是,PandaGPT 可以同时接受多模态输入并自然地组成它们的语义。例如,PandaGPT 可以连接对象在照片中的外观以及它们在音频中的声音。

  • RunpeiDong/DreamLLM 一个学习框架,它首先实现了多功能的多模态大语言模型(MLLM),它赋予了多模态理解和创造之间经常被忽视的协同作用。DreamLLM基于两个基本原则运作。第一个侧重于通过在原始多模态空间中直接采样来对语言和图像后验进行生成建模。其次,DreamLLM促进了原始交错文档的生成,对文本和图像内容以及非结构化布局进行了建模。一个零样本多模态通才,能够理解和创造。

  • OSU-NLP-Group/Mind2Web 论文“Mind2Web:迈向Web的通才代理”的数据集,代码和模型。

  • dsdanielpark/Bard-API 通过 cookie 值返回 Google Bard (大语言模型) 响应的非官方 python 包。

  • thu-coai/CDial-GPT 大规模中文短文本会话数据集和中文预训练对话模型

  • MuiseDestiny/zotero-gpt 与Zotero集成:您可以使用该插件根据所选文本或PDF文件搜索和询问库中的项目。使用 GPT 生成回复文本:support gpt-3.5-turbo 和 gpt-4。询问有关当前 PDF 文件(全文或所选文本)的问题。对所选论文(摘要)提出问题。 将所选论文总结成几个高度浓缩的句子。根据所选文本搜索库中的项目。

  • microsoft/LMOps 关于构建具有基础模型的 AI 产品的基础研究和技术的研究计划,特别是关于通过LLMs生成式 AI 模型实现 AI 功能的通用技术。更好的提示:自动提示优化、提示器、可扩展提示、通用提示检索、检索器、LLM上下文演示选择。更长的上下文:结构化提示、长度外推转换器。LLM对齐:通过LLM反馈对齐。LLM加速器(更快的推理):无损加速LLMs。LLM自定义:适应LLM领域。

  • SUSYUSTC/MathTranslate 用 Latex 翻译科学论文,尤其是 ARXIV 论文

  • google/sentencepiece 用于基于神经网络的文本生成的无监督文本分词器。

文本匹配 文本检索 文本相似度

  • princeton-nlp/SimCSE SimCSE:句子嵌入的简单对比学习 。提供无监督或有监督的对比学习。是目前文本相似度更好的方法。

  • UKPLab/sentence-transformers 句子转换器:使用BERT RoBERTa XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入。该框架提供了一种简单的方法来计算句子、段落和图像的密集矢量表示。这些模型基于BERT / RoBERTa / XLM-RoBERTa等变压器网络,并在各种任务中实现最先进的性能。文本嵌入在向量空间中,使得相似的文本更接近,并且可以使用余弦相似性有效地找到。

  • bojone/CoSENT 比Sentence-BERT更有效的句向量方案.优化cos值的新方案CoSENT(Cosine Sentence)。实验显示,CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。

  • shawroad/CoSENT 比Sentence-BERT更有效的句向量方案 Pytorch版

  • shuxinyin/SimCSE-Pytorch 中文SimCSE+ESimCSE的无监督 + 有监督实现

  • wangyuxinwhy/uniem 统一嵌入模型,目标是创建中文最好的通用文本嵌入模型。202306发布 M3E models ,在中文文本分类和文本检索上均优于 openai text-embedding-ada-002。

  • stanford-futuredata/ColBERT 一种快速准确的检索模型,可在数十毫秒内对大型文本集合进行基于 BERT 的可扩展搜索。基于上下文(contextualized)的后期交互的排序模型 Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 兼顾匹配的效率和doc中的上下文信息。

  • McGill-NLP/llm2vec LLM2Vec 是将仅LLMs解码器转换为文本编码器的简单方法。它由 3 个简单步骤组成:1) 启用双向注意力,2) 使用掩蔽的下一个令牌预测进行训练,以及 3) 无监督对比学习。该模型可以进一步微调,以实现最先进的性能。

  • thunlp/OpenMatch 总体架构包括两大部分:一是相关文档检索,即根据用户检索词,从大规模文档集合中返回最相关的Top-K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。

  • NTMC-Community/MatchZoo-py 通用的文本匹配工具包,旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。MatchZoo 的 PyTorch 版本。

  • voidism/DiffCSE 用于学习句子嵌入的无监督对比学习框架。DiffCSE学习对原始句子和编辑句子之间的差异敏感的句子嵌入,其中编辑的句子是通过随机屏蔽原始句子,然后从屏蔽语言模型中采样来获得的。我们表明 DiffSCE 是等变对比学习的一个实例(Dangovski 等人,2021 年),它概括了对比学习并学习对某些类型的增强不敏感而对其他“有害”类型的增强敏感的表征。我们的实验表明,DiffCSE在无监督句子表示学习方法中取得了最先进的结果,语义文本相似性上比SimCSE高出2.3个绝对点。

  • shibing624/text2vec 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

  • terrifyzhao/text_matching 常用文本匹配模型tf版本,数据集为QA_corpus模型:DSSM ConvNet ESIM ABCNN BiMPM DIIN DRCN

  • Brokenwind/BertSimilarity 基于Google的BERT模型来进行语义相似度计算。

  • bohanli/BERT-flow 基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,文本表示、语义文本相似性任务的SOTA。

  • DataTerminatorX/Keyword-BERT 带关键词的BERT语义匹配

  • bojone/BERT-whitening 简单的向量白化改善句向量质量,可以媲美甚至超过BERT-flow的效果。

  • huggingface/text-embeddings-inference 文本嵌入模型的超快速推理解决方案(rust)

  • autoliuweijie/BERT-whitening-pytorch Pytorch version of BERT-whitening

  • nilboy/gaic_track3_pair_sim 短文本语义匹配,2021年全球人工智能技术创新大赛-赛道三-冠军方案

  • yym6472/ConSERT 基于对比学习的句子语义表示迁移框架。包含三部分,数据增强,BERT 编码层,对比损失层。

  • amazon-research/sccl 利用对比学习促进更好地基于距离的短文本聚类实现。

  • ZhuiyiTechnology/roformer-sim 融合检索和生成的RoFormer-Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。

  • allenai/macaw Macaw(Multi-angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。

  • Decem-Y/sohu_text_matching_Rank2 2021搜狐校园文本匹配算法大赛Top2。使用了预训练模型(如NEZHA、MacBert、ROBERTA、ERNIE等),设计了选择了两种技术路线(通过[SEP]拼接source与target作为输入、类似SBERT的句子向量编码比较),并尝试多种上分策略(在给定语料上继续mlm预训练、focal loss损失函数、不同的pooling策略、加入TextCNN、fgm对抗训练、数据增强等)。选取多组差异较大的模型的输出,通过投票的方式进行集成,得到最好成绩。

  • shuxinyin/SimCSE-Pytorch 中文数据集下SimCSE+ESimCSE的实现

  • wakafengfan/simcse-pytorch pytorch版simcse无监督语义相似模型

  • bojone/SimCSE SimCSE在中文任务上的简单实验

  • yangjianxin1/SimCSE SimCSE有监督与无监督实验复现 一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以使用有监督的语料)中学习到文本相似关系。

  • vdogmcgee/SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督

  • GeekDream-x/SemEval2022-Task8-TonyX 在 Semeval-2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。

  • JohnGiorgi/DeCLUTR 无监督文本表示的深度对比学习

  • huggingface/setfit 使用 Sentence Transformers 进行高效的少样本学习. 高效且无提示的框架,用于对句子转换器进行少量微调。 它用很少的标记数据实现了高精度,特点:没有提示或语言表达器:当前的少量微调技术需要手工提示或语言表达器将示例转换为适合底层语言模型的格式。 SetFit 通过直接从文本示例生成丰富的嵌入来完全免除提示。训练速度快、多语言。

  • epidemic-sentence-pair 新冠疫情相似句对判定大赛 线上第一名方案。BERT模型融合、数据对称扩充、数据传递扩充、对抗训练、伪标签。

  • KKenny0/sohu2021 2021搜狐校园文本匹配算法大赛方案,基于BERT的交互模型,通过BERT来得到source-target pair的向量表示。任务:短短、短长和长长匹配。

  • DMetaSoul/chinese-semantic-textual-similarity 为了对 like-BERT 预训练模型进行 fine-tune 调优和评测以得到更好的文本表征模,对业界开源的语义相似(STS)、自然语言推理(NLI)、问题匹配(QMC)以及相关性等数据集进行了搜集整理

机器阅读理解

  • imClumsyPanda/langchain-ChatGLM 利用 ChatGLM-6B + langchain 实现的基于本地知识的 ChatGLM 应用。建立了全部基于开源模型实现的本地知识问答应用。

  • l15y/wenda 闻达:一个LLM调用平台。目前支持chatGLM-6B、chatRWKV、chatYuan和chatGLM-6B模型下自建知识库查找。

  • GanymedeNil/document.ai 基于向量数据库与GPT3.5的通用本地知识库方案

  • basketballandlearn/MRC_Competition_Dureader 基于大规模MRC数据再训练的机器阅读理解预训练模型(包括roberta-wwm-large、macbert-large),可以使用transformers库

  • wptoux/albert-chinese-large-webqa 基于百度webqa与dureader数据集训练的Albert Large QA模型

  • bojone/dgcnn_for_reading_comprehension 基于膨胀门卷积的阅读理解式问答模型(Keras实现)

  • cooelf/AwesomeMRC 对MRC的研究摘要和参考资料

  • nlpdata/c3 中文机器阅读理解数据集 multiple-Choice Chinese machine reading Comprehension dataset.

  • qiufengyuyi/event_extraction 百度aistudio事件抽取比赛 使用机器阅读理解来尝试解决。

  • liuhuanyong/MiningZhiDaoQACorpus 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。

  • xv44586/ccf_2020_qa_match CCF2020问答匹配比赛 任务是:给定IM交流片段,片段包含一个客户问题以及随后的经纪人若干IM消息,从随后的经纪人消息中找出一个是对客户问题的回答。

  • lgw863/LogiQA-dataset 数据集包含8,678个QA实例

  • HIT-SCIR/Molweni 提出了构建于多人对话的英文机器阅读理解(MRC)数据集—Molweni,并覆盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了30,066个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,245个语篇关系实例,为多人对话语篇结构分析(Discourse parsing)贡献了大规模数据。

  • danqi/acl2020-openqa-tutorial 本教程对开放域问答 (QA) 的前沿研究进行了概述,QA 是使用大量不同主题的文档来回答问题的任务。首先简要介绍历史背景,讨论研究问题的基本设置和核心技术挑战,然后描述具有通用评估指标和基准的现代数据集。然后,是在开放域QA中提出的前沿模型,包括两阶段检索器-阅读器方法、密集检索器和端到端训练以及无检索器方法。最后,介绍使用文本和大型知识库的混合方法,并以重要的开放性问题结束本教程。

  • zhoujx4/DuReader-Checklist-BASELINE 百度2021年语言与智能技术竞赛机器阅读理解torch版baseline

  • google-research/tapas 端到端的神经表格文本理解模型。表格 QA 模型。

  • PaddlePaddle/RocketQA 信息检索和问答的密集检索,包括中英文最先进的模型。

知识图谱问答KBQA、多跳推理

  • RUCAIBox/KBQAPapers 知识图谱问答KBQA论文集

  • shijx12/TransferNet An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph 多跳问题解答关系图的有效透明框架,通过每一跳都预测当前关系得分,并更新实体得分,直到最大跳数。预测该问题的跳数,按跳数的概率加权每一跳得分作为实体的最终得分。

  • malllabiisc/EmbedKGQA 基于知识图谱嵌入的链路预测处理多跳问答。首先训练实体嵌入,随后利用实体嵌入学习问题嵌入,预测时对所有实体,构建(head entity, question)并评分,并选择评分最高的头实体作为答案。能很好地处理知识图谱中的不完整和稀疏的问题。

  • BDBC-KG-NLP/QA-Survey 北航大数据高精尖中心研究张日崇团队对问答系统的总结。包括基于知识图谱的问答(KBQA),基于文本的问答系统(TextQA),基于表格的问答系统(TabletQA)和基于视觉的问答系统(VisualQA),每类系统分别对学术界和工业界进行总结。

  • LHRLAB/ChatKBQA 使用微调的大型语言模型生成然后检索知识库问答的框架

  • xianghuisun/Chinese_KGQA 实现基于知识图谱的中文问答系统

  • cdjhz/multigen Language Generation with Multi-hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。

  • INK-USC/MHGRN 基于知识库的多跳关系推理 本篇文章提出了multi-hop relational reasoning module(多跳关系推理模型)叫做MHGRN多跳推理网络。该模型在额外的多跳知识图谱中抽取的子网络中进行推理。本文提出的方法将已有的基于路径的常识推理以及GCN融合在了一起,并在CommonsenseQA和OpenbookQA上取得了良好的效果。

  • lanyunshi/Multi-hopComplexKBQA 查询图生成,用于回答知识库中的多跳复杂问题.提出了一种改进的分阶段查询图生成方法,该方法具有更灵活的生成查询图的方式。在查询图生成的每一步,包含三种预定义的操作:扩展、连接、聚合。

  • nju-websoft/SPARQA 基于知识库的问题解答,提出了一种新颖的骨架语法来表示一个复杂问题的高级结构。骨架语法本质上是依赖语法的一个选定子集,用于专门表示复杂问题的高级结构。这种专用的粗粒度表示形式由于其简单性而可能具有准确的解析算法,有助于提高下游细粒度语义解析的准确性。

  • mori97/JKNet-dgl 跳跃知识网络的dgl实现

  • THUDM/CogQA 基于认知图谱实现多跳阅读.从人类的认知过程中受到启发。双过程理论认为,我们的大脑思考过程由两套系统构成: System1 和 System 2。System 1: 我们的大脑首先通过System 1隐式的、无意识的和凭借直觉的过程来检索相关信息。System 2: 在System 1过程的基础上,再进行一个显式的、有意识的、可控的推理过程,即System 2。作者使用BERT模型构建System 1,使用GNN模型构建System 2。

  • michiyasunaga/qagnn GNN 在融合 QA 上下文与 KG 的一个尝试,在问答任务上相比现有的预训练语言模型、以及预训练 +KG 模型,都有不小的提升。同时,使用 attention-base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。

  • WenRichard/KBQA-BERT 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式

  • RichardHGL/WSDM2021_NSM KBQA 的神经状态机器 ComplexWebQuestions

  • UKPLab/coling2018-graph-neural-networks-question-answering 用门图形神经网络建模语义,用于知识库问题解答

  • THU-KEG/KoPL KoPL全称 Knowledge oriented Programing Language, 是一个为复杂推理问答而设计的编程语言。可以将自然语言问题表示为由基本函数组合而成的KoPL程序,程序运行的结果就是问题的答案。目前,KoPL的27个基本函数覆盖对多种知识元素(如概念、实体、关系、属性、修饰符等)的操作,并支持多种问题类型(如计数、事实验证、比较等)的查询。KoPL提供透明的复杂问题推理过程,易于理解和使用。KoPL面向知识库、文本等不同形式的知识资源,可扩展性强。

  • PaddlePaddle/PGL/erniesage 使用PGL实现ERNIESage。在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。ERNIESage 由PGL团队提出,是ERNIE SAmple aggreGatE的简称,该模型可以同时建模文本语义与图结构信息,有效提升 Text Graph 的应用效果。其中 ERNIE 是百度推出的基于知识增强的持续学习语义理解框架。ERNIESage 是 ERNIE 与 GraphSAGE 碰撞的结果,是 ERNIE SAmple aggreGatE 的简称,它的结构如下图所示,主要思想是通过 ERNIE 作为聚合函数(Aggregators),建模自身和邻居节点的语义与结构关系。ERNIESage 对于文本的建模是构建在邻居聚合的阶段,中心节点文本会与所有邻居节点文本进行拼接;然后通过预训练的 ERNIE 模型进行消息汇聚,捕捉中心节点以及邻居节点之间的相互关系;最后使用 ERNIESage 搭配独特的邻居互相看不见的 Attention Mask 和独立的 Position Embedding 体系,就可以轻松构建TextGraph中句子之间以及词之间的关系。使用ID特征的GraphSAGE只能够建模图的结构信息,而单独的ERNIE只能处理文本信息。通过PGL搭建的图与文本的桥梁,ERNIESage能很简单的把GraphSAGE以及ERNIE的优点结合一起。TextGraph场景,效果能够比单独的ERNIE以及GraphSAGE都要好。

  • BshoterJ/awesome-kgqa 知识图谱问答部分资料合集

  • RUCKBReasoning/SubgraphRetrievalKBQA 多跳知识库问答子图检索增强模型的pytorch实现 WebQuestionSP CWQ

  • google-research/smore 多功能的框架,它可以在KG上扩展多跳查询嵌入。SMORE可以轻松地在Freebase KG上训练查询嵌入,在一台机器上拥有超过8600万个节点和33800万条边。

知识图谱

  • CLUEbenchmark/KgCLUE KgCLUE: 大规模中文开源知识图谱问答数据集。实体数量 3121457,关系数量 245838,高频关系(>100) 3833,三元组数量 20559652,知识库来源于百科类数据,由百科类搜索的事实性三元组构成。

  • autoliuweijie/K-BERT Enabling Language Representation with Knowledge Graph ,已被AAAI2020所录取,是较早的考虑将知识图谱中的边关系引入预训练模型的论文。主要通过修改Transformer中的attention机制,通过特殊的mask方法将知识图谱中的相关边考虑到编码过程中,进而增强预训练模型的效果。

  • npubird/KnowledgeGraphCourse 东南大学《知识图谱》研究生课程

  • AutoML-Research/AutoSF 用于知识图谱学习的双线性评分函数(SFs)搜索。知识图(KG)是一种以实体为节点、以关系为边的特殊图结构,对数据挖掘和机器学习都很重要,并启发了各种下游应用,如结构化搜索、问答、推荐。在KGs中,每条边都被表示为一个具有形式(头实体、关系、尾实体)的三元组,表示为(h, r, t),一个基本问题是如何量化三元组(h, r, t)s的合理性。KG嵌入(KGE)是近年来出现并发展起来的一种很有前途的方法。基本上,给定一组观察到的三元组,KGE试图学习实体和关系的低维向量表示,以便三元组的可信性能够被量化。得分函数(SF)根据嵌入值返回(h, r, t)的分数,用于度量可信性。SF一般是人为设计和选择的,对嵌入的质量有显著影响。

  • THU-KEG/KEPLER 主要通过添加类似于TransE的预训练机制来增强对应文本的表示,进而增强预训练模型在一些知识图谱有关任务的效果。

  • txsun1997/CoLAKE 使用知识图谱以增强预训练模型的效果 首先将上下文看作全连接图,并根据句子中的实体在KG上抽取子图,通过两个图中共现的实体将全连接图和KG子图融合起来;最终本文将文本上下文和知识上下文一起用MLM进行预训练,将mask的范围推广到word、entity和relation;为训练该模型,本文采用cpu-gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息

  • JanKalo/KnowlyBERT 提出了一种混合的语言知识模型查询系统,该系统使用语言模型来应对现实世界中知识图谱的不完整性问题。作为KnowlyBERT的输入,用户可以向系统提出以实体为中心的SPARQL查询。首先,查询语言模型(a);然后,对不完整的知识图谱进行查询,并获得结果(b);另外SPARQL查询被翻译成多种自然语言语句,这些语言语句在“关系模板生成”步骤中由语言模型完成;语言模型返回多个单词列表以及每个单词(c)的置信度值;然后将这些列表合并为一个列表(d),并根据知识图谱类型信息(e)使用我们的语义过滤步骤进行过滤。此外,执行阈值处理,削减不相关的结果(f);将语言模型和知识图谱的结果合并(g)并返回给用户。

  • yeliu918/KG-BART 知识图谱增强的预训练模型的生成式常识推理.可利用图上的注意力来聚集丰富的概念语义,从而增强对看不见的概念集的模型泛化。

  • bernhard2202/intkb 一种交互式知识图谱补全框架

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • wangbo9719/StAR_KGC Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion 结构增强文本表示学习,实现高效知识图完成.知识图谱补全

  • Everglow123/MAKG 移动app知识图谱

  • openconcept 基于自动化知识抽取算法的大规模中文概念图谱。440万概念核心实体,以及5万概念和1200万实体-概念三元组。数据包括了常见的人物、地点等通用实体。

  • OpenKG-ORG/OpenEA 基于知识图谱嵌入的开源实体融合工具。本体匹配、实体对齐、真值验证、冲突消解。

  • seukgcode/MELBench. 多模态实体链接 (MEL) 旨在利用多模态信息将提及项映射到知识库中定义的相应实体。 我们发布了三个 MEL 数据集:Weibo-MEL、Wikidata-MEL 和 Richpedia-MEL,分别包含来自社交媒体、百科全书和多模态知识图谱的 25,602、18,880 和 17,806 个样本。

  • OpenKG-ORG/OpenRichpedia 东南大学多模态知识图谱-OpenRichpedia工程文件

  • csdqa 计算机科学领域示意图问答数据集

  • HKUST-KnowComp/FKGE 差异私有联合知识图嵌入

  • totogo/awesome-knowledge-graph 知识图相关学习材料、数据库、工具和其他资源的精选列表

  • BrambleXu/knowledge-graph-learning 精选的知识图谱教程、项目社区列表。

  • liuhuanyong/PersonGraphDataSet 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • ownthink/KnowledgeGraph 史上最大规模1.4亿知识图谱数据免费下载,知识图谱,通用知识图谱,融合了两千五百多万实体,拥有亿级别的实体属性关系。

  • liuhuanyong/AbstractKnowledgeGraph 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。

  • songjiang0909/awesome-knowledge-graph-construction 很棒的知识图构建

  • ZihengZZH/awesome-multimodal-knowledge-graph 多模态知识图谱的精彩阅读列表或其他资源(数据集、教程等)。

  • thunlp/KB2E 知识图谱嵌入,包括 TransE、TransH、TransR 和 PTransE

  • powerycy/DeepKg: Knowledge Graph 知识图谱的构建 实体识别\语义标准化\向量召回

  • zjunlp/deepke 基于深度学习的开源中文知识图谱抽取框架,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • 面向事件时序因果关系识别的17类开源标注数据集总结

  • iuhuanyong/TextGrapher 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。 采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。

  • liuhuanyong/ChainKnowledgeGraph 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。

  • zjukg/NeuralKG 支持多种知识图谱表示学习/知识图谱嵌入(Knowledge Graph Embedding)模型的Python工具包,其中实现了多种传统知识图谱嵌入、基于图神经网络的知识图谱嵌入以及基于规则的知识图谱嵌入方法。

  • zjunlp/DeepKE 开源知识图谱抽取与构建工具,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • migalkin/NodePiece 大型知识图谱的复合和参数高效表示 (ICLR'22)。NodePiece是一个“分词器”,用于减少知识图中的实体词汇量。不是将每个节点浅层嵌入到向量中,而是首先在其关系上下文中通过 K 个锚节点和 M 关系类型“标记”每个节点。然后,通过任何注入函数(例如MLP或Transformer)对生成的哈希序列进行编码。NodePiece可以使用相同的锚点和关系词汇表标记附加到所见图的看不见的节点,这允许NodePiece在归纳设置中使用经典KG完成中的所有众所周知的评分函数(如TransE或RotatE)开箱即用。NodePiece在OGB WikiKG 2排行榜上名列前茅,以大幅降低的参数预算(7M与500-1500M)为模型提供动力。当前配置只需要 20K 个锚节点,而不是学习 2.5M 实体嵌入。关系预测\节点分类\样本外链路预测

  • liuhuanyong/ChineseSemanticKB 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

  • lemonhu/stock-knowledge-graph 利用网络公开数据构建一个小型证券知识图谱

  • OpenBGBenchmark/OpenBG 大规模开放业务知识图谱.开放的商业知识图,它使用统一的Schema覆盖大规模的多模态数据集,包含了浙江大学ZJUKG实验室和阿里巴巴知识引擎团队提供的数百万个产品和消费者需求。

  • DeqingYang/CKBC 使用关系图注意力网络和预训练语言模型完成常识知识库。常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用。与传统的知识库(KG)不同,常识库(CKG)中的节点通常由自由格式的文本表示,并且比传统的 KG 规模更大,更稀疏。因此,这对传统的知识库补全(KBC)方法造成了挑战。

  • JavaStudenttwo/ccks_kg ccks2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结

NLP语料和数据集

  • thu-coai/CrossWOZ 中文跨域任务导向对话数据集.它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。

  • lmmlzn/Awesome-LLMs-Datasets 从五个维度总结现有的代表性LLMs文本数据集:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统 NLP 数据集。(定期更新)

  • goto456/stopwords 中文常用停用词表

  • chatopera/Synonyms 用于自然语言处理和理解的中文同义词。

  • RUCAIBox/TG-ReDial 电影领域的对话推荐数据集TG-ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。

  • fighting41love/funNLP NLP民工的乐园: 中英文敏感词、语言检测、中外手机/电话归属/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件、连续英文切割、各种中文词向量、公司大全、古诗、IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取、国内电话号码正则匹配、清华中英文跨语言百科知识图谱

  • brightmart/nlp_chinese_corpus 大规模中文自然语言处理语料 维基百科json版(wiki2019zh) 新闻语料json版(news2016zh) 百科类问答json版(baike2018qa) 社区问答json版(webtext2019zh) :大规模高质量数据集 翻译语料(translation2019zh)

  • msra-nlc/ChineseKBQA NLPCC-ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering 开放域中文问答数据集

  • jkszw2014/bert-kbqa-NLPCC2017 A trial of kbqa based on bert for NLPCC2016/2017 Task 5 (基于BERT的中文知识库问答实践)

  • wavewangyue/NLPCC-MH 中文多跳问答数据集 基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了专注多跳问题的中文 KBQA 数据集

  • BERT-CCPoem 是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。THUNLP-AIPoet/BERT-CCPoem 中国古典诗词预训练模型

  • liucongg/NLPDataSet 数据集包括:DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。

  • C-Eval 数据集是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。

  • Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集,用以评估模型的语言能力和逻辑推理能力。 我们只保留了其中的单项选择题,随机划分后对所有模型进行统一 5-shot 测试。

  • MMLU 是包含 57 个多选任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,是目前主流的LLM评测数据集。

  • microsoft/AGIEval 以人为本的基准,专门用于评估基础模型在与人类认知和解决问题相关的任务中的一般能力。该基准源自 20 项针对普通人类考生的官方、公共和高标准入学和资格考试,例如普通大学入学考试(例如,中国高考(高考)和美国 SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。

  • thunlp/Few-NERD 一个大规模的人工标注的用于少样本命名实体识别任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有18万维基百科句子,460万个词,每个词都被注释为上下文(context)或一个实体类型的一部分。

  • CLUEbenchmark/CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。

  • esbatmop/MNBVC Massive Never-ending BT Vast Chinese corpus超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

  • oscar-corpus/OSCAR-2201 通过使用 unoliant 架构对通用爬网语料库进行语言分类和过滤而获得的一个巨大的多语言语料库。数据以原始形式和重复数据删除形式按语言分发。

  • festvox/datasets-CMU_DoG CMU 文档基础对话数据集 该数据集包含 4112 个对话,每个对话平均 21.43 轮。这使该数据集可以在生成响应的同时提供相关的聊天历史记录。

  • doc2dial/sharedtask-dialdoc2021 doc2dial是IBM发布的基于文档的对话数据集,包含两个任务:1)从文档中检索和问题相关的句子(information-seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。

  • chin-gyou/MovieChats MovieChats:在封闭域中像人类一样聊天,电影内容的聊天对话数据集

  • projects/personachat Persona-Chat 数据集人物聊天对话数据

  • krystalan/SGSum 一个面向体育赛事摘要的人工标注数据集

  • IceFlameWorm/NLP_Datasets 中文NLP数据集,ATEC语义相似度学习赛数据集、CCKS 2018 微众银行智能客服问句匹配大赛数据集、ATEC + CCKS 2018 组合数据集(互金客服场景)、哈工大BQ_corpus数据集(语义相似度)、哈工大LCQMC数据集(语义相似度)。

  • nlpcc2018 选择task7 Open Domain Question Answering,即可下载数据集。数据集包含知识图谱和问答数据

  • pkumod/CKBQA ccks2018 ccks2019 包含简单问题和复杂问题的中文 KBQA 数据集。对于每个中文问题,我们都提供了黄金答案和黄金 SPARQL 查询,因此该数据集也可以应用于语义解析任务。

  • Marsan-Ma-zz/chat_corpus 来自各种开源的聊天语料库集合 open_subtitles 英文电影字幕解析, movie_subtitles_cn 康奈尔电影对话语料库, 歌词_zh 来自 PTT 论坛的歌词,witter_en 来自 twitter 的语料库(700k 行),twitter_en big更大尺寸的 twitter 语料库(5M 行)

  • rkadlec/ubuntu-ranking-dataset-creator 从 Ubuntu 语料库对话框中为排名任务创建训练、有效和测试数据集的脚本。

  • codemayq/chinese_chatbot_corpus 对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料,共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

  • NiuTrans/Classical-Modern 非常全的文言文(古文)-现代文平行语料

  • CLUEbenchmark/SimCLUE 大规模语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型。可用于语义理解、语义相似度、召回与排序等检索场景等。整合了以上9个数据集:哈工大 LCQMC 数据集、AFQMC 蚂蚁金融语义相似度数据集、OPPO 小布对话文本语义匹配数据集、北大中文文本复述数据集 PKU-Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集

  • GuocaiL/nlp_corpus open_ner_data网上开放的ner数据集、boson数据集、clue细粒度实体识别数据集、微软实体识别数据集、人民网实体识别数据集(98年)、中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)、视频_音乐_图书数据集、微博数据集

  • zejunwang1/CSTS: 中文自然语言推理与语义相似度数据集

    • 哈工大 LCQMC 数据集
    • AFQMC 蚂蚁金融语义相似度数据集
    • OPPO 小布对话文本语义匹配数据集
    • 谷歌 PAWS-X 数据集
    • 北大中文文本复述数据集 PKU-Paraphrase-Bank
    • Chinese-STS-B 数据集
    • Chinese-MNLI 自然语言推理数据集
    • Chinese-SNLI 自然语言推理数据集
    • OCNLI 中文原版自然语言推理数据集
    • CINLID 中文成语语义推理数据集
  • sailxuOvO/CC-Riddle 汉字谜语问答数据集

  • CLUEbenchmark/DataCLUE 数据为中心的NLP基准和工具包。以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。取自 国家科技资源共享服务工程技术研究中心, 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条。

  • pluto-junzeng/CNSD 中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。

  • victorsungo/MMDialog 面向多模态开放域会话的大规模多轮对话数据集。

  • lupantech/ScienceQA 通过思维链进行多模态推理的科学问题回答。提出了科学问答(ScienceQA),这是一个新的基准,包括21,208个多模态多项选择题,有一套不同的科学主题和注释,他们的答案与相应的讲座和解释。讲座和解释分别提供了一般的外部知识和具体的原因,以获得正确的答案。拥有更丰富的领域多样性:自然科学语言科学社会科学。ScienceQA包含26个主题、127个类别和379个技能,涵盖了广泛的领域。我们进一步设计语言模型,学习生成演讲和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA证明了CoT在语言模型中的实用性,CoT在少样例GPT-3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。

  • benywon/ChiQA 用于多模态理解的大规模基于图像的真实世界问答数据集。ChiQA中的问题是向搜索引擎发出的开放域用户查询。ChiQA中的图像也是从搜索引擎中收集的真实世界图像,与问题相关但不一定能回答问题。我们的数据众包包括两个阶段的主动学习过程。在第一阶段,我们从网络上随机收集样本。在第二阶段中,我们首先基于来自第一阶段的数据训练模型,然后使用训练好的模型在剩余数据上选择硬示例并继续标记。这两个阶段的设置使得数据更具挑战性,并且从本质上消除了对数据中某些属性或语言模式的不合理偏爱。

  • qkaren/Counterfactual-StoryRW “虚构故事推理和生成”的数据集和代码

  • eecrazy/CausalBank 非常大规模、开放的领域、句子级、平行的因果语料库。按照句子中出现的因果顺序分为两部分:because_mode(结果,然后是原因)和therefore_mode(原因,然后是结果)。使用预处理的英语通用爬网语料库 (5.14 TB) 中的细粒度因果模板匹配获得的,完全自动,无需任何人工注释。里面或多或少有噪音。

  • InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集,阅读理解、任务型对话数据、文本分类、实体识别&词性标注&分词、句法&语义解析、推荐系统、百科数据、指代消歧、预训练:(词向量or模型)、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典。

  • pengxiao-song/awesome-chinese-legal-resources 中国法律数据集和相关资源的精彩集合。致力于收集全面的中文法律数据源

  • xglue 由11个任务组成,跨越19种语言。对于每个任务,训练数据仅以英语提供。这意味着要在XGLUE上取得成功,模型必须具有强大的零镜头跨语言迁移能力,以从特定任务的英语数据中学习并将其学到的内容转移到其他语言中。与其并发工作XTREME相比,XGLUE有两个特点:首先,它同时包含跨语言NLU和跨语言NLG任务;其次,除了包括5个现有的跨语言任务(即NER,POS,MLQA,PAWS-X和XNLI)之外,XGLUE还从Bing场景中选择了6个新任务,包括新闻分类,查询广告匹配,网页排名,QA匹配,问题生成和新闻标题生成。语言、任务和任务来源的这种多样性为量化跨语言自然语言理解和生成的预训练模型的质量提供了全面的基准。

  • yhavinga/ccmatrix 该语料库是使用 CCMatrix 中所述的基于边缘的双文本挖掘技术从网络爬虫中提取的语言对。

  • ywjawmw/TCM_KG 中医TCM-neo4j 知识图谱

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。

  • WuDaoCorpora Text文本预训练数据集 北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。采用20多种规则从100TB原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,源头上避免GPT-3存在的隐私泄露风险;包含教育、科技等50+个行业数据标签,可以支持多领域预训练模型的训练。

  • beyond/chinese_clean_passages_80m 包含8千余万纯净中文段落,不包含任何字母、数字。文本长度大部分介于50~200个汉字之间。数据是基于CLUE中文预训练语料集进行处理、过滤得到的。

  • tiiuae/falcon-refinedweb 由 TII 构建并在 ODC-By 1.0 许可下发布的海量英语网络数据集。通过对 CommonCrawl 进行严格的过滤和大规模重复数据删除而构建的;我们发现,在 RefinedWeb 上训练的模型在仅依赖于 Web 数据的情况下,可以达到在线性能或优于在精选数据集上训练的模型。RefinedWeb 也是“多模态友好”的:它包含处理过的样本中图像的链接和替代文本。

  • ssymmetry/BBT-FinCUGE-Applications 大规模中文金融领域语料库BBT-FinCorpus,包含以下四种语料: 公司公告 在过去二十年中由中国所有上市公司发布的公司公告。原始数据为 PDF 格式,总大小约为 2TB。使用 PDF 解析器将 PDF 文件转换为文我们件,转换后的文件的总大小为 105GB。研究报告 由券商、投行等投资机构发布的针对宏观经济、板块、行业和个股的研究报告,分析研究对象的现状并展望其未来发展趋势。原始数据为PDF格式,总大小约为1TB。经转化后的文我们件总量约11GB。财经新闻 从新浪财经,腾讯财经,凤凰财经,36Kr 和虎嗅等网站爬取的过去五年内的财经新闻。经清洗后的文我们件总量约 20GB。社交媒体 股吧和雪球网过去二十年内的所有股民和博主发表的帖子。经清洗后的文本总量约 120GB。

  • lmsys/lmsys-chat-1m 该数据集包含 100 万个真实世界的对话和 25 个最先进的 LLMs.它是从 2023 年 4 月至 8 月期间在 Vicuna 演示和 Chatbot Arena 网站上从野外的 210K 个唯一 IP 地址中收集的。每个示例都包含对话 ID、模型名称、OpenAI API JSON 格式的对话文本、检测到的语言标记和 OpenAI 审核 API 标记。

  • lmsys/chatbot_arena_conversations 该数据集包含 33K 个具有成对人类偏好的清理对话。它是从 2023 年 4 月至 6 月期间聊天机器人竞技场上的 13K 个唯一 IP 地址中收集的。每个示例都包括一个问题 ID、两个模型名称、OpenAI API JSON 格式的完整对话文本、用户投票、匿名用户 ID、检测到的语言标签、OpenAI 审核 API 标签、附加有毒标签和时间戳。

  • RyokoAI/ShareGPT52K 该数据集是在关闭之前通过 ShareGPT API 抓取的大约 90,000 个对话的集合。这些对话包括用户提示和 OpenAI 的 ChatGPT 的响应。

  • CausalLM/Refined-Anime-Text 包含超过一百万条、约4400万个 GPT-4/3.5 token的、全新合成的文本数据集的动漫主题子集。该数据集此前从未公开发布过。由于社区对动漫文化的浓厚兴趣,且考虑到通识数据集中此类题材的代表性不足,以及原始文本中网络俚语和无关内容的泛滥而导致的低质量、难以清理的问题,我们决定发布这份子集供进一步研究。这份数据集旨在用于研究大型语言模型中网络亚文化的数据治理,并探索具有挑战性的 LLM 持续预训练问题,例如特定主题的知识蒸馏以及对未见知识的持续学习。

  • openai/miniF2F 正式的数学基准测试(跨多个正式系统进行翻译),由奥林匹克竞赛(AMC、AIME、IMO)以及高中和本科数学课程的练习陈述组成。

  • liuhuanyong/DomainWordsDict 涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。

  • CLUEbenchmark/CLUEDatasetSearch 搜索所有中文NLP数据集,附常用英文NLP数据集。包括 NER、QA、情感分析、文本分类、文本匹配、文本摘要、机器翻译、知识图谱、语料库、阅读理解等。

  • facebookresearch/anli 对抗性的自然语言推理基准,该数据集通过迭代、对抗性的人与模型在环程序收集。

  • google-research-datasets/tydiqa 包含 200k 个人工注释的问答对,采用 11 种类型不同的语言,在看不到答案和不使用翻译的情况下编写,专为自动问答系统的训练和评估而设计。此存储库为数据集提供评估代码和基线系统。

  • castorini/mr.tydi 基于 TyDi 的多语言基准数据集,涵盖 11 种类型不同的语言。

  • dqwang122/MLROUGE 用于多语言摘要的 ROUGE

  • https://github.com/esdurmus/Wikilingua 多语言抽象摘要数据集,来自 WikiHow 的 18 种语言的 ~770k 篇文章和摘要对。

  • PhilipMay/stsb-multi-mt 机器翻译的多语言 STS 基准数据集。

  • unicamp-dl/mMARCO MS MS MARCO 段落排名数据集的多语言版本。翻译了 MS MARCO 段落排名数据集,这是一个大规模的 IR 数据集,包含从 Bing 的搜索查询日志中抽取的超过五十万个匿名问题。mMARCO 包括 14 种语言(包括原始英文版本)。

  • cluebenchmark/OCNLI 中文原版自然语言推理任务

  • jgc128/mednli 临床领域的自然语言推理数据集

  • alipay/RJU_Ant_QA RJUA-QA(仁济医院泌尿外科和蚂蚁集团协作问答数据集)是一个创新的泌尿外科医学专业QA推理数据集。

  • houbb/sensitive-word 敏感词/违禁词/违法词/脏词。基于 DFA 算法实现的高性能 java 敏感词过滤工具框架。请勿发布涉及政治、广告、营销、翻墙、违反国家法律法规等内容。高性能敏感词检测过滤组件,附带繁体简体互换,支持全角半角互换,汉字转拼音,模糊搜索等功能。

关系抽取、信息抽取

  • roomylee/awesome-relation-extraction 专门用于关系提取的精选资源列表,关系提取是自然语言处理 (NLP) 中最重要的任务之一。

  • weizhepei/CasRel 用于关系三重提取的新颖级联二进制标记关系抽取框架.

  • loujie0822/DeepIE 基于深度学习的信息抽取技术,实体抽取\实体关系联合抽取\属性抽取\实体链接/标准化\事件抽取\摘要抽取

  • OpenKG-ORG/OpenUE 一个从文本中通用提取的开放工具包

  • universal-ie/UIE 统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。

  • thunlp/DocRED 大规模文档级关系提取数据集的数据集和代码。ACL 2019

  • 131250208/TPlinker-joint-extraction 联合抽取模型 实体关系联合抽取标注关系抽取方案

  • bojone/GPLinker 基于GlobalPointer的实体/关系/事件抽取

  • xhw205/GPLinker_torch CMeIE/CBLUE/CHIP/实体关系抽取/SPO抽取

  • TanyaZhao/MRC4ERE_plus 基于机器阅读理解的联合实体关系提取框架

  • cuhksz-nlp/RE-TaMM 于词依存信息类型映射记忆神经网络的关系抽取

  • PaddleNLP/DuIE LIC2021 DuIE 关系抽取基线 .信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。关系抽取的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。 本基线系统基于预训练语言模型ERNIE设计了结构化的标注策略,可以实现多条、交叠的SPO抽取。

  • princeton-nlp/PURE PURE:从文本中提取实体和关系,包含 PURE(普林斯顿大学关系提取系统)的 (PyTorch) 代码和预训练模型,如论文所述:一种令人沮丧的实体和关系提取的简便方法。

  • xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型,DMCNN、FramNet、DLRNN、DBRNN、GCN、DAG-GRU、JMEE、PLMEE等方法

  • 231sm/Reasoning_In_EE 利用本体表示学习实现低资源的事件抽取

  • zjunlp/openue 开源的通用文本信息抽取工具 三元组抽取 事件抽取 槽填充和意图检测

  • thunlp/OpenNRE 开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,CNN、BERT、bag-level PCNN-ATT。

  • thunlp/NREPapers 神经网络关系抽取必读论文列表,覆盖了较为经典的神经网络关系抽取领域的已发表论文、综述等。

  • zjunlp/DocED 跨句事件抽取旨在研究如何同时识别篇章内多个事件。提出多层双向网络Multi-Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。

  • cuhksz-nlp/RE-AGCN 使用注意力图卷积网络的依赖驱动关系提取的实现。

  • XueFuzhao/GDPNet 构建一个潜在的多视图图来捕获令牌之间的各种可能关系。然后细化这个图来选择重要的词进行关系预测。最后,将细化图的表示和基于 BERT 的序列表示连接起来以进行关系提取。提出的 GDPNet(高斯动态时间扭曲池化网络)中,利用高斯图生成器 (GGG) 来生成多视图图的边。然后通过动态时间扭曲池 (DTWPool) 对图形进行细化。在 DialogRE 和TACRED上,表明在对话级 RE 上实现了最佳性能,并且在句子级 RE 上与最先进的性能相当。

  • dair-iitd/OpenIE-standalone 华盛顿大学 (UW) 和德里印度理工学院 (IIT 德里) 的主要开放信息提取 (Open IE) 系统。一个开放的系统提取文本中的关系。

  • zjunlp/KnowPrompt 把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。

  • yao8839836/kg-bert 知识库补全的工作,结合BERT可以将更丰富的上下文表示结合进模型中,在三元组分类、链接预测以及关系预测中达到了SOTA。

  • dolphin-zs/Doc2EDAG 中国金融事件提取的端到端文档级框架 。基于实体的有向无环图(EDAG), 以自回归方式生成一个 EDAG。这样,一个硬表填充任务被分解为几个更易于处理的路径扩展子任务。

  • liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。

  • percent4/knowledge_graph_demo 展示三元组抽取后形成的知识图谱,包括几本小说的实体关系

  • lemonhu/open-entity-relation-extraction 基于依存句法分析,实现面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建。

  • lancopku/Chinese-Literature-NER-RE-Dataset 中文文学文本语篇级命名实体识别与关系抽取数据集

  • tonytan48/Re-DocRED 广泛使用的文档级关系抽取基准。然而,DocRED数据集包含很大比例的假阴性示例(注释不完整)。我们修订了DocRED数据集中的4,053个文档并解决了其问题。

实体识别NER、意图识别、槽位填充

  • LeeSureman/Flat-Lattice-Transformer 中文NER 基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。

  • ljynlp/W2NER 通过将统一的 NER 建模为词-词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。

  • MiuLab/SlotGated-SLU 意图识别和槽位填充(slot filling)联合模型,提出槽位门控机制(slot-gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。

  • monologg/JointBERT 意图识别和槽位填充(slot filling)联合训练模型,使用了BERT来进行语义编码,然后做序列标注任务和多分类任务的联合训练。

  • z814081807/DeepNER 天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch

  • liuwei1206/LEBERT Lexicon Enhanced BERT模型来解决中文序列标注NER任务。相比于 FLAT,Lattice LSTM 等方法,它把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。

  • kangbrilliant/DCA-Net 用于插槽填充和意图检测的协同互感器。数据集ATIS上,意向Acc 97.7 插槽填充F1 95.9 。

  • yizhen20133868/Awesome-SLU-Survey 口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame)信息,进而将这些信息为对话状态追踪模块(DST)以及自然语言生成模块(NLG)所使用。SLU任务通常包含以下两个任务:意图识别(intent detection)和槽位填充(slot filling)。

  • wuba/qa_match 58同城推出的一款基于深度学习的轻量级问答匹配工具,它融合领域识别与意图识别,对问答意图进行精确理解。

  • qiufengyuyi/sequence_tagging 用bilstm-crf,bert等方法进行序列标记任务

  • panchunguang/ccks_baidu_entity_link CCKS&百度 2019中文短文本的实体链指 第一名解决方案

  • ShannonAI/mrc-for-flat-nested-ner 命名实体识别的统一 MRC 框架

  • AdvPicker 通过对抗性判别器有效利用未标记数据进行跨语言 NER

  • jiesutd/LatticeLSTM 使用 Lattice LSTM 的中文 NER。ACL2018论文的代码。

  • Lynten/stanford-corenlp 为文本处理任务提供了一个简单的 API,例如标记化、部分语音标记、命名实体识别、选区解析、依赖解析等。

  • thunlp/PL-Marker 用于实体和关系提取的打包悬浮标记。提出了一种新的跨度表示方法,称为 Packed Levitated Markers,通过在编码器中策略性地打包标记来考虑跨度(对)之间的依赖关系。

  • v-mipeng/LexiconAugmentedNER 拒绝为中文 NER 合并词典的复杂操作。在中文 NER 中加入词典可以非常简单,同时也很有效。

  • lonePatient/BERT-NER-Pytorch Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

  • gaohongkui/GlobalPointer_pytorch 全局指针统一处理嵌套与非嵌套NER的Pytorch实现

其他_NLP自然语言处理

  • nltk/nltk 支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。

  • keon/awesome-nlp 专用于自然语言处理 (NLP) 的资源精选列表

  • graykode/nlp-tutorial 面向深度学习研究人员的自然语言处理教程

  • stanfordnlp/stanza Stanford NLP Group 的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具。

  • piskvorky/gensim Python 库,用于主题建模、文档索引和大型语料库的相似性检索。目标受众是自然语言处理 (NLP) 和信息检索 (IR) 社区。特征:所有算法都与内存无关,与语料库大小无关(可以处理大于 RAM、流式、核外的输入),易于插入您自己的输入语料库/数据流(简单的流式 API),易于使用其他向量空间算法进行扩展(简单转换 API),流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)、潜在狄利克雷分配 (LDA)、随机投影 (RP)、分层狄利克雷过程 (HDP) 或 word2vec 深度学习。分布式计算:可以在计算机集群上运行潜在语义分析和潜在狄利克雷分配。

  • huseinzol05/NLP-Models-Tensorflow 抽象总结 聊天机器人依赖解析器 实体标记 提取摘要 发电机 语言检测 神经机器翻译 光学字符识别 POS标签 问题答案 句子对 语音转文字 拼写校正 小队问题答案 抽干 文字扩充 文字分类 文字相似度 文字转语音 主题生成器 主题建模 无监督提取摘要 矢量化器 老少少的声码器 可视化 注意Attention

  • CLUEbenchmark/FewCLUE FewCLUE 小样本学习测评基准,中文版 小样本学习(Few-shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET\RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。

  • deepset-ai/haystack 开源的NLP框架,可以使用Transformer模型和LLM(GPT-3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。

  • sebastianruder/NLP-progress 它旨在涵盖传统和核心NLP任务,如依赖解析和词性标记,以及最近的任务,如阅读理解和自然语言推理。主要目的是为读者提供基准数据集的快速概述以及他们感兴趣的任务的最新技术,这是进一步研究的垫脚石。为此,如果有一个地方已经发布并定期维护任务的结果,例如公共排行榜。

  • PKU-TANGENT/nlp-tutorial NLP新手入门教程

  • yuanzhoulvpi2017/zero_nlp 中文nlp解决方案(大模型、数据、模型、训练、推理)

  • crownpku/Awesome-Chinese-NLP 中文自然语言处理相关资料

  • fxsjy/jieba 中文意为“口吃”,中文文本分割:打造成为最好的 Py 中文分词模块。

  • bojone/attention Attention机制的实现tensorflow/keras

  • 425776024/nlpcda 中文数据增强工具,随机实体替换\近义词\近义近音字替换\随机字删除\NER类 BIO 数据增强\随机置换邻近的字\百度中英翻译互转\中文等价字替换

  • wac81/textda Python3中文文本的数据增强

  • zhanlaoban/EDA_NLP_for_Chinese 适合中文语料的数据增强EDA的实现

  • akkarimi/aeda_nlp 一种更简单的文本分类数据增强技术.插入符号。

  • rz-zhang/SeqMix 数据增强⽅法,通过序列混合增强活动序列标记。

  • clovaai/ssmix 数据增强⽅法,SSMix⽅法在⽂本input上通过巧妙的⽅法进⾏mixup,⽽不像前⾯⼤部分使⽤在 hidden层上。该⽅法在保留⼤部分重要token的前提下基于⼀些信息替换⼀个新的 span进来。

  • ShomyLiu/Neu-Review-Rec Pytorch的基于评论文本的深度推荐系统模型库。DeepCoNN(WSDM'17)、D-Attn(RecSys'17)、ANR(CIKM'18)、NARRE(WWW'18)、MPCN(KDD'18)、TARMF(WWW'18)、CARL(TOIS'19)、CARP(SIGIR'19)、DAML(KDD'19)

  • squareRoot3/Target-Guided-Conversation 目标指导的开放域对话,开放域聊天中目标引导.

  • flairNLP/flair 最先进的NLP框架。由柏林洪堡大学开发。将先进的NLP模型应用于文本,如NER、词性标记 (PoS)、对生物医学的特殊支持、感知消歧和分类。Flair具有简单的界面,允许不同的单词和文档嵌入,包括Flair嵌入,BERT嵌入和ELMo嵌入。

  • NVIDIA/NeMo 对话式 AI 工具包,专为从事ASR\TTS\语言模型和NLP的研究人员而构建。NeMo的主要目标是帮助来自工业界和学术界的研究人员重用以前的工作(代码和预训练模型),并更轻松地创建新的对话AI模型。所有 NeMo 模型都使用 Lightning 进行训练,训练可自动扩展到 1000 多个 GPU。此外,NeMo 威震天 LLM 模型可以使用张量和管道模型并行性训练多达 1 万亿个参数。NeMo 模型可以针对推理进行优化,并使用 NVIDIA Riva 针对生产用例进行部署。

  • lancopku/pkuseg-python 多领域中文分词工具

  • JasonForJoy/MPC-BERT 一种预训练的多方会话理解语言模型.多方会话(MPC)的各种神经模型在收件人识别、说话人识别和反应预测等方面取得了显著的进展。

  • airaria/TextBrewer 基于PyTorch的NLP任务知识蒸馏工具包,适用于多种模型结构,支持自由组合各种蒸馏策略,并且在文本分类、阅读理解、序列标注等典型NLP任务上均能获得满意的效果。

  • czhang99/SynonymNet 基于多个上下文双向匹配的同义实体发现

  • PRADO 用于文档分类的投影注意网络 性能媲美BERT,但参数量仅为1/300 tensorflow/models/tree/master/research/sequence_projection

  • salesforce/pytorch-qrnn 准循环神经网络Quasi-Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快

  • ChenghaoMou/pytorch-pQRNN pQRNN 结合一个简单的映射和一个quasi-RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。

  • RUCAIBox/TG_CRS_Code TG-ReDial相应的推荐、回复生成、主题预测功能实现。

  • Qznan/QizNLP 快速运行分类、序列标注、匹配、生成等NLP任务的Tensorflow框架 (中文 NLP 支持分布式)

  • salesforce/WikiSQL 用于为关系数据库开发NLP界面的大型众包数据集。 WikiSQL 是与Seq2SQL 一起发布的数据集。使用强化学习从自然语言生成结构化查询。

  • toizzy/tilt-transfer 运行TILT迁移学习实验的代码 让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。

  • XiaoMi/MiNLP/minlp-tokenizer 小米 AI NLP 团队的平台 MiNLP 开源了中文分词功能

  • explosion/spaCy 工业级强度的NLP工具包,被称为最快的工业级自然语言处理工具。支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

  • RUCAIBox/CRSLab 用于构建会话推荐系统(Conversational Recommender System CRS)的开源工具包。 对话推荐任务主要拆分成三个任务:推荐任务(生成推荐的商品),对话任务(生成对话的回复)和策略任务(规划对话推荐的策略)。模型 CRS 模型 ReDial、KBRD、KGSF、TG-ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT

  • RUCAIBox/CRSPapers 选取了近年来基于深度学习的对话推荐系统相关论文(共 62 篇),并根据工作的类型进行分类,以供参考。

  • nlp-uoregon/trankit 用于多语言自然语言处理的基于轻型变压器的Python工具包 支持以下任务:句子分割。标记化。多字令牌扩展。词性标记。形态特征标记。依赖性解析。命名实体识别。

  • yizhen20133868/NLP-Conferences-Code 记录NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集

  • cuhksz-nlp/DGSA 基于方向建模图卷积网络的联合方面提取和情感分析.输入:由句子生成的依存句法分析树得到的图;句子(词序列).输出表示为一个标签序列.可用于序列标注、ER 和情感分析。

  • FedML-AI/FedNLP FedNLP:自然语言处理中的联合学习研究平台

  • graph4ai/graph4nlp 一个易于使用的NLP图形神经网络库。应用:文本分类、神经机器翻译、摘要、KG补全:预测konwledge图中两个现有实体之间的缺失关系。数学问题解决:自动解决数学习题,用易懂的语言提供问题的背景信息。名称实体识别、问题生成。

  • PaddlePaddle/PaddleNLP 简单易用且易于开发的强大功能。开发的简单易用的自然覆盖处理模型并提供开发者的简单易用的自然覆盖处理模型,并提供NLP 多场景的语言库供灵活使用的需求。

  • huybery/r2sql Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)

  • facebookresearch/GENRE 首创生成式实体检索,通过seq2seq方法(BART)生成有意义的实体名称从而实现实体链接,而且还可以取得SOTA结果。

  • sebastian-hofstaetter/intra-document-cascade IDCM模型: 文档内部级联选择段落服务于文档排序。采用文档内部级联策略,在运行复杂并且高效果的排序模型(ETM,Effective Teacher Model)之前,使用高效率的模型(ESM,Efficient Student Model)进行候选文档中多余段落的删除。相比bert,具有基本相同的效果,而且查询延迟降低400%以上。

  • jingtaozhan/DRhard 通过难负例优化稠密向量文档检索模型训练,利用动态难负例抽样提高模型效果,以及将随机抽样结合静态难负例抽样提高模型稳定性。

  • yechens/NL2SQL Text2SQL 语义解析数据集、解决方案、paper资源整合项。Text to SQL( 以下简称Text2SQL),是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域中的子任务。

  • destwang/CTCResources 中文文本纠错(Chinese Text Correction, CTC)相关论文、数据集。

  • fushengwuyu/chinese_spelling_correction 中文文本纠错模型:bert语言模型+字音字形相似度 、MLM、seq2seq

  • grammarly/gector ”GECToR – Grammatical Error Correction: Tag, Not Rewrite”,使用给序列打标签来替代主流的Seq2Seq模型。本文采取了一种迭代的方法,也就是通过多次(其实最多也就两三次)序列打标签。

  • destwang/CTC2021 本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

  • Jingjing-NLP/VOLT 借鉴边际效用通过最优转移学习词表。

  • thunlp/OpenAttack 文本对抗攻击工具包,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。

  • thunlp/TAADpapers 文本对抗攻击和防御必读论文列表。

  • lupantech/InterGPS 基于符号推理的几何数学题求解器。建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。

  • Helsinki-NLP/Tatoeba-Challenge 这是一个机器翻译的挑战集,包含 29G 翻译单元在 3,708 位ext 覆盖 557 种语言。该包包括从涵盖 134 种语言的 Tatoeba.org 衍生的 631 套测试集的版本。此包提供以多种语言进行机器翻译的数据集,并提供从 Tatoeba 获取的测试数据。

  • princeton-nlp/LM-BFF 更好的Few-shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板; 2.将样本示例以上下文的形式添加到每个输入中,关键是如何对示例进行采样.

  • thunlp/PromptPapers 关于基于提示的预先训练语言模型的必读论文。

  • linzehui/mRASP 通过利用对齐信息预训练多语言神经机器翻译. 代表多语言随机对齐替换预训练,是一种预训练的多语言神经机器翻译模型。 它在包含 32 个语言对的大规模多语言语料库上进行了预训练。 获得的模型可以在下游语言对上进一步微调。 为了有效地使具有相似含义的单词和短语在多种语言的表示中更接近,我们引入了随机对齐替换 (RAS) 技术。

  • soft-prompt-tuning The Power of Scale for Parameter-Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量

  • facebookresearch/ParlAI 在各种公开可用的对话数据集上训练和评估 AI 模型的框架。

  • CAMTL/CA-MTL 条件自适应多任务学习:使用更少的参数和更少的数据改进 NLP 中的迁移学习

  • thunlp/WantWords 一个开源的在线反向词典。

  • pcyin/tranX 用于将自然语言查询映射到机器可执行代码的通用神经语义解析器

  • hooman650/SupCL-Seq 下游优化序列表示的监督对比学习

  • openai/grade-school-math 包含 8.5K 高质量语言多样化小学数学单词问题的数据集。对于每个测试问题,我们提供从 6B 微调、6B 验证、175B 微调和 175B 验证生成的解决方案。

  • makcedward/nlpaug NLP 的数据增强

  • hankcs/pyhanlp 中文分词、依存句法分析

  • shibing624/pycorrector 中文文本纠错工具。支持中文音似、形似、语法错误纠正。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

  • HillZhang1999/MuCGEC MuCGEC中文纠错数据集及文本纠错SOTA模型开源

  • PengheLiu/Cn_Speck_Checker 通过统计方法对中文单词进行自动纠错

  • taozhijiang/chinese_correct_wsd 简易中文纠错消歧 用户输入语句的同音自动纠错.

  • beyondacm/Autochecker4Chinese 中文文本错别字检测以及自动纠错

  • iqiyi/FASPell 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

  • hiyoung123/SoftMaskedBert 中文文本纠错模型。使用两个网络模型,一个用于错误检测;另一个基于BERT进行纠错。

  • ACL2020SpellGCN/SpellGCN 将语音学和视觉相似性结合到汉语拼写检查\文本纠错

  • MuCGEC/scorers/ChERRANT 借鉴了英文上主流的GEC(Grammatical Error Correction 语法纠错)评估工具ERRANT,搭建了中文GEC评估工具ChERRANT(Chinese ERRANT)。ChERRANT的主要功能是通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,从而评估语法纠错模型的性能。应用:搜索query纠错、语音纠错、舆情文本纠错

  • liushulinle/CRASpell 使用复制机制改进中文拼写纠正的上下文错字稳健方法

  • thunlp/OpenBackdoor 文本后门攻防开源工具包(NeurIPS 2022 D&B)

  • xueyouluo/ccks2021-track2-code “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析 。基于BERT的Biaffine结构,直接预测文本构成的所有span的类别。相比单纯基于span预测和基于MRC的预测,Biaffine的结构可以同时考虑所有span之间的关系,从而提高预测的准确率。

  • kpu/kenlm 高效统计语言模型kenlm:新词发现、分词、智能纠错

  • ryanzhumich/Contrastive-Learning-NLP-Papers NLP 对比学习是一种学习嵌入空间的技术,使得相似的数据样本对具有接近的表示,而不同的样本彼此相距很远。 它可以在有监督或无监督的设置中使用,使用不同的损失函数来生成特定于任务或通用的表示。 在各种 NLP 任务中提供了有希望的性能改进,而且还提供了所需的特性,例如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置中的数据高效学习、可解释性和可解释性 .

  • textstat/textstat 用于计算文本对象(段落、句子、文章)的可读性统计数据。

  • nonebot/nonebot2 跨平台 Python 异步聊天机器人框架

  • mit-han-lab/smoothquant 对大语言模型的准确和高效的训练后量化

  • causaltext/causal-text-papers 因果推理和自然语言处理的交叉研究。

  • zhijing-jin/Causality4NLP_Papers 关于自然语言处理因果关系的论文阅读列表

  • DaDaMrX/ReaLiSe 多模态模型中文拼写检查器。包括:文字语义、文字发音、文字图形。

  • dbohdan/structured-text-tools 用于操作结构化文本数据的命令行工具列表

  • huggingface/tokenizers 提供当今最常用的分词器的实现,重点关注性能和多功能性。

  • jessevig/bertviz 在NLP模型中可视化注意力(BERT,GPT2,BART等)

  • lutzroeder/netron 用于神经网络、深度学习和机器学习模型的可视化工具

  • sebastianruder/NLP-progress 用于跟踪自然语言处理 (NLP) 进展的存储库,包括数据集和最常见 NLP 任务的最新技术水平。

  • DengBoCong/nlp-paper 自然语言处理领域下的相关论文(附阅读笔记),复现模型以及数据处理等

  • ssut/py-googletrans (非官方)Googletrans:免费且无限制的 Google 翻译 API for Python。翻译完全免费。

  • jgm/pandoc 通用标记转换器。一个Haskell库,用于从一种标记格式转换为另一种标记格式,以及使用该库的命令行工具。

  • shibing624/bart4csc-base-chinese BART中文拼写纠错模型,训练使用了SIGHAN + Wang271K 中文纠错数据集,在SIGHAN2015的测试集上达到接近SOTA水平。

  • sloria/TextBlob 简单、Pythonic、文本处理——情感分析、词性标记、名词短语提取、翻译等。

  • stanfordnlp/CoreNLP 核心 NLP 工具,用于标记化、句子分割、NER、解析、共指、情感分析等。

  • NLPchina/ansj_seg ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

  • openai/tiktoken 一个快速的 BPE 分词标记器,用于 OpenAI 的模型。

  • JohnSnowLabs/spark-nlp 建立在 Apache Spark 之上的最先进的自然语言处理库。它为机器学习管道提供了简单、高性能和准确的 NLP 注释,这些管道可在分布式环境中轻松扩展。Spark NLP 自带 36000+ 种预训练流水线和模型,支持 200+ 多种语言。它还提供诸如标记化、分词、词性标记、单词和句子嵌入、命名实体识别、依赖项解析、拼写检查、文本分类、情感分析、标记分类、机器翻译(+180 种语言)、摘要、问答、表格问答、文本生成、图像分类、图像到文本(字幕)、自动语音识别、零样本学习等任务,以及更多 NLP 任务。

  • tisfeng/Easydict 简洁优雅的词典翻译 macOS App。开箱即用,支持离线 OCR 识别,支持有道词典,苹果系统词典翻译,ChatGPT,Gemini,DeepL,Google,Bing,腾讯,百度,阿里,小牛,彩云和火山翻译。

  • salesforce/decaNLP 一项多任务挑战,涵盖十项任务:问答 (SQuAD)、机器翻译 (IWSLT)、摘要 (CNN/DM)、自然语言推理 (MNLI)、情感分析 (SST)、语义角色标签 (QA-SRL)、零样本关系提取 (QA-ZRE)、面向目标的对话 (WOZ)、语义解析 (WikiSQL) 和常识推理 (MWSC)。每个任务都转换为问答,这使得使用我们新的多任务问答网络 (MQAN) 成为可能。

网络与前后端开发

JavaScript框架

  • twbs/bootstrap 最流行的 HTML、CSS 和 JavaScript 框架,用于在 Web 上开发响应式、移动优先的项目。

  • nodejs/node Node.js JavaScript 运行时

  • denoland/deno JavaScript 和 TypeScript 的现代运行时。

  • microsoft/TypeScript JavaScript 的一个超集,它编译为干净的 JavaScript 输出。

  • sindresorhus/awesome-nodejs 令人愉快的 Node.js 包和资源

  • getify/You-Dont-Know-JS 一系列深入探讨 JavaScript 语言核心机制的书籍。

  • vercel/next.js Next.js 被一些世界上最大的公司使用,能够通过最新的 React 扩展来创建全栈 Web 应用程序,并集成强大的基于 Rust 的 Js 工具以实现最快的构建。

  • vitejs/awesome-vite 与 Vite 相关的精彩事物的精选列表

  • vuejs/core 一个渐进的、可增量采用的 JavaScript 框架,用于在 Web 上构建 UI。

  • vuejs/vue 这是 Vue 2 的存储库。一个用于构建用户界面的渐进式框架。它从头开始设计为可增量采用,并且可以根据不同的用例在库和框架之间轻松扩展。它由一个仅关注视图层的平易近人的核心库和一个由支持库组成的生态系统组成,可帮助您解决大型单页应用程序中的复杂性。

  • cuixiaorui/mini-vue 实现最简 vue3 模型,帮助你更高效地学习 vue3 源代码

  • axios/axios 用于浏览器和 node.js 的基于 Promise 的 HTTP 客户端

  • remix-run/remix 建立更好的网站。使用 Web 基础创建现代、有弹性的用户体验。全栈 Web 框架,可让您专注于用户界面并通过 Web 基础知识进行工作,以提供快速、流畅且有弹性的用户体验,可部署到任何 Node.js 服务器甚至非 Node.js 环境像 Cloudflare Workers 一样的边缘。

  • oven-sh/bun 多合一快速且易于使用的工具。 不需要 1,000 个用于开发的 node_modules,你只需要 bun。令人难以置信的快速 JavaScript 运行时、捆绑器、测试运行器和包管理器 - 合二为一

  • denoland/fresh 下一代 Web 框架,专为速度、可靠性和简单性而构建。一些突出的特点:边缘实时渲染。在客户端上无缝渲染某些组件,以实现最大的交互性。零运行时开销:默认情况下不向客户端发送 JS。没有构建步骤。无需配置。TypeScript 支持。文件系统路由 à la Next.js。

  • nestjs/nest 用于在 TypeScript 和 JavaScript(ES6、ES7、ES8)之上构建高效、可扩展和企业级服务器端应用程序的渐进式 Node.js 框架

  • chartjs/Chart.js 使用 canvas 标签的简单 HTML5 图表

  • juliangarnier/anime 轻量级的JS动画库,具有简单但功能强大的 API。

  • mrdoob/three.js 易于使用、轻量级、跨浏览器的通用 3D 库。当前仅包含 WebGL 渲染器,但 WebGPU(实验性)、SVG 和 CSS3D 渲染器也可作为插件使用。

  • slidevjs/slidev 面向开发人员的演示幻灯片

  • parallax/jsPDF 面向所有人的客户端 JavaScript PDF 生成。

  • cheeriojs/cheerio 用于解析和操作 HTML 和 XML 的快速、灵活且优雅的库。

  • videojs/video.js 视频.js - 开源HTML5视频播放器

  • showdownjs/showdown Js 编写的双向 Markdown 到 HTML 到 Markdown 转换器

  • shadcn/taxonomy 使用新路由器、服务器组件和 Next.js 13 中的所有新功能构建的开源应用程序。

  • jestjs/jest 令人愉快的 JavaScript 测试,全面的 JavaScript 测试解决方案。开箱即用,适用于大多数 JavaScript 项目。快速、交互式的观看模式仅运行与更改文件相关的测试文件。捕获大型对象的快照,以简化测试并分析它们如何随时间变化。

  • xgrommx/awesome-redux JS 应用的状态容器,提供可预测的状态管理

  • wasp-lang/wasp 使用 React 和 Node.js 开发全栈 Web 应用程序的最快方法。

  • Asabeneh/30-Days-Of-JavaScript 30 天的 JavaScript 编程挑战是在 30 天内学习 JavaScript 编程语言的分步指南。

  • purescript/purescript 一种小型的强类型编程语言,具有表达类型,编译为 JavaScript,由 Haskell 编写并受其启发。

  • vercel/pkg 将 Node.js 项目打包到可执行文件中,该可执行文件甚至可以在未安装 Node.js 的设备上运行。

  • v8/v8 V8 是 Google 的开源 JavaScript 引擎。V8 实现了 ECMA-262 中指定的 ECMAScript。V8 实现了 ECMA-262 中指定的 ECMAScript。V8是用C++编写的,用于谷歌的开源浏览器谷歌浏览器。V8 实现了 ECMA-262 中指定的 ECMAScript。

  • AssemblyScript/assemblyscript 类似 TypeScript 的 WebAssembly 语言。

  • chakra-core/ChakraCore 一个带有 C API 的 JavaScript 引擎,您可以使用它向任何 C 或 C 兼容项目添加对 JavaScript 的支持。它可以在Linux macOS和Windows上为x64处理器编译。x86 和 ARM 仅适用于 Win。未来的目标是在Linux上支持x86和ARM处理器,在macOS上支持ARM。

  • jerryscript-project/jerryscript 用于物联网的超轻量级 JS 引擎。适用于资源受限的设备,如微控制器。它可以在 RAM 小于 64 KB 且闪存小于 200 KB 的设备上运行。

  • svaarala/duktape 可嵌入的Js引擎,专注于可移植性和紧凑的占地面积.Duktape 很容易集成到 C/C++ 项目中:将 duktape.h 和 duk_config.h 添加到 duktape.c 您的构建中,并使用 Duktape API 从 C 代码调用 ECMAScript 函数,反之亦然。

  • boa-dev/boa 用Rust编写的可嵌入的实验性Js引擎。目前,它支持某些语言。

  • quickjs-zh/QuickJS 小型并且可嵌入的Js引擎,支持ES2020规范,包括模块,异步生成器和代理器。

  • GoogleChromeLabs/jsvu jsvu 可以轻松安装各种 JavaScript 引擎的最新版本,而无需从源代码编译它们。

  • cesanta/elk 用于嵌入式系统的低占用空间 JavaScript 引擎。它实现了 ES6 的一个小但可用的子集。它专为微控制器开发而设计。Elk 不是完全用 C/C++ 编写固件代码,而是允许将 JavaScript 自定义添加到用 C 开发的固件中 - 这是让客户扩展/自定义设备功能的好方法。

  • kaluma-project/kaluma RP2040(Raspberry Pi Pico) 的微型 JavaScript 运行时

  • Taritsyn/JavaScriptEngineSwitcher JavaScript 引擎切换器确定了访问流行 JavaScript 引擎基本功能的统一接口。此库允许您快速轻松地切换到使用另一个 JavaScript 引擎。

  • webpack/webpack JavaScript和相关资源的捆绑器。将许多模块打包到几个捆绑资产中。代码拆分允许按需加载应用程序的各个部分。通过“加载器”,模块可以是CommonJs,AMD,ES6模块,CSS,Images,JSON,Coffeescript,LESS,...和你的定制东西。

  • ryanmcdermott/clean-code-javascript 适用于 JavaScript 的干净代码概念

  • babel/babel 用于编写下一代 JavaScript 的编译器。一个帮助你用最新版本的 JavaScript 编写代码的工具。当您支持的环境本身不支持某些功能时,Babel 将帮助您将这些功能编译为受支持的版本。

  • goldbergyoni/nodebestpractices node.js最佳实践列表

  • sahat/hackathon-starter node.js Web 应用程序的样板

  • sorrycc/awesome-javascript 很棒的浏览器端 JavaScript 库、资源。

  • leonardomso/33-js-concepts: 每个开发人员都应该知道的 33 个 JavaScript 概念。

  • 30-seconds/30-seconds-of-code 满足您所有开发需求的简短 JavaScript 代码片段

  • saghul/txiki.js 使用 QuickJS、libuv 构建的微型 JavaScript 运行时

  • gpujs/gpu.js GPU 加速的 JavaScript

  • nvm-sh/nvm node版本管理器 - 符合 POSIX 标准的 bash 脚本,用于管理多个活动node.js版本

  • NativeScript/NativeScript 通过原生平台 API 为 JavaScript 提供支持。世界上最好的(TypeScript,Swift,Objective C,Kotlin,Java)。使用你喜欢的Angular,Capacitor,Ionic,React,Solid,Svelte,Vue:SwiftUI,Jetpack Compose,Flutter,你的名字兼容。

  • MostlyAdequate/mostly-adequate-guide javascript指南

  • reasonml/reason 利用JavaScript和OCaml生态系统的简单,快速和类型的安全代码。OCaml是Caml的继承者,CAML的缩写最初代表Categorical Abstract Machine Language,分类抽象机语言,不过后来,将这个抽象机淘汰掉了。OCaml有一个巨大并强悍的标准库,这使得她可以像Py或者Perl一样可以方便地开发各种应用程序,健壮的模块化与面向对象编程结构又使得她可以胜任大规模软件工程项目。

  • rescript-lang/rescript-compiler 一种健壮的类型语言,可以编译成高效且人类可读的 JavaScript。它带有一个闪电般的快速编译器工具链,可扩展到任何代码库大小。

  • mbasso/awesome-wasm 关于 WebAssembly 生态系统的精彩事物的精选列表。

  • javascript-obfuscator/javascript-obfuscator 一款功能强大的免费 JavaScript 混淆器,包含各种功能,可为您的源代码提供保护。

  • josdejong/mathjs JS 和 Node.js 的广泛数学库。具有灵活的表达式解析器,支持符号计算,带有大量内置函数和常量,并提供集成解决方案来处理不同的数据类型,如数字、大数、复数、分数、单位和矩阵。功能强大且易于使用。

  • bytecodealliance/wasmtime 快速安全的 WebAssembly 运行时

  • ds300/patch-package 立即修复损坏的node模块

  • debug-js/debug 一个以 Node.js 核心的调试技术为模型的小型 JavaScript 调试实用程序。适用于 Node.js 和 Web 浏览器

  • type-challenges/type-challenges TypeScript 类型挑战集合,高质量的类型可以帮助提高项目的可维护性,同时避免潜在的错误。

  • DefinitelyTyped/DefinitelyTyped 高质量 TypeScript 类型定义的存储库。

  • jquery/jquery jQuery JavaScript 库

  • wangdoc/typescript-tutorial TypeScript 教程,介绍基本概念和用法,面向初学者。

  • javascript-tutorial/zh.javascript.info 现代 JavaScript 教程(The Modern JavaScript Tutorial),以最新的 ECMAScript 规范为基准,通过简单但足够详细的内容,为你讲解从基础到高阶的 JavaScript 相关知识。

  • mqyqingfeng/Blog 冴羽写博客的地方,预计写四个系列:JavaScript深入系列、JavaScript专题系列、ES6系列、React系列。

  • tj/commander.js node.js命令行界面变得简单

  • prettier/prettier 固执己见的代码格式化程序。它通过解析代码并使用自己的规则重新打印代码来强制执行一致的样式,考虑了最大行长度,并在必要时包装代码。

  • emscripten-core/emscripten 使用 LLVM 和 Binaryen 将 C 和 C++ 编译为 WebAssembly。Emscripten 输出可以在 Web、Node.js 和 wasm 运行时中运行。

  • colinhacks/zod 使用静态类型推理进行 TypeScript 优先架构验证

  • vercel/turbo 增量打包器和构建系统针对 JavaScript 和 TypeScript 进行了优化,用 Rust 编写——包括 Turbopack 和 Turborepo。

  • mbeaudru/modern-js-cheatsheet 您在现代项目中经常遇到的 JS 知识备忘单。

  • standard/standard JavaScript 风格指南,带有 linter 和自动代码修复程序

  • pnpm/pnpm 快速、节省磁盘空间的包管理器

  • eslint/eslint 查找并修复 JavaScript 代码中的问题。

  • ramda/ramda 实用的函数式 Javascript

  • zloirock/core-js 用于 JavaScript 的模块化标准库。

  • knex/knex 适用于 PostgreSQL、MySQL、CockroachDB、SQL Server、SQLite3 和 Oracle 的查询构建器,旨在灵活、可移植且使用起来很有趣。

  • jamiebuilds/babel-handbook 通用的多用途 JavaScript 编译器。通过 Babel 你可以使用(并创建)下一代的 JavaScript,以及下一代的 JavaScript 工具。

  • nodejs/node-gyp Node.js原生插件构建工具

  • lint-staged/lint-staged  在 git 暂存文件上运行 linters,在提交代码之前运行 Linting 更有意义。通过这样做,您可以确保没有错误进入存储库并强制执行代码样式。但是,在整个项目上运行 lint 过程很慢,并且 linting 结果可能无关紧要。最终,您只想删除将要提交的文件。

  • gvergnaud/ts-pattern 用于 TypeScript 的详尽模式匹配库,具有智能类型推理功能。

  • Schniz/fnm 快速简单的Node.js版本管理器,内置于 Rust 中

  • glideapps/quicktype 从 JSON、Schema 和 GraphQL 生成类型和转换器

  • verdaccio/verdaccio 简单的、无需配置的本地私有 npm 注册表。无需整个数据库即可开始!Verdaccio 开箱即用,拥有自己的微型数据库,并且能够代理其他注册表(例如 npmjs.org),并在此过程中缓存下载的模块。对于那些希望扩展其存储功能的人来说,Verdaccio 支持各种社区制作的插件,以挂接到 Amazon 的 s3、Google Cloud Storage 等服务或创建自己的插件。

  • fibjs/fibjs 基于 Chrome 的 V8 JavaScript 引擎构建的 JavaScript 运行时。fibjs使用 fibers(纤程)-switch、同步式和非阻塞IO模型来构建可扩展的系统。

  • krausest/js-framework-benchmark 一些流行的 javascript 框架的性能比较,基准测试创建一个包含随机条目的大表,并测量各种操作的时间,包括渲染持续时间。

  • rwaldron/idiomatic.js 编写一致、惯用的 JavaScript 的原则

  • TypeStrong/ts-node 用 node.js 来执行 TypeScript,具有源映射和本机 ESM 支持。它JIT将TypeScript转换为JavaScript,使您能够直接在Node.js上执行TypeScript,而无需预编译。这是通过挂接节点的模块加载 API 来实现的,使其能够与其他Node.js工具和库无缝使用。

  • gruntjs/grunt JavaScript 任务运行程序。在执行重复性任务(如缩小、编译、单元测试、linting)时,您需要做的工作越少,您的工作就越容易。通过 Gruntfile 配置它后,任务运行器可以为您和您的团队完成大部分日常工作,而工作量基本上为零。Grunt 生态系统非常庞大,而且每天都在增长。有数百个插件可供选择,您可以使用 Grunt 以最少的努力自动执行几乎任何事情。如果有人还没有构建您需要的东西,那么创作自己的 Grunt 插件并将其发布到 npm 是一件轻而易举的事。了解如何开始。

  • Unleash/unleash 专为开发人员打造的开源功能管理解决方案。Unleash 是一个强大的功能管理开源解决方案。它简化了您的开发工作流程,加快了软件交付速度,并使团队能够控制向最终用户推出新功能的方式和时间。借助 Unleash,您可以按照自己的节奏在更小、更易于管理的版本中将代码部署到生产环境。Unleash 中的功能标志允许您使用真实的生产数据测试代码,从而降低对用户体验产生负面影响的风险。它还使您的团队能够同时处理多个功能,而无需单独的功能分支。Unleash 是 GitHub 上最流行的功能标记开源解决方案。它支持 15 个官方客户端和服务器 SDK 以及超过 15 个社区 SDK。如果您愿意,您甚至可以创建自己的 SDK。Unleash 与任何语言和框架兼容。

前端开发框架及项目

  • facebook/react Web 和本机用户界面的库。用于构建用户界面的 JavaScript 库。声明式:React 使创建交互式 UI 变得轻松。为应用程序中的每个状态设计简单的视图,React 将在数据更改时有效地更新和渲染正确的组件。声明性视图使代码更可预测、更易于理解且更易于调试。基于组件:构建管理其自身状态的封装组件,然后组合它们以创建复杂的 UI。由于组件逻辑是用 JavaScript 而不是模板编写的,因此您可以轻松地通过应用传递丰富的数据,并将状态排除在 DOM 之外。一次学习,随处编写:我们不会对您的技术堆栈的其余部分做出假设,因此您可以在 React 中开发新功能,而无需重写现有代码。React 还可以使用 Node 在服务器上渲染,并使用 React Native 为移动应用程序提供支持。

  • facebook/create-react-app 通过运行一个命令来设置新式react Web 应用。

  • facebook/react-native 使用 React 构建本机应用程序的框架

  • enaqx/awesome-react 关于 React 生态系统的精彩内容的集合

  • mantinedev/mantine 功能齐全的 React 组件库

  • mui/material-ui 即用型基础 React 组件,永久免费。它包括 Material UI,它实现了 Google 的 Material Design。

  • airbnb/javascript JavaScript 风格指南。

  • bolshchikov/js-must-watch 关于javascript的必看视频

  • thedaviddias/Front-End-Checklist 现代网站和一丝不苟的开发人员的完美前端清单

  • rails/rails Web 应用程序框架,它包含了根据模型-视图-控制器 (MVC) 模式创建数据库支持的 Web 应用程序所需的一切。理解 MVC 模式是理解 Rails 的关键。MVC 将应用程序分为三层:模型层、视图层和控制器层,每层都有特定的职责。

  • google/material-design-icons 来自谷歌两个不同的官方图标集,使用相同的底层设计。材质图标是经典套装,材质符号于 2022 年 4 月推出,基于可变字体技术构建。

  • google/material-design-lite Material Design Lite 允许您为静态内容网站添加 Material Design 外观。它不依赖于任何JavaScript框架或库。针对跨设备使用进行了优化,在较旧的浏览器中优雅地降级,并提供从一开始就可以访问的体验。

  • ant-design/ant-design 企业级 UI 设计语言和 React UI 库

  • youzan/vant 一个轻量级的、可定制的 Vue UI 库,用于移动 Web 应用程序。特性: 性能极佳,组件平均体积小于 1KB(min+gzip)、80+ 个高质量组件,覆盖移动端主流场景、零外部依赖,不依赖三方 npm 包、使用 TypeScript 编写,提供完整的类型定义、单元测试覆盖率超过 90%,提供稳定性保障、提供丰富的中英文文档和组件示例、提供 Sketch 和 Axure 设计资源、支持 Vue 2-Vue 3 和微信小程序、支持 Nuxt 2-Nuxt 3,提供 Nuxt 的 Vant Module、支持主题定制,内置 700+ 个主题变量、支持按需引入和 Tree Shaking、支持无障碍访问(持续改进中)、支持深色模式、支持服务器端渲染、支持国际化,内置 30+ 种语言包

  • nuxt/nuxt 免费的开源框架,具有直观且可扩展的方式,可以使用 Vue.js 创建类型安全、高性能和生产级的全栈 Web 应用程序和网站。它提供了许多功能,可以轻松构建快速、SEO 友好且可扩展的 Web 应用程序,包括:服务器端渲染、静态站点生成或混合渲染;具有代码拆分功能的自动路由;状态管理;SEO优化;自动导入;可扩展 180+ 模块;部署到各种托管平台

  • vuejs/pinia Vue 的官方状态管理库,直观、类型安全、轻量级和灵活的 Vue 应用状态管理,使用具有 DevTools 支持的组合 API

  • vuejs/vuex Vue.js 的集中式状态管理。Vue 的官方状态管理库已更改为 Pinia。Pinia 具有与 Vuex 5 几乎完全相同或增强的 API,如 Vuex 5 RFC 中所述。你可以简单地将 Pinia 视为具有不同名称的 Vuex 5。Pinia 也适用于 Vue 2.x。

  • electron/electron使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用程序

  • angular/angular 用于构建移动和桌面 Web 应用程序的开发平台,使用 TypeScript/ JavaScript 和其他语言。

  • ElemeFE/element 用于 Web 的 Vue.js 2.0 UI 工具包。

  • necolas/react-native-web 跨平台的 React UI 包。可访问的 HTML,支持不同的设备和输入模式,渲染语义标签。高质量的互动,支持手势和多种输入模式(触摸、鼠标、键盘)。可靠的款式,依赖作用域样式和自动供应商前缀,支持 RTL 布局。响应式容器,响应元素调整大小事件。增量采用,与现有的 React DOM 组件互操作。仅捆绑您使用的内容。

  • gatsbyjs/gatsby 无头网络的最快前端。用 React 构建现代网站。Gatsby 是基于 React,可帮助开发人员构建速度极快的网站和应用程序。它将动态渲染网站的控制和可扩展性与静态网站生成的速度相结合,创造了一个全新的可能性网络。

  • vuejs/awesome-vue 与 Vue 相关的精彩事物的精选列表

  • vitejs/vite Vite(法语中“快速”的意思,发音 /vit/ 为“veet”)是一种新型的前端构建工具,可显著改善前端开发体验。主要组成:通过本机 ES 模块提供源文件的开发服务器,具有丰富的内置功能和惊人的快速热模块替换 (HMR)。将代码与 Rollup 捆绑在一起的生成命令,经过预配置,可输出高度优化的静态资产以用于生产环境。

  • vuetifyjs/awesome-vuetify Vuetify 是一个不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。您将在下面找到一系列应用程序和工具,这些应用程序和工具有助于展示 Vuetify 所提供的最佳功能

  • nestjs/awesome-nestjs 与NestJS 相关的精彩事物的精选列表

  • layui/layui 一套遵循原生态开发模式的 Web UI 组件库,采用自身轻量级模块化规范,易上手,可以更简单快速地构建网页界面。

  • dcloudio/uni-app 使用 Vue.js开发小程序、H5、App的统一前端框架。使用 Vue 语法编写代码,uni-app 框架将其编译到 小程序(微信/支付宝/百度/字节跳动/QQ/快手/钉钉/小红书)、App(iOS/Android)、H5等平台,保证正确并达到优秀体验。

  • MrXujiang/h5-Dooring 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台.

  • h5bp/html5-boilerplate 一个专业的前端模板,用于构建快速、强大且适应性强的 Web 应用程序或网站。帮助您构建快速、可靠且适应性强的 Web 应用或网站。利用 100 多名开发人员的综合知识和努力启动您的项目,所有这些都在一个小包中。

  • haizlin/fe-interview 前端面试每日 3+1,以面试题来驱动学习,提倡每日学习与思考,每天进步一点!每天早上5点纯手工发布面试题(死磕自己,愉悦大家),6000+道前端面试题全面覆盖,HTML / CSS/ JavaScript/ Vue/ React/ Nodejs/ TypeScript/ ECMAScritpt/Webpack/Jquery/小程序/软技能

  • qianguyihao/Web 千古前端图文教程,超详细的前端入门到进阶知识库。从零开始学前端,做一名精致优雅的前端工程师。

  • h5bp/Front-end-Developer-Interview-Questions 有用的前端相关问题列表,你可以用它来面试潜在的候选人,测试自己或完全忽略。

  • PatrickJS/awesome-angular 令人敬畏的 Angular 资源的精选列表

  • hexojs/hexo 一个快速,简单和强大的博客框架,由Node.js提供支持。

  • statelyai/xstate 现代 Web 的状态机和状态图。状态图是用于对有状态、反应性系统进行建模的形式。这对于以声明方式描述应用程序的行为(从各个组件到整个应用程序逻辑)非常有用。

  • TanStack/query 强大的异步状态管理、服务器状态实用程序和 Web 数据获取。TS/JS、React 查询、Solid 查询、Svelte 查询和 Vue 查询。

  • preactjs/preact 具有相同现代 API 的快速 3kB React 替代品。组件和虚拟 DOM。虚拟 DOM 组件的所有功能,无开销;熟悉的 React API 和模式:ES6 类、钩子和功能组件;通过简单的 preact/compat 别名实现广泛的 React 兼容性;您需要的一切:JSX、VDOM、DevTools、HMR、SSR;高度优化的差异算法和来自服务器端渲染的无缝水化;支持所有现代浏览器和 IE11;使用可插拔调度程序进行透明异步渲染。

  • jondot/awesome-react-native 很棒的 React Native 组件、新闻、工具和学习材料!

  • react-boilerplate/react-boilerplate 在几秒钟内开始你的下一个 react 项目,高度可扩展、离线优先的基础,具有最佳的开发人员体验,并专注于性能和最佳实践。

  • cypress-io/cypress 快速、简单、可靠地在浏览器中运行的任何测试内容。轻松地为现代 Web 应用程序创建测试,直观地调试,并在持续集成构建中自动运行它们。

  • akveo/blur-admin : AngularJS Bootstrap Admin 管理面板前端框架

  • ColorlibHQ/gentelella 免费Bootstrap4 管理仪表板模板

  • akveo/ngx-admin 基于Angular 10 +的可定制管理仪表板模板

  • vbenjs/vue-vben-admin 免费的开源中后端模板。采用最新 vue3 、vite4 、TypeScript 等主流技术发展,开箱即用的中后端前端方案也可用于学习参考。

  • akveo/ngx-admin 基于 Angular 10+ 的可定制管理仪表板模板

  • iview/iview-admin 基于 iView 的 Vue 2.0 管理员管理系统模板

  • creativetimofficial/material-dashboard 免费的 Material Bootstrap Admin,具有受 Google Material Design 启发的全新设计。我们非常高兴地通过一套易于使用且美观的组件来介绍我们对材料概念的看法。Material Dashboard 建立在流行的 Bootstrap 框架之上,它带有几个经过重新设计的第三方插件,以适应其余元素。

  • epicmaxco/vuestic-admin 免费且漂亮的 Vue.js 管理模板,具有 44+ 自定义 UI 组件。用 Vuestic UI 构建的。

  • yezihaohao/react-admin react 后台管理系统解决方案

  • honghuangdc/soybean-admin 基于Vue3、Vite3、TypeScript、NaiveUI 和 UnoCSS的清新优雅的中后台模版

  • tabler/tabler 建立在Bootstrap上的HTML Dashboard UI 工具包

  • coreui/coreui-free-bootstrap-admin-template 基于由专业人士创建和支持的企业级手工制作的 UI 组件库构建的开源 Bootstrap 管理仪表板模板。CoreUI 管理模板可帮助您比以前更快地构建可靠的 Web 应用。CoreUI提供4个版本:Angular,Bootstrap,React.js和Vue.js。

  • puppeteer/puppeteer Node.js 库,提供了一个高级 API 来控制 DevTools 协议上的 Chrome/Chromium。Puppeteer默认以无头模式运行,但可以配置为在完整(“有头”)Chrome / Chromium中运行。示例:生成页面的屏幕截图和 PDF。对 SPA(单页应用程序)进行爬网并生成预呈现的内容(即“SSR”(服务器端呈现))。自动化表单提交、UI 测试、键盘输入等。使用最新的 JavaScript 和浏览器功能创建自动化测试环境。捕获站点的时间线跟踪,以帮助诊断性能问题。测试Chrome扩展程序。

  • ant-design/ant-design-pro React企业应用程序的全新 UI 解决方案。

  • alibaba/ice 基于 React 的渐进式应用框架,零配置:开箱即用,支持 ES6+、TypeScript、Less、Sass、CSS 模块等,实践:文件系统路由、状态管理、请求等实践,混合:默认在构建时 (SSG) 或请求时 (SSR) 预渲染页面,插件系统:插件系统提供了丰富的功能,多端:同时支持 web、小程序和 Weex

  • reduxjs/redux JavaScript 应用的可预测状态容器,可以帮助您编写行为一致、在不同环境(客户端、服务器和本机)中运行且易于测试的应用程序。最重要的是,它提供了出色的开发人员体验,例如实时代码编辑与时间旅行调试器相结合。您可以将 Redux 与 React 或任何其他视图库一起使用。Redux 核心很小(2kB,包括依赖项),并且具有丰富的插件生态系统。

  • infinitered/reactotron React 和 React Native 应用程序的强大调试器。它为开发人员提供了一个易于使用的界面,用于监控其应用程序的状态、网络请求和性能指标,可用于任何规模的项目,从小型个人应用程序到大型企业应用程序。

  • vasanthk/react-bits react模式、技术、技巧和窍门

  • adam-golab/react-developer-roadmap 成为 React 开发人员的路线图

  • mrousavy/react-native-vision-camera 强大、高性能的 React Native Camera 库

  • jaredpalmer/tsdx 用于 TypeScript 包开发的零配置 CLI,可帮助您轻松开发、测试和发布现代 TypeScript 包

  • basarat/typescript-book TypeScript 的权威指南,也可能是最好的 TypeScript 书籍

  • ColorlibHQ/AdminLTE 基于 Bootstrap 4 的免费管理仪表板模板

  • chuzhixin/vue-admin-better vue后台管理

  • vbenjs/vue-vben-admin 免费开放源码的中间端和后端模板,使用最新的 vue3,vite2,TypeScript 和其他主流技术开发,可作为学习参考。

  • lyt-Top/vue-next-admin 基于 vue3.x + CompositionAPI setup 语法糖 + typescript + vite + element plus + vue-router-next + pinia 技术,适配手机、平板、pc 的后台开源免费模板,实现快速开发。

  • PanJiaChen/vue-element-admin 后台前端解决方案,基于 vue 和 element-ui

  • cool-team-official/cool-admin-vue 很酷的后台权限管理框架,模块化、插件化、CRUD极速开发,基于midway.js 3.0、typeorm、mysql、jwt、element-ui、vuex、vue-router、vue等构建

  • PanJiaChen/vue-admin-template 一个最小的 vue 管理模板,带有 Element UI & axios & iconfont & 权限控制 & lint

  • flipped-aurora/gin-vue-admin 基于vite+vue3+gin搭建的开发基础平台(支持TS,JS混用),集成jwt鉴权,权限管理,动态路由,显隐可控组件,分页封装,多点登录拦截,资源权限,上传下载,代码生成器,表单生成器。

  • biubiubiu01/vue3-bigData 基于vue的大数据分析系统,包含各种echarts和vue

  • RainManGO/vue3-composition-admin 基于vue3 的管理端模板

  • newpanjing/simpleui 基于vue+element-ui的django admin现代化主题。全球20000+网站都在使用

  • pure-admin/vue-pure-admin Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)

  • YunaiV/ruoyi-vue-pro 基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 微信小程序,支持 RBAC 动态权限、数据权限、SaaS 多租户、Flowable 工作流、三方登录、支付、短信、商城等功能。

  • elunez/eladmin eladmin jpa 版本:基于 Spring Boot 2.6.4、 Jpa、 Spring Security、Redis、Vue的前后端分离的后台管理系统,采用分模块开发方式, 权限控制采用 RBAC,支持数据字典与数据权限管理,一键生成前后端代码,支持动态路由

  • pure-admin/vue-pure-admin Vue3+Vite4+Element-Plus+TypeScript编写的一款后台管理系统(兼容移动端)

  • codecentric/spring-boot-admin 用于管理 Spring Boot 应用程序的管理 UI

  • elunez/eladmin-web eladmin jpa版本:前端源码,项目基于 Spring Boot 2.1.0 、 Spring Boot Jpa、 Spring Security、Redis、Vue的前后端分离后台管理系统

  • macrozheng/mall-swarm 一套微服务商城系统,采用了 Spring Cloud 2021 & Alibaba、Spring Boot 2.7、Oauth2、MyBatis、Docker、Elasticsearch、Kubernetes等核心技术,同时提供了基于Vue的管理后台方便快速搭建系统。mall-swarm在电商业务的基础集成了注册中心、配置中心、监控中心、网关等系统功能。文档齐全,附带全套Spring Cloud教程。

  • YunaiV/yudao-cloud 基于 Spring Cloud Alibaba + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能。

  • macrozheng/mall-learning mall学习教程,架构、业务、技术要点全方位解析。mall项目(50k+star)是一套电商系统,使用现阶段主流技术实现。涵盖了SpringBoot 2.3.0、MyBatis 3.4.6、Elasticsearch 7.6.2、RabbitMQ 3.7.15、Redis 5.0、MongoDB 4.2.5、Mysql5.7等技术,采用Docker容器化部署。

  • jaywcjlove/icongo 搜索 SVG 图标。轻松地在 React 项目中包含流行的图标,并提供一个简单的工具将 SVG 转换为 React 组件。icongo

  • Lissy93/dashy 为您构建的自托管个人仪表板。包括状态检查,小部件,主题,图标包,UI编辑器等等!

  • DataV-Team/DataV Vue数据可视化组件库(类似阿里DataV,大屏数据展示),提供SVG边框及装饰、图表、水位图、飞线图等组件,React版已发布

  • youzan/vant-weapp 轻量、可靠的小程序 UI 组件库

  • lsqy/taro-music 基于taro + taro-ui + redux + react-hooks + typescript 开发的网易云音乐小程序

  • element-plus/element-plus Element 团队制作的 Vue.js 3 UI 库

  • newbee-ltd/newbee-mall-vue3-app Vue3 + Vant 搭建大型单页面商城项目。

  • woniudiancang/bee 微信小程序-餐饮点餐外卖-开箱即用

  • iamxjb/winxin-app-watch-life.net 微慕小程序开源版-WordPress版微信小程序

  • nslogx/Gitter 可能是目前颜值最高的GitHub微信小程序客户端

  • mark420524/question 小程序,微信答题小程序,可以进行答题,模拟考试。增加了词典查询,汉字成语查询等功能

  • ecomfe/echarts-for-weixin Apache ECharts 的微信小程序版本

  • TalkingData/iview-weapp 一套高质量的微信小程序 UI 组件库

  • mageslr/weapp-library “在线借书平台”微信小程序

  • kesixin/QuestionWechatApp 微信小程序,考试小程序,答题小程序,刷题小程序。毕业设计小程序,有前后端完整源码和数据库,易于二次开发。还可用于考试活动,企业内部考核,内部培训等职业考试刷题。

  • Tencent/wepy 小程序组件化开发框架

  • iv-org/invidious YouTube 的前端替代

  • pipipi-pikachu/PPTist 基于 Vue3.x + TypeScript 的在线演示文稿(幻灯片)应用,还原了大部分 Office PowerPoint 常用功能,支持 文字、图片、形状、线条、图表、表格、视频、音频、公式 几种最常用的元素类型,每一种元素都拥有高度可编辑能力,同时支持丰富的快捷键和右键菜单,支持导出本地 PPTX 文件,支持移动端基础编辑和预览,支持 PWA。您可以在此基础上搭建自己的在线幻灯片应用。

  • vercel/swr 用于数据获取的 React Hooks 库。“SWR”来源于 stale-while-revalidate ,由HTTP RFC 5861推广的缓存失效策略。SWR先从缓存中返回数据(过时),然后发送请求(重新验证),最后再次附带最新数据。

  • animate-css/animate.css 跨浏览器的 CSS 动画库。就像容易的事一样容易使用。

  • vercel/vercel Vercel的前端云为开发人员提供了框架、工作流程和基础设施,以构建更快、更个性化的网络。面向前端开发人员的平台,提供创新者在灵感瞬间创建所需的速度和可靠性。

  • Templarian/MaterialDesign 来自社区的 7000+ 个 Material Design 图标

  • Cveinnt/LiveTerm 在几分钟内构建终端风格的网站!

  • woocommerce/woocommerce 基于WordPress构建的可定制的开源电子商务平台。构建您能想象到的任何商务解决方案。

  • wpscanteam/wpscan WPScan WordPress安全扫描程序。为安全专业人员和博客维护人员编写,以测试其WordPress网站的安全性。

  • roots/bedrock WordPress样板,更轻松的配置和改进的文件夹结构

  • timber/timber 使用漂亮的OOP代码和Twig模板引擎创建WordPress主题

  • wp-cli/wp-cli WordPress的命令行界面。您可以更新插件,配置多站点安装等等,而无需使用Web浏览器。

  • postlight/headless-wp-starter WordPress + React 入门套件:一步启动 WordPress 驱动的 React 应用程序

  • WordPress/gutenberg WordPress及其他版本的块编辑器项目。插件可从官方存储库获得。

  • Automattic/wp-calypso 新的 WordPress.com 前端 - 使用单页 Web 应用程序对 WordPress 仪表板进行了漂亮的重新设计,由 WordPress.com REST API 提供支持。Calypso 是为在一个地方阅读、写作和管理所有 WordPress 网站而构建的。

  • roots/sage WordPress入门主题,带有Laravel Blade组件和模板,Tailwind CSS和现代开发工作流程

  • aniftyco/awesome-tailwindcss 实用工具优先的 CSS 框架,用于快速构建自定义用户界面。

  • SmallRuralDog/vue3-music VUE3+TS开发的音乐播放器,模仿mac QQ音乐。

  • tw93/Pake 很简单的用 Rust 打包网页生成很小的桌面 App

  • tauri-apps/tauri 使用 Web 前端构建更小、更快和更安全的桌面应用程序。

  • Tencent/weui 微信官方设计团队的UI库,收录了移动Web应用中最实用的widgets modules。

  • bvaughn/react-virtualized 用于高效呈现大型列表和表格数据的 React 组件

  • fyne-io/fyne 受材质设计启发的 Go 中的跨平台 GUI 工具包。它旨在使用单个代码库构建在桌面和移动设备上运行的应用程序。

  • SergioBenitez/Rocket Rust 的异步 Web 框架,专注于可用性、安全性、可扩展性和速度。

  • parcel-bundler/parcel 用于 Web 的零配置构建工具。它将出色的开箱即用开发体验与可扩展的体系结构相结合,可以将您的项目从刚开始转变为大规模生产应用程序。

  • zhaoolee/ChromeAppHeroes 谷粒-Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类

  • daybrush/moveable 可拖动、可调整大小、可缩放、可旋转、可扭曲、可捏、可分组、可捕捉

  • Blazity/next-enterprise 企业级 Next.js 样板,适用于高性能、可维护的应用。包含 Tailwind CSS、TypeScript、ESLint、Prettier、测试工具等功能,可加速您的开发。

  • jgraph/drawio JavaScript的绘图和白板编辑器

  • ToolJet/ToolJet 用于构建业务应用程序的可扩展低代码框架。连接到数据库、云存储、GraphQL、API 端点、Airtable 等,并使用拖放式应用程序构建器构建应用程序。使用 JavaScript/TypeScript 构建。

  • givanz/VvvebJs 拖放构建网站的javascript 库 。

  • strapi/strapi 领先的开源无头 CMS。100% JScript,完全可定制且开发人员优先。

  • payloadcms/payload 使用 React + TypeScript 构建一个免费开源 Headless CMS。

  • getgrav/grav 由 PHP、Markdown、Twig 和 Symfony 提供支持的现代、极快、极其简单且功能强大的平面文件 CMS

  • octobercms/october 基于 Laravel PHP 框架的自托管 CMS (Content Management System) 平台。

  • tinacms/tinacms 一个完全开源的无头CMS,支持Markdown和可视化编辑

  • decaporg/decap-cms 用于静态站点生成器的 CMS。为用户提供一种简单的方法来编辑内容并将其添加到使用静态网站生成器构建的任何网站。

  • keystonejs/keystone-classic Node.js CMS 和 Web 应用程序框架

  • django-cms/django-cms 由 Django 支持的易于使用且对开发人员友好的企业 CMS

  • keystonejs/keystone 最强大的无头 CMS Node.js — 使用 GraphQL 和 React 构建

  • midoks/mdserver-web 一款简单Linux面板服务

  • janishar/nodejs-backend-architecture-typescript Node.js的学习为生产就绪的博客平台(如Medium和FreeCodeCamp)构建后端服务器。主要功能:基于角色,Express.js,Mongoose,Redis,Mongodb,Joi,Docker,JWT,单元集成测试。

  • iview/iview 基于 Vue.js 2.0 构建的高质量 UI 工具包

  • sveltejs/svelte 一种构建Web应用程序的新方法。它是一个编译器,它采用声明性组件并将它们转换为高效的JavaScript,通过外科手术更新DOM。

  • kriasoft/react-starter-kit Web 上最受欢迎的 Jamstack 前端模板(样板),用于使用 React 构建 Web 应用程序

  • cobiwave/simplefolio 面向开发人员的最小的个人介绍模板

  • storybookjs/storybook 前端用于单独构建UI组件和页面。专为 UI 开发、测试和文档编制而设计。组件驱动开发环境。它通过隔离组件使开发更快更容易,它可以一次只处理一个组件。在 web 应用程序中构建小的原子组件和复杂的页面,使用 Storybook 可以让你专注于组件开发,无需去关注 API 文档的编写。

  • Semantic-Org/Semantic-UI 基于自然语言有用原则的 UI 组件框架。允许开发人员通过简洁的 HTML、直观的 JavaScript 和简化的调试快速构建漂亮的网站,帮助使前端开发成为一种愉快的体验。语义采用响应式设计,允许您的网站在多个设备上扩展。

  • markedjs/marked markdown解析器和编译器。为速度而生。

  • recharts/recharts 使用 React 和 D3 重新定义的图表库

  • palantir/blueprint 基于 React 的 Web UI 工具包

  • kusti8/proton-native 跨平台桌面应用的 React 环境,特征:与 React Native 相同的语法和组件;与现有的 React 库(如 Redux)一起使用;跨平台;不再有Electron;兼容所有普通Node.js包;热重载

  • revery-ui/revery 原生、高性能、跨平台桌面应用程序 - 使用 Reason,Revery 有点像超快的原生代码 Electron - 捆绑了类似 React/Redux 的库和快速构建系统,Revery 是用 reasonml 构建的,reasonml 是 OCaml 之上的类似 javascript 的语法,这意味着 JS 开发人员可以使用该语言。您的应用程序使用 Reason/OCaml 工具链编译为原生代码 - 具有与原生 C 代码相当的即时启动和性能。Revery 具有平台加速、GPU 加速的渲染功能。编译器本身也很快!

  • react-native-elements/react-native-elements 跨平台 React Native UI 工具包

  • nodegui/nodegui 用于使用 Node.js 和 CSS 构建跨平台原生桌面应用程序的库。NodeGUI 由 Qt6 提供支持,与其他基于铬的解决方案(如 Electron)相比,它具有 CPU 和内存效率。特征:跨平台;CPU 和内存占用量低、对于 Hello World 程序,当前 CPU 在空闲时保持在 0%,内存使用率低于 20MB;使用 CSS 进行样式设置(包括实际的级联)。还完全支持 Flexbox 布局;完整的 Nodejs API 支持(目前在 Node v16.x 上运行 - 并且易于升级)。因此可以访问所有与 Nodejs 兼容的 NPM 模块。;本机小部件事件侦听器支持。支持Qt / NodeJs提供的所有事件。;可用于商业应用;良好的 Devtools 支持;良好的文档和网站;为贡献者提供良好的文档;对暗模式的良好支持(感谢Qt)。;一流的 Typescript 支持。

  • unoplatform/uno 使用 C# 和 XAML 构建移动、桌面和 WebAssembly 应用。开源和专业支持。它允许 C# 和 WinUI XAML 和/或 C# 代码在所有目标平台上运行,同时允许你控制每个像素。它开箱即用地支持 Fluent、Material 和 Cupertino 设计系统。Uno 平台实现了越来越多的 WinRT 和 WinUI API,例如 Microsoft.UI.Xaml,以使 WinUI 应用程序能够在具有本机性能的所有平台上运行。

  • gui-cs/Terminal.Gui 适用于 .NET 的跨平台终端 UI 工具包,用于构建适用于 Windows、Mac 和 Linux/Unix 的 .NET、.NET Core 和 Mono 的丰富控制台应用的工具包。特征:跨平台 - Windows、Mac 和 Linux。Curses、Windows 控制台和 .NET 控制台的终端驱动程序意味着应用在彩色和单色终端上都能正常工作。键盘和鼠标输入 - 支持键盘和鼠标输入,包括对拖放的支持。灵活布局 - 支持绝对布局和创新的计算布局系统。计算布局使控件之间的相对布局变得容易,并启用动态终端 UI。剪贴板支持 - 剪切、复制和粘贴通过 Clipboard 类提供的文本。任意视图 - 所有可见的 UI 元素都是 View 类的子类,而这些子类又可以包含任意数量的子视图。高级应用功能 - Mainloop 支持处理事件、空闲处理程序、计时器和监控文件描述符。大多数类对于线程都是安全的。反应式扩展 - 使用反应式扩展,并受益于增强的代码可读性,以及应用 MVVM 模式和 ReactiveUI 数据绑定的能力。请参阅示例应用的源代码,了解如何实现此目的。

  • SortableJS/Sortable 适用于现代浏览器和触摸设备的可重新排序的拖放列表。不需要jQuery或框架。

  • doczjs/docz Docz 使您的代码编写和发布漂亮的交互式文档变得容易。创建展示代码的 MDX 文件,Docz 将它们转换为实时重新加载、生产就绪的网站。

  • docsifyjs/docsify 一个神奇的文档站点生成器。Docsify将一个或多个Markdown文件转换为网站,无需构建过程。

  • vuetifyjs/vuetify 不需要设计技能的 UI 库,其中包含精美的手工制作的 Vue 组件。无需设计技能 — 创建令人惊叹的应用程序所需的一切触手可及。

  • verekia/js-stack-from-scratch 构建现代 JavaScript 堆栈的分步教程。

  • TanStack/table 用于为 TS/JS 构建功能强大的表和数据网格的无头 UI - React-Table、Vue-Table、Solid-Table、Svelte-Table

  • shadcn-ui/ui 使用Radix UI和Tailwind CSS构建的精美设计的组件。

  • t4t5/sweetalert JavaScript的“alert警报”的漂亮替代品

  • react-hook-form/react-hook-form 用于表单状态管理和验证的 React Hooks

  • typescript-cheatsheets/react 为有经验的 React 开发人员准备的备忘单,开始使用 TypeScript

  • brillout/awesome-react-components React 组件和库的精选列表。

  • nextauthjs/next-auth Auth.js 是一组基于 Web 标准 API 构建的开源包,用于在现代应用程序中使用任何 JS 运行时中任何平台上的任何框架进行身份验证。

  • ionic-team/ionic-framework 一个强大的跨平台 UI 工具包,用于使用 HTML、CSS 和 JavaScript 构建原生质量的 iOS、Android 和渐进式 Web 应用程序。

  • chakra-ui/chakra-ui 为您的 React 应用程序提供简单、模块化和可访问的 UI 组件

  • alexpate/awesome-design-systems 一系列令人敬畏的设计系统。设计系统是有关原则和最佳实践的文档集合,有助于指导团队构建数字产品。它们通常体现在 UI 库和模式库中。

  • saadeghi/daisyui 流行、最免费、最开源的顺风CSS组件库

  • Leaflet/Leaflet 用于移动友好型交互式地图的 JavaScript 库

  • date-fns/date-fns 现代 JavaScript 日期实用程序库

  • amsul/pickadate.js 移动友好,响应迅速且轻量级的jQuery日期和时间输入选择器。

  • iamkun/dayjs 不可变日期时间库替代 Moment.js具有相同的现代 API

  • rebassjs/rebass 使用风格化系统构建的 React 基元 UI 组件。

  • enzymejs/enzyme React 的 JavaScript 测试实用程序,可以更轻松地测试 React 组件的输出。您还可以操作、遍历和以某种方式模拟给定输出的运行时。

  • ill-inc/biomes-game Biomes是一个开源沙盒MMORPG,使用Next.js,Typescript,React和WebAssembly等Web技术为Web构建。

  • reagent-project/reagent 提供了一种编写高效 React 组件的方法,(几乎)只使用普通的 ClojureScript 函数。

  • meteor/meteor 一个用于构建现代 Web 应用程序的超简单环境。

  • dexteryy/spellbook-of-modern-webdev 现代 JavaScript Web 开发的大图景、同义词库和分类法

  • elm/compiler Elm的编译器,一种用于可靠Web应用程序的函数式语言。

  • mixmark-io/turndown 用JavaScript编写的HTML到Markdown转换器

  • pdf2htmlEX/pdf2htmlEX 将PDF转换为HTML,而不会丢失文本或格式。

  • alibaba/weex 用于构建移动跨平台 UI 的框架,Weex 使用原生组件和原生模块来利用原生渲染性能和平台能力。组件和模块都是可插拔和可扩展的。您可以使用单个代码库生成不同的捆绑包文件,以便在 Web、Android 和 iOS 平台上运行。原生组件和模块在每个平台上都有不同的实现,但它们都公开了相同的 API。Weex 拥抱现有的 Web 生态系统,您可以使用现代前端技术来开发您的移动应用程序。Weex 支持最常用的 CSS 属性和最流行的前端框架,比如 Vue 和 Rax,未来可能会更多。Weex在许多超级应用中大规模使用的时间长了,总共服务了近亿人。Weex还衍生了许多用于行业发展的工程产品和平台。

  • gildas-lormeau/SingleFile Web扩展和CLI工具,用于将完整网页的忠实副本保存在单个HTML文件中

  • DioxusLabs/dioxus 适用于桌面、网络、移动等的全栈 GUI 库。

  • Tencent/weui-wxss 微信官方设计团队的UI库,包括最有用的小部件/模块。

  • xiaolin3303/wx-charts 微信小程序图表charts组件

  • uber/baseweb 一个由现代,响应迅速,动态组件组成的设计系统。Base Web 是 Base 的 React 实现。

  • fastlane/fastlane 自动构建和发布 iOS 和 Android 应用的最简单方法

  • astaxie/build-web-application-with-golang 一本 golang 电子书介绍如何使用 golang 构建网络

  • arwes/arwes Web 框架,用于基于未来科幻小说设计、动画和音效构建用户界面。背后的概念受到Cyberprep和Synthwave以及《星际公民》、《光环》和《创:遗产》等作品的影响。它试图激发先进的科学和技术。

  • reflex-dev/reflex 纯 Py的高性能、可自定义的 Web 应用程序。几秒钟内完成部署。

  • wanglin2/mind-map 一个 js 思维导图库,不依赖任何框架,你可以使用它来快速完成 Web 思维导图产品的开发。

  • AvaloniaUI/Avalonia 使用 C# 和 XAML 开发桌面、嵌入式、移动和 WebAssembly 应用。最受欢迎的 .NET 基金会社区项目。

  • microsoft/playwright Web测试和自动化的框架。它允许使用单个API测试Chromium,Firefox和WebKit。旨在实现常青,功能强大,可靠和快速的跨浏览器Web自动化。

  • GoogleChrome/lighthouse 针对 Web 的自动化审核、性能指标和最佳实践。分析 Web 应用和网页,收集现代性能指标和有关开发人员最佳实践的见解。

  • o2oa/o2oa 开源OA系统 - 码云GVP|Java开源oa|企业OA办公平台|企业OA|协同办公OA|流程平台OA|O2OA|OA,支持国产麒麟操作系统和国产数据库(达梦、人大金仓),政务OA,军工信息化OA

  • jgraph/drawio 可配置的图表/白板可视化应用程序。

  • librespeed/speedtest HTML5等的自托管速度测试。易设置,移动友好。

  • transloadit/uppy 下一个用于 Web 浏览器🐶的开源文件上传器。时尚的模块化 JS文件上传器,可与任何应用程序无缝集成。它速度很快,具有易于理解的 API,让您担心比构建文件上传器更重要的问题。

  • digitallyinduced/ihp 构建类型安全的 Web 应用的最快方法。 IHP 是一个新的包含电池的 Web 框架,针对长期生产力和程序员的幸福感进行了优化

  • evanw/esbuild 带来网络构建工具性能的新时代,并在此过程中创建一个易于使用的现代捆绑器。我们的工具比其他工具的速度快 10-100 倍

  • jhen0409/react-native-debugger 基于 React Native 官方调试器的独立应用程序,包括 React Inspector / Redux DevTools

  • davidsonfellipe/awesome-wpo Web 性能优化的精选列表。

  • dotnet/aspnetcore 一个跨平台的 .NET 框架,用于在 Windows、Mac 或 Linux 上构建基于云的现代 Web 应用程序。

  • ant-design/ant-design-mobile 用于构建移动 Web 应用程序的基本 UI 块。

  • react-dates/react-dates 一个易于国际化、适合移动设备的 Web 日期选择器库

  • microsoft/fluentui Fluent UI Web 表示用于构建 Web 应用程序的实用程序、React 组件和 Web 组件的集合。

  • adamschwartz/magic-of-css 一门CSS课程,让你变成魔术师。

  • AdrienTorris/awesome-blazor Blazor 的资源,这是一个使用 C#/Razor 和 HTML 的 .NET Web 框架,可通过 WebAssembly 在浏览器中运行。

  • vasanthv/talk 网络群组视频通话。没有注册。没有下载。使用 WebRTC 构建的,因此您的所有视频、音频和文本聊天都是点对点的。使用 WebRTC mesh实现的。因此,通话质量与通话人数成反比。甜蜜的数字是平均高速连接中大约 6 到 8 人。

  • steven-tey/dub 一种开源链接管理工具,供现代营销团队创建、共享和跟踪短链接。

  • adonisjs/core 全栈 Web 框架,专注于人体工程学和速度。它解决了许多 Web 开发的麻烦,为您提供了一个干净稳定的 API 来构建 Web 应用程序和微服务。

  • woai3c/visual-drag-demo 一个低代码平台的前端部分,靠拖拉拽生成页面。

  • magento/magento2 Magento开源软件提供基本的电子商务功能,可以从头开始构建独特的在线商店。

  • twbs/bootstrap-sass sass 驱动的 Bootstrap 3 版本,可直接放入您的 Sass 驱动的应用程序中。

  • GoogleChrome/web-vitals 健康网站的基本指标。“网页指标”是 Google 推出的一项计划,旨在针对对提供出色 Web 体验至关重要的质量信号提供统一指南。构成核心网页指标的指标会随着时间的推移而不断改进。2020 年的现状侧重于用户体验的三个方面(加载、互动和视觉稳定性)。

  • gohugoio/hugo 一个快速灵活的静态站点生成器,由 bep、spf13 和 Go 中的朋友们用爱构建。

  • GorvGoyl/Clone-Wars Airbnb,亚马逊,Instagram,Netflix,Tiktok,Spotify,Whatsapp,Youtube等流行网站的100 +开源克隆。查看源代码、演示链接、技术栈、github stars。

  • dypsilon/frontend-dev-bookmarks 为前端 Web 开发人员手动策划的资源集合。

  • AR-js-org/AR.js 用于 Web 增强现实的轻量级库,具有图像跟踪、基于位置的 AR 和标记跟踪等功能。

  • Tencent/vConsole 用于移动网页的轻量级、可扩展的前端开发人员工具。

  • atlassian/react-beautiful-dnd 使用 React 对列表进行美观且易于访问的拖放

  • salomonelli/best-resume-ever 快速轻松地建立多份精美的简历,并创建您有史以来最好的简历!使用 Vue 和 LESS 制作。

  • airyland/vux 基于 Vue 和 WeUI 的移动 UI 组件

  • lenve/vhr 微人事是前后端分离的人力资源管理系统,采用SpringBoot+Vue开发。

  • terser/terser 适用于 ES6+ 的 JavaScript 解析器、管理器和压缩器工具包

  • postcss/postcss 使用 JS 插件转换样式的工具。这些插件可以对您的 CSS 进行 lint 处理、支持变量和 mixin、转译未来的 CSS 语法、内联图像等等。

  • airbnb/lottie-web 在 Web、Android 和 iOS 上原生渲染 After Effects 动画,以及 React Native。设计师可以创建和发布精美的动画,而无需工程师精心手工重新创建

  • microsoft/Web-Dev-For-Beginners 24 节课,12 周,Web 开发人员入门

  • wallabag/wallabag 用于保存网页的自托管应用程序:保存和分类文章。稍后阅读。自由。

  • wesbos/JavaScript30 初学者文件 + JavaScript 30 天挑战的完整解决方案。

  • NervJS/taro 开放式跨端跨框架解决方案,支持使用 React/Vue/Nerv 等框架来开发微信/京东/百度/支付宝/字节跳动/ QQ 小程序/H5/React Native 等应用。

  • SheetJS/sheetjs 电子表格数据工具包,用于从几乎任何复杂的电子表格中提取有用的数据,并生成适用于传统和现代软件的表格。

  • mobxjs/mobx 简单、可扩展的状态管理。

  • AykutSarac/jsoncrack.com 创新的开源可视化应用程序,可将各种数据格式(如 JSON、YAML、XML、CSV 等)转换为交互式图形。

  • troxler/awesome-css-frameworks 很棒的CSS框架列表。

  • tailwindlabs/tailwindcss 一个实用优先的 CSS 框架,用于快速 UI 开发。一个实用程序优先的 CSS 框架,其中包含 flex 、 pt-4 等 rotate-90 类, text-center 可以直接在标记中组合以构建任何设计。

  • AllThingsSmitty/css-protips 帮助您提高 CSS 技能的技巧集合。

  • sampotts/plyr 一个简单的 HTML5、YouTube 和 Vimeo 播放器

  • joshbuchea/HEAD HTML 元素的简单指南

  • niklasvh/html2canvas 该脚本允许您直接在用户浏览器上截取网页或其部分的“屏幕截图”。屏幕截图基于 DOM,因此可能不是 100% 准确到真实表示,因为它不会制作实际的屏幕截图,而是根据页面上可用的信息构建屏幕截图。

  • rehooks/awesome-react-hooks 很棒的 React Hooks 资源。Hook 是 React 团队在 React 16.8 版本中提出的新特性,在遵循函数式组件的前提下,为已知的 React 概念提供了更直接的 API:props,state,context,refs 以及声明周期,目的在于解决常年以来在 class 组件中存在的各种问题,实现更高效的编写 react 组件。

  • antonioru/beautiful-react-hooks 一组漂亮且(希望)有用的 React 钩子,以加快您的组件和钩子开发

  • rsuite/rsuite 用于企业系统产品的 react 组件库。它是一个经过深思熟虑且对开发人员友好的 UI 框架。

  • Semantic-Org/Semantic-UI-React 官方的 Semantic-UI-React 集成

  • tremorlabs/tremor 用于快速构建仪表板的 React 库。借助 Tremor,您可以创建简单的模块化组件,轻松构建富有洞察力的仪表板。完全开源,由数据科学家和软件工程师制作,具有设计的最佳点。

  • adobe/react-spectrum 一组库和工具,可帮助您构建自适应、可访问且可靠的用户体验。Adobe 设计系统 Spectrum 的 React 实现。Spectrum 为所有 Adobe 应用程序提供自适应、可访问且具有凝聚力的体验。

  • casesandberg/react-color 来自 Sketch、Photoshop、Chrome、Github、Twitter 等的颜色选择器

  • fkhadra/react-toastify 允许您轻松地向应用程序添加通知

  • react-bootstrap/react-bootstrap 使用 React 构建的 Bootstrap 5 组件。

  • xyflow/xyflow 反应流 |Svelte Flow - 强大的开源库,用于使用 React或 Svelte构建基于节点的 UI.开箱即用,可无限定制。

  • remix-run/react-router React JS库的一个轻量级、功能齐全的路由库。React Router 在 React 运行的任何地方运行;在 Web、node.js和 React Native。

  • jaredpalmer/formik 在 React 中构建表单,无需流泪

  • savingrun/WeHalo WeHalo 简约风 的微信小程序版博客

  • wechat-miniprogram/miniprogram-demo 微信小程序组件 / API / 云开发示例

  • remaxjs/remax 使用真正的 React 构建跨平台小程序

  • youzan/vant-weapp 轻量、可靠的小程序 UI 组件库

  • Meituan-Dianping/mpvue 基于 Vue.js 的小程序开发框架,从底层支持 Vue.js 语法和构建工具体系。

  • apptension/developer-handbook 关于如何成为专业的 Web/移动应用程序开发人员的自以为是的指南。

  • leptos-rs/leptos 使用 Rust 构建快速的 Web 应用程序。

  • visgl/deck.gl 简化大型数据集的高性能、基于 WebGL 的可视化。用户可以通过组合现有图层,以最小的工作量快速获得令人印象深刻的视觉效果,或者利用 deck.gl 的可扩展架构来满足自定义需求。deck.gl 将数据(通常是 JSON 对象数组)映射到一堆视觉层中,例如图标、多边形、文本;并用视图查看:例如地图、第一人称、正交。

  • ErickWendel/semana-javascript-expert08 在浏览器中上传视频之前进行预处理

  • aws-amplify/amplify-js JS库,适用于前端和移动开发人员构建支持云的应用程序

  • FortAwesome/Font-Awesome 互联网的图标库和工具包,被数百万设计师、开发人员和内容创作者使用。

  • plotly/plotly.js 独立的 Javascript 数据可视化库,它还为这些各自生态系统中命名 plotly 的 Python 和 R 模块提供支持(称为 Plotly.py 和 Plotly.R)。

  • apexcharts/apexcharts.js 基于 SVG 构建的交互式 JavaScript 图表

  • facebook/relay 用于构建数据驱动的 React 应用程序的 JavaScript 框架。

  • antvis/G6 JavaScript 中的图形可视化框架

  • terrastruct/d2 现代图表脚本语言,可将文本转换为图表。

  • bhauman/lein-figwheel 构建ClojureScript ,并在您编码时将其热加载到浏览器中

  • serverless-nextjs/serverless-next.js 通过无服务器组件在 AWS Lambda @Edge 上部署 Next.js 应用程序

  • philss/floki 简单的 HTML 解析器,它允许使用 CSS 选择器搜索节点。

  • xhtml2pdf/xhtml2pdf 使用 ReportLab 将 HTML 转换为 PDF 的库

  • hakimel/reveal.js 开源的 HTML 表示框架。它使任何拥有网络浏览器的人都可以免费创建精美的演示文稿。具有强大的功能集,包括嵌套幻灯片、Markdown 支持、自动动画、PDF 导出、演讲者笔记、LaTeX 排版、语法突出显示代码和广泛的 API。

  • gothinkster/realworld “所有演示应用程序之母”——由 React、Angular、Node、Django 等提供支持的典范全栈 Medium.com 克隆

  • Polymer/polymer Polymer 允许您构建封装的、可重用的 Web 组件,这些组件的工作方式与标准 HTML 元素类似,用于构建 Web 应用程序。使用使用 Polymer 构建的 Web 组件非常简单,只需导入其定义,然后像使用任何其他 HTML 元素一样使用它。Web Components:各种网站往往需要一些相同的模块,比如日历、调色板等等,这种模块就被称为“组件”(component)。Web Components 就是浏览器原生的组件规范。采用组件开发,有很多优点。(1)有利于代码复用。组件是模块化编程思想的体现,可以跨平台、跨框架使用,构建、部署和与其他 UI 元素互动都有统一做法。(2)使用非常容易。加载或卸载组件,只要添加或删除一行代码就可以了。(3)开发和定制很方便。组件开发不需要使用框架,只要用原生的语法就可以了。开发好的组件往往留出接口,供使用者设置常见属性,比如上面代码的heading属性,就是用来设置对话框的标题。(4)组件提供了 HTML、CSS、JavaScript 封装的方法,实现了与同一页面上其他代码的隔离。未来的网站开发,可以像搭积木一样,把组件合在一起,就组成了一个网站。这种前景是非常诱人的。

  • vuejs/vue-cli 基于 webpack 的 Vue.js 开发工具

  • pixijs/pixijs HTML5 创作引擎:使用最快、最灵活的 2D WebGL 渲染器创建精美的数字内容。快速、轻量级的 2D 库,可在所有设备上运行。PixiJS 渲染器让每个人都可在不了解 WebGL 的情况下享受硬件加速的强大功能。

  • angular/angular-cli Angular CLI 是一个命令行界面工具,用于初始化、开发、搭建脚手架、并直接从命令 shell 维护 Angular 应用程序。

  • abi/screenshot-to-code 将屏幕截图转换为代码(HTML/Tailwind CSS,或React或Vue或Bootstrap)。它使用 GPT-4 Vision 生成代码,使用 DALL-E 3 生成外观相似的图像。您现在还可以输入 URL 来克隆实时网站

  • SBoudrias/Inquirer.js 通用交互式命令行用户界面的集合。

  • umijs/qiankun 快速、简单、完整的微型前端解决方案。使您和您的团队能够利用微前端构建下一代企业级 Web 应用程序。微前端:使用不同 JavaScript 框架与多个团队一起构建现代 Web 应用的技术、策略和方法。

  • jgthms/bulma 基于 Flexbox 的现代 CSS 框架。

  • realm/SwiftLint 强制执行 Swift 样式和约定的工具。

  • aframevr/aframe 用于构建虚拟现实体验的 Web 框架。虚拟现实变得简单:A-Frame 只需插入 a-scene 即可处理跨平台运行所需的 3D 和 WebXR 样板,包括移动设备、桌面和所有耳机(与支持 WebXR 的浏览器兼容)。声明式 HTML:HTML 易于阅读和复制粘贴。可以在 HTML 中使用,因此每个人都可以访问。实体组件架构:three.js 之上的强大框架,为 three.js 提供了一个声明性的、可组合的、可重用的实体组件结构。可以无限制地访问 JavaScript、DOM API、three.js、WebXR 和 WebGL。性能:是 three.js 之上的精简框架。性能是重中之重,在高度交互的 WebXR 体验上经过了实战考验。跨平台:为任何与支持 WebXR 的浏览器兼容的头戴式设备构建 VR 和 AR 应用程序。仍然可以在标准台式机和智能手机上运行。可视化检查器:内置可视化 3D 检查器,其工作流程类似于浏览器的开发人员工具,界面类似于 Unity。打开任何 A-Frame 场景并点击 ctrl+alt+i . 功能:内置组件(如几何体、材质、灯光、动画、模型、光线投射器、阴影、位置音频、跟踪控制器)立即开始运行。使用粒子系统、物理、多用户、海洋、山脉、语音识别或传送等社区组件

  • liriliri/eruda 适用于移动浏览器的控制台

  • FallibleInc/security-guide-for-developers 面向 Web 开发人员的实用安全指南

  • phoenixframework/phoenix Elixir语言,快速构建丰富的交互式 Web 应用程序,使用更少的代码和更少的移动部件。加入我们不断壮大的开发者社区,使用 Phoenix 制作 API、HTML5 应用程序等,享受乐趣或大规模制作。

  • sindresorhus/awesome-electron 使用 Electron 创建应用程序的有用资源

  • matteocrippa/awesome-swift 一个很棒的 Swift 库和资源的协作列表。欢迎贡献!

  • freeCodeCamp/devdocs 将多个开发人员文档结合在一个干净有序的 Web UI 中,具有即时搜索、离线支持、移动版本、深色主题、键盘快捷键等功能。

  • apache/echarts 功能强大的交互式图表和数据可视化库,适用于浏览器

  • ryanoasis/nerd-fonts 标志性的字体聚合器、集合和补丁程序。3,600+ 图标,50+ 修补字体:Hack、Source Code Pro 等。字形集合:Font Awesome、Material Design Icons、Octicons 等

  • ascoders/weekly 前端精读周刊。帮你理解最前沿、实用的技术。

  • ant-design/ant-design-pro 作为 React 样板的开箱即用 UI 解决方案,适用于企业应用程序。

  • getredash/redash 让您的公司以数据为导向。连接到任何数据源,轻松可视化、仪表板和共享您的数据。Redash 旨在使任何人,无论技术复杂程度如何,都能利用大大小小的数据的力量。SQL 用户利用 Redash 来探索、查询、可视化和共享来自任何数据源的数据。他们的工作反过来又使组织中的任何人都可以使用这些数据。每天,全球数千个组织中的数百万用户使用 Redash 来开发见解并做出数据驱动的决策。

  • badges/shields 以 SVG 和光栅格式提供简洁、一致且清晰的徽章的服务,可以轻松包含在 GitHub 自述文件或任何其他网页中。该服务支持数十种持续集成服务、软件包注册表、发行版、应用商店、社交网络、代码覆盖服务和代码分析服务。它每月提供超过 8.7 亿张图像,并被世界上一些最受欢迎的开源项目使用,包括 VS Code、Vue.js 和 Bootstrap 等。

  • PhilJay/MPAndroidChart Android 图表视图/图形视图库,支持线条图、饼图、雷达图、气泡图和烛台图以及缩放、平移和动画。

  • chalk/chalk 正确的终端CLI字符串样式

  • validatorjs/validator.js 字符串验证程序和清理程序库。

  • t3-oss/create-t3-app 交互式 CLI,用于启动全栈、类型安全的 Next.js 应用。启动全栈、类型安全的 Next.js 应用的最佳方式。

  • spf13/cobra 用于创建功能强大的现代 CLI 应用程序的库。Cobra 用于许多 Go 项目,例如 Kubernetes、Hugo 和 GitHub CLI 等。

  • vadimdemedes/ink React 用于交互式命令行应用,基于组件的 UI 构建体验与 React 在浏览器中提供的相同,但适用于命令行应用。它使用 Yoga 在终端中构建 Flexbox 布局,因此大多数类似 CSS 的道具也可以在 Ink 中使用。

  • charmbracelet/bubbletea 强大的小TUI框架,构建终端应用程序的有趣、实用和有状态的方式。基于 Elm 架构的 Go 框架。珍珠奶茶非常适合简单和复杂的终端应用,无论是在线、全窗还是两者兼而有之。

  • urfave/cli 一个简单、快速、有趣的包,用于在 Go 中构建命令行应用程序

  • svg/svgo 用于优化 SVG 文件的 Node.js 工具

  • infinitered/ignite React Native 七年多不断开发的结晶,是 Expo 和裸 React Native 中最受欢迎的 React Native 应用程序样板。

  • dotnet/maui .NET 多平台应用 UI,是一个用于构建跨移动设备、平板电脑和台式机的本机设备应用程序的框架。

  • responsively-org/responsively-app 经过修改的 Web 浏览器,有助于响应式 Web 开发。Web 开发人员必须具有开发工具。Web 开发人员必备的开发工具,可实现更快的响应式 Web 开发。使用 Electron 构建的修改后的浏览器。

  • GeekyAnts/NativeBase 适用于 React Native 和 Web 的移动优先、可访问的组件,可在 Android、iOS 和 Web 上构建一致的 UI。

  • select2/select2 基于 jQuery 的选择框。支持搜索、远程数据集和结果的无限滚动。

  • Modernizr/Modernizr  JS 库,用于检测用户浏览器中的 HTML5 和 CSS3 功能。

  • backstage/backstage 用于构建开发人员门户的开放平台。由集中式软件目录提供支持,可恢复微服务和基础架构的秩序,并使您的产品团队能够在不影响自主性的情况下快速交付高质量代码。

  • react-navigation/react-navigation React Native 应用的路由和导航。

  • pmndrs/zustand 承担 React 中状态管理的必要条件,使用简化通量原理的小型、快速且可扩展的 bearbone 状态管理解决方案。

  • floating-ui/floating-ui 一个 JavaScript 库,用于定位浮动元素并为其创建交互。

  • highlightjs/highlight.js JavaScript 编写的语法高亮。它适用于浏览器和服务器。它几乎可以处理任何标记,不依赖于任何其他框架,并且具有自动语言检测功能。

  • emberjs/ember.js JavaScript 框架,它大大减少了构建任何 Web 应用程序所需的时间、精力和资源。它专注于通过执行大多数 Web 开发项目中涉及的所有常见、重复但必不可少的任务,使您(开发人员)尽可能高效。

  • expo/expo 一个开源平台,用于使用 React 制作通用的原生应用程序。Expo 可在 Android、iOS 和 Web 上运行。

  • electron-react-boilerplate/electron-react-boilerplate 可扩展的跨平台应用的基础,使用 Electron、React、React Router、Webpack 和 React Fast Refresh。

  • video-dev/hls.js JS 库,实现 HTTP 实时流式处理。它依靠 HTML5 视频和 MediaSource 扩展进行播放。原理是将 MPEG-2 传输流和 AAC/MP3 流转换为 ISO BMFF (MP4) 片段。

  • kefranabg/readme-md-generator 生成漂亮的 README.md 文件的 CLI。

  • rahuldkjain/github-profile-readme-generator 使用最小的 UI 使用最新的附加组件(如访问者计数、GitHub 统计信息等)轻松生成 GitHub 个人资料 README。

  • you-dont-need/You-Dont-Need-JavaScript CSS很强大,没有JS也可以做很多事情。

  • you-dont-need/You-Dont-Need-Lodash-Underscore 原生使用的 JavaScript 方法列表 + ESLint 插件

  • wailsapp/wails 使用 Go 和 Web 技术构建桌面应用程序。

  • sudheerj/javascript-interview-questions 1000 个 JavaScript 面试问题列表

  • jsdom/jsdom 各种 Web 标准的 JavaScript 实现,用于 Node.js。特别是WHATWG DOM和HTML标准,用于Node.js。一般来说,该项目的目标是模拟足够多的 Web 浏览器子集,以便用于测试和抓取真实世界的 Web 应用程序。

  • BuilderIO/qwik 提供尽可能快的页面加载时间 - 无论您的网站有多复杂。Qwik 之所以如此之快,是因为它允许完全交互式的网站在几乎没有 JavaScript 的情况下加载,并从服务器中断的地方继续。

  • vuejs/vue-router Vue 2 的官方路由器

  • jorgebucaran/hyperapp 用于构建超文本应用程序的 1kB 式 JavaScript 框架,最大限度地减少了完成工作所需的学习概念。视图、操作、效果和订阅都非常容易掌握并无缝协作。Hyperapp 具有易于阅读且编写有趣的声明式 API,是使用惯用 JavaScript 构建功能纯、功能丰富、基于浏览器的应用程序的最佳方式。超轻量级的虚拟 DOM、高度优化的差异算法和痴迷于极简主义的状态管理库。

  • react-grid-layout/react-grid-layout 用于 React 的可拖动和可调整大小的网格布局,具有响应式断点。

  • solidjs/solid 用于创建用户界面的声明性 JavaScript 库。它不使用虚拟 DOM,而是将其模板编译为真实的 DOM 节点,并使用细粒度反应更新它们。声明你的状态并在整个应用中使用它,当一段状态发生更改时,只有依赖于它的代码才会重新运行。

  • ReactiveX/rxjs JavaScript 的响应式编程库,对 Reactive-Extensions/RxJS 的重写,是 RxJS 的最新生产就绪版本。此重写旨在具有更好的性能、更好的模块化、更好的可调试调用堆栈,同时保持大部分向后兼容,并进行了一些减少 API 表面的重大更改。

  • elsewhencode/project-guidelines JavaScript 项目的一组最佳实践

  • quasarframework/quasar 在创纪录的时间内构建高性能的 VueJS 用户界面

  • JakeChampion/fetch 基于 Promise 的机制,用于在浏览器中以编程方式发出 Web 请求。这个项目是一个 polyfill,它实现了标准 Fetch 规范的一个子集,足以替代 fetch 传统 Web 应用程序中大多数 XMLHttpRequest 的使用。

  • charmbracelet/glow 基于终端的 Markdown 阅读器,从头开始设计,旨在展现 CLI 的美感和功能。

  • alvarotrigo/fullPage.js 简单易用的库,用于创建全屏滚动网站(也称为单页网站或单页网站),并在网站的各个部分内添加横向滑块。

  • sudheerj/reactjs-interview-questions 前 500 个常见的ReactJS 面试问题和答案列表......编码练习题即将推出

  • zenorocha/clipboard.js 新式复制到剪贴板。没有Flash。只需 3kb (gzip 压缩)。

  • goldfire/howler.js 用于现代网络的 Javascript 音频库。

  • mochajs/mocha 简单、灵活、有趣的 Node.js 和浏览器的 JavaScript 测试框架

  • js-cookie/js-cookie 一个简单、轻量级的 JavaScript API,用于处理浏览器 cookie

  • carbon-app/carbon 创建和共享源代码的精美图像

  • denysdovhan/wtfjs 有趣而棘手的 JavaScript 示例列表

  • fingerprintjs/fingerprintjs 浏览器指纹库。此版本的准确率为40-60%,商业指纹识别的准确率为99.5%。该库的 V4 已获得 BSL 许可。

  • caolan/async 实用程序模块,它为使用异步 JavaScript 提供了简单、强大的功能。

  • lovell/sharp 高性能 Node.js 图像处理,调整 JPEG、PNG、WebP、AVIF 和 TIFF 图像大小的最快模块。使用 libvips 库。

  • usablica/intro.js 轻量级、用户友好的入门和产品演练库

  • goldbergyoni/javascript-testing-best-practices 全面而详尽的 JavaScript 和 Node.js 测试最佳实践

  • processing/p5.js 用于创意编码的 JavaScript 库,专注于让艺术家、设计师、教育工作者、初学者和其他任何人都能访问和包容编码!P5.js 是免费和开源的,因为我们相信软件以及学习它的工具应该对每个人都开放。

  • hapijs/joi 最强大的 JavaScript 模式描述语言和数据验证器。

  • bigskysoftware/htmx 使用属性直接在 HTML 中访问 AJAX、CSS 转换、WebSocket 和服务器发送事件,因此您可以构建具有超文本的简单性和强大功能的现代UI

  • FormidableLabs/webpack-dashboard webpack 开发服务器的 CLI 仪表板

  • feathericons/feather 一组简单漂亮的开源图标。每个图标都设计在 24x24 网格上,强调简单性、一致性和灵活性。

  • dimsemenov/PhotoSwipe 适用于移动和桌面的 JS图片库,模块化,独立于框架

  • ionic-team/capacitor 构建用于 iOS、Android 和 Web 跨平台本机渐进式 Web 应用

  • heartcombo/devise 灵活的 Rails 身份验证解决方案和 Warden。

  • SeleniumHQ/selenium 浏览器自动化框架和生态系统。封装了各种工具和库,可实现 Web 浏览器自动化。Selenium 专门为 W3C WebDriver 规范提供了基础设施——一个与所有主要 Web 浏览器兼容的平台和语言中立的编码接口。

  • jekyll/jekyll Ruby 中一个博客感知的静态站点生成器

  • airbnb/visx 可重用的低级可视化组件的集合。visx 结合了 d3 的强大功能来生成可视化和 react 更新 DOM 的好处。

  • bgstaal/multipleWindow3dScene 如何使用 three.js 和 localStorage 跨多个窗口“同步”3D 场景的简单示例

  • vega/vega 可视化语法,是一种用于创建、保存和共享交互式可视化设计的声明性格式。使用 Vega,您可以以 JSON 格式描述数据可视化,并使用 HTML5 Canvas 或 SVG 生成交互式视图。

  • antvis/G2 用于仪表板构建、数据探索和讲故事的可视化语法。通过简洁的声明帮助您快速获得有意义的可视化效果,并推断其余部分。但是,您可以为复杂和高级情况配置更多内容。采用功能性声明式 API 以编程方式指定图表选项,这有助于更好的逻辑重用和更灵活的代码组织。为了满足特定需求,G2 提供了一种方便且一致的机制来扩展您能想象到的一切,无论是缩放、转换、标记等。您甚至可以基于此机制自定义全新的可视化工具。

  • motion-canvas/motion-canvas 动态画布,TypeScript 库,它使用生成器对动画进行编程。提供上述动画实时预览的编辑器。专门的工具,旨在创建信息丰富的矢量动画并将它们与画外音同步。

  • getzola/zola 一个快速的静态站点生成器,在一个二进制文件中,内置了所有内容。

  • sweetalert2/sweetalert2 美观、响应迅速、高度可定制和可访问 (WAI-ARIA) 的 JavaScript 弹出框替代品。零依赖性。

  • twitter/typeahead.js 受 twitter.com 自动完成搜索功能的启发,typeahead.js 是一个灵活的 JavaScript 库,为构建健壮的提前输入提供了坚实的基础。

  • twitter/twemoji 简单的库,可在所有平台上提供标准的 Unicode 表情符号支持。

  • JetBrains/compose-multiplatform Kotlin 的现代 UI 框架,可轻松愉快地构建高性能且美观的用户界面。跨多个平台共享 UI。它基于 Jetpack Compose,由 JetBrains 和开源贡献者开发。

  • webview/webview 用于 C/C++ 的微型跨平台 webview 库。使用 WebKit (GTK/Cocoa) 和 Edge WebView2 (Windows) 。目标是为最广泛使用的平台创建一个通用的 HTML5 UI 抽象层。它支持双向 JavaScript 绑定(从 C/C++ 调用 JavaScript 和从 JavaScript 调用 C/C++)。

  • WebKit/WebKit WebKit 项目的所在地,是 Safari、Mail、App Store 和 macOS、iOS 和 Linux 上的许多其他应用程序使用的浏览器引擎。

  • browserless/browserless 在 Docker 中部署无头浏览器。在我们的云上运行或自带。免费用于非商业用途。

  • Tencent/VasSonic VasSonic 是由腾讯 VAS 团队开发的一款轻量级、高性能的 Hybrid 框架,旨在加速在 Android 和 iOS 平台上运行的网站的首屏。

  • Justson/AgentWeb 基于 Android WebView 的强大库。极度容易使用以及功能强大的库,提供了 Android WebView 一系列的问题解决方案 ,并且轻量和极度灵活。轻量级而且功能强大的 Web 库 , 大小只有 200K 。功能:进度条以及自定义进度条、文件下载、文件下载断点续传、下载通知形式提示进度、简化 Javascript 通信、支持 Android 4.4 Kitkat 以及其他版本文件上传、注入 Cookies、加强 Web 安全、支持全屏播放视频、兼容低版本 Js 安全通信、更省电 、支持调起微信支付、支持调起支付宝、默认支持定位、支持传入 WebLayout(下拉回弹效果)、支持自定义 WebView、支持 JsBridge

  • cookpete/react-player 用于播放各种 URL 的 React 组件,包括文件路径、YouTube、Facebook、Twitch、SoundCloud、Streamable、Vimeo、Wistia 和 DailyMotion

  • gnab/remark 一个简单的、浏览器内的、Markdown 驱动的幻灯片工具。

  • remarkjs/react-markdown React 组件来渲染 markdown。

  • ikatyang/emoji-cheat-sheet markdown版表情符号备忘单

  • vnotex/vnote 一个令人愉快的笔记平台。基于 Qt 的免费开源笔记应用程序,现在专注于 Markdown。VNote旨在提供一个令人愉快的笔记平台,具有出色的编辑体验。

  • usememos/memos 开源的、轻量级的笔记服务。轻松捕捉和分享您的伟大想法。

  • jxnblk/mdx-deck 基于React MDX的演示文稿,在Markdown中编写演示文稿,导入和使用React组件,可自定义的主题和组件,零配置 CLI,演示者模式,演讲者笔记。

  • minimaxir/big-list-of-naughty-strings 顽皮字符串大列表是一个字符串列表,这些字符串在用作用户输入数据时很有可能引起问题。

  • pmndrs/jotai React 的原始和灵活的状态管理

  • electron-userland/electron-builder 一个完整的解决方案,用于打包和构建一个开箱即用的“自动更新”支持的 Electron 应用程序

  • mozilla/pdf.js 使用 HTML5 构建的可移植文档格式 (PDF) 查看器。PDF.js由社区驱动,并得到Mozilla的支持。我们的目标是创建一个通用的、基于 Web 标准的平台,用于解析和渲染 PDF。

  • nativefier/nativefier 命令行工具,可以轻松地为任何网站创建“桌面应用程序”,而无需大惊小怪。应用程序由 Electron(后台使用 Chromium)包装在可在 Windows、macOS 和 Linux 上使用的操作系统可执行文件( .app 、 .exe 等)中。

  • bailicangdu/vue2-elm 基于 vue2 + vuex 构建一个具有 45 个页面的大型单页面应用

  • pmndrs/react-spring 一个跨平台的 Spring-Physics First 动画库。

  • pmndrs/react-three-fiber 用于 Three.js 的 React 渲染器,使用可重用的、独立的组件以声明方式构建场景,这些组件对状态做出反应,易于交互,并且可以参与 React 的生态系统。

  • redux-saga/redux-saga 一个库,旨在使应用程序的副作用(即异步的事情,如数据获取和不纯粹的事情,如访问浏览器缓存)更易于管理,更高效地执行,更易于测试,并且更好地处理故障。

  • marmelab/react-admin 一个前端框架,用于使用 TypeScript、React 和 Material Design 构建在 REST/GraphQL API 上运行的数据驱动应用程序

  • tailwindlabs/headlessui 一组完全无样式、完全可访问的 UI 组件,旨在与 Tailwind CSS 完美集成。

  • reduxjs/react-redux Redux 的官方 React 绑定。高性能和灵活性。Redux 是 JavaScript 应用程序的可预测状态容器。

  • alan2207/bulletproof-react 简单、可扩展且功能强大的架构,用于构建生产就绪的 React 应用程序。

  • react-dnd/react-dnd React 实用程序,可帮助您构建复杂的拖放界面,同时保持组件解耦。它非常适合 Trello 和 Storify 等应用程序,在这些应用程序中,拖动在应用程序的不同部分之间传输数据,组件会根据拖放事件更改其外观和应用程序状态。

  • AmruthPillai/Reactive-Resume 独一无二的简历生成器,牢记您的隐私。完全安全、可定制、便携、开源且永久免费。今天就试试吧!

  • nfl/react-helmet 可重用的 React 组件将管理你对文档头的所有更改。

  • redwoodjs/redwood 一个固执己见的全栈 JavaScript/TypeScript Web 应用程序框架,旨在让您在应用程序从副项目到启动的过程中快速前进。

  • segment-boneyard/nightmare 高级浏览器自动化库。目标是公开一些模仿用户操作的简单方法(如 goto 和 type click ),其 API 对每个脚本块都感觉同步,而不是深度嵌套的回调。它最初设计用于跨没有 API 的站点自动执行任务,但最常用于 UI 测试和爬网。在幕后,它使用 Electron,它类似于 PhantomJS,但速度大约是 PhantomJS 的两倍,而且更现代。

  • ariya/phantomjs 可编写脚本的无头浏览器

  • wulkano/Kap 使用 Web 技术构建的开源屏幕录像机

  • sql-js/sql.js 用于在 Web 上运行 SQLite 的 javascript 库。

  • Asabeneh/30-Days-Of-React 30 天 React 挑战是在 30 天内学习 React 的分步指南。这些视频也可能有所帮助

  • pubkey/rxdb 一个快速的、本地的、反应式的、用于 JavaScript 应用程序的数据库

  • pure-css/pure 一组小型响应式 CSS 模块,可在每个 Web 项目中使用。

  • material-components/material-components-web 适用于 Web 的模块化和可自定义的 Material Design UI 组件

  • material-components/material-web UI 工具包,用于构建可自定义且可访问的 Web 应用程序。

  • tabler/tabler-icons 超过4900个免费MIT许可的高质量SVG图标,供Web项目使用。

  • Tencent/omi Omi - Web 组件框架,通过无功信号进行信号驱动的无功编程;100+ OMI模板和OMI模板源代码;OMI表单和OMI表单游乐场和Lucide Omi图标;OMIU预览正在进行中&OMIU源代码;体积小,性能快;您需要的一切:Web 组件、JSX、函数组件、路由器、悬念、指令、Tailwindcss......;支持面向对象编程(OOP)和面向数据编程(DOP);利用可构建的样式表轻松管理和共享样式

  • 1Panel-dev/1Panel 现代化、开源的 Linux 服务器运维管理面板。

  • wenzhixin/bootstrap-table 扩展表,用于与一些最广泛使用的 CSS 框架集成。(支持 Bootstrap、Semantic UI、Bulma、Material Design、Foundation Vue.js)

  • jlmakes/scrollreveal 在元素滚动到视图中时对其进行动画处理。

  • WasmEdge/WasmEdge 轻量级、高性能、可扩展的 WebAssembly 运行时,适用于云原生、边缘和去中心化应用程序。它为无服务器应用程序、嵌入式函数、微服务、智能合约和物联网设备提供支持。

  • Stirling-Tools/Stirling-PDF 本地托管的 Web 应用,允许您对 PDF 文件执行各种操作

  • ahmadbilaldev/langui 适用于 AI 的 UI。为您的 GPT、生成式 AI 和LLM项目量身定制的开源 Tailwind 组件。

  • ohmplatform/FreedomGPT 基于 React 和 Electron 的应用程序,该应用程序使用基于聊天的界面在 Mac 和 Windows 上本地(离线和私有)执行 FreedomGPT LLM

  • dot-agent/nextpy 轻松快速地构建任何 Web 应用程序。它简化了从后端到前端(是的,Python 中的视觉上令人惊叹的前端!)、AI 集成、API 等所有方面的 Python 开发,从而为人类和 AI 代理提供支持。

  • Avaiga/taipy 立即将数据和 AI 算法转换为生产就绪型 Web 应用程序。开发应用程序的前端,而无需了解 HTML、CSS 和 JS。通过简单的语法,加速创建可自定义的多页仪表板,并生成交互式界面,包括图表和各种广泛使用的控件。对数据流进行建模并编排管道。在存储、记录和可操作方案(管道执行)时对其进行管理,从而实现假设分析或 KPI 比较。

  • mdbootstrap/TW-Elements Tailwind CSS 的大量免费交互式组件集合。

  • IanLunn/Hover CSS3 驱动的悬停效果,可用于链接、按钮、徽标、SVG、特色图像等。轻松应用于您自己的元素,修改或仅用于灵感。在 CSS、Sass 和 LESS 中可用。

  • Advanced-Frontend/Daily-Interview-Question 公众号「高级前端进阶」作者,每天搞定一道前端大厂面试题

  • shoelace-style/shoelace 基于 Web 标准构建的专业设计、日常 UI 组件的集合。适用于所有框架以及常规 HTML/CSS/JS

  • framework7io/framework7 构建 iOS 和 Android 应用程序的全功能 HTML 框架

  • weilanwl/coloruicss 鲜亮的高饱和色彩,专注视觉的小程序组件库

  • twbs/ratchet 使用简单的 HTML、CSS 和 JavaScript 组件构建移动应用程序。

  • picocss/pico 极简而轻量级的入门工具包,优先考虑语义语法,使每个 HTML 元素在默认情况下都具有响应性和优雅性。

  • google/iosched Android 版 Google I/O 应用

  • stylus/stylus 为 nodejs 构建的富有表现力、健壮性、功能丰富的 CSS 语言

  • less/less.js 动态CSS样式表语言

  • abpframework/abp 适用于 ASP.NET Core 的开源 Web 应用程序框架。在 .NET 和 ASP.NET Core 平台之上构建具有最佳实践的企业软件解决方案。提供基础基础架构、生产就绪启动模板、应用程序模块、UI 主题、工具、指南和文档。

  • aspnetboilerplate/aspnetboilerplate 通用应用程序框架,专为新的现代 Web 应用程序而设计。为您提供可靠的开发体验。

  • appium/appium 基于 W3C WebDriver 协议构建的各种应用的跨平台自动化框架

  • Tonejs/Tone.js 用于在浏览器中制作交互式音乐的 Web 音频框架。

  • barbajs/barba 小型(缩小和压缩 7kb)且易于使用的库,可帮助您在网站页面之间创建流畅和平滑的过渡。它使您的网站像 SPA(单页应用程序)一样运行,并有助于减少页面之间的延迟,最大限度地减少浏览器 HTTP 请求并增强用户的 Web 体验。

  • theatre-js/theatre 适用于 Web 的动态设计编辑器

  • emilwallner/Screenshot-to-code 将设计模型转换为静态网站的神经网络。

  • ffmpegwasm/ffmpeg.wasm 是 FFmpeg 的纯 Webassembly / Javascript 端口。它支持在浏览器中录制视频和音频,转换和流式传输。

  • formkit/auto-animate 零配置的插入式动画实用程序,可为您的 Web 应用程序添加平滑过渡。您可以将它与 React、Vue 或任何其他 JavaScript 应用程序一起使用。

  • AirtestProject/Airtest 适用于游戏和应用的 UI 自动化框架

  • johannesjo/super-productivity 私密且安全的 AI 工具,帮助每个人提高工作效率。

  • academicpages/academicpages.github.io 学术个人网站的 Github 页面模板

  • josdejong/jsoneditor 基于 Web 的工具,用于查看、编辑、格式化和验证 JSON

  • emotion-js/emotion 专为高性能样式组合而设计的 CSS-in-JS 库

  • callstack/linaria JS 库中的零运行时 CSS

  • necolas/normalize.css CSS 重置的现代替代方案

  • styled-components/styled-components 组件时代的视觉基元。使用 ES6 和 CSS 的精华来轻松设置应用程序的样式

  • Dogfalo/materialize 基于 Material Design 的 CSS 框架

  • postcss/autoprefixer PostCSS 插件,用于解析 CSS 并使用 Can I Use 中的值向 CSS 规则添加供应商前缀。它被谷歌推荐,并在Twitter和阿里巴巴中使用。

  • nostalgic-css/NES.css NES 风格的 CSS 框架 | Famicom 风格的 CSS 框架

  • chokcoco/iCSS 本 Repo 围绕 CSS/Web动画 展开,谈一些有趣的话题,内容天马行空,想到什么说什么,不仅是为了拓宽解决问题的思路,更涉及一些容易忽视或是十分有趣的 CSS 细节。

  • primer/css 支持 GitHub 的 CSS 设计系统

  • ksky521/nodeppt 网络演示工具,nodeppt 2.0 基于webslides、webpack、markdown-it、posthtml 重构,https://nodeppt.js.org

  • stylelint/stylelint 一个强大的 CSS linter,可帮助您避免错误并强制执行约定。

  • selectize/selectize.js 可扩展的基于 jQuery 的自定义; select UI 控件。它可用于标记、联系人列表、国家/地区选择器等。目标是通过干净而强大的 API 提供可靠且可用的体验。

  • mdx-js/mdx 可创作的格式,可让您在 Markdown 文档中无缝编写 JSX。您可以导入组件(如交互式图表或警报),并将它们嵌入到您的内容中。这使得编写带有组件的长篇内容变得爆炸。

  • yangshun/front-end-interview-handbook 为繁忙的工程师准备前端面试材料

  • mdbootstrap/mdb-ui-kit Bootstrap 5 和 Material Design UI 套件,Bootstrap 5 UI KIT - 700+ 组件,纯 JavaScript,MIT 许可证,安装简单。

  • Popmotion/popmotion 简单的动画库,提供令人愉悦的用户界面

  • vueComponent/ant-design-vue 基于 Ant Design 和 Vue 的企业级 UI 组件。

  • thedaviddias/Front-End-Performance-Checklist 唯一运行速度比其他检查表更快的前端性能检查表

  • Chalarangelo/30-seconds-of-css 满足您所有开发需求的简短 CSS 代码片段

  • grab/front-end-guide 学习指南和现代前端堆栈介绍。

  • thomaspark/bootswatch Bootstrap 的开源主题集合

  • jessepollak/card 在一行代码中使您的信用卡表格更好

  • vueComponent/ant-design-vue-pro 像专业人士一样使用 Ant Design Vue2

  • yygmind/blog 每周重点攻克一个前端面试重难点,走进高级前端的世界

  • tsayen/dom-to-image 使用 HTML5 画布从 DOM 节点生成图像

  • hakanyalcinkaya/kodluyoruz-frontend-101-egitimi 从头开始进行项目的前端和 React 培训

  • lipis/flag-icons SVG 中所有国家国旗的精选集合 - 加上 CSS,以便于集成

  • milligram/milligram 极简的CSS框架。Milligram 提供最少的样式设置,以实现快速、干净的起点。就是这样!只有 2kb gzipped!这与 UI 框架无关。专为更好的性能和更高的生产率而设计,需要重置的属性更少,从而使代码更清晰。

  • alexfoxy/lax.js 简单轻量级(<4kb gzip压缩)香草JavaScript库,可在滚动时创建流畅而美丽的动画。

  • invertase/react-native-firebase 经过充分测试、功能丰富的模块化 Firebase 实现,适用于 React Native。支持所有 Firebase 服务的 iOS 和 Android 平台。

  • fullcalendar/fullcalendar JavaScript 中的全尺寸拖放事件日历

  • jonasschmedtmann/complete-javascript-course 我的 Complete JavaScript 课程的入门文件、最终项目和常见问题解答

  • expo/create-react-native-app 创建在 iOS、Android 和 Web 上运行的 React Native 应用程序

  • Instagram/IGListKit 数据驱动的 UICollectionView 框架,用于构建快速灵活的列表。

  • Anarios/return-youtube-dislike Chrome 扩展程序返回 youtube 不喜欢

  • atlas-engineer/nyxt 专为黑客设计的键盘驱动的 Web 浏览器。受 Emacs 和 Vim 的启发,它具有熟悉的键绑定(Emacs、vi、CUA),并且在 Lisp 中可以无限扩展。

  • darkreader/darkreader Dark Reader Chrome 和 Firefox 扩展程序,分析网页,旨在减少浏览网页时的眼睛疲劳。

  • FormidableLabs/victory 用于构建交互式数据可视化的可组合 React 组件的集合

  • frappe/charts 简单、响应迅速、现代的 SVG 图表,零依赖性

  • webpack-contrib/webpack-bundle-analyzer Webpack 插件和 CLI 实用程序,将捆绑包内容表示为方便的交互式可缩放树状图

  • dream-num/univer 一套企业文档和数据协作解决方案。包括电子表格、文档和幻灯片。高度可扩展的设计允许开发人员基于 Universal 定制个性化功能。

  • drizzle-team/drizzle-orm TypeScript ORM。在 Node、Bun 和 Deno 上运行。也是一个 JavaScript ORM。支持所有 PostgreSQL、MySQL 和 SQLite 数据库,包括 Turso、Neon、Xata、PlanetScale、Cloudflare D1、FlyIO LiteFS、Vercel Postgres、Supabase 和 AWS Data API 等无服务器数据库。

  • plouc/nivo 一组丰富的 dataviz 组件,构建在令人敬畏的 d3 和 React 库之上

  • keen/dashboards 响应式仪表板模板

  • dexie/Dexie.js indexedDB 的包装库 - 浏览器中的标准数据库。

  • aidenybai/million 优化 React 性能,让React 在几分钟内提高 70%。

  • edent/SuperTinyIcons 每个小于 1KB!Super Tiny Icons 是您最喜爱的网站和应用程序徽标的微小 SVG 版本

  • sveltejs/kit 简化Web 开发,由 Svelte 和 Vite 提供支持,速度融入每个缝隙:快速设置、快速开发、快速构建、快速页面加载、快速导航。再也不用浪费时间去弄清楚捆绑器配置、路由、SSR、CSP、TypeScript、部署设置和所有其他无聊的东西了。快乐地编码。为您提供了成功的工具,无论您正在构建什么。它可以在 JavaScript 的任何地方运行。用于使用 Svelte 快速开发健壮、高性能的 Web 应用程序。如果你来自 React,SvelteKit 类似于 Next。如果你来自 Vue,SvelteKit 类似于 Nuxt。

  • getgridea/gridea 静态的博客写作客户端。你可以用它来记录你的生活、心情、知识、笔记和想法

  • markdown-it/markdown-it Markdown 解析器,做对了。100%CommonMark支持,扩展,语法插件和高速

  • socketio/socket.io-client 实时应用程序框架(客户端),可在客户端和服务器之间实现低延迟、双向和基于事件的通信。

  • chromium/chromium 开源浏览器项目,旨在为所有用户构建一种更安全、更快速、更稳定的网络体验方式。

  • ungoogled-software/ungoogled-chromium Google Chromium,没有与 Google 集成。尽可能保留默认的 Chromium 体验。Chromium 的直接替代品。Ungoogled-Chromium 功能进行了调整,以增强隐私、控制和透明度。但是,几乎所有这些功能都必须手动激活或启用。

  • NorthwoodsSoftware/GoJS 用于交互式流程图、组织结构图、设计工具、规划工具、可视化语言的 JavaScript 图表库。

  • nightwatchjs/nightwatch 使用 Node.js 编写并使用 W3C Webdriver API 编写的集成端到端测试框架。

  • febobo/web-interview 语音打卡社群维护的前端面试题库,包含不限于Vue面试题,React面试题,JS面试题,HTTP面试题,工程化面试题,CSS面试题,算法面试题,大厂面试题,高频面试题

  • tariqbuilds/linux-dash 适用于 Linux 的精美 Web 仪表板

  • teamcapybara/capybara 模拟真实用户如何与您的应用程序交互来帮助您测试 Web 应用程序。它与运行测试的驱动程序无关,并内置了 Rack::Test 和 Selenium 支持。WebKit 通过外部 Gem 受支持。

  • tsparticles/tsparticles 轻松创建高度可定制的 JavaScript 粒子效果、五彩纸屑爆炸和烟花动画,并将它们用作您网站的动画背景

  • arco-design/arco-design 基于 Arco Design 的综合 React UI 组件库

  • projectstorm/react-diagrams 用 React 编写的超级简单、严肃的图表库,可以正常工作,灵感来自Blender、Labview和虚幻引擎。该库完全用 Typescript 和 React 编写的现代代码库利用强大的泛型、先进的软件工程原理,并分为多个模块。整个库(包括其核心)是可破解和可扩展的,可以扩展、重新布线和重新组装成完全不同的软件,以满足您自己的软件需求。HTML 节点作为一等公民,该库最初是为了表示高级动态节点而编写的,由于复杂的输入要求 ux 要求,这些节点很难表示为 SVG。该库专为流程而设计,面向希望在运行时重新连接程序并希望使其软件更具动态性的软件工程师。提供的默认值的快速图表编辑为尽可能快地编辑图表提供了最高优先级。

  • uber/react-vis 用于渲染常见数据可视化图表的 react 组件集合,例如折线图/面积图/条形图、热图、散点图、等值线图、六边形热图、饼图和圆环图、旭日图、雷达图、平行坐标和树状图。

  • Nozbe/WatermelonDB 用于强大的 React 和 React Native 应用程序的响应式和异步数据库

  • cyclejs/cyclejs 用于可预测代码的功能性和响应式 JavaScript 框架

  • reactstrap/reactstrap Bootstrap 5 的无状态 React 组件。

  • styleguidist/react-styleguidist 组件开发环境,具有热重载的开发服务器和可以与团队分享的生活方式指南。它列出了组件 propTypes ,并显示了基于 Markdown 文件的实时、可编辑的使用示例。查看演示样式指南。

  • react-icons/react-icons 流行图标包的 SVG React 图标

  • callstack/react-native-paper 跨平台的 UI 工具包库,包含一系列可定制和生产就绪的组件,默认情况下,这些组件遵循并遵守 Google 的 Material Design 指南。

  • reactioncommerce/reaction 使用 Node.js、MongoDB 和 GraphQL 构建的 API 优先、无头商务平台。它与 npm、Docker 和 Kubernetes 配合得很好。

  • hwix/react-native-navigation 在 iOS 和 Android 上为 React Native 应用程序提供 100% 的原生平台导航。JavaScript API 简单且跨平台 - 只需将其安装在您的应用程序中,即可为您的用户提供他们应得的原生感觉。

  • danilowoz/react-content-loader SVG 驱动的组件,可轻松创建占位符加载(如 Facebook 的卡片加载)。

  • vuejs/vitepress 由 Vue 驱动的静态站点生成器,也是 VuePress 的精神继承者,建立在 Vite 之上。

  • vuematerial/vue-material 带有 Material Design 的即用型 Vue 组件,永久免费。

  • c3js/c3 基于 D3 的可重用图表库,可以将图表更深入地集成到 Web 应用程序中。

  • shadcn-ui/taxonomy 使用新的路由器、服务器组件和 Next.js 13 中的所有新功能构建的开源应用程序。

  • angular-ui/ui-router 在 AngularJS 中使用嵌套视图进行灵活路由的事实上的解决方案

  • blitz-js/blitz Next.js的全栈工具包

  • katspaugh/wavesurfer.js 交互式波形渲染和音频播放库,非常适合 Web 应用程序。它利用现代 Web 技术提供强大且视觉上引人入胜的音频体验。

  • troisjs/trois ThreeJS + VueJS 3 + ViteJS,重写一些 WebGL 演示

  • arkenfox/user.js Firefox 隐私、安全和反跟踪:用于配置和强化的综合user.js模板

  • markmead/hyperui 用于应用程序 UI、电子商务和营销的免费 Tailwind CSS 组件,支持深色模式、RTL 和 Alpine JS

  • https://github.com/mapbox/mapbox-gl-js JavaScript 库,用于在 Web 上创建交互式、可自定义的矢量地图。它采用符合 Mapbox 样式规范的地图样式,将其应用于符合 Mapbox 矢量切片规范的矢量切片,并使用 WebGL 进行渲染。

  • visgl/react-map-gl 围绕 MapboxGL(地图) JS 的 React 友好 API 包装器

  • you-dont-need/You-Dont-Need-Momentjs 很棒的时间和日期库,具有许多出色的功能和实用程序。但是,如果您正在处理对性能敏感的 Web 应用程序,则由于其复杂的 API 和较大的捆绑包大小,可能会导致巨大的性能开销。

  • exceljs/exceljs js 读取、操作电子表格数据和样式并将其写入 XLSX 和 JSON。从 Excel 电子表格文件作为项目进行逆向工程。

  • jwilber/roughViz 可重用的 JavaScript 库,用于在浏览器中创建粗略/手绘样式的图表。

  • bpmn-io/bpmn-js BPMN 2.0 渲染工具包和 Web 建模器。在浏览器中查看和编辑 BPMN 2.0 图表。

  • HugoBlox/hugo-blox-builder 轻松创建任何类型的网站 - 无需代码。 一个应用程序,没有依赖项,没有 JS

  • rawgraphs/rawgraphs-app 一个 Web 界面,用于在 RAWGraphs 核心之上创建基于矢量的自定义可视化。RAWGraphs 是一个开放的 Web 工具,用于在令人惊叹的 d3.js 库之上创建基于矢量的自定义可视化。它由DensityDesign Research Lab(米兰理工大学)、Calibro和INMAGIK开发。

  • bubkoo/html-to-image 使用 HTML5 canvas 和 SVG 从 DOM 节点来生成图像。

  • cure53/DOMPurify 纯 DOM、超快速、超宽容的 XSS 清理程序,适用于 HTML、MathML 和 SVG。DOMPurify 使用安全默认值,但提供了许多可配置性和钩子。

  • obsidiandynamics/kafdrop Web UI,用于查看 Kafka 主题和浏览消费者组。该工具显示代理、主题、分区、使用者等信息,并允许您查看消息。

  • BrowserBox/BrowserBox 从服务器上运行的浏览器浏览 Web,而不是在本地设备上。轻量级虚拟浏览器。为了安全、隐私等。基于 Web 的小型浏览器,可以嵌入到任何地方。它也是多人游戏,允许许多客户端同时在屏幕上共享相同的浏览会话。它轻巧且快速,消耗最少的系统资源,同时调整其流媒体质量,以利用尽可能多的带宽来提供低延迟、响应迅速的体验。

  • Countly/countly-server 产品分析平台,可帮助团队跟踪、分析和处理他们在移动、Web 和桌面应用程序上的用户操作和行为。

  • maplibre/maplibre-gl-js WebGL2 中的交互式矢量瓦片地图

  • https://github.com/aurelia/framework Aurelia 1 框架入口点,汇集了 Aurelia 的所有必需子模块。现代的前端 JavaScript 框架,用于构建浏览器、移动和桌面应用程序。它侧重于与 Web 平台规范紧密保持一致,使用约定而不是配置,并最大限度地减少框架入侵。基本上,我们希望你只写你的代码,而框架不会妨碍你。

  • skonvajs/konva HTML5 Canvas JavaScript 框架,它通过为桌面和移动应用程序启用画布交互性来扩展 2D 上下文。支持高性能动画、过渡、节点嵌套、分层、过滤、缓存、桌面和移动应用程序的事件处理等等。

  • CosmicMind/Material 用于创建美观应用程序的 UI/UX 框架。Material 的动画系统已经过完全重新设计,以利用 Motion,一个专门用于动画和过渡的库。特征:完全可定制、运动动画和过渡、用于自动布局和网格系统的布局工具、颜色库、卡、FABMenu、图标、文本字段、Snackbar、制表符、芯片、搜索栏、导航控制器、导航抽屉、底部导航栏、示例项目

  • rough-stuff/rough 小型 (<9 kB) 图形库,可让您以粗略的手绘风格进行绘制。该库定义了用于绘制直线、曲线、圆弧、多边形、圆形和椭圆的基元。它还支持绘制 SVG 路径。

  • mojs/mojs JavaScript 动态图形库,它是一个快速、支持 Retina 的模块化和开源库。与其他库相比,它具有不同的语法和代码动画结构方法。声明式 API 为您提供了对动画的完全控制,使其易于自定义。该库提供了从头开始制作动画的内置组件,如 html、形状、漩涡、突发和交错,但也为您提供了帮助您以最自然的方式制作动画的工具。在您的网站上使用 mojs 将增强用户体验,在视觉上丰富您的内容并精确地创建令人愉悦的动画。

后端开发框架及项目

  • django/django 高级Python Web框架,它鼓励快速开发和干净、实用的设计。

  • swoole/swoole-src 一个事件驱动、异步、基于协程的高性能并发库,适用于 PHP。

  • celery/celery 分布式任务队列。通过消息进行通信,通常使用代理在客户端和工作线程之间进行调解。为了启动任务,客户端将消息放入队列,然后代理将消息传递给工作线程。

  • tiangolo/fastapi 现代、快速(高性能)的 Web 框架,用于基于标准 Python 类型提示使用 Python 3.7+ 构建 API。

  • humiaozuzu/awesome-flask 精选的 Flask 资源和插件列表

  • expressjs/express 快速,无配置,极简主义的node Web框架。

  • doocs/source-code-hunter 从源码层面,剖析挖掘互联网行业主流技术的底层实现原理,为广大开发者 “提升技术深度” 提供便利。目前开放 Spring 全家桶,Mybatis、Netty、Dubbo 框架,及 Redis、Tomcat 中间件等

  • toutiaoio/awesome-architecture 架构师技术图谱,助你早日成为架构师

  • wuyouzhuguli/SpringAll 循序渐进,学习Spring Boot、Spring Boot & Shiro、Spring Batch、Spring Cloud、Spring Cloud Alibaba、Spring Security & Spring Security OAuth2,博客Spring系列源码:https://mrbird.cc

  • withastro/astro 现代web网站构建工具 — 强大的开发人员经验,轻量级输出。

  • xingshaocheng/architect-awesome 后端架构师技术图谱

  • Tencent/mars 微信开发的跨平台网络组件。跨平台,如果您正在开发多平台或多业务应用程序,则易于部署。适用于小容量数据传输。移动平台友好,低功耗和流量消耗。适合移动应用的网络解决方案。

  • fecshop/yii2_fecshop 多语言多货币多入口的开源电商 B2C 商城,支持移动端vue, app, html5,微信小程序微店,微信小程序商城等

  • pocketbase/pocketbase 集数据库、用户管理、UI和API等工具的后端开发框架。

  • oatpp/oatpp 轻巧而强大的 C++ Web 框架,用于高度可扩展和资源高效的 Web 应用程序。它是零依赖且易于携带的。

  • labstack/echo 高性能、可扩展、极简的 Go Web 框架。功能:优化的HTTP路由器,智能确定路由优先级、构建强大可扩展的 RESTful API、组 API、可扩展中间件框架、在根组或路由级别定义中间件、JSON\XML 和表单有效负载的数据绑定、方便的函数,可发送各种HTTP响应、集中式 HTTP 错误处理、使用任何模板引擎进行模板渲染、定义记录器的格式、高度可定制、通过 Let's Encrypt 自动 TLS、HTTP/2 支持

  • codegangsta/gin Go Web 服务器的实时重新加载实用程序

  • zhoutaoo/SpringCloud 基于SpringCloud2.1的微服务开发脚手架,整合了spring-security-oauth2、nacos、feign、sentinel、springcloud-gateway等。服务治理方面引入elasticsearch、skywalking、springboot-admin、zipkin等,让项目快速进入业务开发,而不需过多时间花费在架构搭建上。

  • humiaozuzu/awesome-flask 精选的 Flask ( python web 框架) 资源和插件列表

  • chiraggude/awesome-laravel 来自Laravel生态系统的书签,软件包,教程,视频和其他酷炫资源的精选列表

  • ninenines/cowboy 用 Erlang/OTP 的小型、快速、现代的 HTTP 服务器。

  • openfaas/faas 使开发人员可以轻松地将事件驱动的函数和微服务部署到 Kubernetes,而无需重复的样板编码。将代码或现有二进制文件打包在与 OCI 兼容的映像中,以获得具有自动缩放和指标的高度可扩展的终结点。

  • ossrs/srs SRS是一个简单,高效,实时的视频服务器,支持RTMP,WebRTC,HLS,HTTP-FLV,SRT,MPEG-DASH和GB28181。

  • JeffLi1993/springboot-learning-example spring boot 实践学习案例,是 spring boot 初学者及核心技术巩固的最佳实践。

  • logto-io/logto 帮助您在几分钟内建立登录、身份验证和用户身份。我们为 Web 和本机应用程序提供基于 OIDC 的身份服务和用户名、电话号码、电子邮件和社交登录的最终用户体验。

  • ory/hydra OpenID 认证的 OpenID Connect 和 OAuth 提供程序,用 Go 编写 - 为您的基础架构提供云原生、安全优先的™开源 API 安全性。适用于任何语言的 SDK。与硬件安全模块配合使用。与 MITREid 兼容。

  • ory/kratos 下一代身份服务器将您的 Auth0、Okta、Firebase 替换为强化的安全性和 PassKeys、SMS、OIDC、社交登录、MFA、FIDO、TOTP 和 OTP、WebAuthn、无密码等等。Golang、无头、API 优先。

  • authelia/authelia 开源身份验证和授权服务器,通过 Web 门户为您的应用程序提供双因素身份验证和单点登录 (SSO)。它通过允许、拒绝或重定向请求来充当反向代理的伴侣。

  • pennersr/django-allauth 集成的 Django 应用程序集,用于处理身份验证、注册、帐户管理以及第三方(社交)帐户身份验证。

  • casbin/casdoor 一个开源的 UI 优先身份和访问管理 (IAM) / 单点登录 (SSO) 平台,具有支持 OAuth 2.0、OIDC、SAML、CAS、LDAP、SCIM、WebAuthn、TOTP、MFA 和 RADIUS 的 Web UI

  • jaredhanson/passport Passport 的唯一目的是对请求进行身份验证,它通过一组可扩展的插件(称为策略)来完成。Passport 不挂载路由或采用任何特定的数据库架构,这最大限度地提高了灵活性,并允许开发人员做出应用程序级决策。API 很简单:您向 Passport 提供身份验证请求,Passport 提供钩子来控制身份验证成功或失败时发生的情况。

  • casbin/casbin 在 Golang 中支持 ACL、RBAC、ABAC 等访问控制模型的授权库

  • supertokens/supertokens-core 为您的应用程序添加安全登录和会话管理。 可用于流行语言和前端框架的 SDK,例如 Node.js、Go、Python、React.js、React Native、Vanilla JS 等。

  • halo-dev/halo 强大易用的开源建站工具。

  • vercel/micro 异步 HTTP 微服务.具有异步方法的简约微服务框架。

  • fuzhengwei/itstack-demo-design 《重学Java设计模式》是一本互联网真实案例实践书籍。以落地解决方案为核心,从实际业务中抽离出,交易、营销、秒杀、中间件、源码等22个真实场景,来学习设计模式的运用。

  • doocs/advanced-java 互联网 Java 工程师进阶知识完全扫盲:涵盖高并发、分布式、高可用、微服务、海量数据处理等领域知识

  • SocketCluster/socketcluster 高度可扩展的实时发布/订阅和 RPC 框架

  • moleculerjs/moleculer 快速,现代和强大的Node.js微服务框架。它可以帮助您构建高效,可靠和可扩展的服务。Moleculer 提供了许多用于构建和管理微服务的功能。

  • sfyc23/EverydayWechat 微信助手:1.每日定时给好友(女友)发送定制消息。2.机器人自动回复好友。3.群助手功能(例如:查询垃圾分类、天气、日历、电影实时票房、快递物流、PM2.5等)

  • tinode/chat 即时通讯平台。Go 中的后端。客户端:Swift iOS,Java Android,JS webapp,可编写脚本的命令行;聊天机器人

  • 42wim/matterbridge 一个简单的聊天桥 ,Mattermost,IRC,gitter,xmpp,Slack,Discord,Telegram,rocketchat,twitch,ssh-chat,zulip,WhatsApp,Keybase,matrix,Microsoft Teams,Nextcloud,Mumble,vk等与REST API之间的桥梁

  • Tencent/APIJSON 零代码、全功能、强安全 ORM 库 🚀 后端接口和文档零代码,前端(客户端) 定制返回 JSON 的数据和结构。

  • discordjs/discord.js 一个强大的JavaScript库,用于与Discord API交互

  • pedroslopez/whatsapp-web.js 一个用于 NodeJS 的 WhatsApp 客户端库,通过 WhatsApp Web 浏览器应用程序进行连接

  • yagop/node-telegram-bot-api Node.js与官方telegram电报机器人API交互的模块。

  • telegraf/telegraf 现代telegram电报机器人API框架 Node.js

  • typeorm/typeorm 用于TypeScript和JavaScript的ORM。支持MySQL,PostgreSQL,MariaDB,SQLite,MS SQL Server,Oracle,SAP Hana,WebSQL数据库。适用于NodeJS,Browser,Ionic,Cordova和Electron平台。

  • Unitech/pm2 Node.js具有内置负载均衡器的生产进程管理器。

  • facebook/hhvm 用于执行用Hack编写的程序的虚拟机。一个开源虚拟机,设计用于执行用Hack编写的程序。HHVM 使用实时 (JIT) 编译方法来实现卓越的性能,同时保持惊人的开发灵活性。HHVM应该与内置的Web服务器一起使用,易于部署的Proxygen,或者在nginx或Apache之上基于FastCGI的网络服务器。

  • beego/beego Go 编程语言的开源、高性能 Web 框架。

  • gaia-pipeline/gaia 使用任何编程语言构建强大的管道。一个开源自动化平台,它可以轻松有趣地使用任何编程语言构建强大的管道。基于HashiCorp的go-plugin和gRPC,gaia是高效,快速,轻量级和开发人员友好的。

  • davideuler/architecture.of.internet-product 互联网公司技术架构,微信/淘宝/微博/腾讯/阿里/美团点评/百度/Google/Facebook/Amazon/eBay的架构

  • apidoc/apidoc RESTful Web API 文档生成器。

  • miguelgrinberg/flasky O'Reilly书“Flask Web Development”的配套代码,第二版。

  • slimphp/Slim PHP 微框架,可帮助您快速编写简单而强大的 Web 应用程序和 API。

  • walkor/workerman 异步事件驱动的 PHP 套接字框架。支持HTTP,Websocket,SSL和其他自定义协议。

  • filp/whoops HP 的错误处理程序框架。开箱即用,它提供了一个漂亮的错误界面,可以帮助您调试Web项目,但本质上它是一个简单而强大的堆叠错误处理系统。

  • symfony/symfony 用于Web和控制台应用程序的PHP框架以及一组可重用的PHP组件。Symfony被成千上万的Web应用程序和大多数流行的PHP项目使用。

  • spatie/laravel-permission PHP将用户与角色和权限关联

  • composer/composer PHP 依赖管理器。Composer 帮助您声明、管理和安装 PHP 项目的依赖项。

  • guzzle/guzzle 可以轻松发送HTTP请求的PHP库,并且与Web服务集成变得简单。

  • DesignPatternsPHP/DesignPatternsPHP PHP 8.x 中几种设计模式的示例代码,这些模式大致可以分为三个不同的类别,Creational、Structural、Behavioral。

  • PHPMailer/PHPMailer PHP 的经典电子邮件发送库

  • sebastianbergmann/phpunit PHP 单元测试框架。它是单元测试框架的 xUnit 体系结构的一个实例。

  • bcit-ci/CodeIgniter 一个PHP应用程序开发框架 - 一个工具包 - 适用于使用 PHP 构建网站的人。它的目标是通过为常用任务提供一组丰富的库,以及访问这些库的简单接口和逻辑结构,使你能够比从头开始编写代码更快地开发项目。

  • nikic/PHP-Parser 用PHP编写的PHP解析器。其目的是简化静态代码分析和操作。

  • erusev/parsedown PHP 中更好的 Markdown 解析器。

  • roadrunner-server/roadrunner 高性能PHP应用程序服务器,用Go编写的进程管理器,由插件提供支持

  • laradock/laradock 适用于 Docker 的完整 PHP 开发环境。

  • egulias/EmailValidator PHP 电子邮件地址验证器

  • phalcon/cphalcon 高性能、全栈 PHP 框架作为 C 扩展提供。

  • typecho/typecho 一个PHP博客平台。简单而强大。

  • dompdf/dompdf 适用于 PHP 的 HTML 到 PDF 转换器。用 PHP 编写的符合 CSS 2.1 的 HTML 布局和渲染引擎。一个样式驱动的渲染器:它将下载和读取外部样式表、内联样式标签和单个 HTML 元素的样式属性。它还支持大多数表示 HTML 属性。

  • squizlabs/PHP_CodeSniffer 对PHP文件进行标记,并检测违反一组定义的编码标准的行为。

  • filamentphp/filament Laravel 的精美全栈组件集合。使用 Livewire、Alpine.js 和 Tailwind CSS 为您的下一个应用程序提供完美的起点。

  • serbanghita/Mobile-Detect 一个轻量级的 PHP 类,用于检测移动设备(包括平板电脑)。它使用用户代理字符串与特定 HTTP 标头相结合来检测移动环境。

  • deployphp/deployer PHP部署工具,开箱即用,支持流行的框架

  • yiisoft/yii2 快速、安全和专业的 PHP 框架。开箱即用,预配置了合理的默认值。该框架很容易调整以满足您的需求,因为 Yii 被设计得很灵活。

  • Intervention/image PHP图像处理

  • Seldaek/monolog PHP将日志发送到文件、套接字、数据库和各种Web服务

  • itsgoingd/clockwork PHP开发工具,可在浏览器中使用。可让您深入了解应用程序运行时,包括 HTTP 请求、命令、队列作业和测试的请求数据、性能指标、日志条目、数据库查询、缓存查询、redis 命令、已调度事件、排队作业、呈现视图等

  • phacility/phabricator php Web应用程序的集合。

  • codeguy/php-the-right-way 一个易于阅读的快速参考,包括 PHP 最佳实践、公认的编码标准以及指向 Web 上权威教程的链接

  • matomo-org/matomo Google Analytics(分析)的领先开放替代方案,可让您完全控制数据。Matomo可让您轻松地从网站和应用程序中收集数据,并可视化这些数据并提取见解。隐私是内置的。

  • plausible/analytics 简单开源轻量级1K和隐私友好的网络分析替代谷歌分析。

  • hasura/graphql-engine 开源产品,通过立即为您提供具有内置数据授权的 GraphQL 或 REST API,将 API 开发速度提高了 10 倍。

  • supabase/realtime 通过 WebSocket 进行广播、状态和发布更改

  • actix/actix-web 一个强大、实用且速度极快的 Rust Web 框架。

  • meolu/walle-web Devops开源项目代码部署平台

  • jenkinsci/jenkins 领先的开源自动化服务器。使用 Java 构建,提供了 1,800 多个插件来支持几乎任何事情的自动化,因此人类可以将时间花在机器无法完成的事情上。

  • spring-projects/spring-boot Spring Boot 可帮助您以绝对最少的麻烦创建由 Spring 提供支持的生产级应用程序和服务。它对 Spring 平台持自以为是的看法,以便新用户和现有用户都可以快速获得他们需要的位。您可以使用 Spring Boot 创建独立的 Java 应用程序,这些应用程序可以使用更传统的 WAR 部署启动 java -jar`。我们还提供了一个运行 Spring 脚本的命令行工具。

  • swagger-api/swagger-ui HTML、JavaScript 和 CSS 资产的集合,可从符合 Swagger 的 API 动态生成精美的文档。允许任何人(无论是您的开发团队还是最终消费者)可视化 API 的资源并与之交互,而无需任何实现逻辑。它是根据 OpenAPI(以前称为 Swagger)规范自动生成的,带有可视化文档,便于后端实现和客户端使用。

  • chentsulin/awesome-graphql GraphQL 的精彩列表。GraphQL 是一种针对 Graph(图状数据)进行查询特别有优势的 Query Language(查询语言)。

  • django/channels 通道增强了 Django,将 WebSocket、长轮询 HTTP、任务卸载和其他异步支持引入到你的代码中,使用熟悉的 Django 设计模式和灵活的底层框架,让你不仅可以自定义行为,还可以为你自己的协议和需求编写支持。

  • wsvincent/awesome-django 与 Django 相关的精彩事物的精选列表

  • go-micro/go-micro Go Micro 提供了分布式系统开发的核心需求,包括 RPC 和事件驱动通信。Go Micro 的理念是理智的默认,采用可插拔架构。我们提供默认值以帮助您快速入门,但所有内容都可以轻松更换。

  • Kong/insomnia 适用于 GraphQL、REST、WebSockets、SSE 和 gRPC 的开源跨平台 API 客户端。使用云、本地和 Git 存储。

  • fastify/fastify 适用于 Node.js 的快速且低开销的 Web 框架

  • whyour/qinglong 支持Python3、JS、Shell、Typescript 的定时任务管理平台

  • matrix-org/synapse 由 Matrix.org Foundation 编写和维护的开源 Matrix 家庭服务器。Synapse 和 Matrix 协议本身的开发今天仍在继续。简而言之,Matrix 是互联网通信的开放标准,支持联盟、加密和 VoIP。

  • aws/chalice 用于在 python 中编写无服务器应用程序的框架。它允许您快速创建和部署使用 AWS Lambda 的应用程序。

  • serverless/serverless 无服务器框架 – 使用 AWS Lambda、Azure Functions、Google CloudFunctions 等,使用无服务器架构构建 Web、移动和 IoT 应用程序

  • sst/sst 在 AWS 上构建现代全栈应用程序。

  • pulumi/pulumi 只需用您喜欢的语言编写代码,Pulumi 就会使用基础设施即代码方法在 AWS、Azure、Google Cloud Platform、Kubernetes 和 120+ 提供商上自动预置和管理您的资源。跳过 YAML,使用你已经熟悉和喜爱的标准语言功能,如循环、函数、类和包管理。

  • zappa/Zappa 在 AWS Lambda + API Gateway 上轻松构建和部署无服务器、事件驱动的 Python 应用程序(包括但不限于 WSGI Web 应用程序)。将其视为 Python 应用程序的“无服务器”Web 托管。这意味着无限扩展、零停机时间、零维护 - 而且成本只是您当前部署的一小部分

  • encode/django-rest-framework 适用于 Django 的 Web API。Web 可浏览 API 对您的开发人员来说是一个巨大的可用性胜利。身份验证策略,包括 OAuth1a 和 OAuth2 的可选包。支持 ORM 和非 ORM 数据源的序列化。可一直自定义 - 如果您不需要更强大的功能,只需使用基于功能的常规视图。广泛的文档和强大的社区支持。

  • aws/aws-cli 适用于 Amazon Web Services 的通用命令行界面

  • webiny/webiny-js 开源无服务器企业 CMS。包括无头 CMS、页面构建器、表单构建器和文件管理器。易于定制和扩展。部署到 AWS。

  • brettstack/serverless-express 用 AWS 上的现有框架serverless.js Lambda、API Gateway、Lambda@Edge 和 ALB 等技术运行 Node Web 程序和 API。

  • jhipster/generator-jhipster 开发平台,用于快速生成,开发和部署现代Web应用程序和微服务架构。

  • rabbitmq/rabbitmq-server 开源 RabbitMQ:核心服务器和第 1 层(内置)插件

  • localstack/localstack 功能齐全的本地 AWS 云堆栈。离线开发和测试您的云和无服务器应用程序

  • ring-clojure/ring 受 Python 的 WSGI 和 Ruby 的 Rack 启发的 Clojure Web 应用程序库。通过将 HTTP 的细节抽象为简单、统一的 API,Ring 允许 Web 应用程序由模块化组件构建,这些组件可以在各种应用程序、Web 服务器和 Web 框架之间共享。

  • neondatabase/neon 无服务器 Postgres。我们将存储和计算分开,以提供自动缩放、分支和无底存储。

  • serverless/examples 无服务器示例 – 用 AWS Lambda、Microsoft Azure、Google Cloud Functions 等上的无服务器框架构建的无服务器架构的样板和示例集合。

  • aws/serverless-application-model AWS 无服务器应用程序模型 (AWS SAM) 转换是一个 AWS CloudFormation 宏,用于将 SAM 模板转换为 CloudFormation 模板。

  • wireapp/wire-server Wire后端服务,含以下源代码:公共 API 反向代理(带有自定义 libzauth 模块的 Nginx),对话和团队、帐户、推送通知中心、WebSocket 推送通知、资产(图像、文件等)存储、第三方 API 集成,用于音频/视频通话的 STUN/TURN 服务器,单点登录 (SSO),迁移工具(例如,添加新表时),后台工具(基于 Swagger 的基本界面)

  • aws/aws-sam-cli CLI 工具,用于使用 AWS SAM 构建、测试、调试和部署无服务器应用程序

  • aws-samples/aws-serverless-workshops 为 Wild Rydes 研讨会设置无服务器应用程序的代码和演练实验室

  • hashicorp/terraform 使你能够安全且可预测地创建、更改和改进基础结构。它是一种源代码可用的工具,可将 API 编码为声明性配置文件,这些文件可以在团队成员之间共享、视为代码、编辑、审查和版本控制。

  • cli/cli 命令行上的 GitHub。它将拉取请求、问题和其他 GitHub 概念带到您已经在使用 git 的位置和代码旁边的终端。

  • pallets/quart 用于构建 Web 应用程序的异步 Python 微框架。

  • gitlabhq/gitlabhq GitLab CE 镜像,用于代码协作的开源软件。通过精细的访问控制来管理 Git 存储库,确保代码安全;执行代码审查并通过合并请求增强协作;完整的持续集成 (CI) 和持续部署/交付 (CD) 管道,用于构建、测试和部署应用程序;每个项目还可以有一个问题跟踪器、问题板和一个 Wiki;被超过 100,000 个组织使用,是管理本地 Git 存储库的最流行的解决方案;完全免费和开源

  • open-falcon/falcon-plus 一个开源的企业级监控系统。

  • ccfos/nightingale 多合一的可观测性解决方案,旨在结合 Prometheus 和 Grafana 的优势。它管理警报规则,并在漂亮的 Web UI 中可视化指标、日志和跟踪。

  • grafana/grafana 开放且可组合的可观测性和数据可视化平台。可视化来自 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等多个来源的指标、日志和跟踪。可视化:具有多种选项的快速灵活的客户端图形。动态仪表板:使用模板变量创建动态和可重用的仪表板,这些模板变量在仪表板顶部显示为下拉列表。探索指标:通过临时查询和动态深入分析来探索数据。拆分视图并并排比较不同的时间范围、查询和数据源。探索日志:体验使用保留的标签筛选器从指标切换到日志的魔力。快速搜索所有日志或实时流式传输。警报:直观地为最重要的指标定义警报规则。Grafana 将持续评估并向 Slack、PagerDuty、VictorOps、OpsGenie 等系统发送通知。混合数据源:在同一张图中混合不同的数据源!您可以基于每个查询指定数据源。这甚至适用于自定义数据源。

  • shieldfy/API-Security-Checklist 设计、测试和发布 API 时最重要的安全对策清单

  • sdras/awesome-actions 在 GitHub 上使用的精彩操作的精选列表

  • tiimgreen/github-cheat-sheet Git 和 GitHub 的很酷的隐藏和不那么隐藏的功能的集合。此备忘单的灵感来自于 Zach Holman 在 2012 年 Aloha Ruby 大会上的 Git 和 GitHub Secrets 演讲(幻灯片)以及他在 WDCNZ 2013 上的更多 Git 和 GitHub Secrets 演讲(幻灯片)。

  • gitbucket/gitbucket 一个由 Scala 提供支持的 Git 平台,易于安装、高度扩展和 GitHub API 兼容性

  • playframework/playframework Play 框架结合了生产力和性能,使使用 Java 和 Scala 构建可扩展的 Web 应用程序变得容易。Play 对开发人员友好,具有“只需刷新”的工作流程和内置的测试支持。借助 Play,由于无状态和非阻塞架构,应用程序可以预测地扩展。通过默认的RESTful,包括资产编译器,JSON和WebSocket支持,Play非常适合现代Web和移动应用程序。

  • apache/airflow 以编程方式编写、调度和监控工作流的平台。当工作流被定义为代码时,它们将变得更加可维护、可版本控制、可测试和协作。使用 Airflow 将工作流创作为任务的有向无环图 (DAG)。Airflow 调度程序在遵循指定依赖项的同时,在一组工作线程上执行任务。丰富的命令行实用程序使在 DAG 上执行复杂的手术变得轻而易举。通过丰富的用户界面,可以轻松可视化生产中运行的管道、监视进度并在需要时解决问题。

  • apache/skywalking APM(应用程序性能监控)系统,专为微服务、云原生和基于容器的架构而设计。开源的 APM 系统,包括云原生架构中分布式系统的监控、追溯、诊断能力。

  • appwrite/appwrite 用于开发 Web、Mobile 和 Flutter 应用程序的后端平台。与开源社区一起构建,并针对您喜爱的编码语言的开发人员体验进行了优化。

  • louislam/uptime-kuma 易于使用的自托管监控工具。

  • git/git 快速、可扩展的分布式版本控制系统,具有异常丰富的命令集,既提供高级操作,又提供对内部的完全访问。受 GNU 通用公共许可证版本 2 的保护(它的某些部分采用不同的许可证,与 GPLv2 兼容)。它最初是由 Linus Torvalds 在网络上的一群黑客的帮助下编写的。

  • xkcoding/spring-boot-demo 用来深入学习并实战 Spring Boot 的项目。

  • traefik/traefik 一种现代 HTTP 反向代理和负载均衡器,可轻松部署微服务。Traefik 与您现有的基础设施组件(Docker、Swarm 模式、Kubernetes、Consul、Etcd、Rancher v2、Amazon ECS 等)集成,并自动动态地进行配置。将 Traefik 指向业务流程协调程序应该是您唯一需要的配置步骤。

  • ityouknow/spring-boot-examples Spring Boot 使用的各种示例,以最简单、最实用为标准,此开源项目中的每个示例都以最小依赖,最简单为标准,帮助初学者快速掌握 Spring Boot 各组件的使用。

  • pcottle/learnGitBranching 交互式 git 可视化和教程。有抱负的 git 学生可以使用这个应用程序来教育和挑战自己,以掌握 git!

  • karanpratapsingh/system-design 了解如何大规模设计系统并准备系统设计面试

  • Vonng/ddia 《设计数据密集型应用》DDIA中文翻译。现今,尤其是在互联网领域,大多数应用都属于数据密集型应用。本书从底层数据结构到顶层架构设计,将数据系统设计中的精髓娓娓道来。其中的宝贵经验无论是对架构师、DBA、还是后端工程师、甚至产品经理都会有帮助。这是一本理论结合实践的书,书中很多问题,译者在实际场景中都曾遇到过,读来让人击节扼腕。如果能早点读到这本书,该少走多少弯路啊!这也是一本深入浅出的书,讲述概念的来龙去脉而不是卖弄定义,介绍事物发展演化历程而不是事实堆砌,将复杂的概念讲述的浅显易懂,但又直击本质不失深度。每章最后的引用质量非常好,是深入学习各个主题的绝佳索引。本书为数据系统的设计、实现、与评价提供了很好的概念框架。读完并理解本书内容后,读者可以轻松看破大多数的技术忽悠,与技术砖家撕起来虎虎生风。

  • grafana/k6 使用 Go 和 JavaScript 的现代负载测试工具。它功能强大、可扩展且功能齐全。关键设计目标是提供最佳的开发人员体验。其核心功能是:可配置的负载生成。即使是低端机器也可以模拟大量流量。测试即代码。重用脚本、模块化逻辑、版本控制,并将测试与 CI 集成。功能齐全的 API。脚本 API 包含可帮助您模拟真实应用程序流量的功能。嵌入式 JavaScript 引擎。Go 的性能,JavaScript 的脚本熟悉度。多协议支持。HTTP、WebSockets、gRPC 等。大型扩展生态系统。您可以扩展 k6 来支持您的需求。许多人已经与社区分享了他们的扩展!灵活的指标存储和可视化。汇总统计信息或粒度指标,导出到您选择的服务。

  • Redocly/redoc 从 OpenAPI 生成精美的 API 文档

  • nrwl/nx 具有内置工具和高级 CI 功能的构建系统。它可以帮助您在本地和 CI 上维护和扩展 monorepos。

  • avajs/ava Node.js 测试运行程序,让你充满信心地进行开发

  • parse-community/parse-server 开源后端,可以部署到任何可以运行 Node.js 的基础架构。Parse Server 与 Express Web 应用程序框架配合使用。它可以添加到现有的 Web 应用程序中,也可以自行运行。

  • remy/nodemon 监视 node.js 应用程序中的任何更改并自动重新启动服务器 - 非常适合开发。特征:自动重新启动应用程序。检测要监视的默认文件扩展名。默认支持节点,但易于运行任何可执行文件,例如 python、ruby、make 等。忽略特定文件或目录。监视特定目录。与服务器应用程序或一次性运行实用程序和 REPL 配合使用。可通过 node require 语句编写脚本。

  • trpc/trpc 快速行动,不破坏任何东西。端到端类型安全 API 变得简单。经过充分测试,可投入生产。客户端上的完整静态类型安全和自动完成,用于输入、输出和错误。没有代码生成、运行时膨胀或构建管道。轻量级 - tRPC 具有零 deps 和极小的客户端占用空间。易于添加到您现有的项目中。React.js/Next.js/Express.js/Fastify 适配。订阅支持。请求批处理 - 同时发出的请求可以自动合并为一个。

  • apollographql/apollo-client 功能齐全、生产就绪的缓存 GraphQL 客户端,适用于每个 UI 框架和 GraphQL 服务器。

  • dbader/schedule 人类的 Python 作业调度。使用友好的语法定期运行 Python 函数(或任何其他可调用函数)。简单易用的 API,用于调度作业,专为人类设计。用于定期作业的进程内调度程序。无需额外的流程,非常轻量级,没有外部依赖。出色的测试覆盖率。

  • teambit/bit 用于开发可组合软件的构建系统。它使来自独立版本控制组件的应用程序组合无缝且快速。将源代码分发到独立版本控制的组件中带来了简单性,这些组件相互依赖。

  • OpenAPITools/openapi-generator OpenAPI Generator 允许在给定 OpenAPI 规范(v2、v3)的情况下自动生成 API (SDK 生成)、服务器存根、文档和配置

  • nexe/nexe 从 Node.js 应用程序创建单个可执行文件

  • grafana/loki 受 Prometheus 启发的可水平扩展、高度可用、多租户日志聚合系统。它的设计非常具有成本效益且易于操作。它不索引日志的内容,而是为每个日志流编制一组标签。

  • netty/netty 异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。

  • saleor/saleor 高性能、可组合、无头商务 API。现代堆栈上以客户为中心的电子商务。无头的 GraphQL 商务平台,提供超快速、动态、个性化的购物体验。漂亮的在线商店,随时随地,在任何设备上。

  • cookiecutter/cookiecutter-django 由 Cookiecutter 提供支持,是一个用于快速启动生产就绪的 Django 项目的框架。

  • apereo/cas 面向所有地球人及其他地区的身份和单点登录。面向 Web 的企业多语言单点登录解决方案,旨在成为满足身份验证和授权需求的综合平台。CAS 是一种开放且有据可查的身份验证协议。该协议的主要实现是此处托管的同名开源 Java 服务器组件,支持大量其他身份验证协议和功能,例如 SAML2、OpenID Connect 等。

  • pallets/jinja 一个非常快速和富有表现力的模板引擎。模板中的特殊占位符允许编写类似于 Python 语法的代码。然后,将模板传递数据以呈现最终文档。

  • temporalio/temporal 一个持久的执行平台,使开发人员能够在不牺牲生产力或可靠性的情况下构建可扩展的应用程序。临时服务器以弹性方式执行称为工作流的应用程序逻辑单元,该逻辑单元可自动处理间歇性故障,并重试失败的操作。

  • gorilla/mux 强大的 HTTP 路由器和 URL 匹配器,用于构建 Go Web 服务器

  • seaswalker/spring-analysis Spring源码阅读

  • helmetjs/helmet 使用各种 HTTP 标头帮助保护 Express 应用

  • Ne0nd0g/merlin 跨平台的后开发HTTP/2命令和控制服务器和代理,用 go 编写。

  • xyproto/algernon 小型独立纯 Go Web 服务器,支持 Lua、Teal、Markdown、HTTP/2、QUIC、Redis 和 PostgreSQL

  • bxcodec/go-clean-arch Go 项目中实现 Clean Architecture 的示例。独立于框架。该体系结构不依赖于某些功能丰富的软件库的存在。这允许您使用此类框架作为工具,而不必将系统塞进其有限的约束中。可测试。可以在没有 UI、数据库、Web 服务器或任何其他外部元素的情况下测试业务规则。独立于 UI。UI 可以轻松更改,而无需更改系统的其余部分。例如,可以在不更改业务规则的情况下将 Web UI 替换为控制台 UI。独立于数据库。可以将 Oracle 或 SQL Server 换成 Mongo、BigTable、CouchDB 或其他东西。您的业务规则未绑定到数据库。独立于任何外部机构。

  • feathersjs/feathers 全栈框架,用于使用 TypeScript 或 JavaScript 创建 Web API 和实时应用程序。可以与任何后端技术交互,支持许多开箱即用的数据库,并适用于任何前端,如 React、VueJS、Angular、React Native、Android 或 iOS。

  • Tencent/matrix 微信开发的一款插件式、非侵入式 APM 系统。微信中用于监控、定位和分析性能问题的 APM(应用程序性能管理)。它是一种插件风格的非侵入性解决方案,目前可在 iOS、macOS 和 Android 上使用。

  • caronc/apprise 允许您向当今几乎所有最流行的通知服务发送通知,例如:Telegram、Discord、Slack、Amazon SNS、Gotify等

  • akka/akka 在 JVM 上构建高度并发、分布式和弹性的消息驱动型应用程序

  • capnproto/capnproto Cap'n Proto 序列化/RPC 系统 - 核心工具和 C++ 库

  • vectordotdev/vector 高性能的端到端(代理和聚合器)可观测性数据管道,可让您控制可观测性数据。收集、转换所有日志和指标,并将其路由到您今天想要的任何供应商以及您明天可能想要的任何其他供应商。Vector 可在您需要的地方实现大幅降低成本、新颖的数据丰富和数据安全性,而不是您的供应商最方便的地方。此外,它是开源的,比该领域的所有替代方案快 10 倍。

  • LMAX-Exchange/disruptor 高性能线程间消息传递库

  • ashishps1/awesome-system-design-resources 该存储库包含系统设计资源,这些资源在准备面试和学习分布式系统时非常有用

  • saltstack/salt 大规模自动管理和配置任何基础架构或应用程序的软件。基于 Python 构建,是一种事件驱动的自动化工具和框架,用于部署、配置和管理复杂的 IT 系统。使用 Salt 自动执行常见的基础架构管理任务,并确保基础架构的所有组件都以一致的所需状态运行。

  • apache/apisix 动态、实时、高性能的 API 网关。提供了丰富的流量管理功能,如负载均衡、动态上游、灰度释放、熔断、认证、可观测性等。使用 APISIX API Gateway 来处理传统的南北向流量,以及服务之间的东西向流量。也可用作 k8s 入口控制器。

  • smallnest/rpcx Go 中最好的微服务框架,就像阿里巴巴 Dubbo,但功能更多,易于扩展。试试吧。Java有dubbo, Golang有rpcx!为云而构建!

  • TonnyL/Awesome_APIs 面向开发人员的 AWESOME API 集合。

  • eggjs/egg 与Node.js & Koa一起构建更好的企业框架和应用程序

  • koajs/koa 富有表现力的 HTTP 中间件框架,用于node.js使 Web 应用程序和 API 编写起来更愉快。Koa 的中间件堆栈以类似堆栈的方式流动,允许您在下游执行操作,然后过滤和操作上游的响应。只有几乎所有 HTTP 服务器通用的方法才会直接集成到 Koa 的小型 ~570 SLOC 代码库中。这包括内容协商、节点不一致的规范化、重定向等。Koa 没有与任何中间件捆绑在一起。

  • Activiti/Activiti Activiti 是一个轻量级的工作流和业务流程管理 (BPM) 平台,面向业务人员、开发人员和系统管理员。它的核心是用于 Java 的超快速且坚如磐石的 BPMN 2 流程引擎。它是开源的,并在 Apache 许可下分发。Activiti 可以在任何 Java 应用程序、服务器、集群或...

网络与前后端开发_其他

  • shengqiangzhang/examples-of-web-crawlers python爬虫例子

  • Jack-Cherish/python-spider Python3网络爬虫实战:淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等

  • gocolly/colly 优雅的 Golang 爬虫框架

  • elebumm/RedditVideoMakerBot 爬取Reddit帖子并合成视频工具

  • facert/awesome-spider 收集各种爬虫

  • AJay13/ECommerceCrawlers 实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、招聘、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️。微信爬虫展示项目

  • shengqiangzhang/examples-of-web-crawlers 有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站。

  • wistbean/learn_python3_spider python爬虫教程系列、从0到1学习python爬虫,包括浏览器抓包,手机APP抓包,如 fiddler、mitmproxy,各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及IP代理,验证码识别,Mysql,MongoDB数据库的python使用,多线程多进程爬虫的使用,css 爬虫加密逆向破解,JS爬虫逆向,分布式爬虫,爬虫项目实战实例等

  • dataabc/weiboSpider 新浪微博爬虫,用python爬取新浪微博数据

  • crawlab-team/crawlab 分布式爬虫管理平台,支持任何语言和框架

  • gorhill/uBlock 适用于 Chromium 和 Firefox 的有效拦截器。快速而精益。

  • nwjs/nw.js 直接从 DOM/WebWorker 调用所有 Node.js 模块,并启用一种使用所有 Web 技术编写应用程序的新方法。

  • gofiber/fiber 用 Go 编写的受 Express 启发的 Web 框架

  • revel/revel 用于 Go 语言的高生产力、全栈 Web 框架。

  • digitalocean/nginxconfig.io 配置NGINX服务器所需的唯一工具。

  • hoppscotch/hoppscotch 开源 API 开发生态系统。轻量级:采用简约的 UI 设计精心打造。快速:实时发送请求和获取/复制响应。

  • yhirose/cpp-httplib 仅C++标头的 HTTP/HTTPS 服务器和客户端库

  • phanan/htaccess 有用的 .htaccess 代码段的集合。

  • mfornos/awesome-microservices 微服务架构相关原则和技术的精选列表。

  • simplex-chat/simplex-chat 第一个没有任何类型的用户标识符的消息传递平台 - 设计100%私有!iOS和安卓应用程序发布

  • go-telegram-bot-api/telegram-bot-api Telegram Bot API 的 Golang 绑定

  • Rapptz/discord.py 用 Python 编写的 Discord 的 API 包装器。

  • LonamiWebs/Telethon 纯 Py3 MTProto API Telegram 客户端库,也适用于机器人

  • papercups-io/papercups 开源实时客户聊天。用Elixir编写的开源实时客户支持工具Web应用程序。

  • RocketChat/Rocket.Chat 将数据保护放在首位的通信平台。开源的完全可定制的通信平台,用JavaScript开发,适用于具有高标准数据保护的组织。

  • Wechat-Group/WxJava 微信开发 Java SDK ,支持包括微信支付,开放平台,小程序,企业微信,公众号等的后端开发

  • littlecodersh/ItChat 微信个人号接口、微信机器人及命令行微信,三十行即可自定义个人号机器人。

  • MustangYM/WeChatExtension-ForMac Mac微信功能拓展/微信插件/微信小助手

  • wechaty/wechaty 面向微信聊天机器人制造商的RPA(机器人流程自动化)SDK,可以帮助您在JavaScript,Python,Go和Java的6行中创建机器人,并提供跨平台支持,包括Linux,Windows,MacOS和Docker。

  • w7corp/easywechat 一个 PHP 微信 SDK,开源 SaaS 平台提供商微擎开源产品。

  • JackJiang2011/MobileIMSDK 原创多端IM通信层框架,轻量级、高度提炼,历经8年、久经考验。可能是市面上唯一同时支持UDP + TCP + WebSocket三种协议的同类开源框架,支持 iOS、Android、Java、H5、小程序、Uniapp,服务端基于Netty。

  • cluic/wxauto Windows版本微信客户端(非网页版)自动化,可实现简单的发送、接收微信消息

  • OpenIMSDK/Open-IM-Server 由前微信技术专家打造的基于 Go 实现的即时通讯(IM)项目,从服务端到客户端SDK开源即时通讯(IM)整体解决方案,可以轻松替代第三方IM云服务,打造具备聊天、社交功能的app。

  • hoochanlon/NeiJuan ChatGPT、Google产品等各类镜像与SS/V2/Clash/QuanX网络链,行业研究报告的知识储备库

  • supabase/supabase 开源Firebase替代品。Firebase 是一家实时后端数据库创业公司,它能帮助开发者很快的写出 Web 端和移动端的应用。于 2014 年 Google 收购了 Firebase,之后把 Firebase 结合到 Google 云服务中。

  • rustdesk/rustdesk 远程桌面软件,开箱即用,无需任何配置。您完全掌控数据,不用担心安全问题。

  • vasanthk/how-web-works 网络如何运作 当我们在浏览器中输入 google.com 时,幕后会发生什么?

  • signalwire/freeswitch 一种软件定义的电信堆栈,可实现从专有电信交换机到可在任何商用硬件上运行的多功能软件实施的数字化转型。可以释放任何设备的电信潜力。

  • ionsoul2014/ip2region 离线IP地址定位库和IP定位数据管理框架,10微秒级别查询效率,提供众多主流编程语言的 xdb 数据生成和查询客户端实现。

  • sogou/workflow C++ 并行计算和异步网络引擎

  • soimort/you-get youtube下载

  • XIU2/TrackersListCollection 全网热门 BT Tracker 列表

  • itgoyo/Aria2 突破百度云限速合集

  • PanDownloadServer/Server 百度云PanDownload的个人维护版本

  • liupan1890/aliyunpan 阿里云盘小白羊版 阿里云盘PC版 aliyundriver

  • yuesong-feng/30dayMakeCppServer 30天自制C++服务器,教程和源代码

  • mastodon/mastodon 基于 ActivityPub 的免费开源社交网络服务器,用户可以在其中关注并发现新朋友。 在 Mastodon 上,用户可以发布他们想要的任何东西:链接、图片、文本、视频。 所有服务器都可以作为联合网络进行互操作(一台服务器上的用户可以与另一台的用户无缝通信,包括实现 ActivityPub 的非 Mastodon 软件)

  • nostr-protocol/nostr 真正抗审查的 Twitter 替代品。最简单的开放协议,一劳永逸地创建抗审查的全球“社交”网络。 不依赖于任何受信任的中央服务器,因此具有弹性; 基于加密密钥和签名,防篡改; 它不依赖于 P2P 技术,因此可以正常工作。

  • aljazceru/awesome-nostr 用于抗审查全球网络的开放协议nostr的项目和资源的精选列表,包括:协议、中继、客户端、程序库、网桥和网关、工具、NIP-05身份服务、浏览器扩展、社区、教程

  • irislib/iris-messenger 更好的社交网络Nostr的客户端。

  • damus-io/damus 类似twitter的nostr客户端,适用于iPhone、iPad和MacOS。

  • jeffthibault/python-nostr 用于创建Nostr客户端的Python库

  • vooidzero/B23Downloader Qt C++开发的B站视频、直播、漫画下载器。

  • pavlobu/deskreen 将带有网络浏览器的设备变成您计算机的辅助屏幕

  • BiglySoftware/BiglyBT 基于Azureus的功能丰富的 Bittorrent 客户端

  • zonemeen/musicn 下载高品质音乐的命令行工具

  • foamzou/melody 帮助你更好地管理音乐。帮助你将喜欢的歌曲或者音频上传到音乐平台的云盘。支持在各大音乐和视频网站检索歌曲。支持一键下载到本地,一键上传到云盘。一键“解锁”无法播放的歌曲。

  • v2rayA/v2rayA Web GUI,支持 V2Ray、Xray、SS、SSR、Trojan 和 Pingtunnel

  • curl/curl 用URL语法传输数据的命令行工具和库,支持DICT, FILE, FTP, FTPS, GOPHER, GOPHERS, HTTP, HTTPS, IMAP, IMAPS, LDAP, LDAPS, MQTT, POP3, POP3S, RTMP, RTMPS, RTSP, SCP、SFTP、SMB、SMBS、SMTP、SMTPS、TELNET、TFTP、WS 和 WSS。提供了无数强大的功能

  • Privoce/vocechat-web VoceChat 的 Web 客户端

  • Privoce/vocechat-server-rust 超轻量级的rust编写的社交服务器。轻松集成到您的网站/应用程序。

  • snail007/goproxy golang实现的高性能http,https,websocket,tcp,socks5代理服务器,支持内网穿透,链式代理,通讯加密,智能HTTP,SOCKS5代理,黑白名单,限速,限流量,限连接数,跨平台,KCP支持,认证API。

  • mailpile/Mailpile 一个免费开放的现代,快速的电子邮件客户端,具有用户友好的加密和隐私功能

  • makeplane/plane 开源自托管项目规划工具,可帮助您以最简单的方式跟踪问题、历史和产品路线图。

  • dastergon/awesome-sre 站点可靠性和生产工程资源的精选列表。站点可靠性工程(SRE)是 IT 运维的软件工程方案。

  • openedx/edx-platform 一个面向服务的平台,用于创作和提供任何规模的在线学习。该平台是用Python和JavaScript编写的,并广泛使用Django框架。在最高级别,该平台由一个整体、一些可独立部署的应用程序(IDA)和基于ReactJS的微前端(MFE)组成。

  • lionsoul2014/ip2region 一个离线IP地址管理器框架和定位器,支持数十亿个数据段,十微秒搜索性能。适用于多种编程语言的 XDB 引擎实现

  • localForage/localForage 改进了离线存储。使用简单但功能强大的API包装IndexedDB,WebSQL或localStorage。

  • 521xueweihan/git-tips Git的奇技淫巧。Git是分布式版本管理工具,版本管理工具能记录每次的修改,只要提交到版本仓库,就可找到之前任何时刻状态(文本状态)。

  • dotnetcore/FastGithub github加速神器,解决github打不开、用户头像无法加载、releases无法上传下载、git-clone、git-pull、git-push失败等问题

  • soimort/you-get 很小的命令行实用程序,用于从 Web 下载媒体内容(视频、音频、图像),以防没有其他方便的方法可以做到这一点。

  • freefq/free 翻墙、免费翻墙、免费科学上网、免费节点、免费梯子、免费ss/v2ray/trojan节点、蓝灯、谷歌商店、翻墙梯子

  • bannedbook/fanqiang 翻墙-科学上网、翻墙工具、翻墙教程项目库

  • Dreamacro/clash Go 中基于规则的隧道。入站:HTTP,HTTPS,SOCKS5服务器,TUN设备。出站: Shadowsocks(R), VMess, Trojan, Snell, SOCKS5, HTTP(S), Wireguard。基于规则的路由:动态脚本、域、IP 地址、进程名称等。假 IP DNS:最大限度地减少对 DNS 污染的影响并提高网络性能。透明代理:通过自动路由表/规则管理重定向 TCP 和 TProxy TCP/UDP。代理组:自动回退、负载平衡或延迟测试。远程提供程序:动态加载远程代理列表。RESTful API:通过全面的 API 就地更新配置。

  • tsenart/vegeta HTTP 负载测试工具和库。超过9000!

  • Mrs4s/go-cqhttp cqhttp的golang实现,轻量、原生跨平台.容 OneBot-v11 绝大多数内容,并在其基础上做了一些扩展,详情请看 go-cqhttp 的文档。

  • zxlie/FeHelper Web前端助手,包括各种前端开发工具

  • node-red/node-red 事件驱动应用程序的低代码编程

  • baidu/amis 前端低代码框架,通过 JSON 配置就能生成各种页面。

  • taowen/awesome-lowcode 国内低代码平台从业者交流

  • brick-design/brick-design 低代码框架,支持流式布局与自由布局拖拽编排,可视化拖拽、随意嵌套组合、实时渲染、实时辅助线展示、自由布局支持辅助对齐、支持自动吸附、实时组件间距展示、实时拖拽排序、状态域管理,可视化属性配置、可视化样式配置、多设备适配展示,支持逻辑渲染、模板字符变量、表达式、自定义方法、自定义状态

  • appsmithorg/appsmith 用于构建、部署和维护内部应用程序的开源平台。您可以构建任何东西,从简单的 CRUD 应用程序、管理面板、仪表板到自定义业务应用程序和复杂的多步骤工作流。

  • alibaba/lowcode-engine 一套面向扩展设计的企业级低代码技术体系

  • jeecgboot/jeecg-boo 「企业级低代码平台」前后端分离架构SpringBoot,SpringCloud,Ant Design&Vue,Mybatis,Shiro,JWT。强大的代码生成器让前后端代码一键生成,无需写任何代码。

  • apitable/apitable 面向 API 的低代码平台,用于构建协作应用程序,比所有其他 Airtable 开源替代品都要好。

  • refinedev/refine 不受限制地构建基于 React 的 CRUD 应用程序。

  • GrapesJS/grapesjs 无需编码即可构建模板的下一代Web 构建器框架。

  • baidu/amis 前端低代码框架,通过 JSON 配置就能生成各种页面。

  • directus/directus 即时 REST+GraphQL API 和直观的无代码数据协作应用程序,适用于任何 SQL 数据库。

  • YaoApp/yao 高性能低代码应用引擎,可在数分钟内创建Web服务和应用,适用于AI、IoT、工业互联网、车联网、DevOps、能源、金融和许多其他用例。

  • illacloud/illa-builder 健壮的开源低代码平台,开发人员可以使用它来构建内部工具。通过使用ILLA的组件和动作库,开发人员可以保存大量构建工具的时间。

  • lowdefy/lowdefy 开源、自托管、低代码的框架,用于使用YAML或JSON构建内部工具、Web应用、管理面板、BI仪表板、工作流和CRUD应用。

  • openblocks-dev/openblocks 开源低代码替代方案

  • Budibase/budibase 用于在几分钟内创建内部工具、工作流和管理面板的低代码平台。支持 PostgreSQL、MySQL、MSSQL、MongoDB、Rest API、Docker、K8s 等

  • n8n-io/n8n 免费和源代码可用的公平代码许可的工作流自动化工具。跨不同服务轻松自动执行任务。

  • BuilderIO/mitosis 一次编写组件,到处运行。编译为 React、Vue、Qwik、Solid、Angular、Svelte 等

  • laravel/laravel PHP Web应用程序框架,具有富有表现力,优雅的语法。我们已经为您的下一个大创意奠定了基础——让您自由地进行创作,而不会为小事出汗。

  • laravel/framework 包含PHP Laravel框架的核心代码。

  • ziadoz/awesome-php 一个精选的列表,包含令人赞叹的 PHP 库、资源和东西。

  • top-think/think ThinkPHP Framework ——十年匠心的高性能PHP框架

  • mockery/mockery 简单而灵活的PHP模拟对象框架,用于PHPUnit,PHPSpec或任何其他的单元测试。其核心目标是提供一个具有简洁API的测试双重框架,该API能够使用人类可读的领域特定语言(DSL)清楚地定义所有可能的对象操作和交互。

  • tymondesigns/jwt-auth 适用于PHP Laravel&Lumen的JSON 网络令牌认证

  • jasontaylordev/CleanArchitecture 利用干净体系结构和 ASP.NET 核心的强大功能,为企业应用程序开发提供一种简单有效的方法。使用此模板,您可以毫不费力地创建具有 ASP.NET Core和Angular或React的单页应用程序(SPA),同时遵守清洁架构的原则。入门很简单 - 只需安装 .NET 模板。

  • httpie/cli 适用于 API 时代的现代、用户友好的命令行 HTTP 客户端。JSON支持,颜色,会话,下载,插件等。

  • nswbmw/N-blog 一起学 Node.js,使用 Express + MongoDB 搭建多人博客

  • ripienaar/free-for-dev SaaS、PaaS 和 IaaS 产品列表,这些产品对 DevOps 和 infradev 部分免费。现在有许多服务提供免费套餐,但找到它们都需要时间来做出明智的决定。

  • olistic/warriorjs 令人兴奋的编程和人工智能游戏,在 WarriorJS 中,你是一名爬上高塔到达顶层 JavaScript 剑的战士。传说持剑者在 JavaScript 语言中变得开悟,但请注意:旅程并不容易。在每一层楼,你需要编写JavaScript来指导战士与敌人作战,营救俘虏,并活着到达楼梯......

  • coreybutler/nvm-windows 适用于 Windows 的node.js版本管理实用程序。具有讽刺意味的是,用GO写的。

  • apache/brpc 使用C++语言的工业级RPC框架,通常用于高性能系统,如搜索,存储,机器学习,广告,推荐等。

  • typicode/json-server 在不到 30 秒的时间内获得零编码的完整伪造 REST API

  • ruanyf/jstraining 全栈工程师培训材料,帮助学习者掌握 JavaScript 全栈开发的基本知识,承担简单 Web 应用的前后端开发。

  • apache/thrift 一个轻量级、独立于语言的软件堆栈,用于点对点 RPC 实现。Thrift 为数据传输、数据序列化和应用程序级处理提供了干净的抽象和实现。代码生成系统将简单的定义语言作为输入,并跨编程语言生成代码,这些编程语言使用抽象堆栈来构建可互操作的 RPC 客户端和服务器。Thrift 使用不同编程语言编写的程序可以轻松共享数据和调用远程过程。由于支持 28 种编程语言,Thrift 很可能支持您当前使用的语言。Thrift 专门设计用于支持跨客户端和服务器代码的非原子版本更改。这允许您升级服务器,同时仍然能够为旧客户端提供服务;或者让较新的客户端向较旧的服务器发出请求。社区提供的关于对 API 进行版本控制时的节俭和兼容性的优秀文章可以在节俭缺失指南中找到。

  • drogonframework/drogon 基于C++14/17/20的HTTP Web应用程序框架,运行在Linux/macOS/Unix/Windows上。

  • makeplane/plane 开源JIRA,线性和高度替代。Plane 可帮助您以最简单的方式跟踪问题、史诗和产品路线图。

  • hashicorp/vagrant 用于构建和分发开发环境的工具。由Vagrant管理的开发环境可以在本地虚拟化平台(如VirtualBox或VMware)上运行,通过AWS或OpenStack在云中运行,或者在容器(如Docker或原始LXC)上运行。

  • mlandauer/cuttlefish 具有可爱Web界面的事务性电子邮件服务器

  • nylas/nylas-mail 基于现代 Web 构建的可扩展桌面邮件应用程序。

  • gorilla/websocket 一个快速、经过充分测试和广泛使用的 Go. WebSocket 实现。

  • allinurl/goaccess 一个实时 Web 日志分析器和交互式查看器,可在 *nix 系统的终端中或通过浏览器运行。

  • wasmerio/wasmer 领先的 WebAssembly 运行时,支持 WASIX、WASI 和 Emscripten,它使令人难以置信的轻量级容器能够在任何地方运行:从桌面到云,边缘甚至浏览器。

  • PHP-CS-Fixer/PHP-CS-Fixer 自动修复PHP编码标准问题的工具;无论您是想遵循PSR-1,PSR-2等中定义的PHP编码标准,还是其他社区驱动的标准,如Symfony。您还可以通过配置来定义(团队)的风格。

  • phpstan/phpstan PHP 静态分析工具 - 无需运行即可发现代码中的错误!

  • ramsey/uuid 用于生成通用唯一标识符 (UUID) 的 PHP 库。

  • PHPOffice/PhpSpreadsheet 用于读取和写入电子表格文件的纯 PHP 库

  • vlucas/phpdotenv 自动将环境变量从“.env”加载到“getenv()”,$_ENV和“$_SERVER”。

  • thephpleague/flysystem 本地和远程文件系统的抽象。一个PHP的文件存储库。它提供了一个接口来与多种类型的文件系统进行交互。当您使用 Flysystem 时,您不仅可以免受供应商锁定的影响,还可以获得适合您的一致体验。

  • KurtBestor/Hitomi-Downloader 桌面实用程序,用于从各种网站下载图像/视频/音乐/文本等。

  • NaiboWang/EasySpider 易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。

  • scrapy/scrapy 用于Python的快速高级Web爬行和抓取框架。用于抓取网站并从其页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。

  • caddyserver/caddy 具有自动 HTTPS 功能的快速且可扩展的多平台 HTTP/1-2-3 Web 服务器

  • binux/pyspider Python中强大的蜘蛛(网络爬虫)系统。

  • kataras/iris 最快的 HTTP/2 Go Web 框架。新颖、现代且易于学习。使用您控制的代码进行快速开发。

  • jhuangtw/xg2xg 一个方便的类似技术和服务的查找表,帮助前谷歌员工在现实世界中生存,系统设计入门、Hadoop 生态系统表、将 AWS 服务映射到 GCP 产品、数据库数据库、Google 开源词汇表

  • netdata/netdata 以高分辨率和实时监控您的服务器、容器和应用程序!

  • nektos/act 在本地运行 GitHub Actions,快速反馈 - 无需在每次要测试对 .github/workflows/ 文件所做的更改(或对嵌入式 GitHub 操作的任何更改)时都提交/推送,而是可以在 act 本地运行操作。环境变量和文件系统都配置为与 GitHub 提供的内容相匹配。

  • go-gitea/gitea 轻松自托管的一体化软件开发服务,包括 Git 托管、代码审查、团队协作、包注册表和 CI/CD

  • Kong/kong 一种云原生、与平台无关、可扩展的 API 网关,以其高性能和通过插件的可扩展性而著称。通过提供代理、路由、负载均衡、运行状况检查、身份验证等功能,Kong 充当了轻松编排微服务或传统 API 流量的中心层。Kong在Kubernetes上本地运行,这要归功于其官方的Kubernetes Ingress Controller。

  • getsentry/sentry 开发人员优先的错误跟踪和性能监控

  • dokku/dokku 基于 Docker 的 PaaS,可帮助您构建和管理应用程序的生命周期

  • MichaelCade/90DaysOfDevOps 正在使用这个存储库来记录我学习 DevOps 的旅程。我于 2022 年 1 月 1 日开始了这个过程,并计划持续到 3 月 31 日。我每天(包括周末)将花一个小时来获得对DevOps各个方面的基本理解。这将是一个为期 90 天的强化学习期。

  • antirez/smallchat 聊天服务器的最小C编程示例

  • zu1k/nali 一个查询IP地理信息和CDN服务提供商的离线终端工具.

  • awesome-foss/awesome-sysadmin 非常棒的开源系统管理员资源的精选列表。

  • SoftEtherVPN/SoftEtherVPN 跨平台多协议 VPN 软件。

  • vishnubob/wait-for-it 纯 bash 脚本,用于测试和等待 TCP 主机和端口的可用性

  • Mailu/Mailu 孤立的电子邮件分发 - 作为 Docker 映像的邮件服务器

  • mailcow/mailcow-dockerized 一个基于 Docker 的开源群件/电子邮件套件。Mailcow 依赖于许多众所周知且长期使用的组件,这些组件结合在一起形成了一个全方位的无忧电子邮件服务器。

  • NginxProxyManager/nginx-proxy-manager 用于管理Nginx代理主机的Docker容器,具有简单,强大的界面

  • jhy/jsoup Java HTML 解析器,专为 HTML 编辑、清理、抓取和 XSS 安全而构建。

  • PostHog/posthog 提供开源产品分析、会话录制、功能标记和 A/B 测试,您可以自行托管。

  • XX-net/XX-Net 绕过 GFW 的代理工具。不去研究墙有什么缺陷,因为所有的缺陷都会被慢慢的补上。 我们的策略是化身为普通流量,完全无法区分,最终隐身在茫茫的网络连接中。

  • txthinking/brook 一个跨平台可编程网络工具.

  • RunaCapital/awesome-oss-alternatives 知名 SaaS 产品的开源初创公司替代品的超棒列表

  • v2fly/v2ray-core 一个用于构建代理以绕过网络限制的平台。

  • cyfdecyf/cow 用 Go 编写的 HTTP 代理。COW 可以自动识别被阻止的站点并使用父代理进行访问。

  • buger/goreplay 用于捕获实时 HTTP 流量并将其重放到测试环境中,以便使用真实数据持续测试您的系统。可用于增强对代码部署、配置更改和基础结构更改的信心。

  • postalserver/postal 功能齐全的开源邮件传递平台,用于传入和传出电子邮件

  • gogs/gogs 一个无痛的自托管 Git 服务

  • yarnpkg/berry 现代的包管理器,分为各种包。其新颖的架构允许完成目前使用现有解决方案无法完成的事情:Yarn 支持插件;添加插件就像将其添加到存储库中一样简单;Yarn 默认支持 Node,插件可以添加对其他语言的支持;Yarn 原生支持工作区,其 CLI 利用了这一点;Yarn 使用类似 bash 的可移植 shell 脚本可跨 Windows、Linux 和 macOS 移植;Yarn 首先是一个 Node API,可以通过编程方式(通过 @yarnpkg/core)使用;Yarn 是用 TypeScript 编写的,并且经过了完全的类型检查

  • DIYgod/RSSHub: 🍰 Everything is RSSible 一切都是可RSS的,一个开源、易于使用且可扩展的 RSS 源生成器。它能够从几乎所有内容生成RSS提要。

  • Netflix/conductor Netflix 创建的一个平台,用于编排跨微服务的工作流程。Conductor 由 Netflix 的媒体工作流基础设施团队维护。

  • pytube/pytube 一个轻量级、无依赖的 Python 库(和命令行实用程序),用于下载 YouTube 视频。

  • Qv2ray/Qv2ray Linux / Windows / macOS 跨平台 V2Ray 客户端 | 支持 VMess / VLESS / SSR / Trojan / Trojan-Go / NaiveProxy / HTTP / HTTPS / SOCKS5 | 使用 C++ / Qt 开发 | 可拓展插件式设计

  • astrada/google-drive-ocamlfuse Google Drive 的 FUSE 文件系统(Filesystem in Userspace,用户空间中的文件系统),用 OCaml 编写。

  • umami-software/umami Google Analytics 的一款简单快速、注重隐私的替代品。

  • Alvin9999/new-pac 翻墙-科学上网、自由上网、免费科学上网、免费翻墙、油管youtube、fanqiang、VPN、一键翻墙浏览器,vps一键搭建翻墙服务器脚本/教程,免费shadowsocks/ss/ssr/v2ray/goflyway账号/节点,翻墙梯子,电脑、手机、iOS、安卓、windows、Mac、Linux、路由器翻墙、科学上网

  • adam-p/markdown-here Google Chrome,Firefox和Thunderbird扩展程序可让您在Markdown中编写电子邮件并在发送前呈现。

  • go-kratos/kratos 面向云原生时代的终极 Go 微服务框架。

  • zeromicro/go-zero 带有 cli 工具的云原生 Go 微服务框架,可提高工作效率。

  • goharbor/harbor 开源的受信任的云原生注册表项目,用于存储、签名和扫描内容。

  • locustio/locust 易于使用、可编写脚本且可扩展的性能测试工具。在常规 Python 代码中定义负载测试,而不是受仅假装为真实代码的 UI 或域特定语言的约束。这使得 Locust 可以无限扩展并且对开发人员非常友好。

  • iawia002/lux 用 Go 编写的快速简单的视频下载库和 CLI 工具

  • Molunerfinn/PicGo 由vue-cli-electron-builder构建的简单而漂亮的图片上传工具

  • itgoyo/TelegramGroup 悄咪咪收集的1000+个Telegram群合集

  • python-telegram-bot/python-telegram-bot 为 Telegram Bot API 提供了一个纯 Python 异步接口。

  • DrKLO/Telegram 一款专注于速度和安全性的消息传递应用程序。它超快速、简单且免费。此存储库包含适用于Android的Telegram应用程序的官方源代码。

  • telegramdesktop/tdesktop 官方Telegram messenger桌面客户端的完整源代码和构建说明,基于Telegram API和MTProto安全协议。

  • session-replay-tools/tcpcopy 在线请求复制工具,也是tcp流重放工具,适用于真实测试,性能测试,稳定性测试,压力测试,负载测试,冒烟测试等

  • TooTallNate/Java-WebSocket 100% Java 写的准系统 WebSocket 实现。

  • linlinjava/litemall 又一个小商城。litemall = Spring Boot后端 + Vue管理员前端 + 微信小程序用户前端 + Vue用户移动端

  • iamadamdev/bypass-paywalls-chrome 绕过适用于 Chrome 和 Firefox 的付费墙 Web 浏览器扩展程序。

  • InstaPy/InstaPy 自动执行社交媒体交互以“耕种”Instagram 上的点赞、评论和关注者的工具 使用 Selenium 模块在 Python 中实现。

  • tiangolo/uwsgi-nginx-flask-docker 带有uWSGI和Nginx的Docker镜像,用于在单个容器中运行的Python中的Flask应用程序。(可选)使用 Alpine Linux。

  • psf/requests-html 使解析 HTML(例如抓取 Web)尽可能简单直观

  • shengqiangzhang/examples-of-web-crawlers 一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、微信读书、豆瓣、QQ等网站。

  • fortra/impacket 用于处理网络协议的 Python 类的集合。专注于提供对数据包的低级编程访问,对于某些协议(例如 SMB1-3 和 MSRPC),协议实现本身。数据包可以从头开始构建,也可以从原始数据中解析,面向对象的 API 使使用协议的深层层次结构变得简单。该库提供了一组工具作为示例。

  • encode/httpx 用于 Python 3 的全功能 HTTP 客户端库。它包括一个集成的命令行客户端,支持 HTTP/1.1 和 HTTP/2,并提供同步和异步 API。

  • tweepy/tweepy 易于使用的 Python 库,用于访问 Twitter API。

  • aio-libs/aiohttp 用于 asyncio 和 Python 的异步 HTTP 客户端/服务器框架。

  • eternnoir/pyTelegramBotAPI 简单但可扩展的 Py实现,用于 Telegram Bot API。

  • aiogram/aiogram 现代且完全异步的Telegram Bot API框架,使用asyncio用Py编写

  • FiloSottile/mkcert 一个简单的零配置工具,用于使用您想要的任何名称创建本地信任的开发证书。用于制作本地信任的开发证书的简单工具。它不需要任何配置。

  • Rigellute/spotify-tui 用 Rust 编写的终端的 Spotify 客户端

  • extrawurst/gitui 用rust编写的,终端中提供了git GUI

  • zulip/zulip 开源的团队协作工具,具有独特的基于主题的线程,结合了电子邮件和聊天的优点,使远程工作高效且令人愉快。财富 500 强公司、领先的开源项目以及数以千计的其他组织每天都在使用 Zulip。Zulip 是唯一一款专为实时和异步对话而设计的现代团队聊天应用程序。

  • ArchiveBox/ArchiveBox 开源自托管 Web 存档。获取 URL/浏览器历史记录/书签/Pocket/Pinboard/等,保存 HTML、JS、PDF、媒体等

  • Jack-Cherish/python-spider Python3网络爬虫实战:淘宝、京东、网易云、B站、12306、抖音、笔趣阁、漫画小说下载、音乐电影下载等

  • TryGhost/Ghost 一款功能强大的应用程序,供专业出版商围绕其内容创建、共享和发展业务。它配备了现代工具,可以构建网站,发布内容,发送时事通讯并向会员提供付费订阅。

  • hwdsl2/setup-ipsec-vpn 使用 IPsec/L2TP、Cisco IPsec 和 IKEv2 构建您自己的 IPsec VPN 服务器的脚本

  • nextcloud/server Nextcloud 服务器,您所有数据的安全家园。功能:访问您的数据 您可以将文件、联系人、日历等存储在您选择的服务器上。同步您的数据 您可以在设备之间保持文件、联系人、日历等的同步。分享您的数据...通过让其他人访问您希望他们查看或协作的内容。可扩展数百个应用程序...例如日历、通讯录、邮件、视频聊天以及您可以在我们的 App Store 中发现的所有内容。通过我们的加密机制、HackerOne 赏金计划和双因素身份验证确保安全性。

  • juanfont/headscale 建立在 Wireguard 之上的现代 VPN。它的工作方式类似于网络计算机之间的覆盖网络 - 使用 NAT 遍历。

  • nats-io/nats-server 适用于 NATS.io、云和边缘原生消息传递系统的高性能服务器。

  • AdguardTeam/AdGuardHome 网络范围的广告和跟踪器阻止DNS服务器

  • EZLippi/Tinyhttpd J. David Blackstone在1999年写的一个不到 500 行的超轻量型 Http Server,用来学习非常不错,可以帮助我们真正理解服务器程序的本质。

  • haraka/Haraka 快速、高度可扩展且事件驱动的 SMTP 服务器

  • foxcpp/maddy 可组合的多合一邮件服务器。

  • dovecot/core 邮件服务器

  • iredmail/iRedMail 适用于Linux/BSD 发行版的全功能开源邮件服务器解决方案。

  • Foundry376/Mailspring 适用于 Mac、Windows 和 Linux 的美观、快速且完全开源的邮件客户端。

  • navidrome/navidrome 现代音乐服务器和流媒体与亚音速/Airsonic 兼容

  • processone/ejabberd 强大、无处不在且可大规模扩展的消息传递平台(XMPP、MQTT、SIP 服务器)

  • firezone/firezone 基于 WireGuard® 的可扩展远程访问平台,与您的 IdP 集成,无需开放端口。开源平台,可安全地管理任何规模组织的远程访问。与大多数 VPN 不同,Firezone 采用精细、最低权限的访问管理方法,采用基于组的策略来控制对单个应用程序、整个子网以及介于两者之间的所有内容的访问。

  • Pawdroid/Free-servers 免费订阅地址,免费节点,6小时更新一次,共享节点,节点质量高可用,完全免费。免费clash订阅地址,免费翻墙、免费科学上网、免费梯子、免费ss/v2ray/trojan节点、谷歌商店、翻墙梯子。

  • vernesong/OpenClash 可运行在 OpenWrt 上的 Clash 客户端。兼容 Shadow socks、ShadowsocksR、Vmess、Trojan、Snell 等协议,根据灵活的规则配置实现策略代理

  • artilleryio/artillery 云规模的负载测试,就像 1-2-3 一样简单。开箱即用的无服务器和分布式。永不扩展

  • novnc/noVNC  HTML VNC 客户端 JS库,也是一个基于该库构建的应用程序。noVNC 在任何现代浏览器(包括移动浏览器(iOS 和 Android))中都能正常运行。

  • LibVNC/libvncserver LibVNCServer/LibVNCClient 是跨平台的 C 库,可让您在程序中轻松实现 VNC 服务器或客户端功能。

  • activepieces/activepieces 您最友好的开源多合一自动化工具 工作流自动化工具 ✨ 100+ 集成 / 企业自动化工具 / ChatBot / Zapier相关应用

  • huginn/huginn 用于构建代理的系统,这些代理可以为您在线执行自动化任务。他们可以阅读网络、监视事件并代表您采取行动。Huginn 的代理创建和使用事件,并沿有向图传播它们。将其视为您自己的服务器上 IFTTT 或 Zapier 的可破解版本。

  • pinpoint-apm/pinpoint APM,用于大规模分布式系统的应用程序性能管理工具。

  • grpc/grpc 现代、开源、高性能的远程过程调用 框架,可以在任何地方运行。gRPC 使客户端和服务器应用程序能够透明地进行通信,并简化连接系统的构建。

  • TKkk-iOSer/WeChatPlugin-MacOS MacOS微信小助手 v2.0,消息自动回复、消息防撤回、远程控制(已支持语音)、微信多开、第二次登录免认证、聊天置底功能(类似置顶)、微信窗口置顶、会话多选删除、自动登录开关、通知中心快捷回复、聊天窗口表情包复制 & 存储、小助手检测更新提醒、alfred 快捷发送消息 & 打开窗口 (需安装:wechat-alfred-workflow)、会话一键已读、一键清除空会话、支持国际化、新增一键更新、新增关于小助手、去除微信url转链、史上最强 alfred 扩展、新增移除会话(不删除聊天记录)、菜单栏(关于小助手)新增 alfred 开关、新增是否使用微信自带浏览器开关、新增LaunchBar 扩展、新增禁止微信检测更新开关(非App Store版本)、新增小助手.app安装方式、支持退群监控,撤回消息定位

  • alexcasalboni/aws-lambda-power-tuning 开源工具,可帮助您可视化和微调 Lambda 函数的内存/电源配置。它在您自己的 AWS 账户中运行(由 AWS Step Functions 提供支持),并支持三种优化策略:成本、速度和平衡。

  • oldj/SwitchHosts 用于管理hosts文件的应用程序,它基于Electron,React,Jotai,Chakra UI,CodeMirror等。

  • rclone/rclone 命令行程序,用于将文件和目录与不同的云存储提供商同步。如Google Drive、S3、Dropbox、Backblaze B2、One Drive、Swift、Hubic、Wasabi、Google Cloud Storage、Yandex Files

  • alex/what-happens-when 试图回答古老的面试问题“当您在浏览器中输入 google.com 并按回车键时会发生什么?

  • syncthing/syncthing 连续的文件同步程序。它在两台或多台计算机之间同步文件。我们努力实现以下目标。目标按重要性顺序列出,最重要的目标排在最前面。

  • netbox-community/netbox 用于建模和记录现代网络的领先解决方案。通过将 IP 地址管理 (IPAM) 和数据中心基础设施管理 (DCIM) 的传统规则与强大的 API 和扩展相结合,NetBox 为网络自动化提供了理想的“事实来源”。NetBox 作为 Apache 2.0 许可下的开源软件提供,是数千个组织网络自动化的基石。物理基础设施:精确地模拟物理世界,从全球区域到单个设备机架。然后连接一切 - 网络、控制台和电源!现代 IPAM:您期望的所有标准 IPAM 功能,以及 VRF 导入/导出跟踪、VLAN 管理和覆盖网络支持。数据电路:自信地管理来自各种服务提供商的关键电路的交付,并与您自己的基础设施无缝建模。功率跟踪:将上游电源的功率分布映射到各个馈电和插座。组织:以本机方式管理租户和联系人分配。强大的搜索功能:使用单一的全局搜索功能轻松找到您需要的任何内容。全面的日志记录:利用自动更改日志记录和用户提交的日志条目来跟踪网络随时间推移的增长情况。无尽的自定义:自定义字段、自定义链接、标签、导出模板、自定义验证、报告、脚本等!灵活的权限:高级权限系统可实现非常灵活的权限委派。集成:通过其REST和GraphQL API轻松将NetBox连接到您的其他工具。插件:尝试众多社区插件之一 - 或构建自己的插件!

  • discourse/discourse 您社区的在线主页。我们为那些希望完全控制其网站运行方式和位置的人提供 100% 开源社区平台。

  • novuhq/novu 面向开发人员的开源通知基础结构。使用单个 API 管理多渠道通知的终极服务。适用于所有消息传递提供商的单一 API(应用内、电子邮件、短信、推送、聊天)。轻松管理多个渠道的通知。配备CMS,用于高级布局和设计管理。内置对缺失变量的保护。易于设置和集成。在单个仪表板中调试和分析多渠道消息。具有实时更新的嵌入式通知中心。社区驱动。

  • frappe/erpnext 免费和开源的企业资源规划 (ERP),包括以下用于管理业务的领域:会计、仓库管理、客户关系管理、销售、购买、人力资源管理系统、项目管理、支持、资产管理、质量管理、制造业、网站管理、自定义 ERPNext、还有更多

  • odoo/odoo 基于Web的开源商业应用程序。包括开源CRM,网站构建器,电子商务,仓库管理,项目管理,计费和会计,销售点,人力资源,营销,制造,...

  • yt-dlp/yt-dlp  youtube-dl 分支,基于现在不活跃的 youtube-dlc。该项目的主要重点是添加新功能和补丁,同时与原始项目保持同步

  • FreeTubeApp/FreeTube 用于隐私的开源 YouTube 应用程序

  • diaspora/diaspora 一个具有隐私意识的分布式开源社交网络。

  • wildfirechat/im-server 专业级的即时通讯和实时音视频整体解决方案

  • IceWhaleTech/CasaOS 简单、易用、优雅的开源个人云系统。与社区建立联系,建立自主权,降低 SaaS 的成本,并最大限度地发挥个性化副驾驶的潜力。

  • filebrowser/filebrowser 指定目录下提供了一个文件管理界面,可用于上传、删除、预览、重命名和编辑您的文件。它允许创建多个用户,每个用户都可以拥有自己的目录。它可以用作独立应用程序。

  • StevenBlack/hosts  整合和扩展来自多个精心策划的来源的主机文件。(可选)选择色情、社交媒体和其他类别的扩展。

  • ytdl-org/youtube-dl 用于从 YouTube.com 和其他视频网站下载视频的命令行程序

  • iptv-org/iptv 收集来自世界各地的公开可用的IPTV(互联网协议电视)频道。

  • wg/wrk 现代 HTTP 基准测试工具,能够在单个多核 CPU 上运行时产生大量负载。它将多线程设计与可扩展的事件通知系统(如 epoll 和 kqueue)相结合。可选的 LuaJIT 脚本可以执行 HTTP 请求生成、响应处理和自定义报告。

  • shadowsocks/ShadowsocksX-NG 下一代 ShadowsocksX

  • nsqio/nsq 实时分布式消息传递平台,旨在大规模运行,每天处理数十亿条消息。它促进了分布式和分散式拓扑结构,没有单点故障,实现了容错和高可用性以及可靠的消息传递保证。查看功能和保证。在操作上,NSQ 易于配置和部署(所有参数都在命令行上指定,编译的二进制文件没有运行时依赖性)。为了获得最大的灵活性,它与数据格式无关(消息可以是 JSON、MsgPack、协议缓冲区或其他任何格式)。官方的 Go 和 Python 库(以及许多其他客户端库)开箱即用,如果您有兴趣构建自己的库,这里有一个协议规范。

  • monicahq/monica 个人客户关系管理。记住你的朋友、家人和业务关系的一切。

  • agalwood/Motrix 功能齐全的下载管理器,支持下载 HTTP、FTP、BitTorrent、Magnet 等。

  • brave/brave-browser 适用于 Android、Linux、macOS、Windows 的下一代 Brave (Chromium) 浏览器。

  • shuzheng/zheng 基于Spring+SpringMVC+Mybatis分布式敏捷开发系统架构,提供整套公共微服务模块:集中权限管理(单点登录)、内容管理、支付中心、用户管理(支持三方登录)、微信平台、存储系统、配置中心、日志分析、任务和通知等,支持服务治理、监控和追踪,努力为中小型企业打造全方位J2EE企业级开发解决方案。

  • square/okhttp Square 适用于 JVM、Android 和 GraalVM 的细致 HTTP 客户端。

  • square/retrofit 适用于 Android 和 JVM 的类型安全 HTTP 客户端

  • XIU2/CloudflareSpeedTest 「自选优选 IP」测试 Cloudflare CDN 延迟和速度,获取最快 IP !当然也支持其他 CDN / 网站 IP

  • heyxyz/hey 使用 Lens Protocol 构建的去中心化且无需许可的社交媒体应用程序

  • calcom/cal.com 为所有人安排基础设施。Calendly 和其他调度工具很棒。它使我们的生活变得非常轻松。我们用它来参加商务会议、研讨会、瑜伽课,甚至与家人通话。但是,大多数工具在控制和定制方面都非常有限。

  • medusajs/medusa 一组商务模块和工具,可让您构建丰富、可靠且高性能的商务应用程序,而无需重新发明核心商务逻辑。这些模块可以定制并用于构建高级电子商务商店、市场或任何需要基础商务原语的产品。

  • grpc/grpc-go gRPC 的 Go 语言实现。基于 HTTP/2 的 RPC

  • grpc/grpc-java Java gRPC 实现。基于 HTTP/2 的 RPC

  • grpc/grpc-web 适用于 Web 客户端的 gRPC

  • mattermost/mattermost 开源平台,用在整个软件开发生命周期中实现安全协作。

  • pion/webrtc WebRTC API 的纯 Go 实现

  • cachethq/cachet 开源状态页面系统。

  • asciimoo/wuzz 用于 HTTP 检查的交互式 cli 工具。类似于 cURL 的参数,因此它可用于检查/修改从浏览器的网络检查器复制的请求,并具有“复制为 cURL”功能。

  • cilium/cilium 基于 eBPF 的网络、安全性和可观测性

  • wekan/wekan 开源看板,体验高效的任务管理,开源、可定制且注重隐私的看板。

  • apache/incubator-answer 适用于任何规模团队的问答平台软件。无论是社区论坛、帮助中心还是知识管理平台,您始终可以信赖 Apache Answer。

  • forem/forem 开源平台,用于构建现代、独立和安全的社区。

  • Binaryify/NeteaseCloudMusicApi 网易云音乐 Node.js API service

  • cryptomator/cryptomator 对云中的文件进行多平台透明客户端加密

  • movie-web/movie-web 一个小型网络应用程序,可轻松观看电影和节目

  • aria2/aria2 轻量级的多协议和多源、跨平台的下载实用程序,在命令行中运行。它支持 HTTP/HTTPS、FTP、SFTP、BitTorrent 和 Metalink。

  • gfwlist/gfwlist 阻止和干扰包含敏感或不需要信息的网站

  • valyala/fasthttp Go 的快速 HTTP 包。针对高性能进行了调整。热路径中的内存分配为零。比 net/http 快 10 倍

  • cloudreve/Cloudreve 自托管文件管理系统,支持多云。特征:支持将文件存储到本地存储、远程存储、七牛、阿里云 OSS、腾讯 COS、Upyun、OneDrive、S3 兼容 API。直接传输上传/下载,支持限速。与 Aria2 集成以离线下载文件,使用多个下载节点来分担负载。压缩/解压文件,批量下载文件。涵盖所有存储提供商的 WebDAV 支持。拖放以上传文件或文件夹,并具有流式上传处理功能。拖放以管理您的文件。多用户与多组。为具有到期日期的文件和文件夹创建共享链接。在线预览视频、图像、音频、ePub 文件;在线编辑文本、Office 文档。自定义主题颜色、深色模式、PWA 应用程序、SPA、i18n。多合一包装,所有功能开箱即用。

  • tailscale/tailscale 使用 WireGuard 和 2FA 的最简单、最安全的方式。

  • trailofbits/algo 一组 Ansible 脚本,可简化个人 WireGuard 和 IPsec VPN 的设置。使用最安全的默认值,并与常见的云提供商合作。

  • ginuerzh/gost GO语言实现的安全隧道。特性:多端口监听、可设置转发代理,支持多级转发(代理链)、支持标准HTTP(2)(S)/SOCKS4(A)(5)代理协议、Web代理支持探测防御、支持多种隧道类型、SOCKS5代理支持TLS协商加密、基于 TCP 的隧道 UDP、TCP/UDP透明代理、本地/远程TCP/UDP转发、支持Shadowsocks(TCP/UDP)协议、支持SNI代理、权限控制、负载均衡、路由控制、DNS解析和代理、TUN/TAP设备

  • wagtail/wagtail 基于 Django 的开源内容管理系统,拥有强大的社区和商业支持。它专注于用户体验,并为设计人员和开发人员提供精确的控制。

  • skywind3000/kcp 快速可靠协议,能以比 TCP 浪费 10%-20% 的带宽的代价,换取平均延迟降低 30%-40%,且最大延迟降低三倍的传输效果。纯算法实现,并不负责底层协议(如UDP)的收发,需要使用者自己定义下层数据包的发送方式,以 callback的方式提供给 KCP。 连时钟都需要外部传递进来,内部不会有任何一次系统调用。CP是为流量设计的(每秒内可以传输多少KB的数据),讲究的是充分利用带宽。而 KCP是为流速设计的(单个数据包从一端发送到一端需要多少时间),以10%-20%带宽浪费的代价换取了比 TCP快30%-40%的传输速度。TCP信道是一条流速很慢,但每秒流量很大的大运河,而KCP是水流湍急的小激流。

  • twitter/finagle 容错、与协议无关的 RPC 系统。JVM 的可扩展 RPC 系统,用于构建高并发服务器。Finagle 为多种协议实现了统一的客户端和服务器 API,专为高性能和并发性而设计。Finagle 的大部分代码都与协议无关,从而简化了新协议的实现。

  • TeamNewPipe/NewPipe 适用于 Android 的自由轻量级流媒体前端。

  • mayswind/AriaNg 一个现代的 Web 前端,使 aria2 更易于使用。

  • Shabinder/SpotiFlyer Kotlin 多平台音乐下载器,支持 Spotify / Gaana / Youtube Music / Jio Saavn / SoundCloud。

  • ajayyy/SponsorBlock 跳过 YouTube 视频赞助商(浏览器扩展程序)

  • libre-tube/LibreTube 适用于 Android 的 YouTube 的替代前端。

  • daltoniam/Starscream 适用于 iOS 和 OSX 的 swift 中的 Websockets

  • cloudflare/quiche IETF 指定的 QUIC 传输协议和 HTTP/3 的实现。它提供了一个低级 API,用于处理 QUIC 数据包和处理连接状态。该应用程序负责提供 I/O(例如套接字处理)以及支持计时器的事件循环。

  • cloudflare/cfssl Cloudflare 的 PKI 和 TLS 工具包。既是命令行工具,又是用于签名、验证和捆绑 TLS 证书的 HTTP API 服务器。

  • cloudflare/cloudflared 包含 Cloudflare Tunnel 的命令行客户端,这是一个隧道守护程序,用于代理从 Cloudflare 网络到源的流量。此守护程序位于 Cloudflare 网络和您的源(例如 Web 服务器)之间。Cloudflare 吸引客户端请求并通过此守护程序将其发送给您,而无需您在防火墙上戳洞,---您的源可以尽可能保持关闭状态。

  • qbittorrent/qBittorrent 用C++ / Qt编程的bittorrent客户端,它使用Arvid Norberg的libtorrent(有时称为libtorrent-rasterbar)。它旨在成为所有其他 bittorrent 客户端的良好替代品。qBittorrent 快速、稳定,并提供 unicode 支持以及许多功能。

  • c0re100/qBittorrent-Enhanced-Edition qBittorrent 增强,基于 qBittorrent。特征:Auto Ban 迅雷、QQ、百度、Xfplay、DLBT和离线下载器;自动禁止来自中国的未知对等方选项(默认:关闭);自动更新公共跟踪器列表(默认:关闭);自动禁止 BitTorrent 媒体播放器对等选项(默认:关闭);对等白名单/黑名单

  • ZLMediaKit/ZLMediaKit 基于 C++11 的 WebRTC/RTSP/RTMP/HTTP/HLS/HTTP-FLV/WebSocket-FLV/HTTP-TS/HTTP-fMP4/WebSocket-TS/WebSocket-fMP4/GB28181/SRT 服务器和客户端框架

  • go-chi/chi 轻量级、惯用且可组合的路由器,用于构建 Go HTTP 服务

  • go-resty/resty Go 的简单 HTTP 和 REST 客户端库

  • radishes-music/radishes 跨平台的无版权的音乐平台

  • BlueMatthew/WechatExporter 微信聊天记录导出备份程序

  • chimurai/http-proxy-middleware 用于连接、快速、next.js等的单行node.js http 代理中间件

  • knadh/listmonk 高性能、自托管、时事通讯和邮件列表管理器,具有现代仪表板。

  • KRTirtho/spotube 开源 Spotify 客户端,不需要 Premium,也不使用 Electron,适用于桌面和移动设备

  • msgbyte/tailchat 不仅是 IM。相反,它为个人/团队设计了一个以IM为中心的高度定制化的应用平台,以第三方应用作为增强功能,以插件系统作为中间的胶水连接层。

  • koishijs/koishi 用爱制作的跨平台聊天机器人框架

  • Nyr/openvpn-install 适用于 Ubuntu、Debian、AlmaLinux、Rocky Linux、CentOS 和 Fedora 的 OpenVPN road warrior 安装程序

  • dgtlmoon/changedetection.io 最好和最简单的免费开源网站更改检测、网站观察器、补货监控和通知服务。补货监控,变化检测。为简单而设计 - 只需免费监控哪些网站有文本更改。免费开源网页变更检测、网站污损监控、价格变更通知

  • haproxy/haproxy HAProxy Load Balancer 的开发分支(git.haproxy.org 镜像)。高性能的负载均衡软件。因为其专注于负载均衡这一些事情,因此与nginx比起来在负载均衡这件事情上做更好,更专业。

  • centrifugal/centrifugo 以与语言无关的方式扩展实时消息服务器。Pubnub、Pusher、Ably 的自托管替代品。设置一次,永远设置。开源、可扩展的实时消息服务器。Centrifugo可以即时向通过支持的传输(WebSocket、HTTP-streaming、SSE/EventSource、GRPC、SockJS、WebTransport)连接的应用程序在线用户发送消息。具有频道订阅的概念——因此它是一个面向用户的 PUB/SUB 服务器。

  • GopeedLab/gopeed 支持所有平台的现代下载管理器。使用 Go 和 Flutter 构建。

  • ekzhang/sshx 通过网络进行快速、协作的实时终端共享

  • adnanh/webhook 轻量级的传入 Webhook 服务器,用于运行 shell 命令

  • openresty/openresty 基于 Nginx 和 LuaJIT 的高性能 Web 平台

  • janeczku/calibre-web 用于浏览、阅读和下载存储在 Calibre 数据库中的电子书的 Web 应用程序

  • messense/aliyundrive-webdav 阿里云盘 WebDAV 服务

  • webtorrent/webtorrent-desktop 流媒体 torrent 应用程序。适用于 Mac、Windows 和 Linux。

  • koodo-reader/koodo-reader 具有 Windows、macOS、Linux 和 Web 同步和备份功能的现代电子书管理器和阅读器

  • rrweb-io/rrweb “记录和重放网络”,用于记录和重放用户在网络上的交互的工具。

  • apernet/OpenGFW  Linux 上 GFW(中国防火墙)的灵活、易用的开源实现

  • cdnjs/cdnjs 免费和开源 CDN,旨在让开发人员的生活更轻松。

  • cloudflare/pingora Rust 框架,用于构建快速、可靠和可编程的网络系统。Pingora 经过了实战考验,因为它已经为每秒超过 4000 万个互联网请求提供服务了几年多。

  • docker-mailserver/docker-mailserver 生产就绪的全栈但简单的邮件服务器(SMTP、IMAP、LDAP、反垃圾邮件、防病毒等)在容器内运行。

  • localsend/localsend AirDrop 的开源跨平台替代方案,可让您通过本地网络安全地与附近的设备共享文件和消息,而无需互联网连接。

  • schollz/croc 轻松安全地将内容从一台计算机发送到另一台计算机

  • mickael-kerjean/filestash 用于 SFTP、S3、FTP、WebDAV、Git、Minio、LDAP、CalDAV、CardDAV、Mysql、Backblaze 等的现代 Web 客户端。

  • szimek/sharedrop 由 WebRTC 提供支持的轻松 P2P 文件传输 - 灵感来自 Apple AirDrop

  • nukeop/nuclear 为您查找免费音乐的流媒体音乐播放器

  • spotDL/spotify-downloader 下载您的 Spotify 播放列表和歌曲以及专辑封面和元数据(如果找到匹配项,则从 YouTube 下载)。

  • caprover/caprover 最简单的应用程序/数据库部署平台和 Web 服务器包,适用于 NodeJS、Python、PHP、Ruby、Go 应用程序。

  • mikeroyal/Self-Hosting-Guide 自托管指南。了解有关本地托管(本地和专用 Web 服务器)以及由您自己或您的组织管理软件应用程序的所有信息。包括云、LLMs、WireGuard、自动化、家庭助理和网络。

  • leiurayer/downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。

  • zerotier/ZeroTierOne 用于地球的智能可编程以太网交换机。它允许所有联网设备、虚拟机、容器和应用程序进行通信,就好像它们都驻留在同一个物理数据中心或云区域中一样。这是通过将加密寻址的安全对等网络(称为 VL1)与有点类似于 VXLAN(称为 VL2)的以太网仿真层相结合来实现的。我们的 VL2 以太网虚拟化层包括高级企业 SDN 功能,例如用于网络微分段和安全监控的细粒度访问控制规则。所有 ZeroTier 流量都使用只有您才能控制的密钥进行端到端加密。大多数流量都是点对点的,但我们为无法建立点对点连接的用户提供免费(但速度慢)的中继。

  • chatwoot/chatwoot 开源实时聊天、电子邮件支持、全渠道服务台。Intercom、Zendesk、Salesforce Service Cloud 等的替代品。支持以下对话渠道:网站:使用我们的实时聊天小部件与您的客户交谈,并利用我们的 SDK 来识别用户并提供上下文支持。Facebook、Instagram、Twitter、Telegram、WhatsApp、Line、Twilio 短信、API 通道、电子邮件。其他功能包括:CRM、自定义属性、共享多品牌收件箱、私人笔记、预制回复、对话标签、自动分配:根据可用性和负载智能地分配给有权访问收件箱的座席、对话连续性、多语言支持、强大的 API 和 Webhook

  • dutchcoders/transfer.sh 从命令行轻松快速地共享文件。此代码包含服务器,其中包含创建自己的实例所需的一切。目前支持 s3 (Amazon S3)、gdrive (Google Drive)、storj (Storj) 提供程序和本地文件系统 (local)。

  • microsoft/IoT-For-Beginners 12 周,24 节课,面向所有人的物联网!

  • Moya/Moya 用 Swift 编写的网络抽象层。

  • mamoe/mirai 在全平台下运行,提供 QQ Android 协议支持的高效率机器人库

  • hubotio/hubot 构建聊天机器人的框架,以 GitHub 的同名 Campfire 机器人 hubot 为蓝本。他很酷。可以使用脚本进行扩展,并且可以在许多不同的聊天服务上工作。

  • tgbot-collection/YYeTsBot 人人影视 机器人和网站,包含人人影视全部资源以及众多网友的网盘分享

  • element-hq/element-web 一个光鲜亮丽的 Web Matrix 协作客户端。

  • gotify/server 简单的服务器,用于每个 WebSocket 实时发送和接收消息。

  • sockjs/sockjs-client WebSocket 仿真 - Javascript 客户端

  • Jackett/Jackett 您最喜欢的 torrent 跟踪器,Jackett 用作代理服务器:它将来自应用程序(Sonarr、Radarr、SickRage、CouchPotato、Mylar3、Lidarr、DuckieTV、qBittorrent、Nefarious 等)的查询转换为特定于跟踪器站点的 http 查询,解析 html 或 json 响应,然后将结果发送回请求软件。这允许获取最近上传的内容(如 RSS)并执行搜索。Jackett 是维护索引器抓取和翻译逻辑的单一存储库 - 消除了其他应用程序的负担。

  • lingochamp/FileDownloader Android多任务文件下载引擎。多任务、多线程(MultiConnection)、断点-恢复、高并发、简单易用、单/非单进程

  • lingochamp/okdownload 可靠、灵活、快速、强大的Android下载引擎。

  • web1n/wechat-universal-flatpak 基于微信 Linux Universal 版打包,无发行版限制。

  • versatica/mediasoup 尖端的 WebRTC 视频会议。MediaSoup 及其客户端库旨在实现以下目标:成为 SFU(选择性转发单元)。支持 WebRTC 和普通 RTP 输入和输出。是服务器端的Node.js模块或 Rust crate。成为客户端的小型 TypeScript 和 C++ 库。极简主义:只需处理媒体层即可。信令不可知:不要强制要求任何信令协议。是超低级别的 API。支持所有现有的 WebRTC 端点。启用与知名多媒体库/工具的集成。

  • public-api-lists/public-api-lists 用于软件和 Web 开发的免费 API 的集合列表。

  • drakkan/sftpgo 功能齐全且高度可配置的 SFTP、HTTP/S、FTP/S 和 WebDAV 服务器 - S3、Google Cloud Storage、Azure Blob

  • sergiotapia/magnetissimo 为所有流行的 torrent 站点编制索引并将其保存到本地数据库的 Web 应用程序。

  • Sonarr/Sonarr Usenet 和 BitTorrent 用户的 PVR。它可以监控您喜欢的节目的新剧集的多个 RSS 提要,并会抓取、排序和重命名它们。它还可以配置为在质量更好的格式可用时自动升级已下载文件的质量。

  • Radarr/Radarr Usenet 和 BitTorrent 用户的电影收藏管理器。它可以监控新电影的多个 RSS 源,并将与客户端和索引器交互以抓取、排序和重命名它们。它还可以配置为在有更好的质量格式可用时自动升级库中现有文件的质量。请注意,仅支持给定影片的一种类型。如果您想要给定电影的 4k 版本和 1080p 版本,则需要多个实例。

  • webtorrent/instant.io 通过 WebTorrent 传输流式文件(网络上的种子)。使用 WebTorrent 协议(基于 WebRTC 的 BitTorrent)下载/上传文件。由 WebTorrent 提供支持,这是第一个无需插件即可在浏览器中运行的 torrent 客户端。WebTorrent 由 JavaScript 和 WebRTC 提供支持。支持 Chrome、Firefox、Opera(桌面和 Android)。在控制台中运行 localStorage.debug = '*' 并刷新以获取详细的日志输出。

  • transmission-remote-gui/transgui 功能丰富的跨平台传输BitTorrent客户端。比内置的 Web GUI 更快,功能更多。

  • roundcube/roundcubemail 基于浏览器的多语言 IMAP 客户端,具有类似应用程序的用户界面。它提供了您期望从电子邮件客户端获得的全部功能,包括 MIME 支持、地址簿、文件夹管理、邮件搜索和拼写检查。Roundcube Webmail 是用 PHP 编写的,需要 MySQL、PostgreSQL 或 SQLite 数据库。凭借其插件 API,它很容易扩展,并且用户界面可以使用皮肤完全自定义。设计用于在 Web 服务器上运行的代码主要用 PHP 和 Javascript 编写。它包括一个自定义框架,其中包含派生自 IlohaMail 的 IMAP 库,并且需要一组外部库(请参阅 composer.json 和 jsdeps.json 文件)。

  • https://github.com/pallets/werkzeug 全面的 python WSGI Web 应用程序库。它最初是 WSGI 应用程序的各种实用程序的简单集合,现已成为最先进的 WSGI 实用程序库之一。包括:一个交互式调试器,允许在浏览器中使用堆栈中任何帧的交互式解释器检查堆栈跟踪和源代码。一个功能齐全的请求对象,其中包含用于与标头、查询参数、表单数据、文件和 Cookie 交互的对象。一个响应对象,可以包装其他 WSGI 应用程序并处理流数据。用于将 URL 匹配到端点并为端点生成 URL 的路由系统,以及用于从 URL 捕获变量的可扩展系统。HTTP 实用程序,用于处理实体标记、缓存控制、日期、用户代理、cookie、文件等。在本地开发应用程序时使用的线程 WSGI 服务器。一个测试客户端,用于在测试期间模拟 HTTP 请求,而无需运行服务器。

  • hiddify/hiddify-next 多平台自动代理客户端,支持Sing-box、X-ray、TUIC、Hysteria、Reality、Trojan、SSH等。它是开源的、安全的、无广告的。

  • kangvcar/InfoSpider 集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

  • berty/berty 安全的点对点消息传递应用程序,无论是否具有互联网访问、蜂窝数据或网络信任,都可以使用。建立在 Wesh 协议之上的隐私优先消息传递应用程序。安全和私密:默认情况下,消息是端到端加密的;元数据保持在最低限度;创建帐户不需要电话号码或电子邮件地址;即使在对抗性网络上使用时,也能保留其属性;具有审查弹性;去中心化、分布式、点对点和无服务器;由于采用了 BLE 技术和 mDNS,因此不需要互联网连接。;永久免费和开源Berty 被设计为在所有其他传统信使失败时用作通信工具。Berty Messenger 提供以下用例:当您需要通过不受信任的网络共享敏感信息时,例如在旅行时; 如果您想匿名交流;如果您想完全控制您的数据,因此不想依赖第三方服务器; 在积极监控和调整其网络的国家,限制其使用并审查其某些内容;在连接较弱或根本没有连接的区域。

  • Evil0ctal/Douyin_TikTok_Download_API 开箱即用的高性能异步抖音、快手、TikTok、Bilibili数据爬取工具,支持API调用,在线批量解析及下载。

  • secdev/scapy 基于Python的交互式数据包操作程序和库。它能够伪造或解码各种协议的数据包,通过网络发送它们,捕获它们,使用 pcap 文件存储或读取它们,匹配请求和回复等等。它旨在通过使用有效的默认值来允许快速数据包原型设计。它可以轻松处理大多数经典任务,如扫描、跟踪路由、探测、单元测试、攻击或网络发现(它可以替换 hping 、 等的 85% nmap arpspoof arp-sk arping tcpdump wireshark p0f 的 、它在大多数其他工具无法处理的许多其他特定任务中也表现得很好,例如发送无效帧、注入您自己的 802.11 帧、组合技术(VLAN 跳跃 + ARP 缓存中毒、WEP 受保护信道上的 VoIP 解码等)等。Scapy 支持 Python 3.7+。它旨在跨平台运行,并在许多不同的平台(Linux、OSX、*BSD 和 Windows)上运行。

  • uNetworking/uWebSockets 简单、安全且符合标准的 Web 服务器,适用于要求最苛刻的应用程序。μWebSockets 针对速度和内存占用进行了精心优化,速度足够快,可以比大多数替代服务器更快地完成加密的 TLS 1.3 消息传递,甚至可以执行未加密的明文消息传递。μWebSockets完全是用C&C++编写的,但与Node.js后端无缝集成。这允许使用广泛的能力快速编写功能强大的应用程序的脚本。请参见μWebSockets.js。μWebSockets 为世界上许多最大的加密货币交易所提供支持,每天处理数十亿美元的交易量。如果您交易加密货币,您很有可能通过μWebSockets进行交易。围绕一个方便的URL路由器设计,支持通配符和参数 - 与WebSockets的高效发布/订阅功能配对。μWebSockets 应该是任何具有高要求的实时 Web 项目的明显、完整的起点。μWebSockets 建立在 μSockets 之上,μSockets 是一个在三个不同层中实现事件、网络和加密的基础库。每一层都有多个实现,您可以使用标志控制编译后的组合。目前有五个事件循环集成;libuv、ASIO、GCD 和原始 epoll/kqueue。

  • VinciGit00/Scrapegraph-ai 网络抓取 python 库,它使用LLM和指导图形逻辑为网站和本地文档(XML、HTML、JSON 等)创建抓取管道。有三种主要的抓取管道可用于从网站(或本地文件)中提取信息:只需要用户提示和输入源的单页抓取工具;从搜索引擎的前 n 个搜索结果中提取信息的多页抓取工具;从网站中提取信息并生成音频文件的单页抓取工具。

区块链、智能合约

  • chaozh/awesome-blockchain-cn 收集所有区块链(BlockChain)技术开发相关资料,包括Fabric和Ethereum开发资料

  • bitcoin/bitcoin 比特币核心代码功能的集成/暂存树

  • ethereum/go-ethereum 以太坊协议的官方Go实现

  • ethereum/solidity 静态类型的、面向合约的高级语言,用于在以太坊平台上实现智能合约。

  • imfly/bitcoin-on-nodejs 《Node.js区块链开发》

  • OpensourceBooks/blockchain 开源教程:从零开始写区块链

  • yeasy/blockchain_guide 区块链技术指南。以全球最大的开源分布式账本项目——超级账本为例讲解具体应用。

  • dvf/blockchain 一个简单的 Python 区块链

  • anders94/blockchain-demo 基于网络的区块链概念演示。

  • Jeiwan/blockchain_go Golang 中的简化区块链实现

  • liuchengxu/blockchain-tutorial 简体中文区块链教程

  • The-Hitchhiker-s-Guide-to-the-Blockchain-Sec 《区块链安全入门与实战》

  • slowmist/Blockchain-dark-forest-selfguard-handbook 区块链黑暗森林自救手册掌握这些,掌握你的加密货币安全。

  • Rivaill/CryptoVulhub 分析和重现区块链世界中的攻击事件或漏洞。

  • bunturx/Awesome-Blockchain-Security 由伟大的@0xRajeev 创建核心焦点将是以太坊智能合约安全审计。 以太坊、Solidity、智能合约安全和审计。

  • FuelLabs/sway 使每个人都能构建可靠高效的智能合约。Sway是为Fuel区块链开发的一种语言。深受 Rust 的启发,旨在为区块链生态系统带来现代语言开发和性能。

  • ccxt/ccxt JavaScript / TypeScript / Python / C# / PHP加密货币交易API,支持100多个比特币/山寨币交易所

  • diem/diem Diem的使命是建立一个值得信赖和创新的金融网络,为世界各地的人们和企业提供支持。Diem Core 实现了一个去中心化、可编程的分布式账本,它提供了一个可以为数十亿人赋能的金融基础设施。

  • monero-project/monero 门罗币:安全、私密、无法追踪的加密货币 。你是你的银行,你控制着你的资金,除非你允许他们这样做,否则没有人可以追踪你的转账。隐私:门罗币使用加密系统,允许您发送和接收资金,而无需在区块链(每个人都拥有的交易分类账)上轻松显示您的交易。这可确保您的购买、收据和所有转账在默认情况下保持私密。安全性:利用分布式点对点共识网络的强大功能,网络上的每笔交易都受到加密保护。单个钱包有一个 25 个单词的助记词种子,只显示一次,可以写下来备份钱包。钱包文件应使用强密码进行加密,以确保它们在被盗时毫无用处。不可追踪性:通过利用环签名(某种类型的密码学的特殊属性),门罗币能够确保交易不仅不可追踪,而且具有可选的模糊度量,确保交易不容易与单个用户或计算机绑定。去中心化:门罗币的效用取决于其去中心化的点对点共识网络——任何人都应该能够运行门罗币软件,验证区块链的完整性,并使用消费级商品硬件参与门罗币网络的各个方面。门罗币网络的去中心化是通过软件开发来维持的,该软件开发最大限度地降低了运行门罗币软件的成本,并抑制了专用非商品硬件的扩散。这是门罗币的核心实现。它是开源的,可以不受限制地完全免费使用,但以下许可协议中指定的除外。对创建以兼容方式使用协议和网络的门罗币替代实现的任何人没有任何限制。

  • bitcoinbook/bitcoinbook 掌握比特币第 3 版 - 对开放区块链进行编程

  • kroma-network/tachyon GPU加速的模块化ZK(Zero Knowledge 零知识证明)后端,设计目标:通用:多功能的 ZK 库使开发人员能够以最小的工作量实现任何证明方案,从而提高开发人员的工作效率,要创建通用后端,使代码结构尽可能与代数结构保持一致至关重要。易于使用:实现广泛采用对于任何产品的成功都至关重要,因此,Tachyon项目的关键焦点之一是包括为各种编程语言和运行时提供软件包。超快:超光速子的首要要求是速度,不仅仅是任何速度,而是超快的速度,这需要 Tachyon 在 CPU 和 GPU 平台上提供卓越的性能。GPU 互操作性:Tachyon 的代码旨在在大多数情况下与 CPU 和 GPU 兼容。

  • krzyzanowskim/CryptoSwift CryptoSwift 是用 Swift 实现的标准和安全加密算法的不断增长的集合。特征:简单易用、字符串和数据的便捷扩展、支持增量更新流...、支持iOS、Android、macOS、AppleTV、watchOS、Linux。Hash (Digest) 哈希(摘要)、循环冗余校验 (CRC)、Cipher 密码、RSA(公钥加密算法)、信息身份验证器、 密码操作模式、基于密码的密钥派生函数、数据填充、使用关联数据进行身份验证加密 (AEAD)。

  • xmrig/xmrig 高性能、开源、跨平台的RandomX、KawPow、CryptoNight 和 GhostRider 统一的 CPU/GPU 矿工和 RandomX 基准测试。RandomX是一个对通用CPU友好的工作量证明算法,它使用随机代码执行和多种内存困难技术使特定的硬件(ASIC)没有特别的优势。KAWPOW是一种挖矿算法,主要归功于Ravencoin,它还支持其他加密货币,如Gravium、Hilux以及其他不太受欢迎的项目,该算法可防止ASIC和潜在的中心化,为了实现这一点,开发人员在X15和SHA51算法之间进行交替,它们的选择还取决于前一个块的散列。CryptoNight 是一个内存难解(memory-hard)哈希函数,内存难解主要是指运算过程中需要大量的暂存器,一般的 GPU 或 ASIC 很难做到有这么大的内存空间(因为成本太高),设计架构上对 GPU, FPGA 和 ASIC 不友好,其运算步骤大概分为四步,第一步:初始化大量伪随机数(存放在暂存器),伪随机指的是结果看起来像的随机产生,但每次输入相同的参数,结果都是一样的,(大概需要 2M 内存)第二步:对这些伪随机数进行大量读写操作,运算过程及中间需要保存的数据对于 GPU 或 ADIC 来说也是不友好的,(大概需要 524,288 次)第三步:源数据替换,第四步:选择合适的哈希算法,并对所有的数据进行哈希运算以得到最终结果(这里的哈希运行能确保最终生成的数据长度是相同的)。GhostRider是专门为Rap​​toreum创建的算法。它的构建旨在阻止专用硬件(例如ASIC和FPGA)的出现,从而使任何人都可以竞争性地挖掘它并增加总体分散性。

  • HelloZeroNet/ZeroNet 使用比特币加密货币和 BitTorrent 网络的去中心化网站

  • freqtrade/freqtrade 用 Python 编写的免费开源加密交易机器人。它旨在支持所有主要交易所,并通过Telegram或webUI进行控制。它包含回测、绘图和资金管理工具,以及通过机器学习进行策略优化。

  • status-im/status-mobile 一个免费的(自由)开源,以太坊的移动操作系统。一个浏览器、信使和通往去中心化世界的门户。Status是一个免费(自由)的开源移动客户端,完全基于以太坊技术构建,面向Android和iOS。没错,没有中间商, go-ethereum 直接在您的设备上运行。

  • OpenZeppelin/openzeppelin-contracts 用于安全智能合约开发的库。建立在社区审查代码的坚实基础上。ERC20 和 ERC721 等标准的实施。灵活的基于角色的权限方案。可重用的 Solidity 组件,用于构建自定义合约和复杂的去中心化系统。

  • OffcierCia/DeFi-Developer-Road-Map DeFi 开发者路线图是一本精心策划的开发者手册,其中包括 DApp 开发的最佳工具、资源和参考资料列表!

  • FuelLabs/fuel-core Fuel v2 协议的 Rust 全节点实现。Fuel(V2)的技术堆栈有三个核心支柱,分别为:并行交易执行:Fuel 使用 UTXO(未花费交易输出)模型形式的严格状态访问列表(strict access list),因此具有并行执行交易的能力,在计算、状态访问和事务吞吐量方面较具优势)。Fuel 虚拟机(FuelVM):旨在减少传统区块链虚拟机架构的浪费处理情况,同时增加开发人员的潜在设计空间。开发者体验(使用 Sway 和 Forc):Fuel 使用自己的特定领域语言 Sway(受 Rust 启发)和支持工具链 Forc(Fuel Orchestrator)提供较为强大和流畅的开发人员体验。开发环境保留了 Solidity 等智能合约语言的优势,同时采用了 Rust 工具生态系统中引入的范式,并包含利用区块链 VM 的语法。

  • FuelLabs/fuels-rs Fuel v2 Rust SDK。它可以用于多种用途,包括但不限于:编译、部署和测试 Sway 合约;启动本地Fuel网络;使用手工制作的脚本或合约调用来制作和签署交易;生成合约方法的类型安全的 Rust 绑定。

  • FuelLabs/fuels-ts 用于与 Fuel v2 交互的库。

  • Consensys/smart-contract-best-practices 智能合约安全最佳实践指南

  • ethers-io/ethers.js 在 JavaScript 中完成以太坊库和钱包实现。

  • smartcontractkit/full-blockchain-solidity-course-py 终极可靠性、区块链和智能合约 - 从初学者到专家的完整课程 |Python 版本

  • smartcontractkit/full-blockchain-solidity-course-js 使用 Javascript 学习区块链、Solidity 和全栈 Web3 开发

  • ethereumbook/ethereumbook 面向开发人员的书,提供了以太坊、以太坊经典、RootStock (RSK) 和其他基于 EVM 的兼容开放区块链的操作和使用指南。

  • trufflesuite/truffle 以太坊的开发环境、测试框架和资产管道,旨在让以太坊开发人员的生活更轻松。项目维护中。

  • solana-labs/solana 网络规模区块链,用于快速、安全、可扩展、去中心化的应用程序和市场。

  • AmazingAng/WTF-Solidity 重新学solidity,巩固一下细节,也写一个“WTF Solidity极简入门”,供小白们使用(编程大佬可以另找教程),每周更新1-3讲。

  • sismo-core/sismo-badges Sismo 协议的智能合约。

  • MetaMask/metamask-extension 浏览器扩展程序支持浏览支持以太坊区块链的网站

  • bkrem/awesome-solidity 精选的 Solidity 资源、库、工具等列表

  • scaffold-eth/scaffold-eth-2 开源的最新工具包,用于在以太坊区块链上构建去中心化应用程序 (dapp)。它旨在使开发人员更容易创建和部署智能合约,并构建与这些合约交互的用户界面。

  • foundry-rs/foundry 用 Rust 编写的用于以太坊应用程序开发的超快速、可移植和模块化工具包。

  • Uniswap/web3-react 简单、可扩展、依赖性最小化的框架,用于构建现代以太坊 dApp

  • web3/web3.js 以太坊 JSON RPC API 和相关工具的 TypeScript 实现,由 ChainSafe Systems 维护。

  • fltenwall/web3-awesome web3百科全书, 打造 web3 全球第一中文资源

推荐系统

推荐系统算法库与列表

  • shenweichen/DeepCTR 易于使用、模块化和可扩展的基于深度学习的 CTR 模型包,用于搜索和推荐。

  • hongleizhang/RSPapers 推荐系统必读论文精选列表。

  • YuyangZhangFTD/awesome-RecSys-papers 推荐系统中的经典论文

  • ChenglongChen/tensorflow-DeepFM

  • twitter/the-algorithm Twitter 的推荐算法是一组服务和作业,负责在所有 Twitter 产品表面(例如,为你时间线、搜索、探索)提供推文和其他内容的提要。有关算法工作原理的介绍,请参阅我们的工程博客。

  • alibaba/DeepRec 基于 TensorFlow 的推荐引擎。具有超大规模分布式训练能力,支持万亿样本的模型训练和千亿的Embedding Processing。针对稀疏模型场景,在CPU和GPU平台上进行了深度的性能优化。

  • cheungdaven/DeepRec 基于 TensorFlow 的深度学习推荐的开源工具包。

  • lyst/lightfm LightFM 的 Python 实现,一种混合推荐算法。

  • tensorflow/recommenders 使用 TensorFlow 构建推荐系统模型的库。

  • RUCAIBox/RecBole 统一,全面,高效的推荐库,包括:AFM,AutoInt,DCN,DeepFM,DSSM,FFM,FM,FNN,FwFM,LR,NFM,PNN,WideDeep,xDeepFM,BPR,ConvNCF,DGCF,DMF,FISM,GCMC,ItemKNN,LightGCN,NAIS,NeuMF,NGCF,Pop,SpectralCF,CFKG。CKE(Collaborative Knowledge base Embedding 发自16年KDD,将KG与CF融合做联合训练)。KGAT Knowledge Graph Attention Network for Recommendation 用KG做增强,捕捉这种高阶交互式特征,做推荐预测。KGCN,KGNNLS。KTUP Unifying Knowledge Graph Learning and Recommendation:Towards a Better Understanding of User Preferences 一方面利用KG可以帮助更好的理解用户偏好,另一方面,用户-物品的交互可以补全KG,增强KG中缺少的事实,最终使两个部分都得到加强。MKR(Multi-task Learning for KG enhanced Recommendation 融合KG和RC) 左边是推荐任务,用户和物品的特征表示作为输入,预测点击率y 右边是知识图谱任务。三元组的头结点h和关系r表示作为输入,预测的尾节点t 两者的交互由一个cross-feature-sharing units完成,由于物品向量和实体向量实际上是对同一个对象的两种描述,他们之间的信息交叉共享可以让两者都获得来自对方的额外信息,从而弥补了自身的信息稀疏性的不足。ippleNet,BERT4Rec,Caser,DIN,FDSA,FPMC,GCSAN,GRU4Rec,GRU4RecF,GRU4RecKG,KSR,NARM,NextItNet,S3Rec,SASRec,SASRecF,SRGNN,STAMP,TransRec。

  • pytorch/torchrec  PyTorch 域库,旨在提供大规模推荐系统 (RecSys) 所需的常见稀疏性和并行性基元。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。包含:并行基元,支持使用混合数据并行性/模型并行性轻松创作大型高性能多设备/多节点模型。TorchRec 分片可以使用不同的分片策略对嵌入表进行分片嵌入,包括数据并行、表分片、行分片、分片、分片。TorchRec 规划器可以自动为模型生成优化的分片计划。流水线训练与数据加载设备传输(复制到 GPU)、设备间通信 (input_dist) 和计算(向前、向后)重叠,以提高性能。由 FBGEMM 提供支持的 RecSys 的优化内核。量化支持,可降低训练和推理的精度。RecSys 的通用模块。经过生产验证的 RecSys 模型架构。RecSys 数据集(criteo 点击日志和 movielens)。端到端训练示例,例如在 criteo 点击日志数据集上训练的 dlrm 事件预测模型。

  • Coder-Yu/QRec QRec:快速实现推荐系统的 Python 框架(基于 TensorFlow)

  • Transformers4Rec Transformers4Rec 是一个灵活且高效的库,用于顺序和基于会话的推荐,可用于 PyTorch 和 Tensorflow。

  • datawhalechina/torch-rechub 用于推荐模型的轻量级Pytorch 框架,易于使用且易于扩展。scikit-learn风格易用的API。模型训练与模型定义解耦,易拓展,可针对不同类型的模型设置不同的训练机制。接受pandas的DataFrame、Dict数据输入,上手成本低。高度模块化,容易调用组装成新模型 LR、MLP、FM、FFM、CIN、target-attention、self-attention、transformer。支持常见排序模型 WideDeep、DeepFM、DIN、DCN、xDeepFM等。支持常见召回模型 DSSM、YoutubeDNN、YoutubeDSSM、FacebookEBR、MIND等。多任务学习支持SharedBottom、ESMM、MMOE、PLE、AITM等模型。 GradNorm、UWL、MetaBanlance等动态loss加权机制。

  • shenweichen/DeepMatch 用于推荐和广告的深度匹配模型库。训练模型和导出用户和项目的表示向量非常容易,可用于ANN搜索。

  • PaddlePaddle/PaddleRec 大规模推荐算法库,包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM,DSIN,SIGN,IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM,TiSAS,AutoFIS等,包含经典推荐系统数据集criteo 、movielens等

  • wangshusen/RecommenderSystem 结合小红书的业务场景和内部实践,讲解主流的工业界推荐系统技术。

  • CHIANGEL/Awesome-LLM-for-RecSys 关于大型语言模型(LLM)相关推荐系统主题的AWESOME论文和资源的集合。

  • WLiK/LLM4Rec-Awesome-Papers 关于大型语言模型的推荐系统的精彩论文和资源列表。大致分为三类:LLM Embeddings + RS、LLM Tokens + RS、LLM as RS

  • HKUDS/LLMRec 新颖的框架,它通过将三种简单而有效的LLM基于图增强策略应用于推荐系统来增强推荐器。LLMRec 旨在充分利用在线平台(例如 Netflix、MovieLens)中的内容,通过 i) 加强 u-i 交互边缘,ii) 增强项目节点属性,以及 iii) 从自然语言的角度直观地进行用户节点分析来增强交互图。

  • HKUDS/RLMRec 与模型无关的框架 RLMRec,通过LLM授权的表示学习来增强现有的推荐者。它提出了一种范式,将表征学习与LLMs捕获用户行为和偏好的复杂语义方面相结合。RLMRec 整合了辅助文本信号,开发了由 LLMs赋能的用户/项目分析范式,并通过跨视图对齐框架将协作关系信号的LLMs语义空间与表示空间对齐。

  • ZiyaoGeng/Recommender-System-with-TF2.0 CTR预言论文进行复现,包括传统模型(MF,FM,FFM等),神经网络(WDL,DCN等)以及序列模型(DIN)。

  • THUwangcy/ReChorus 用于Top-K推荐的通用PyTorch框架,具有隐式反馈,尤其是用于研究目的。BPR NCF Tensor GRU4Rec NARM SASRec TiSASRec CFKG SLRC Chorus

  • NVIDIA/NVTabular 为特征工程、前处理提供了更快的迭代速度,同时利用异步批量加载的方法有效提高了GPU的利用率,提供更快的加载速率。Merlin推荐系统框架的模块。

  • NVIDIA/HugeCTR a high efficiency GPU framework designed for Click-Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。

  • microsoft/recommenders 推荐系统上的最佳实践。包括多个模型:ALS A2SVD BPR Caser DKN xDeepFM FAST LightFM/Hybrid Matrix Factorization LightGBM/Gradient Boosting Tree* LightGCN GeoIMC GRU4Rec Multinomial VAE LSTUR NAML NCF NPA NRMS NextItNet RBM RLRMC SAR SLi-Rec SUM Standard VAE SVD TF-IDF Vowpal Wabbit (VW)* Wide and Deep FM&FFM

  • AmazingDD/daisyRec 在 pytorch 中开发的推荐系统。算法:KNN、LFM、SLIM、NeuMF、FM、DeepFM、VAE 等,旨在公平比较推荐系统基准

  • wubinzzu/NeuRec 全面且灵活的 Python 库,用于推荐系统,其中包括大量最先进的神经推荐模型。该库旨在解决一般、社交和顺序(下一项)推荐任务,使用Tensorflow库提供 33 个开箱即用的模型。

  • guoguibing/librec 一个用于推荐系统的 Java 库(需要 Java 版本 1.7 或更高版本)。它实现了一套最先进的推荐算法,旨在解决两个经典的推荐任务:评分预测项目排名

  • facebookresearch/torchrec 推荐系统的 Pytorch库,旨在提供大型推荐系统 (RecSys) 所需的通用稀疏性和并行性原语。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。

  • huawei-noah/FuxiCTR FuxiCTR 为 CTR 预测提供了一个开源库,在可配置性、可调整性和可重复性方面具有惊人的功能。模型包括:LR FM CCPM FFM YoutubeDNN Wide&Deep IPNN DeepCross HOFM DeepFM NFM AFM DCN FwFM xDeepFM DIN FiGNN AutoInt/AutoInt+ FiBiNET FGCNN HFM/HFM+ ONN AFN/AFN+ LorentzFM FLEN FmFM

  • openbenchmark/BARS 迈向推荐系统的开放基准测试。 BARS 基准目前涵盖以下两项任务:点击率预测\候选项目匹配

  • PersiaML/PERSIA 基于 PyTorch 训练深度学习推荐模型的高性能分布式框架。它能够训练具有多达 100 万亿个参数的推荐模型。对公共数据集的实证研究表明,PERSIA 在推荐方面优于其他系统。它的效率和稳健性也得到了快手1亿级DAU的多个应用程序的验证。

  • alibaba/EasyRec 大规模推荐算法的框架。实现了用于常见推荐任务的最先进的深度学习模型:候选生成(匹配)、评分(排名)和多任务学习。它通过简单的配置和超参数调整(HPO)提高了生成高性能模型的效率。

  • pytorch/torchrec 推荐系统的 Pytorch 域库

  • PKU-DAIR/GNN-in-RS 推荐系统中的 GNN(ACM 计算调查 2022)

  • NicolasHug/Surprise 用于构建和分析推荐系统的 Python scikit

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Py框架

  • grahamjenson/list_of_recommender_systems 推荐系统和资源列表

  • mengfeizhang820/Paperlist-for-Recommender-Systems 推荐系统论文列表

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Python 框架

其他_推荐系统

  • imsheridan/DeepRec 推荐、广告工业界经典以及最前沿的论文、资料集合

  • laekov/fastmoe 一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

  • oywtece/dstn

  • shenweichen/DSIN

  • facebookresearch/dlrm 深度学习推荐模型(DLRM)的实现

  • vze92/DMR Deep Match to Rank Model for Personalized Click-Through Rate Prediction DMR:Matching和Ranking相结合的点击率预估模型

  • kang205/SASRec 源于Transformer的基于自注意力的序列推荐模型

  • shichence/AutoInt 使用Multi-Head self-Attention进行自动的特征提取

  • xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤

  • UIC-Paper/MIMN 点击率预测的长序列用户行为建模的实践

  • motefly/DeepGBM 结合了GBDT 和神经网络的优点,在有效保留在线更新能力的同时,还能充分利用类别特征和数值特征。由两大块组成,CatNN 主要侧重于利用 Embedding 技术将高维稀疏特征转为低维稠密特征,而 GBDT2NN 则利用树模型筛选出的特征作为神经网络的输入,并通过逼近树结构来进行知识蒸馏。

  • LeeeeoLiu/ESRM-KG 关键词生成的基于电商会话的推荐模型

  • zhuchenxv/AutoFIS 自动特征交互选择的点击率预测模型

  • pangolulu/exact-k-recommendation 解决推荐中带约束的Top-K优化问题

  • Scagin/NeuralLogicReasoning 神经协同推理,提出了一种新的神经逻辑推荐(NLR)框架,能够将逻辑结构和神经网络相结合,将推荐任务转化为一个逻辑推理任务。

  • allenjack/HGN 用矩阵分解的形式捕捉用户的长期兴趣,同时将短期兴趣进行拆分,分为group-level以及instance-level的,通过Hierarchical Gating来处理group-level的信息,item-item的乘积来捕捉商品之间的关系。

  • RUCAIBox/CIKM2020-S3Rec 自我推荐学习,用于具有互信息最大化的顺序推荐

  • chenchongthu/SAMN 社交注意力记忆网络在推荐系统中的应用

  • Lancelot39/KGSF 基于知识图谱语义融合改进会话推荐系统 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

  • DeepGraphLearning/RecommenderSystems 顺序推荐 基于维度的推荐 社交推荐

  • FeiSun/BERT4Rec 基于BERT的顺序推荐

  • ChuanyuXue/CIKM-2019-AnalytiCup 2019-CIKM挑战赛,超大规模推荐之用户兴趣高效检索赛道 冠军解决方案 ,召回阶段基于 Item CF 相似性做召回( item-item 相似性),排序阶段,最终使用了 Catboost 和 Lightgbm 建模。

  • zyli93/InterHAt 通过分层注意力预测可解释的点击率。

  • SSE-PT/SSE-PT 基于Transformer的模型,但是和SASRec类似, 效果不错,但是缺少个性化,而且没有加入基于个性化的用户embedding。为了克服这种问题,本文提出来一种个性化的Transformer(SSE-PT),该方法相较于之前的方案提升了5%。

  • triton-inference-server/server 面向高吞吐低延时的生产环境的框架,通过Triton做线上推理,将TensorRT作为执行后端,能够有效降低Latency,并最大化地利用GPU资源。相比于一个纯CPU的方案,两者的结合使用能够使Latency达到原先的1/18,数据吞吐量达到原先的17.6倍。

  • lqfarmer/GraphTR 采用了GraphSAGE+FM+Transformer多种手段,粒度上从粗到细,交叉、聚合来自不同领域的异构消息,相比于mean/max pooling、浅层FC等传统聚合方式,极大提升了模型的表达能力

  • guyulongcs/CIKM2020_DMT 将兴趣建模、多任务学习、偏置学习等几部分进行融合,提出了DMT模型(Deep Multifaceted Transformers)

  • hwwang55/DKN 将知识图表示融入到新闻推荐中。DKN是一种基于内容的用于点击率预估的深度推荐框架。DKN的主要部分是一个多通道、单词实体对齐的知识感知卷积神经网络,KCNN,其中融入了新闻在语意层面和知识层面的表示。KCNN将单词和实体作为多通道,在卷积过程中明确保留他们之间的对齐关系。

  • yusanshi/NewsRecommendation NRMS NAML LSTUR DKN Hi-Fi Ark TANR

  • johnny12150/GCE-GNN 提出了一种全局上下文增强(global-context enhanced)的GNN网络,称为GCE-GNN。能够从两种层次来学习物品的表征,包括global-level:从所有session构成的图上进行全局的表征;以及session-level:从单个session局部item转移图上进行局部的表征;最后融合二者,并通过注意力机制形成最终的序列表征,用于序列推荐任务。

  • BinbinJin/SD-GAR 第一篇将生成式对抗网络(GAN)框架应用于信息检索(包括推荐系统)的研究工作。在该工作中,IRGAN 训练了一个生成器和一个判别器,其中生成器用来自适应地生成合适的负样本以帮助判别器训练;而判别器则是用来判断样本是来自用户真实的反馈还是生成器生成的样本。通过两者交替式对抗性地训练达到互相提升效果的目的。

  • twchen/lessr 将会话记录构建成图来建模商品之间的跳转关系的图神经网络

  • NLPWM-WHU/AGNN 区分了推荐系统中的一般冷启动和严格冷启动,并提出了属性图神经网络方法有效应对严格冷启动的场景。

  • CRIPAC-DIG/SR-GNN 会话序列推荐的图应用 直接将会话序列建模为图结构数据,并使用图神经网络捕获复杂的项目物品item间转换,每一个会话利用注意力机制将整体偏好与当前偏好结合进行表示。同时这种方式也就不依赖用户的表示了,完全只基于会话内部的潜在向量获得Embedding,然后预测下一个点击。

  • uctoronto/SHAN Sequential Recommender System based on Hierarchical Attention Network 分层注意力网络SHAN用于序列推荐 。提出新颖的两层分层注意力网络,将上述特性考虑进来,用于推荐可能感兴趣的下一个商品。第一层注意力网络基于用户的历史购买商品的表示来学习用户的长期偏好,第二层通过将用户的长期和短期偏好结合起来,输出最终的用户表示。

  • chenghuige/mind MIND新闻推荐冠军分享细节揭秘

  • WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions 轻量级特征交互算法deeplight 大幅加速ctr预估在线服务。 一,通过在浅层结构中精确搜索信息量更大的特征交互来加速模型推理,二,在深层结构中,从层内和层间对冗余的层和冗余的参数进行剪枝,三,促使embedding层的稀疏性,进而保持最有判别性的信息。为了解决预测延迟问题,我们通过结构修剪来加速预测,最终以46倍的速度提高而不会牺牲Criteo数据集上的最新性能。

  • JiachengLi1995/TiSASRec Time Interval Aware Self-Attention for Sequential Recommendation 时间间隔自注意力模型用于序列推荐。 基于序列模型框架对行为的时间戳进行建模,在下一个商品预测中探索不同时间间隔的影响。

  • wuch15/IJCAI2019-NAML 多视图学习新闻推荐系统Neural News Recommendation with Attentive Multi-View Learning 可以通过利用不同种类的新闻信息来学习用户和新闻的特征表示。

  • guoday/Tencent2020_Rank1st 广告受众基础属性预估 2020 Tencent College Algorithm Contest, and the online result ranks 1st.

  • yuduo93/THIGE 基于时序异质交互图表示学习的商品推荐 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。

  • guyulongcs/CIKM2020_DMT 大型电子商务推荐系统中多目标排名的深层多面Transformers模型

  • weiyinwei/MMGCN 多模态图神经网络解决短视频推荐难题

  • wujcan/SGL 基于图自监督学习的推荐系统。应用于「用户-物品二分图推荐系统」的「图自监督学习」框架。

  • wangjiachun0426/StackRec 通过迭代堆叠实现推荐系统的高效训练。采用对一个浅层序列推荐模型进行多次层堆叠(Layer Stacking),从而得到一个深层序列推荐模型。具体来说,训练过程包含以下步骤:1)预训练一个浅层序列推荐模型;2)对该模型进行层堆叠,得到一个两倍深度的模型;3)微调这个深层模型;4)将深层模型作为一个新的浅层模型,重复1)至3)直到满足业务需求。

  • xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤(NGCF)是一种基于图神经网络的新推荐框架,通过执行嵌入传播,在用户项二部图中以高阶连通性的形式对协同信号进行显式编码。

  • johnnyjana730/MVIN 提出multi-view item network (MVIN) ,从user和item来学习多个视角下的商品表示,进而进行商品推荐。在实体视图中,项目表示由KG中连接到它的实体来定义的。

  • weberrr/CKAN Collaborative Knowledge-aware Attentive Network for Recommender Systems 协作知识感知的注意力网络推荐系统

  • danyang-liu/KRED KRED:基于知识感知的文档表示应用于新闻推荐。首先是用KGAT来表示每个实体,然后使用用实体的位置 实体出现频率 实体的类别等信息。再用Transformer来优化表征。最后做多任务:包括个性化推荐,项目到项目推荐、新闻流行预测、新类别预测和本地新闻检测等等。

  • CRIPAC-DIG/DGCF 动态图协同过滤算法,利用动态图来同时捕捉用户和商品之间的协同和序列关系的框架。提出三种更新机制: 零阶继承,一阶传播,二阶聚合,来表示新的交互发生时,该交互对用户或者商品的影响。基于这三种机制,交互发生时同时更新用户和商品的embedding,并且利用最新的embedding来给出推荐。

  • QYQ-bot/CLEA 运用对比学习解决购物篮推荐场景。(下一个购物篮推荐,也就是根据用户的历史购物篮序列,来推荐用户在下一次可能购买的商品集合。)

  • huangtinglin/MixGCF 基于多层嵌入合成负例用于推荐,相对NGCF 提高 26%, LightGCN 提高 22%

  • DyGRec/ASReP 反向预训练Transformer 增广序列推荐系统.解决序列推荐系统中的冷启动(cold-start)问题。为了解决该问题,我们提出需要对冷启动对应的短序列(short sequence)进行增广(Augmentation),从而能够补全信息而避免冷启动的问题。

  • NLPWM-WHU/EDUA 多样性推荐的 EDUA 模型。其采用双边分支网络作为双目标优化的主要架构,该架构既保持传统学习分支的准确性,又提高自适应学习分支的多样性。

  • gluver/KG4Rec_Paperlist 这是关于基于知识图谱的推荐的顶级论文列表。

  • xidongbo/AITM 自适应信息传输多任务 (AITM) 框架的 TensorFlow 实现。 提交给 KDD21 的论文代码:使用多任务学习为客户获取建模受众多步转换之间的顺序依赖性。应用场景:联名卡获客,从曝光(Impression)、点击(Click)、申请(Application)、核卡(Approval)、激活(Activation)。另外,使用公开的Ali-CCP阿里巴巴点击和转化预测数据集pytorch实现

  • newlei/LR-GCCF 重温基于图的协同过滤:一种线性残差图卷积网络方法,AAAI2020 本文提出了一种使用非线性特征传播和残差结构的GCN网络LR-GCCF用于基于CF的推荐系统,在模型表型上和时间效率上有了一定的提高。

  • wangzhegeek/EGES 阿里巴巴论文的实施:阿里巴巴电子商务推荐的十亿级商品嵌入

  • YushanZhu/K3M 电子商务中的知识感知多模态预训练

  • tsinghua-fib-lab/GNN-Recommender-Systems 基于图神经网络的推荐算法索引。

  • oywtece/deepmcp 点击率 (CTR) 预测模型。大多数现有方法主要对特征-CTR 关系进行建模,并且存在数据稀疏问题。相比之下,DeepMCP 对其他类型的关系进行建模,以学习更多信息和统计上可靠的特征表示,从而提高 CTR 预测的性能。DeepMCP 包含三部分:匹配子网、关联子网和预测子网。这些子网分别为用户-广告、广告-广告和功能-点击率关系建模。当这些子网在目标标签的监督下联合优化时,学习到的特征表示既具有良好的预测能力,又具有良好的表示能力。

  • rener1199/deep_memory 用户记忆网络的点击率预测

  • xiaxin1998/DHCN 用于基于会话的推荐的自超图卷积网络

  • maenzhier/GRecX 基于 GNN 的推荐的高效统一基准。

  • RUCAIBox/Awesome-Privacy-Preserving-RS-Paper 本知识库收集了 2018 年后隐私保护推荐系统的最新研究进展。

  • github.com/THUDM/ComiRec KDD 2020 论文《Controllable Multi-Interest Framework for Recommendation》的源代码和数据集 可控的多兴趣推荐框架

  • microsoft/tutel Tutel MoE:优化的专家组合实施

  • Jhy1993/Awesome-GNN-Recommendation GNN-推荐相关资源

  • sisinflab/elliot 用于可重现推荐系统评估的全面而严谨的框架

  • sumitsidana/recsys_challenge_2020 此存储库包含 2020 年 RecSys 挑战赛方法的第四名解决方案的代码。该挑战侧重于在动态环境中进行推文参与度预测的现实任务。目标是根据异构输入数据预测目标用户对一组推文的不同类型参与(点赞、回复、转推和转推)的概率。

  • ystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution WSDM CUP 2018 音乐推荐挑战赛第一名解决方案的对应代码。预测 3 月订阅到期的用户中,哪些会流失。为解决该题,阿里巴巴使用了两层 Stacking Model,第一层采用逻辑回归、随机森林、XGBoost 算法,第二层又采用 XGBoost 算法把第一层的结果融合。流失用户预测,对有会员体系的业务场景都可以使用,其中会员付费为主要收入的业务就更为关键,比如像 Apple Music、虾米音乐。多层 Stacking Model 由 AliOS 神灯研发,极大提升了分类预测的准确率,已广泛应用于 AliOS 多项业务中。

  • DiligentPanda/Tencent_Ads_Algo_2018 该仓库维护2018年腾讯广告算法大赛的代码。我们的代码在决赛中排名第三。基于 FFM 的注意力神经网络的平均值。在最终提交中,我们使用了 13 个这样的网络。但是这些网络只是在它们的随机种子上有所不同。 5 个这样的网络将给出几乎相同的结果。Lookalike 相似人群拓展

  • ttvand/Santander-Product-Recommendation Kaggle 竞赛第二名解决方案 - Santander 产品推荐

  • Travisgogogo/BAAI-ZHIHU-2019 Top3 高效地将用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数。

  • LogicJake/tuling-video-click-top3 图灵联邦视频点击预测大赛线上第三

  • PPshrimpGo/BDCI2018-ChinauUicom-1st-solution CCF BDCI 2018的面向电信领域的个性化套餐匹配第一名解决方案

  • hydantess/TianChi_zhilianzhaopin: 智联招聘人岗智能匹配 根据智联招聘抽样的经过脱敏的求职者标签数据、职位信息、及部分求职者行为信息、用人单位反馈信息,训练排序模型,对求职者的职位候选集进行排序,尽可能使得双端都满意的职位(求职者满意以及用人单位满意)优先推荐。

  • RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge 天池-安泰杯跨境电商智能算法大赛 冠军。 通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。

  • fuxiAIlab/RL4RS 基于强化学习的推荐系统的真实世界基准

  • NVIDIA-Merlin/competitions 推荐系统竞赛的解决方案 RecSys2019_Challenge, RecSys2020_Challenge,RecSys2021_Challenge,SIGIR_eCommerce_Challenge_2021,WSDM_WebTour2021_Challenge

  • rosetta-ai/rosetta_recsys2019 RosettaAI 团队在 2019 年 ACM Recsys 挑战赛中获得第四名的解决方案

  • kupuSs/CIKM-CUP-2019-track2-rank10 CIKM 2019 E-Commerce AI Challenge - 超大规模推荐之用户兴趣高效检索

  • miziha-zp/KDD2020_mutilmodalities top8 KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall

  • steven95421/KDD_WinnieTheBest KDD Cup 2020 现代电商平台挑战:Multi-modalities Recall 第一名。数据来自移动电商平台的真实场景多模态数据。数据集由搜索查询和产品图像特征组成,是一个基于查询的多模式检索任务。实现了根据候选产品的图像特征对它们的集合进行排名。这些查询中的大多数是搜索具有特定特征的产品的名词短语。候选商品图片由卖家提供的照片,通过黑盒功能转化为2048维特征。与查询最相关的候选产品被视为查询的基本事实。

  • aister2020/KDDCUP_2020_Debiasing_1st_Place 去偏Debiasing中获得第一名。侧重于暴露的复杂性,即如何推荐过去很少暴露的项目,以对抗推荐系统中经常遇到的马太效应。特别是,在对点击数据进行训练时减少偏差对于此任务的成功至关重要。就像现代推荐系统中记录的点击数据和实际在线环境之间存在差距一样,训练数据和测试数据之间也会存在差距,主要是在趋势和项目的流行度方面。

  • RUCAIBox/FMLP-Rec 堆叠多个过滤器增强块以生成用于推荐的顺序用户偏好的表示。我们的方法与 SASRec 的主要区别在于用一种新颖的过滤器结构(傅里叶变换MLP)替换了 Transformer 中的多头自注意力结构。

  • RUCAIBox/NCL 通过邻域丰富的对比学习改进图协同过滤。

  • alibaba/HybridBackend 用于在异构集群上训练广泛和深度推荐系统的高性能框架

  • CAN-Paper/Co-Action-Network CAN的实现:重新审视点击率预测的特征协同作用

  • tsinghua-fib-lab/CLSR 解开推荐的长期和短期利益

  • easezyc/Multitask-Recommendation-Library 提供了多任务推荐模型和通用数据集的 PyTorch 实现。

  • awarebayes/RecNN 围绕 pytorch构建的强化学习推荐工具包

  • Tencent/embedx 基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等

  • bytedance/LargeBatchCTR 基于 DeepCTR 和 CowClip 的 CTR 模型的大批量训练。

  • xiangwang1223/disentangled_graph_collaborative_filtering 解缠结图协同过滤 一个可解释的推荐框架,它配备了 (1) 胶囊网络的动态路由机制,以细化意图感知图中用户-项目交互的强度,(2) 图的嵌入传播机制神经网络,从高阶连通性中提取相关信息,以及(3)独立建模的距离相关性,以确保意图之间的独立性。因此,我们明确地解开了用户在表示学习中的隐藏意图。

  • gusye1234/LightGCN-PyTorch 旨在简化 GCN 的设计,使其更简洁,更适合推荐。提出了名为 LightGCN 的新模型,仅包含 GCN 中最重要的组件—邻域聚合—用于协同过滤

  • muhanzhang/IGMC 基于图神经网络的归纳矩阵补全模型,不使用任何边信息。 传统的矩阵分解方法将(评级)矩阵分解为行(用户)和列(项目)的低维潜在嵌入的乘积,这是转导的,因为学习的嵌入不能推广到看不见的新矩阵。为了使矩阵完成归纳,必须事先使用内容(辅助信息),如年龄或电影的类型。然而,高质量内容并不总是可用,而且很难提取。IGMC 通过训练一个GNN来实现,该网络完全基于从评分矩阵形成的二分图中提取的(用户、项目)对周围的局部子图,并将子图映射到其相应的评分。它不依赖于特定评分矩阵或任务的任何全局信息,也不学习特定于观察到的用户/项目的嵌入。因此,它是一个完全归纳模型,它可泛化到训练时看不见的用户/项目(假设交互存在),甚至可以迁移到新任务,从 MovieLens训练出来的模型可以直接用于预测豆瓣电影评分,并且效果出奇的好。

  • jennyzhang0215/STAR-GCN 用于推荐系统的堆叠和重构图卷积网络

  • wenqifan03/GraphRec-WWW19 用于社交推荐的图神经网络

  • PeiJieSun/diffnet 基于图神经网络的社交推荐模型。SIGIR2019。

  • hwwang55/KGCN 用于推荐系统的知识图卷积网络,它使用图卷积网络(GCN)技术来处理知识图谱以达到推荐的目的。

  • huangtinglin/Knowledge_Graph_based_Intent_Network 与推荐知识图交互背后的学习意图,WWW2021

  • amzn/pecos 巨大和相关空间的预测 。用于对具有大输出空间的问题进行快速学习和推理,例如极端多标签排序 (XMR) 和大规模检索。

  • summmeer/session-based-news-recommendation 通过利用不同类型的隐式反馈,我们减轻了精度和多样性与冷启动问题之间的权衡,这对于实际应用是有效的。命名为 TCAR(时间和内容感知推荐系统)

  • ahmedrashed-ml/CARCA 通过交叉注意的上下文和属性感知顺序推荐,RecSys 2022

  • Coder-Yu/SELFRec 一个用于自我监督推荐 (SSR) 的 Python 框架,它集成了常用的数据集和指标,并实现了许多最先进的 SSR 模型。 SELFRec 具有轻量级架构并提供用户友好的界面。 它可以促进模型的实施和评估。

  • caserec/Datasets-for-Recommender-Systems 一个以主题为中心的高质量推荐系统(RS)公共数据集。

  • zygmuntz/goodbooks-10k 包含一万本最受欢迎(评分最多)书籍的 600 万个评分。还有:用户标记为阅读的书籍、书籍元数据(作者、年份等)、标签/货架/流派

  • twitter/the-algorithm-ml 这个项目开源了 Twitter 使用的一些 ML 模型。目前这些是:“For You”重磅排名(项目/主页/回顾)。TwHIN 嵌入。

  • SAI990323/TALLRec 新颖的框架TALLRec,使LLM能够高效和有效地适应推荐任务。

机器视觉

人像\姿势\3D人脸

  • deepinsight/insightface 最先进的2D和3D人脸分析项目 人脸识别\检测\对齐

  • yoyo-nb/Thin-Plate-Spline-Motion-Model 用于图像动画的薄板样条运动模型 人脸、人物动作姿势模拟

  • AliaksandrSiarohin/first-order-model 图像动画的一阶运动模型,实现静态图像到动态图像的转换.人脸、人物动作姿势模拟

  • leap-ai/headshots-starter 可在几分钟内生成专业的 AI 头像。

  • InstantID/InstantID 在数秒内实现零样本人身份保留生成,最先进的免调谐方法,只需一张图像即可实现 ID 保留生成,支持各种下游任务。InstantID 实现了更好的保真度,并保留了良好的文本可编辑性(面孔和样式融合得更好)。InstantX/InstantID

  • minivision-ai/photo2cartoon 人像卡通化探索项目

  • ShiqiYu/libfacedetection 用于图像中人脸检测的开源库。人脸检测速度可以达到1000FPS。

  • iperov/DeepFaceLive 用于 PC 流媒体或视频通话的实时换脸

  • davidsandberg/facenet 使用 TensorFlow 进行人脸识别

  • serengil/deepface 轻量级人脸识别和人脸属性分析(年龄、性别、情感和种族)库

  • exadel-inc/CompreFace 领先的免费开源人脸识别系统

  • tencent-ailab/hifi3dfaceRGB-D 的高保真3D 数字人类创建

  • alievk/avatarify-python Zoom、Skype 和其他视频会议应用程序的头像。基于一阶运动模型( First Order Motion Model)。Avatarify 附带了一组标准的名人头像,但您只需将头像复制到 avatars 文件夹中即可扩展此集。

  • iPERDance/iPERCore 处理人体图像合成任务。其中包括人体运动模仿、外观转换和新视角合成等。并且,该项目的代码、数据集已开源。

  • anandpawara/Real_Time_Image_Animation 实时图像动画,使原图的人像与新图上的人脸动作一致。

  • GuyTevet/motion-diffusion-model 人体运动扩散模型的PyTorch官方实现

  • FACEGOOD-Audio2Face 将音频转换为混合形状权重,并在UE中驱动数字人小美。

  • facebookresearch/pifuhd 使用AI从2D图像生成人的3D高分辨率重建

  • open-mmlab/mmskeleton 用于人体姿势估计,基于骨骼的动作识别和动作合成。

  • thepowerfuldeez/facemesh.pytorch 单目实时人脸表面3D点云提取

  • anibali/margipose 基于2D边缘热图的3D人体姿态估计

  • wmcnally/evopose2d 神经架构搜索推动2D姿态识别边界

  • hellojialee/OffsetGuided Bottom-up人体姿态估计最优网络,多人关键点坐标的编解码方法.

  • ziwei-zh/CorrPM 关联人体边缘,人体姿态解析.研究了人的语义边界和关键点位置如何共同改善人的部件解析性能。

  • SangbumChoi/MobileHumanPose 在移动设备中实现实时 3D 人体姿态估计,PyTorch。

  • jby1993/SelfReconCode 从单目视频自我重建你的数字化身

  • ibaiGorordo/ONNX-Mobile-Human-Pose-3D 使用 ONNX 中的移动人体姿势模型执行 3D 人体姿势估计的 Python 脚本。

  • CMU-Perceptual-Computing-Lab/openpose 用于身体、面部、手和脚估计的实时多人关键点检测库。

  • wzmsltw/PaintTransformer Paint Transformer:具有笔画预测的前馈神经绘画网络。预测图片如何用画笔画出。

  • cleardusk/3DDFA_V2 Towards Fast 的官方 PyTorch 实现,准确稳定的3D密集人脸对齐,ECCV 2020。预测出图片人脸的3D结构。

  • PeterL1n/RobustVideoMatting 可在任意视频上做实时高清人物抠像.

  • changgyhub/deepsketch2face 用于 3D 面部和漫画建模的基于深度学习的草图系统。

  • YadiraF/DECA 详细的表情捕捉和动画(SIGGRAPH 2021).从单个输入图像重建具有详细面部几何形状的 3D 头部模型。生成的 3D 头部模型可以轻松制作动画。

  • sicxu/Deep3DFaceRecon_pytorch 具有弱监督学习的准确 3D 人脸重建:从单张图像到图像集 (CVPRW 2019)。PyTorch 实现。

  • xierc/Semi_Human_Pose 半监督二维人体姿态估计中折叠问题的实证研究。

  • DrMahdiRezaei/DeepSOCIAL DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。

  • shliang0603/Yolov4_DeepSocial DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。

  • Mukosame/Anime2Sketch 动画/插图的草图提取器。

  • google/mediapipe 适用于直播和流媒体的跨平台、可定制的 ML 解决方案。包括:人脸检测、面网、虹膜手、姿势、整体姿势、人脸检测、头发分割、物体检测、箱子追踪、即时运动追踪、日常物体的实时 3D 物体检测、关键点神经不变特征变换。

  • minivision-ai/photo2cartoon 人像卡通化探索项目

  • MobileStyleGAN.pytorch 用于高保真图像合成的轻量级卷积神经网络

  • TencentARC/GFPGAN GFPGAN 旨在开发用于真实世界面部恢复的实用算法。

  • 人脸识别常用开源数据集大全 哥伦比亚大学公众人物脸部数据、CelebA、美国国防部、MTFL、BioID、PersonID人脸识别数据集、CMU PIE人脸库、Youtube视频人脸、CASIA 人脸图像、Caltech人脸数据库

  • sallymmx/ActionCLIP 视频动作识别的新范式

  • IGLICT/DeepFaceDrawing-Jittor 从草图中深度生成人脸图像

  • RameenAbdal/StyleFlow 使用条件连续归一化流对 StyleGAN 生成的面部图像进行属性条件探索

  • kennymckormick/pyskl 用于基于骨架的动作识别的工具箱。

  • nenadmarkus/pico 对标准 Viola-Jones 方法的修改。基本思想是在所有合理的位置和尺度上用级联的二元分类器扫描图像。如果图像区域成功通过级联的所有成员,则将其分类为感兴趣对象。每个二元分类器由一组决策树组成,其中像素强度比较作为其内部节点中的二元测试。这使检测器能够以非常高的速度处理图像区域。

  • YuliangXiu/ICON 从图片法线获得的隐式穿衣人类的3D姿态(CVPR 2022)

  • DirtyHarryLYL/Activity2Vec 基于HAKE数据的通用人类活动特征提取器和人体PaSta(部分状态)检测器。它的工作原理类似于 ImageNet/COCO 预训练的主干,旨在为下游任务(如 VQA、字幕、聚类等)提取多模态活动表示。

  • fengq1a0/FOF 学习傅里叶占有场(Fourier Occupancy Fields)用于单目实时人体重建

  • damo/cv_mobilenet_face-2d-keypoints_alignment 106点人脸关键点检测模型,该模型主要用于人脸关键点检测和对齐任务,从包含人脸的图片中检测出人脸框、人脸关键点坐标和人脸姿态角。主要借鉴MobileNetV1和MobileNetV2的思路(如下图),MobileNetV1速度快,放在浅层用于提取特征图,MobileNetV2速度相对慢但是信息保存好,用于提取深层语义信息,模型参数量少速度快,能良好应用在移动端实时人脸关键点检测场景。

  • open-mmlab/mmpose OpenMMLab 姿势估计工具箱和基准测试。

  • justadudewhohacks/face-api.js JavaScript API,用于浏览器中的人脸检测和人脸识别,以及带有 tensorflow 的 nodejs.js

图像恢复

  • microsoft/Bringing-Old-Photos-Back-to-Life 旧照片修复

  • Sanster/lama-cleaner 由 SOTA AI 模型提供支持的图像修复工具。 从照片中删除任何不需要的物体、缺陷、人或擦除和替换(由稳定扩散驱动)你照片上的任何东西。

  • TaoWangzj/Awesome-Face-Restoration 深层面部修复资源的完整列表 去噪、超分辨率、去模糊和去除伪影

  • sczhou/CodeFormer 使用 Codebook Lookup Transformer 实现强大的盲脸恢复,增强旧照片/修复 AI 艺术,面部修复,面部颜色增强和修复。sczhou/CodeFormer

  • upscayl/upscayl 可让您使用先进的 AI 算法放大和增强低分辨率图像。在不损失质量的情况下放大图像。

  • xinntao/Real-ESRGAN 旨在开发通用图像恢复的实用算法。

  • zhangmozhe/Deep-Exemplar-based-Video-Colorization 基于深层范例的视频着色,着色时间的连贯性与稳定性

  • JingyunLiang/SwinIR 使用 Swin Transformer 的图像恢复,图像SR\图像去噪\伪影减少

  • yangxy/GPEN 用于脸部高清增强,还能将黑白人物照转成彩色照片。GPEN模型明显优于其他的修复人脸的GAN模型。

  • bilibili/ailab 使用百万级动漫数据进行训练的,结构与Waifu2x兼容的通用动漫图像超分辨率模型。它支持2x\3x\4x倍超分辨率,其中2倍模型支持4种降噪强度与保守修复,3倍/4倍模型支持2种降噪强度与保守修复。

  • nagadomi/waifu2x 动漫风格艺术的图像超分辨率

  • andreas128/RePaint 官方 PyTorch 代码和“重绘:使用去噪扩散概率模型进行修复”模型,CVPR 2022

  • AaronFeng753/Waifu2x-Extension-GUI 视频、图像和GIF放大/放大(超分辨率)和视频帧插值。通过 Waifu2x、Real-ESRGAN、Real-CUGAN、RTX Video Super Resolution VSR、SRMD、RealSR、Anime4K、RIFE、IFRNet、CAIN、DAIN 和 ACNet 实现。

光学字符识别OCR

  • ouyanghuiyu/chineseocr_lite 超轻量级中文ocr

  • JiaquanYe/TableMASTER-mmocr 将表格内容识别任务分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。 基于 MASTER,我们提出了一种新颖的表结构识别架构,我们称之为 TableMASTER。

  • breezedeus/cnocr cnocr

  • naptha/tesseract.js 支持 100 多种语言的纯 Javascript OCR

  • JiaquanYe/MASTER-mmocr 本项目是 MMOCR 对 MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (场景文本识别)的重新实现。

  • PaddlePaddle/PaddleOCR 很棒的基于PaddlePaddle的多语言OCR工具包(实用的超轻量级OCR系统,支持80+语言识别,提供数据标注和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)

  • hiroi-sora/Umi-OCR 开源、免费的离线OCR软件。支持截屏/粘贴/批量导入图片,段落排版/排除水印,扫描/生成二维码。内置多国语言库。

  • FudanVI/benchmarking-chinese-text-recognition 该存储库包含用于对中文文本识别进行基准测试的数据集和基线。收集公开可用的场景数据集,包括RCTWReCTSLSVTArTCTW ,得到 636,455 个样本,这些样本被随机打乱,然后按 8:1:1 的比例划分,以构建训练、验证和测试数据集。六种具有代表性的方法作为基线:CRNN是典型的基于 CTC 的方法,在学术界和工业界得到广泛应用,它首先将文本图像发送到 CNN 以提取图像特征,然后采用两层 LSTM 对序列特征进行编码,最后,LSTM 的输出被馈送到 CTC解码器,以最大化所有路径通往基本事实的概率。ASTER 是典型的基于校正的方法,旨在处理不规则的文本图像,引入了空间变换器网络 (STN),将给定的文本图像纠正为易于识别的外观,然后将校正后的文本图像发送到 CNN 和两层 LSTM 提取特征,ASTER 利用注意力机制来预测最终的文本序列。MORAN 是基于整流的方法,它首先采用多对象校正网络(MORN)以弱监督方式预测校正后的像素偏移(与利用 STN 的 ASTER 不同),输出像素偏移进一步用于生成校正后的图像,该图像进一步发送到基于注意力的解码器(ASRN)进行文本识别。SAR 利用二维特征图进行更稳健的解码,特别是,它主要是针对不规则文本提出的,一方面,SAR 在 CNN 编码器中采用更强大的残差块来学习更强的图像表示,另一方面,与 CRNN、ASTER 和 MORAN 将给定图像压缩成一维特征图不同,SAR 对特征图的空间维度采用二维注意力进行解码,从而在弯曲和斜体文字。SEED是基于语义的方法,它引入了一个语义模块来提取全局语义嵌入并利用它来初始化解码器的第一个隐藏状态,SEED的解码器在继承ASTER结构的同时,吸收语义嵌入为识别过程提供先验,从而在识别低质量文本图像方面表现出优越性。TransOCR 是基于 Transformer 的方法之一,它最初旨在为超分辨率任务提供文本先验,它使用 ResNet-34 作为编码器,使用自注意力模块作为解码器,与基于 RNN 的解码器不同,自注意力模块更有效地捕获给定文本图像的语义特征。

  • adeline-cs/GTR 场景文字识别 现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率,忽略字符实例内部和之间的视觉语义的二维空间上下文,使它们不能很好地推广到任意形状的场景文本。为了解决这个问题,本文中首次尝试基于视觉语义进行文本推理。给定 VR 模型预测的字符分割图,为每个实例构建子图,节点表示其中的像素,根据它们的空间相似性在节点之间添加边。然后,子图通过根节点顺序连接成一个完整的图。

  • lukas-blecher/LaTeX-OCR pix2tex:使用ViT将方程式图像转换为LaTeX代码。目标是创建一个基于学习的系统,该系统获取数学公式的图像并返回相应的LaTeX代码。

  • Layout-Parser/layout-parser 基于深度学习的文档图像分析的统一工具包,旨在简化文档图像分析 (DIA) 任务。

  • phamquiluan/PubLayNet PubLayNet数据集上的MaskRCNN。段落检测、表格检测、图形检测... 个大型文档图像数据集,其布局使用边界框和多边形分割进行标注。

  • JaidedAI/EasyOCR 即用型 OCR,支持 80 多种语言和所有流行的书写脚本,包括拉丁文、中文、阿拉伯文、天城文、西里尔文等。

  • ocrmypdf/OCRmyPDF 为扫描的 PDF 文件添加OCR 文本图层,允许对其进行搜索

  • RapidAI/RapidOCR 基于 PaddleOCR & OnnxRuntime & OpenVINO 的跨平台 OCR

  • breezedeus/Pix2Text Pix 输入、Latex 和文本输出。从图像中识别中文、英文文本和数学公式。支持80+种语言。

视频生成、补帧、摘要

  • hpcaitech/Open-Sora 致力于高效制作高质量视频并使所有人都可以使用模型、工具和内容的计划。通过采用开源原则,Open-Sora 不仅使对高级视频生成技术的访问民主化,而且还提供了一个简化且用户友好的平台,简化了视频制作的复杂性。通过Open-Sora,我们的目标是在内容创作领域激发创新、创造力和包容性。Open-Sora 1.1,它支持 2s~15s、144p 到 720p、任意宽高比的文本到图像、文本到视频、图像到视频、视频到视频、无限时间生成。此外,还发布了完整的视频处理流水线。

  • hzwer/arXiv2020-RIFE 视频帧插值的实时中级流量估计.旷视和北大提出的一种实时中间流估计算法。用于视频帧插值,能够改善伪影、让视频更丝滑。

  • Justin62628/Squirrel-RIFE 基于RIFE算法的中文补帧软件.

  • baowenbo/DAIN DAIN(深度感知视频帧插值)可以把30fps的进一步插帧到480fps。

  • nihui/dain-ncnn-vulkan DAIN 的 ncnn 实现,深度感知视频帧插值。dain-ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。

  • nihui/rife-ncnn-vulkan RIFE,视频帧插值的实时中级流量估计与 ncnn 库一起实现

  • myungsub/CAIN 视频帧插值只需要频道注意力

  • nihui/cain-ncnn-vulkan CAIN,使用 ncnn 库实现的视频帧插值只需要频道注意力

  • damo/cv_googlenet_pgl-video-summarization 输入一段长视频,算法对视频进行镜头切割得到视频片段,评估视频帧的重要性,输出重要视频帧的帧号,根据帧号可以合成一段短视频(摘要视频)。采用local和global的多头注意力构成的transformer模型

  • RayVentura/ShortGPT 用于自动创建短视频内容的实验性 AI 框架。它简化了视频创建、素材获取、画外音合成和编辑任务。自动编辑框架:使用面向LLM的视频编辑语言简化视频创建过程。脚本和提示:为各种LLM自动编辑过程提供即用型脚本和提示。画外音/内容创作:支持多种语言。字幕生成:自动生成视频字幕。资产来源:从互联网上获取图像和视频片段,并根据需要与网络和 Pexels API 连接。内存和持久性:使用 TinyDB 确保自动编辑变量的长期持久性。

对象检测、分割

  • facebookresearch/segment-anything Segment Anything Model从输入提示(如点或框)生成高质量的对象遮罩,并且可用于为图像中的所有对象生成遮罩。它已经在1100万张图像和11亿个掩码的数据集上进行了训练,并且在各种分割任务上具有强大的零样本性能。

  • ultralytics/ultralytics Ultralytics YOLOv8 是一种尖端的、最先进的 (SOTA) 模型,它建立在以前 YOLO 版本的成功基础上,并引入了新功能和改进,以进一步提高性能和灵活性。YOLOv8 旨在快速、准确且易于使用,使其成为各种目标检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择。

  • ultralytics/yolov3 全球最受欢迎的视觉 AI,代表了 Ultralytics 对未来视觉 AI 方法的开源研究,融合了数千小时研发的经验教训和最佳实践。可用于执行检测、分割、obb(定向物体检测)、分类和姿态估计,这些任务中的每一个都有不同的目标和用例。

  • open-mmlab/mmdetection OpenMMLab基于PyTorch的开源对象检测工具箱

  • microsoft/Swin-Transformer 基于Masked Image Modeling的预训练方法,适用于 Swin 和 SwinV2(也适用于 ViT 和 ResNet)。它可作为CV的通用主干。它基本上是一个分层变换器,其表示是用移位窗口计算的。移位窗口方案通过将 self-attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。将 CLIP 预训练的 ViT-L 提高了 +1.6%,以达到ImageNet-1K 图像分类,这是最准确的 ViT-L 模型。在 COCO 对象检测(58.7 box AP和51.1 mask APtest-dev)和 ADE20K 语义分割(53.5 mIoU在 val)上实现了强大的性能,大大超过了以前的模型。

  • IDEA-Research/Grounded-Segment-Anything 将Grounding-DINO与Segment Anything & Stable Diffusion相结合,识别任何内容-自动检测、分割和生成任何内容

  • facebookresearch/detr 使用Transformer进行端到端目标检测。适用于 DETR (DEtection TRansformer) 的 PyTorch 训练代码和预训练模型。我们用 Transformer 替换了整个复杂的手工目标检测管道,并将 Faster R-CNN 与 ResNet-50 匹配,使用一半的计算能力 (FLOP) 和相同数量的参数在 COCO 上获得 42 个 AP。在 50 行 PyTorch 中进行推理。

  • vietanhdev/anylabeling 借助 YOLO、Segment Anything、MobileSAM 的 AI 支持,轻松实现 AI 辅助数据标注!!

  • caoyunkang/GPT4V-for-Generic-Anomaly-Detection 异常检测是跨不同领域和数据类型的一项关键任务。但是,现有的异常检测模型通常是针对特定领域和模式设计的。本研究探讨了使用 GPT-4V(ision),一种强大的视觉语言模型,以通用方式处理异常检测任务。我们研究了GPT-4V在多模态、多域异常检测任务中的应用,包括图像、视频、点云和时间序列数据,涉及工业、医疗、逻辑、视频、3D异常检测和定位等多个应用领域。为了提高 GPT-4V 的性能,我们加入了不同类型的附加提示,例如班级信息、人类专业知识和参考图像作为提示。根据我们的实验,GPT-4V 被证明在检测和解释零/单次异常检测中的全局和细粒度语义模式方面非常有效。这样可以准确区分正常和异常实例。总体而言,GPT-4V在通用异常检测和理解方面表现出良好的性能,从而为异常检测开辟了一条新的途径。

  • PeterL1n/BackgroundMattingV2 论文 Real-Time High-Resolution Background Matting 的官方存储库。我们的模型需要捕获额外的背景图像,并在 Nvidia RTX 2080 TI GPU 上以 4K 30fps 和 HD 60fps 的速度产生最先进的抠图效果。

  • PaddlePaddle/PaddleSeg 易于使用的图像分割库,具有出色的预训练模型库,支持语义分割、交互式分割、全景分割、图像叠加、3D 分割等广泛的实际任务。

  • mrgloom/awesome-semantic-segmentation 令人敬畏的语义分割

  • open-mmlab/mmsegmentation OpenMMLab语义分割工具箱和基准测试。

  • PaddlePaddle/PaddleDetection 基于 PaddlePaddle 的目标检测工具包。它支持目标检测、实例分割、多目标跟踪和实时多人关键点检测。

  • google-research/kubric 一个数据生成管道,用于创建具有丰富注释的半真实合成多对象视频,例如实例分割掩码、深度图和光流。

  • megvii-model/YOLOF 一个没有FPN的简单、快速、高效的目标检测器。

  • JosephKJ/OWOD (CVPR 2021 Oral) 开放世界目标检测.引入了强大的评估协议并提供了一种新颖的解决方案,我们称之为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。

  • RangiLyu/nanodet 超快速和轻量级的无锚物体检测模型。 仅 980 KB(int8) / 1.8MB (fp16) 并在手机上运行 97FPS.

  • jizhishutong/YOLOU 收集更多关于YOLO系列的算法,让小伙伴们更好的学习物体检测的知识。同时,为了更好的应用AI技术,YOLOU也将加入相应的Deploy技术,加速我们所学算法的落地,实现价值。

  • qubvel/segmentation_models.pytorch 具有预训练骨干的分割模型。PyTorch 的。主要功能是:高级 API(只需两行即可创建神经网络)、用于二进制和多类分割的 9 种模型架构(包括传奇的 Unet)、124 种可用编码器(以及 TIMM 的 500+ 种编码器)、所有编码器都具有预先训练的权重,以实现更快更好的收敛、训练例程的流行指标和损失

  • ultralytics/yolov5 在 COCO 数据集上预训练的对象检测模型,代表 Ultralytics 对未来视觉 AI 方法的开源研究,结合了数千小时的研究和经验教训和最佳实践。

  • meituan/YOLOv6 专用于工业应用的单阶段目标检测框架。

  • xuebinqin/U-2-Net 我们在 Pattern Recognition 2020 上新接受的论文的代码:“U^2-Net:使用嵌套 U 结构进行突出对象检测的深入发展”。

  • iscyy/yoloair 基于PyTorch的YOLO算法库。统一模型代码框架、统一应用、统一改进、易于模块组合、构建更强大的网络模型。

  • PaddlePaddle/PaddleClas 飞桨图像识别套件 PaddleClas 是飞桨为工业界和学院所准备的一个图像任务的工具集,桌面和用户训练出更好的图像分类和应用落地。PaddleClas 前沿分类、识别相关支持算法,发布行业级特色骨算法PP-HGNet、PP-LCNetv2、PP-LCNet和SSLD 半监督干式网络知识模型等模型,在此基础上打造PULC 超轻量级分类分类方案和PP-ShiTu图像识别系统。

  • Hawkeye-FineGrained/Hawkeye 基于开源深度学习的细粒度图像识别工具箱构建于PyTorch。基于深度滤波器:S3N (ICCV 2019) Interp-Parts (CVPR 2020) ProtoTree (CVPR 2021)。基于注意力机制:OSME+MAMC (ECCV 2018) MGE-CNN (ICCV 2019) APCNN (IEEE TIP 2021) 。基于高阶特征交互: BCNN (ICCV 2015) CBCNN (CVPR 2016) Fast MPN-COV (CVPR 2018) 。基于特殊损失函数: Pairwise Confusion (ECCV 2018) API-Net (AAAI 2020) CIN (AAAI 2020) 。基于网络数据: Peer-Learning (ICCV 2021) 其他方法 NTS-Net (ECCV 2018) CrossX (ICCV 2019) DCL (CVPR 2019)。

  • lucidrains/vit-pytorch 在 Pytorch 中实现 Vision Transformer,一种仅使用单个 Transformer 编码器即可在视觉分类中实现 SOTA 的简单方法

  • alibaba/EasyCV 基于Pytorch的计算机视觉工具,聚焦自监督学习和视觉transformer关键技术,覆盖主流的视觉建模任务例如图像分类,度量学习,目标检测,关键点检测等。

  • ibm-aur-nlp/PubLayNet 大型文档图像数据集,其布局用边界框和多边形分割进行了注释。 文件来源是 PubMed Central Open Access Subset(商业用途合集)。 注释是通过匹配 PubMed Central Open Access 子集中文章的 PDF 格式和 XML 格式自动生成的。

  • zongdai/AutoShape ICCV2021 论文:AutoShape:实时形状感知单目 3D 对象检测

  • facebookresearch/detectron2 用于对象检测、分割和其他视觉识别任务的下一代平台。

  • cfzd/Ultra-Fast-Lane-Detection 论文“超快速结构感知深度车道检测”的实现

  • RangiLyu/nanodet NanoDet 轻量级1.8MB、超快(移动端97fps)目标检测项目

  • Megvii-BaseDetection/YOLOX 高性能目标检测器YOLOX。并将YOLO检测器切换到anchor-free的方式,并结合其他先进的检测技术,如decouple head和标签分配策略SimOTA,实现了当前目标检测最优性能。

  • hoya012/deep_learning_object_detection 使用深度学习进行对象检测的纸质列表。

  • yuantn/MI-AOD 用于目标检测的多示例主动学习方法, 提出多示例主动目标检测MI-AOD,通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。

  • microsoft/SoftTeacher ICCV2021 使用软教师进行端到端的半监督目标检测

  • raoyongming/DenseCLIP DenseCLIP:具有上下文感知提示的语言引导密集预测

  • dddzg/up-detr 使用 Transformers 进行目标检测的无监督预训练

  • Megvii-BaseDetection/DeFCN 全卷积网络的端到端目标检测

  • HRNet/HRFormer 高分辨率变换器(HRFormer),它学习用于密集预测任务的高分辨率表示,而原始的视觉变换器产生低分辨率表示并且具有高内存和计算成本。

  • Sense-X/UniFormer 统一卷积和自注意的视觉识别统一变压器,实现高效的时空表示学习 可用于: 图像分类、 视频分类、 物体检测、 语义分割、 姿势估计

  • bytedance/ibot 自我监督预训练框架,通过自蒸馏执行蒙版图像建模。iBOT 显示了局部语义特征,有助于模型在全局范围和局部范围内很好地转移到下游任务。iBOT在 COCO 对象检测和 ADE20K 语义分割上实现了强大的性能。

  • hkchengrex/XMem [ECCV 2022]使用 Atkinson-Shiffrin 进行长期视频对象分割

  • ytongbai/ViTs-vs-CNNs 变形金刚比 CNN 更强大吗 在测量对抗鲁棒性时,Transformers 胜过 CNN。CNN 在防御对抗性攻击方面很容易像 Transformers 一样强大,如果它们正确采用 Transformers 的训练方法的话。虽然关于分布外样本的泛化,我们表明在(外部)大规模数据集上进行预训练并不是使 Transformer 能够获得比 CNN 更好的性能的基本要求。此外,我们的消融表明,这种更强的泛化在很大程度上得益于 Transformer 本身的类似自我注意的架构,而不是其他训练设置。希望这项工作可帮助社区更好地理解和衡量 Transformer 和 CNN 的鲁棒性。

  • open-mmlab/mmrotate 基于 PyTorch 的旋转框检测的开源工具箱

  • MediaBrain-SJTU/RegAD 基于注册的少样本异常检测”(RegAD) 的官方实现

  • NVlabs/MinVIS 无需基于视频的培训的最小视频实例分割框架

  • AlexeyAB/darknet 用于对象检测的神经网络 YOLOv4 / Scaled-YOLOv4 / YOLO

  • ttengwang/Caption-Anything 一款结合了图像分割、视觉字幕和 ChatGPT 的多功能工具,可根据用户偏好生成具有不同控件的定制字幕。

  • WZMIAOMIAO/deep-learning-for-image-processing 用于图像处理的深度学习,包括分类和对象检测等。

  • satellite-image-deep-learning/techniques 用于分析卫星和航空图像的各种深度学习技术,包括用于分类、分割和对象检测等任务的架构、模型和算法。对于研究人员、从业者和任何对深度学习的最新进展及其对计算机视觉和遥感的影响感兴趣的人来说,它都是宝贵的资源。

  • wkentaro/labelme 使用 Python 的图像多边形注释(多边形、矩形、圆形、直线、点和图像级标志注释)。

  • facebookresearch/Detectron FAIR用于对象检测研究的研究平台,实现了Mask R-CNN和RetinaNet等流行算法。

  • jolibrain/deepdetect 用 C++11 编写的机器学习 API 和服务器。使最先进的机器学习易于使用并集成到现有应用程序中。它支持训练和推理,并可通过 TensorRT 和 NCNN (ARM CPU) 自动转换为嵌入式平台。它实现了对图像、文本、时间序列和其他数据的有监督和无监督深度学习的支持,重点是简单易用、测试和连接到现有应用程序。它支持分类、对象检测、分割、回归、自动编码器......

  • jacobgil/pytorch-grad-cam 计算机视觉的高级 AI 可解释性。支持 CNN、视觉变压器、分类、对象检测、分割、图像相似性等。

  • roboflow/supervision 为您编写可重复使用的计算机视觉工具。无论您是需要从硬盘加载数据集、在图像或视频上绘制检测,还是计算区域中的检测数量。

  • lucasjinreal/yolov7_d2 早期的 YOLOv7 不是官方的,YOLO 具有 Transformer 和实例分割功能,具有 TensorRT 加速功能

图像风格

  • mchong6/GANsNRoses 多样化的 im2im 和 vid2vid 自拍到动漫转换。从人脸面部图像映射动漫风格图像。

  • williamyang1991/VToonify SIGGRAPH Asia 2022 可控高分辨率人像视频风格迁移

  • mchong6/JoJoGAN JoJoGAN 的官方 PyTorch 存储库:One Shot Face Stylization 人脸风格化

  • orpatashnik/StyleCLIP 文本驱动的StyleGAN风格生成图像处理

  • syz825211943/Multi-Style-Photo-Cartoonization 多风格照片卡通化

  • bryandlee/animegan2-pytorch AnimeGANv2 的 PyTorch 实现 基于 CartoonGAN 的改进,并提出了一个更加轻量级的动漫风格效果生成器架构.

  • TachibanaYoshino/AnimeGANv2 AnimeGAN的改进版本。风景照片/视频到动漫风格

  • PaddlePaddle/PaddleGAN 飞桨生成对抗网络开发套件--PaddleGAN,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。包括:人脸属性编辑之年龄变换 一键实现变老变年轻;视频超分SOTA算法PP-MSVSR;StyleGAN V2人脸属性编辑之性别转换;LapStyle风格迁移;人脸融合能力,结合新版Frirst Order Motion,实现人脸完美融合并带有丰富表情;真实照片转油画风格;人脸融合、风格迁移、老视频修复、人脸动作迁移、超分辨率、妆容迁移、人脸动漫化、写实人像卡通化、照片动漫化、唇形同步

  • SHI-Labs/Versatile-Diffusion 多功能扩散:文本、图像和变体合二为一的扩散模型,可以原生支持图像到文本、图像变体、文本到图像和文本变体,并且可以进一步扩展到其他应用,例如语义式解缠、图像-文本双引导生成、潜在图像到文本到图像编辑等。

  • FrozenBurning/Text2Light 零样本的文本驱动的HDR全景图生成

  • junyanz/CycleGAN 可以从绘画中生成照片、将马变成斑马、执行风格转换等的软件。

  • NVIDIA/FastPhotoStyle 风格迁移、深度学习、特征变换

  • lengstrom/fast-style-transfer TensorFlow CNN 用于快速样式变换,在几分之一秒内将名画的风格添加到任何照片中!您甚至可以设置视频样式!

  • fogleman/primitive 使用几何基元再现图像。提供目标图像作为输入。该算法试图找到可以绘制的单个最佳形状,以最大程度地减少目标图像和绘制图像之间的误差。它重复此过程,一次添加一个形状。大约需要 50 到 200 个形状才能达到可识别但又具有艺术性和抽象性的结果。由于该算法具有随机组件,因此您可以多次针对同一输入图像运行它,以使静态图像栩栩如生。特征:爬坡或模拟退火进行优化(爬坡多个随机形状几乎与退火一样好,而且速度更快);在纯 Go 中对形状进行扫描线光栅化(更适合实现以下功能);基于每个形状的受影响像素的最佳颜色计算(颜色是直接计算的,而不是优化的);部分图像差异,可加快评分速度(仅需要考虑变化的像素);抗锯齿输出渲染。

其他_机器视觉

  • opencv/opencv 开源计算机视觉库

  • taichi-dev/taichi 高效且可移植的 Python 高性能编程。该语言具有广泛的应用,包括实时物理模拟、数字计算、增强现实、人工智能、视觉和机器人技术、电影和游戏中的视觉效果、通用计算等等。

  • blender/blender Blender的官方镜像,免费的开源 3D 创作套件。它支持整个 3D 管线建模、绑定、动画、模拟、渲染、合成、运动跟踪和视频编辑。

  • open-mmlab/mmcv MMCV 是计算机视觉研究的基础库,它提供以下功能:通用 IO API、图像/视频处理、图像和注释可视化、有用的实用程序(进度条,计时器,...)、具有挂钩机制的 PyTorch runner、各种CNN架构、CPU 和 CUDA 操作的高质量实现。

  • ArduPilot/ardupilot 最先进、功能最全、最可靠的开源自动驾驶软件。自 2010 年以来,它一直由专业工程师、计算机科学家和社区贡献者组成的多元化团队开发。我们的自动驾驶软件能够控制几乎任何可以想象的车辆系统,从传统飞机、四架飞机、多旋翼和直升机到漫游车、船只、平衡机器人,甚至潜艇。它正在不断扩展,为新的车辆类型提供支持。

  • Stability-AI/stablediffusion 具有潜在扩散模型的高分辨率图像合成

  • Stability-AI/generative-models 文本到图像模型\图像到视频的模型。发布 SDXL-Turbo,这是一款闪电般快速的文本到图像模型。 Stable Video Diffusion,一种图像到视频的模型。SDXL-base-0.9 :在分辨率为 1024^2 的图像上,对基础模型进行了各种纵横比的训练。基本模型使用 OpenCLIP-ViT/G 和 CLIP-ViT/L 进行文本编码,而精简模型仅使用 OpenCLIP 模型。SDXL-refiner-0.9 :精简器已经过训练,可以对高质量数据的小噪声水平进行降噪,因此不应用作文本到图像模型;相反,它只能用作图像到图像模型。

  • hua1995116/awesome-ai-painting AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)

  • YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy 扩散模型论文、调查和分类法

  • comfyanonymous/ComfyUI 功能最强大、模块化最稳定的扩散 GUI,带有图形/节点界面。特征:节点/图形/流程图界面,无需编写任何代码即可试验和创建复杂的稳定扩散工作流程。完全支持 SD1.x、SD2.x、SDXL 和稳定的视频扩散。许多优化:仅重新执行在执行之间更改的工作流部分。命令行选项: --lowvram 使其在 vram 小于 3GB 的 GPU 上运行(在 vram 较低的 GPU 上自动启用)。即使您没有具有以下功能的 GPU,也能正常工作: --cpu (慢速)。可以加载 ckpt、safetensor 和扩散器模型/检查点。独立的 VAE 和 CLIP 型号。嵌入/文本反转。Loras(常规、locon 和 loha)。超网络。从生成的 PNG 文件加载完整的工作流(带有种子)。将工作流保存/加载为 Json 文件。节点接口可用于创建复杂的工作流程,例如用于 Hires 修复或更高级的工作流程。区域构成。使用常规模型和修复模型进行修复。ControlNet 和 T2I 适配器。高档型号(ESRGAN、ESRGAN 变体、SwinIR、Swin2SR 等)。unCLIP 型号。GLIGEN。模型合并。LCM 模型和 Loras。SDXL 涡轮增压。使用 TAESD 进行潜在预览。启动速度非常快。完全离线工作:永远不会下载任何内容。配置文件来设置模型的搜索路径。

  • 6174/comflowy 借助 ComfyUI 和 Stable Diffusion 释放无限可能,致力于打造精炼的 AI-Gen 工具,并为开发者和用户培养一个充满活力的社区。这个社区可以提供什么:更全面、更系统的 Stable Diffusion & ComfyUI 教程;通过 Discord 社区进行互动讨论;工作流和模型内容的数据库:ComfyUI 的重要价值在于它能够共享或导入工作流。Better ComfyUI 的开源版本Comflowyspace。

  • lllyasviel/Fooocus 图像生成软件(基于Gradio)。对 Stable Diffusion 和 Midjourney 设计的重新思考:从 Stable Diffusion 中学习,该软件是离线、开源和免费的。从Midjourney中学习,不需要手动调整,用户只需要专注于提示和图像。

  • diff-usion/Awesome-Diffusion-Models 关于扩散模型的资源和论文集

  • huggingface/diffusers 用于在 PyTorch 中生成图像和音频的最先进的扩散模型,用于生成分子的图像、音频甚至 3D 结构。无论您是在寻找简单的推理解决方案还是训练自己的扩散模型,扩散器都是一个支持两者的模块化工具箱。我们的库的设计侧重于可用性而不是性能,简单而不是简单,以及可定制性而不是抽象。扩散器提供三个核心组件:最先进的扩散管道,只需几行代码即可在推理中运行。可互换的噪声调度器,用于不同的扩散速度和输出质量。预训练模型,可用作构建块,并与调度程序结合使用,用于创建您自己的端到端扩散系统。

  • Stability-AI/StableStudio Stability AI 的官方开源版本 DreamStudio,这是我们用于生成式 AI 的用户界面。基于 Web 的应用程序,允许用户创建和编辑生成的图像。

  • TheRamU/Fay Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。

  • borisdayma/dalle-mini DALL·E Mini - 从文本提示生成图像

  • lucidrains/DALLE-pytorch 在Pytorch中实现/复制DALL-E,OpenAI的文本到图像转换器

  • ashawkey/stable-dreamfusion 文本到3D和图像到3D和网格导出与NeRF +扩散。

  • camenduru/stable-diffusion-webui-colab 稳定的扩散 Webui colab

  • facebookresearch/AnimatedDrawings 旨在成为一个有用的创意工具,让您可以灵活地创建以自己绘制的角色为主角的动画。

  • tencent-ailab/IP-Adapter 图像提示适配器旨在使预训练的文本到图像扩散模型能够生成具有图像提示的图像。

  • willwulfken/MidJourney-Styles-and-Keywords-Reference 包含可用于 MidJourney AI 的样式和关键字的参考。还有一些页面显示分辨率比较、图像权重等等!

  • ChenyangSi/FreeU 免费大幅提高扩散模型样本质量的方法:无需训练,无需引入其他参数,也不会增加内存或采样时间。

  • HumanAIGC/AnimateAnyone 为任何人制作动画:用于角色动画的一致且可控的图像到视频合成

  • magic-research/magic-animate 使用扩散模型进行时间一致的人体图像动画,基于扩散的人体图像动画框架,旨在增强时间一致性,忠实地保留参考图像,并提高动画保真度。

  • lucidrains/DALLE2-pytorch 在 Pytorch 中实现 DALL-E 2,OpenAI 更新的文本到图像合成神经网络

  • apple/ml-stable-diffusion 在 Apple 芯片上使用 Core ML 实现稳定扩散

  • divamgupta/diffusionbee-stable-diffusion-ui 适用于 MacOS 的Stable Diffusion GUI 应用程序

  • cbh123/emoji 使用 AI 为 Slack 制作表情符号

  • OpenAI/CLIP 对比语言图像预训练

  • mlfoundations/open_clip CLIP (对比语言-图像预训练)的开源实现。在各种数据源和计算预算上训练了多个模型,从小规模实验到大型运行,包括在 LAION-400M、LAION-2B 和 DataComp-1B 等数据集上训练的模型。在论文中详细研究了我们的许多模型及其缩放特性,用于对比语言图像学习的可重复缩放定律。此存储库专注于训练 CLIP 模型。要在下游分类任务(如 ImageNet)上微调经过训练的零样本模型,请参阅我们的其他存储库:WiSE-FT。WiSE-FT 存储库包含我们关于零样本模型的鲁棒微调的论文的代码,其中我们介绍了一种微调零样本模型的技术,同时在分布偏移下保持鲁棒性。

  • yangjianxin1/CLIP-Chinese 中文多模态对比学习预训练模型 ,可获取140w中文图文对预训练数据,以及中文CLIP预训练权重。下游任务:图文相似度计算、文本相似度计算、图片相似度计算

  • jina-ai/clip-as-service 使用 CLIP 对图像和句子进行可扩展的嵌入、推理和排名。一种低延迟、高可扩展性的服务,用于嵌入图像和文本。它可以作为微服务轻松集成到神经搜索解决方案中。快速:使用 TensorRT、ONNX 运行时和 PyTorch 提供 CLIP 模型,而无需 JIT,速度为 800QPS。请求和响应的无阻塞双工流,专为大数据和长时间运行的任务而设计。弹性:在单个 GPU 上水平扩展和缩减多个 CLIP 模型,并具有自动负载均衡功能。易于使用:没有学习曲线,客户端和服务器上的极简设计。直观且一致的 API,用于图像和句子嵌入。新式:异步客户端支持。使用 TLS 和压缩在 gRPC、HTTP、WebSocket 协议之间轻松切换。集成:与神经搜索生态系统(包括 Jina 和 DocArray)平滑集成。立即构建跨模式和多模式解决方案。

  • lllyasviel/ControlNet 让我们控制扩散模型!ControlNet 是一种神经网络结构,通过添加额外条件来控制扩散模型。

  • Mikubill/sd-webui-controlnet 适用于 ControlNet 的 WebUI 扩展

  • jexom/sd-webui-depth-lib 深度图库,用于 Automatic1111/stable-diffusion-webui 的控制网扩展

  • Nutlope/roomGPT 上传您的房间照片,使用 AI 生成您的梦想房间。使用称为ControlNet的ML模型来生成房间的变化。此应用程序使您能够上传任何房间的照片,该照片将使用 Next.js API 路由通过此 ML 模型发送照片,并返回生成的房间。

  • princeton-vl/infinigen 使用程序生成的无限逼真世界

  • jbilcke-hf/ai-comic-factory 使用 LLM + SDXL 生成漫画面板。

  • SawyerHood/draw-a-ui 使用 tldraw 和 gpt-4-vision api 根据您绘制的线框生成 html 的应用程序。

  • XingangPan/DragGAN 拖动 GAN:基于点操作的交互式图像流形生成

  • OFA-Sys/OFA 统一的序列到序列预训练模型(支持中英文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO 第一) ), VQA (链接),视觉基础,文本到图像生成,文本分类,文本生成,图像分类等。

  • openai/consistency_models 一致性模型的官方存储库。Diffusion Models 在生成一张图片时需要多次进行模型推理,对于实时性较强的应用,就很难让人满意了。这篇文章所claim的一步采样即能达到较好的效果。

  • CompVis/latent-diffusion 基于潜在扩散模型的高分辨率图像合成

  • FoundationVision/VAR 一种新的视觉生成方法将 GPT 风格的模型提升到超越扩散和缩放定律。视觉自回归建模 (VAR) 将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,与标准光栅扫描的“下一标记预测”不同。

  • open-mmlab/mmagic OpenMMLab 多模态高级、生成和智能创建工具箱。解锁魔法:生成AI(AIGC),易于使用的API,awsome模型库,扩散模型,用于文本到图像生成,图像/视频恢复/增强等。

  • jbhuang0604/awesome-computer-vision 令人敬畏的计算机视觉资源的精选列表

  • alicevision/meshroom 3D 重建软件,一款基于 AliceVision 摄影测量计算机视觉框架的免费开源 3D 重建软件。

  • google-research/magvit 官方 JAX 实现:掩码生成视频转换器 .引入 MAGVIT 以使用单一模型处理各种视频合成任务,并展示了其质量、效率和灵活性。

  • silverriver/MMChat 大规模的对话数据集,其中包含以图像为基础的中文对话。 MMChat 中的每个对话都与一个或多个图像相关联(每个对话最多 9 张图像)。 我们设计了各种策略来确保 MMChat 中对话的质量。 数据集中的图像托管在微博的静态图像服务器上。

  • tyxsspa/AnyText 多语言视觉文本生成和编辑,近年来,随着AIGC的爆火,图片生成技术得到飞速发展,当前AI生成的图片已达到真假难辨的高保真度。不过,当合成图片中出现文字内容时,仍能够使AI露出马脚,因为当前主流方法尚无法在图片中生成准确可读的字符。最近半年来已有学者开始研究文本生成的问题,但这些方法大多以英文为主,无法解决中文这种字形繁杂、字符数以万计的文字生成。因此,我们提出了一种新颖的文字生成方法AnyText,通过创新性的算法设计,可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。

  • deepseek-ai/DeepSeek-VL 专为真实世界视觉和语言理解应用而设计的开源视觉语言 (VL) 模型。DeepSeek-VL具备通用的多模态理解能力,能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像和具身智能。

  • PKU-YuanGroup/MoE-LLaVA 大型视觉语言模型的专家组合,MoE-LLaVA-Qwen1.5,更好地支持汉语。在更高的图像分辨率下训练更强的模型(例如768×768)。

  • TencentARC/InstantMesh 使用稀疏视图大型重建模型从单个图像生成高效的 3D 网格

  • OpenBMB/MiniCPM-V 面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。我们发布了两个版本的模型,旨在实现领先的性能和高效的部署:MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

  • FreedomIntelligence/ALLaVA 利用 GPT4V 合成数据构建精简视觉语言模型

  • KaiyangZhou/CoOp 通过快速学习将CLIP等视觉语言模型适应下游数据集

  • j-min/VL-T5 通过文本生成统一视觉和语言任务

  • cloneofsimo/lora 用于快速文本到图像扩散微调的低秩适配。

  • HuiGuanLab/ms-sl 基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,提出了部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。

  • facebookresearch/AugLy 用于音频、图像、文本和视频的数据增强库。

  • aigc-apps/sd-webui-EasyPhoto 一个 Webui UI 插件,用于生成 AI 肖像,可用于训练与您相关的数字分身。

  • alembics/disco-diffusion 用于生成 AI 艺术和动画的笔记本、模型和技术的科学怪人融合。

  • xxxnell/how-do-vits-work “视觉转换器如何工作?(ICLR 2022 )”的 PyTorch 实现。CV的多头自注意力 (MSA) 的成功并不在于弱归纳偏差以及捕获远程依赖项。 MSA 不仅是广义的 Convs,而是补充 Convs 的广义空间平滑。特别是,MSA 通过拉平损失情况来改进 NN。一个关键特征是它的数据特异性(数据依赖性),而不是远程依赖性。另一方面,ViTs 遭受非凸损失。MSA 和 Convs 表现出相反的行为,MSA 是低通滤波器,而 Convs 是高通滤波器。MSA 是形状偏向的,而 Convs 是纹理偏向的。因此,MSAs 和 Convs 是互补的。阶段末尾的 MSA(不是模型)显着提高了准确性。我们通过用 MSA 替换阶段结束时的 Convs 来引入 AlterNet。 AlterNet 在大小数据领域都优于 CNN。

  • salesforce/LAVIS 用于语言和视觉智能研究和应用的 Python 深度学习库。 该库旨在为工程师和研究人员提供一站式解决方案,以针对其特定的多模式场景快速开发模型,并跨标准和定制数据集对它们进行基准测试。 它具有统一的界面设计以访问:10 多个任务(检索、字幕、视觉问答、多模态分类等);20 多个数据集(COCO、Flickr、Nocaps、Conceptual Commons、SBU 等);30 多个最先进的基础语言视觉模型的预训练权重及其特定于任务的改编,包括 ALBEF、BLIP、ALPRO、CLIP。

  • luban-agi/Awesome-AIGC-Tutorials 收集了关于AIGC的各种精选教程和资源,既适合初学者也适合进阶AI爱好者。

  • willard-yuan/awesome-cbir-papers 经典图像检索论文合集

  • pliang279/awesome-multimodal-ml 多模态机器学习研究课题阅读清单

  • lucidrains/imagen-pytorch 在 Pytorch 中实现谷歌的文本到图像神经网络 Imagen ,谷歌的文本到图像神经网络,击败了 DALL-E2。 它是文本到图像合成的新 SOTA。在架构上上比 DALL-E2 简单得多。 它由一个级联 DDPM 组成,该 DDPM 以来自大型预训练 T5 模型(注意网络)的文本嵌入为条件。 它还包含用于改进分类器自由引导、噪声级调节和内存高效 unet 设计的动态裁剪。

  • divamgupta/stable-diffusion-tensorflow Stable Diffusion 稳定扩散的 Keras Tensorflow 实现。

  • LuChengTHU/dpm-solver 用于扩散概率模型采样的快速 ODE 求解器。DPM-Solver 适用于离散时间和连续时间扩散模型,无需任何进一步训练。 实验结果表明,仅需对各种数据集进行 10 到 20 次函数评估即可生成高质量样本。

  • jina-ai/clip-as-service 一种用于嵌入图像和文本的低延迟、高可伸缩性的服务。它可以作为一个微服务轻松集成到神经搜索解决方案中。有四种基本的视觉推理技能:对象识别、对象计数、颜色识别和空间关系理解。文本到图像跨模态搜索。

  • hua1995116/awesome-ai-painting AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)

  • lllyasviel/style2paints 草图 + 风格 = 绘画

  • realtime-semantic-segmentation 用TF.js实施RefineNet以在浏览器中执行实时实例分割

  • extreme-assistant/CVPR2021-Paper-Code-Interpretation cvpr2021 cvpr2020 cvpr2019 cvpr2018 cvpr2017 论文/代码/解读/直播合集,极市团队整理

  • LeonLok/Multi-Camera-Live-Object-Tracking 多摄像头实时目标跟踪和计数,使用YOLOv4,Deep SORT和Flask

  • kornia/kornia 基于 PyTorch 的可微分(differentiable)的计算机视觉开源库, 实现了:可微的基础计算机视觉算子、可微的数据增广。OpenCV 和 PIL 都是不可微的,所以这些处理都只可以作为图像的预处理而无法通过观察梯度的变化来对这些算子进行优化 (gradient-based optimization),因此Kornia 便应运而生。

  • architras/Advanced_Lane_Lines 基于阈值的车道标记

  • facebookresearch/pytorch3d 基于PyTorch将深度学习与3D进行结合的研究框架。

  • facebookresearch/pytorchvideo 为视频理解研究打造的深度学习库。

  • rwightman/pytorch-image-models PyTorch图像类模型库,包括:ResNet, ResNeXT, EfficientNet, EfficientNetV2, NFNet, Vision Transformer, MixNet, MobileNet-V3/V2, RegNet, DPN, CSPNet

  • Thinklab-SJTU/ThinkMatch 深度图匹配算法 图形匹配(GM)是计算机视觉,模式识别和数据挖掘中一个基本但具有挑战性的问题。GM旨在通过解决称为二次分配问题(QAP)的NP硬组合问题来找到多个图之间的节点到节点对应关系。应用:桥接电影和简介、图像对应、分子匹配

  • google-research/vision_transformer 视觉Transformer和 MLP-混合器架构,Transformer应用于视觉,纯多层感知机视觉架构。

  • China-UK-ZSL/ZS-F-VQA 一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,缓解了误差传播对于模型性能的影响。

  • luost26/diffusion-point-cloud 基于非平衡态热力学的全新三维点云生成模型

  • PeterWang512/GANSketching 绘制您自己的 GAN:用手绘草图自定义 GAN 模型。

  • microsoft/AutoML/iRPE 视觉位置编码,在ImageNet和COCO上,与原始版相比,分别获得了1.5%(top-1 Acc)和1.3%(mAP)的性能提升(无需任何调参)。

  • shahroudy/NTURGB-D “NTU RGB+D”动作识别数据集、“NTU RGB+D 120”动作识别数据集、“NTU RGB+D”是用于人类动作识别的大规模数据集。“NTU RGB+D 120”是“NTU RGB+D”数据集的扩展版本。

  • yuhuan-wu/P2T 基于金字塔池化的视觉Transformer,可用于各类下游场景理解任务。

  • jantic/DeOldify 基于NoGAN技术,保证视频着色的稳定性,例如,视频中的同一件衣服,不至于转换成多种颜色。

  • junyanz/pytorch-CycleGAN-and-pix2pix 图像到图像的转换

  • joelibaceta/video-to-ascii 可以使用字符作为像素在终端中播放视频

  • bytedance/OMGD 用于 GAN 压缩的在线多粒度蒸馏 (ICCV2021)

  • TorchSSL/TorchSSL 基于 PyTorch 的半监督学习库 (NeurIPS'21)

  • google-research/mixmatch 集成了自洽正则化的超强半监督学习 MixMatch

  • google-research/remixmatch 改进了最近提出的MixMatch半监督学习算法,引入了两种新技术:分布对齐和增强锚定。分布对齐鼓励未标记数据预测的分布接近标签的分布。增强锚定为模型提供多个强增强版本的输入,并鼓励每个输出接近同一输入的弱增强版本的预测。

  • NVlabs/stylegan3 更适合视频和动画的生成模型。

  • isl-org/DPT 用于密集预测的Transformers,图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测(dense prediction)。

  • google-research/mint 多模式内容创建模型训练基础设施,包括 FACT 模型(AI Choreographer)实现。带有 AIST++ 的音乐条件 3D 舞蹈生成。

  • yihongXU/TransCenterTransCenter:用于多对象跟踪的密集查询转换器

  • cvat-ai/cvat 使用 CVAT(行业领先的机器学习数据引擎)更好地进行注释。任何规模的团队都可以使用和信任任何规模的数据。用于计算机视觉的交互式视频和图像注释工具。它被全球数以万计的用户和公司使用。我们的使命是帮助世界各地的开发人员、公司和组织使用以数据为中心的 AI 方法解决实际问题。

  • ashkamath/mdetr 用于端到端多模态理解的调制检测。输入描述文本及图片,识别出文字描述的对应物体。

  • erikalu/omnimatte 提取视频中的前、背景。精确蒙版(matte)操作,分离前景背景。

  • microsoft/SimMIM 用作掩码图像建模的简单框架。通过系统研究,我们发现每个组件的简单设计都显示出非常强的表示学习性能:1)用中等大小的掩码补丁大小(例如,32)对输入图像进行随机掩码,这是一个强大的前置任务;2) 通过直接回归预测 RGB 值的原始像素的性能并不比设计复杂的补丁分类方法差;3)预测头可以像线性层一样轻,性能不比较重的层差。

  • microsoft/Oscar 跨模态预训练方法Oscar(Object-Semantics Aligned Pre-training)。它利用在图像中检测到的对象标签作为锚点来显着简化图像-文本对齐的学习。在 650 万个文本图像对的公共语料库上对 Oscar 进行预训练,并在下游任务上对其进行微调,在六项成熟的视觉语言理解和生成任务上创造新的最新技术。

  • xyzforever/BEVT 视频转换器的BERT预训练。BEVT首先对图像数据进行蒙版图像建模,然后对视频数据进行蒙版图像建模和蒙版视频建模。

  • fengpanhe/MT-ORLPyTorch 实现论文“MT-ORL:多任务遮挡关系学习”(ICCV 2021)

  • snap-research/CAT 用于压缩"图像到图像模型"CycleGAN Pix2pix的压缩和教学框架.

  • nikheelpandey/TAUP-PyTorch 任务不可知的无监督预训练。simCLR 论文的粗略实现。 如论文中所述,在对比损失函数上使用 LARS 优化器来训练对比模型。 将此模型用作编码器并添加全连接层以创建分类器。

  • HobbitLong/SupContrast “监督对比学习”的 PyTorch 实现(顺便提一下 SimCLR)

  • hustvl/QueryInst Instances as Queries是一种简单有效的基于查询的实例分割方法,由动态掩码头的并行监督驱动,在准确性和速度方面均优于以前的技术。

  • isl-org/MiDaS 单目深度估计的成功依赖于大量且多样化的数据集。但是由于深度的真实值在不同的环境尺度下获取的,大量数据具有不同的特征和偏差。本文提出了一种对于深度的范围和尺度具有不变性的训练方法,从而可以在训练期间混合多个数据集。因此,本文利用3D电影构建了一个数据集并进行训练,然后在训练期间未见过的数据集上进行评测。实验证明,混合训练来自不同的数据集可以改善深度估计的效果,特别是针对训练时未见过的数据集(zero-shot dataset)。

  • google-research/deeplab2 用于深度标记的 TensorFlow 库,旨在为密集像素标记任务提供统一且最先进的 TensorFlow 代码库。旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题。

  • YifanXu74/Evo-ViT 腾讯优图提出高性能Transformer加速方法.Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer,能在保证分类准确率损失较小的情况下,大幅提升推理速度,如在ImageNet 1K数据集下,可提升DeiT-S 60%推理速度的同时仅损失0.4%的精度。

  • researchmm/CKDN 用于退化参考图像质量评估的学习条件知识提炼

  • phecy/SSL-FEW-SHOT 小样本图像分类的自监督学习

  • yangle15/RANet-pytorch 提出的分辨率自适应网络 (RANet) 通过利用spatial redundancy输入图像的分辨率来进行自适应推理。动机是低分辨率表示足以对包含具有原型特征的大对象的简单样本进行分类,只有一些困难样本需要空间详细信息。

  • microsoft/NUWA 一个统一的多模态预训练模型,可以为8个视觉合成任务(文本转图像、模板转图像、图像补全、图像操纵、文本转视频、模板转视频、视频帧预测、视频操纵) 生成新的或操纵现有的视觉数据(即图像和视频)。待开放源码。

  • lucidrains/nuwa-pytorch 用于文本到视频合成的最先进的注意力网络

  • yuxie11/R2D2 大规模中文跨模式基准和视觉语言框架

  • google-research-datasets/conceptual-captions 包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本,并通过过滤程序从网络自动收集弱相关描述。

  • ShannonAI/OpenViDial 一个大规模多模态对话数据集.当人类交谈时,说话者接下来会说什么很大程度上取决于他所看到的。OpenViDial 是用于此目的的大型多模块对话数据集。这些对话回合和视觉上下文是从电影和电视剧中提取的,其中每个对话回合都与它发生的相应视觉上下文配对。对于OpenViDial 1.0,共包含 110 万个对话轮次,因此图像中存储了 110 万个视觉上下文。对于OpenViDial 2.0,包含 560 万个对话轮次以及 560 万个存储在图像中的视觉上下文。基于OpenViDial,同时提出了三个模型,以不同的粒度融合视觉信息,预测下一句的对话内容。

  • Alibaba-MIIL/STAM 受NLP中Transformer成功的启发,我们尝试将一个标准Transformer直接应用到图像上,尽可能少的修改。为此,我们将图像分割成小块,并将这些块转化为线性嵌入序列,作为Transformer的输入。图像块(image patches)就相当于NLP任务中的单词(token)来做处理。并以有监督的方式训练图像分类模型。大规模的训练可以克服归纳偏置(inductive biases)。当ViT在足够规模上进行预先训练,并迁移到较少数据量的任务时,可以获得出色结果。

  • openai/glide-text2im 基于扩散的文本条件图像合成模型。以文本提示为条件的图像;填充图像的蒙版区域,以文本提示为条件;使用 GLIDE(过滤)+ 过滤噪声感知 CLIP 模型来生成以文本提示为条件的图像。

  • SysCV/pcan 用于多对象跟踪和分割的原型交叉注意网络

  • google-research/scenic Scenic:用于计算机视觉研究及其他领域的 Jax 库

  • CryhanFang/CLIP2Video 基于CLIP (ViT-B/32)的视频文本检索模型,将图像语言预训练模型以端到端的方式转换为视频文本检索。模型包括一个时间差异块来捕捉精细时间视频帧的运动,以及时间对齐块来重新对齐视频剪辑和短语的标记并增强多模态相关性。在主要的文本到视频和视频到文本检索基准上取得了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。

  • ArrowLuo/CLIP4Clip CLIP4Clip 是基于CLIP (ViT-B)的视频文本检索模型。在这项工作中,我们研究了三种相似度计算方法:无参数类型、顺序类型和紧密类型。该模型在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 上实现了 SOTA 结果。

  • sail-sg/poolformer PoolFormer:MetaFormer 实际上是您的视觉所需要的。transformer/MLP-like 模型的能力主要源于通用架构 MetaFormer,而不是配备的特定令牌混合器。作者独树一帜提出视觉Transformer及其变种的成功原因主要是架构的设计,并且将token mixer换为了简单的池化获得了相当好的效果。

  • jonhare/DifferentiableSketching 微分绘图和素描

  • thuiar/Self-MM 多模态情感分析的自监督多任务学习学习模态特定表示中的代码

  • nuno-faria/tiler 使用各种其他较小图像(图块)创建图像的工具。它不同于其他马赛克工具,因为它可以适应多种形状和大小的瓷砖(即不限于正方形)。图像可以由圆圈、线条、波浪、十字绣、乐高积木、我的世界积木、回形针、字母等组成…

  • leandromoreira/ffmpeg-libav-tutorial FFmpeg libav 教程 - 了解媒体如何从基础到转换、转码等工作

  • Tencent/libpag 动画文件的渲染 SDK,降低或消除动画研发相关的成本,打通设计师创作到素材交付上线的极简流程,不断输出运行时可编辑的高质量动画内容。

  • salesforce/BLIP 用于 BLIP 的 PyTorch 代码:用于统一视觉语言理解和生成的引导语言图像预训练

  • VALUE-Leaderboard/StarterCode VALUE 基准测试的入门代码 。用于训练、评估和分析系统以理解视频和字幕的资源集合。

  • starmemda/CAMoE 通过多流语料库对齐和双 Softmax 损失改进视频文本检索

  • facebookresearch/SLIP SLIP 自监督代码发布符合语言-图像预训练

  • OFA-Sys/Chinese-CLIP 中文版CLIP,实现中文跨模态检索和表示生成。使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。

  • yuewang-cuhk/awesome-vision-language-pretraining-papers 视觉和语言预训练模型 (VL-PTM) 的最新进展

  • zengyan-97/X-VLM 多粒度视觉语言预训练 将文本与视觉概念对齐。

  • facebookresearch/vilbert-multi-task 12 合 1:多任务视觉和语言表征学习

  • airsplay/lxmert 从 Transformers 学习跨模态编码器表示

  • uclanlp/visualbert 视觉和语言的简单且高效的基线 arxiv.org/abs/1908.03557 预训练一个 Transformer,用于处理图像字幕数据的视觉和语言 (V&L) 任务。 无监督 VisualBERT,预训练了没有对齐的图像字幕对的 V&L 转换器。

  • jackroos/VL-BERT 用于视觉语言任务的简单而强大的可预训练通用表示。它在大规模字幕数据集和纯文本语料库上进行了预训练,可以针对各种下游视觉语言任务进行微调,例如视觉常识推理、视觉问答和参考表达理解。

  • ChenRocks/UNITER 支持在 NLVR2VQAVCR、 SNLI-VE 、 COCO和 Flickr30k的图像文本检索以及 引用表达式理解(RefCOCO、RefCOCO+ 和 RefCOCO-g)上微调 UNITER。UNITER-base 和 UNITER-large 的预训练检查点均已发布。还可以使用域内数据进行基于 UNITER 的预训练。

  • ERNIE/ernie-vil 视觉语言任务的知识增强联合表示,第一个引入结构化知识以增强视觉语言预训练的工作。利用从场景图中获得的结构化知识,ERNIE-ViL 构造了三个场景图预测任务,即对象预测、属性预测和关系预测任务。因此,可以学习更好的联合视觉语言表示,表征跨视觉和语言的详细语义的对齐。

  • Research/NLP/UNIMO UNIfied-MODal 预训练架构,即UNIMO,可以有效地适应单模态和多模态的理解和生成任务。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解能力,并利用跨模态对比学习(CMCL)将文本和视觉信息对齐到图像语料库上的统一语义空间中。用相关图像和文本增强的文本对。在丰富的非配对单模态数据的帮助下,我们的模型能够通过允许文本知识和视觉知识在统一的语义空间中相互增强来学习更多的泛化表示。实验结果表明,大大提高了几个单模态和多模态下游任务的性能。

  • fairseq/examples/MMPT 用于多模态视频理解的工具包!包含两篇多模态视频理解论文VideoCLIP (EMNLP, 2021) 和VLM (ACL Findings, 2021) 的实现。VideoCLIP 是一种对比学习模型,用于将零样本迁移到检索/分类/序列标记样式任务。VLM 是一种掩码语言模型样式预训练,仅使用一个带有掩码模态模型 (MMM) 的编码器来执行检索/生成/序列标签样式任务。

  • mczhuge/Kaleido-BERT (CVPR2021) Kaleido-BERT:时尚领域的视觉语言预训练。

  • linjieli222/HERO # 用于视频+语言全表示预训练的分层编码器 该存储库目前支持在 TVRTVQATVC、 VIOLIN、 DiDeMo和 MSR-VTT Retrieval上微调 HERO 。发布了最好的预训练检查点(在HowTo100MTV数据集上)。还提供了在 TV 数据集上进行 HERO 预训练的代码。

  • gabeur/mmt 用于视频检索的多模态变压器 提出的多模态转换器 (MMT) 从视频中聚合多模态特征序列(例如外观、运动、音频、OCR 等)。然后,它将聚合的多模式特征嵌入到带有文本的共享空间中以进行检索。它在 MSRVTT、ActivityNet 和 LSMDC 数据集上实现了最先进的性能。

  • Noah-Wukong Dataset 大规模的多模态中文数据集。数据集包含1 亿个image, text对。数据集中的图像根据大小(两个维度 > 200px)和纵横比(1/3 ~ 3)进行过滤。数据集中的文本根据其语言、长度和频率进行过滤。

  • lyakaap/ISC21-Descriptor-Track-1st Facebook AI 图像相似度挑战赛 (ISC21) 的第一名解决方案

  • sun-xl/ISC2021 Facebook AI 组织的图像相似度挑战赛Image Similarity Challenge (ISC) 2021 匹配赛道的第三名解决方案的源代码

  • zr2021/2021_QQ_AIAC_Tack1_1st QQ浏览器2021多模态视频相似度 第1名 方案

  • PKU-DAIR/2021_AIAC_Task2_1st QQ浏览器2021多模态视频相似度 第1名 方案

  • kywen1119/Video_sim 2021年qq浏览器AI算法大赛 多模态视频相似度 第四名

  • ChasingStar95/AIAC2021_task1_rank6 2021QQ浏览器 多模态视频相似度 rank6

  • AIAC_qq_browser_2021_task1_rank11 2021年 qq浏览器AI 算法大赛 赛道一 多模态视频相似度 决赛第11名

  • Tencent/Lichee 一个多模态内容理解算法框架,其中包含数据处理、预训练模型、常见模型以及模型加速等模块。

  • saic-mdal/lama LaMa 图像修复,具有傅里叶卷积的分辨率稳健的大型蒙版修复

  • microsoft/VideoX 跨模态视频内容理解

  • fnzhan/MISE 多模态图像合成和编辑:调查

  • NVlabs/instant-ngp 即时神经图形基元:闪电般快速的 NeRF 等 。Neural Radiance Fields(神经辐射场),是一项利用多目图像重建三维场景的技术。

  • Mengzi/Mengzi-Oscar 中文多模态预训练 Mengzi-Oscar 模型 下游任务模型: 中文图像摘要. 中文图文互检.

  • WangWenhao0716/ISC-Track2-Submission [NeurIPS Challenge Rank 3rd] 重现 Image Similarity Challenge Track 2 结果的代码和相关文件。

  • facebookresearch/Motionformer 训练和测试我们提出的 Motionformer 模型。Motionformer 使用提议的轨迹注意在几个视频动作识别基准(例如 Kinetics-400 和Something-Something V2)上实现最先进的结果。

  • snap-research/NeROIC 来自在线图像集合的神经对象捕获和渲染,两阶段模型将来自不同条件的对象图像作为输入。利用其他最先进方法获取的图像的相机位姿和对象前景蒙版,我们首先通过训练基于 NeRF 的网络优化扫描对象的几何形状并细化相机位姿;然后我们使用我们的法线提取层从几何体(由密度函数表示)计算表面法线;最后,我们的第二阶段模型分解了物体的材料属性,并解决了每个图像的光照条件。

  • facebookresearch/ConvNeXt 一个完全由标准 ConvNet 模块构建的纯 ConvNet 模型。ConvNeXt 准确、高效、可扩展且设计非常简单。

  • declare-lab/MELD 用于对话中情绪识别的多模多方数据集

  • visualcommonsense 视觉常识推理 ( VCR ) 是一项用于认知级视觉理解的新任务和大规模数据集

  • imageclef.org ImageCLEF 旨在为图像的跨语言注释和检索提供一个评估论坛。由于需要支持来自全球社区的多语言用户访问不断增长的视觉信息体,ImageCLEF 的主要目标是支持视觉媒体分析、索引、分类和检索领域的进步,通过开发必要的用于评估在单语、跨语言和与语言无关的上下文中运行的视觉信息检索系统的基础设施。ImageCLEF 旨在为此类基准测试提供可重用资源。包括:(视觉)信息检索、跨语言信息检索、计算机视觉和模式识别、医学信息学、人机交互等。

  • studiomoniker/Quickdraw-appendix 25k 阴茎涂鸦数据集

  • Jittor/JNeRF 基于 Jittor 的 NeRF 基准测试。JNeRF 重新实现了 Instant-ngp 并达到了与原始论文相同的性能。

  • THUDM/CogVideo 文本到视频生成的代码和模型,只支持简体中文输入。

  • THUDM/CogView 文本到图像的生成。NeurIPS 2021 论文“CogView: Mastering Text-to-Image Generation via Transformers”

  • CompVis/stable-diffusion 潜在的文本到图像的扩散模型。凭借其860M UNet和 123M文本编码器,该模型相对轻量级,并在具有至少10GB 的 GPU 上运行。

  • invoke-ai/InvokeAI 这个版本的 Stable Diffusion 具有流畅的 WebGUI、交互式命令行脚本,它在“dream bot”风格的界面中结合了 text2img 和 img2img 功能,以及多个功能和其他增强功能。可以在 Win、Mac 和 Linux 机器上运行,GPU 卡只有 4 GB 的 RAM。

  • AUTOMATIC1111/stable-diffusion-webui 稳定的扩散(文本到图像的扩散模型)网页界面

  • divamgupta/diffusionbee-stable-diffusion-ui Diffusion Bee 是在 M1 Mac 上本地运行 Stable Diffusion 的最简单方法。附带一键安装程序。无需依赖或技术知识。

  • cmdr2/stable-diffusion-ui 在pc上安装和使用稳定扩散的最简单方式。提供用于从文本提示和图像生成图像的浏览器 UI。只需输入您的文本提示,然后查看生成的图像。

  • nateraw/stable-diffusion-videos 通过探索潜在空间和文本提示之间的变形来实现稳定扩散(stable diffusion)的视频

  • kuprel/min-dalle DALL·E Mini 到 PyTorch 的快速、最小的接口。DALL-E是一个可以通过文本描述中生成图像的AI程序。 通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入并生成相应的图片。可生成现实、现实中不存在的对象。

  • heejkoo/Awesome-Diffusion-Models 关于扩散模型的资源和论文集

  • YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy 扩散模型:方法和应用的综合调查

  • open-mmlab/mmgeneration 一个强大的生成模型工具包,基于PyTorch和MMCV。高质量的训练:支持无条件 GAN、内部 GAN 和图像翻译模型的培训。对条件模型的支持即将推出。强大的工具包:为用户提供了包含GAN中多个应用程序的丰富工具包。GAN 插值、GAN 投影和 GAN 操作已集成到我们的框架中。高效分布式训练:对于生成模型中的高动态训练,采用了一种新的方法来训练动态模型 MMDDP 。灵活组合的新模块化设计:针对复杂损耗模块的定制链接,提出一种新的设计,可以实现不同模块之间的灵活组合。

  • rinongal/textual_inversion 使用个性化文本反转到图像生成 。仅使用提供的概念(如对象或样式)的 3-5 张图像,通过学习冻结文本到图像模型的嵌入空间中的新“词”来表示它。 这些“词”可以组合成自然语言句子,以直观的方式指导个性化创作。

  • remotion-dev/remotion 使用 React 以编程方式创建视频的框架。

  • zhegan27/VILLA 视觉和语言对抗训练 (NeurIPS 2020 Spotlight) 的官方库。 目前支持 UNITER 在 VQA、VCR、NLVR2 和 SNLI-VE 上的对抗微调。 使用域内数据的对抗性预训练将很快可用。 VILLA-base 和 VILLA-large 预训练检查点均已发布。

  • Sally-SH/VSP-LLM 视觉语音处理与LLMs(VSP-LLM)相结合,通过带来压倒性的LLMs功率来最大限度地提高上下文建模能力。具体来说,VSP-LLM旨在执行视觉语音识别和翻译的多任务,其中给定的指令控制任务的类型。通过采用自监督视觉语音模型,将输入视频映射到 LLM 的输入潜在空间。针对输入帧中存在冗余信息的事实,我们提出了一种新颖的重复数据删除方法,该方法通过采用视觉语音单元来减少嵌入的视觉特征。通过所提出的重复数据删除和低秩适配器 (LoRA),VSP-LLM 可以以计算高效的方式进行训练。

  • piskelapp/piskel 易于使用的精灵编辑器。 可用于创建精灵、动画、像素艺术。

  • pencil2d/pencil 制作二维手绘动画的简单、直观的工具。

  • OpenShot/libopenshot 致力于为全世界提供高质量的视频编辑、动画和播放解决方案。 API 目前支持 C++、Python 和 Ruby。

  • microsoft/GLIP 将目标检测任务转换为短语定位任务。对待任意一张训练图片,把标签用句号隔开,拼接成一句话。通过这种方式,所有的目标检测数据集都可转化为短语定位数据集。至此,便有了文字-重点区域对(word-region pair)。然后,对文字和图片分别进行编码,获得了文字与图片各自的特征。

  • jina-ai/discoart DiscoArt 是一种优雅的方式,可以为生成艺术家、AI 爱好者和铁杆开发人员创建引人注目的 Disco Diffusion艺术作品。

  • olive-editor/olive 适用于 Win、macOS 和 Linux 的免费非线性视频编辑器。

  • NatronGitHub/Natron 一款免费的开源(GPLv2 许可证)视频合成器,其功能类似于 Adobe After Effects、Foundry 的 Nuke 或 Blackmagic Fusion。 它是可移植的和跨平台的(GNU/Linux、macOS 和 Microsoft Windows)。

  • patriciogonzalezvivo/glslViewer 基于控制台的 OpenGL 沙盒,无需 UI 即可显示 2D/3D GLSL 着色器。 您绝对可以使用 Python 模块(包括)或任何其他通过标准 POSIX 控制台输入/输出或 OSC 与 glslViewer 来回通信的工具来制作自己的 UI 或包装器。

  • ossrs/srs SRS是一个简单、高效的实时视频服务器,支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181。

  • google-research/jax3d Jax 中用于神经渲染的库,旨在成为一个灵活的 NeRF 生态系统,以支持快速原型设计、轻松协作以及研究代码的发布。

  • MCG-NJU/VideoMAE 简单高效的视频自监督预训练新范式。提出了极高的掩蔽率 (90%-95%) 和管掩蔽策略,为自监督视频预训练创建具有挑战性的任务。VideoMAE 可以作为未来自监督视频预训练研究的简单但强大的基线。适用于不同规模的视频数据集,在 Kinects-400 上可以达到 87.4%(Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含各种以人为本的行动。该数据集包含 400 个人类动作类,每个动作至少有 400 个视频剪辑。每个剪辑持续大约 10 秒,并且取自不同的 YouTube 视频。这些动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。),在 Something-Something V2 (大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集)上可以达到 75.4%,在 UCF101 上可以达到 91.3%(UCF-101(2012)包含13,320个视频(共27个小时),101个人类行为类别,如运动、乐器和人物交互等。),在 HMDB51(HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G) 上可以达到 62.6%。

  • POSTECH-CVLab/PeRFception 隐式3D表示(即神经辐射场(NeRFs))的最新进展使得以可微分方式进行精确和逼真的3D重建成为可能。

  • opendilab/InterFuser 使用可解释传感器融合Transformer实现安全增强型自动驾驶

  • Kuaipedia/Kuaipedia 全球首个大规模多模态短视频百科,以条目、方面、短视频为基本单位。亿级别多模态短视频百科体系。

  • Moguri/awesome-panda3d 使用Panda3D(py 3D库)的优秀资源的精选列表

  • photoprism/photoprism 基于人工智能的去中心化网络照片应用程序。利用最新技术自动标记和查找图片,而不会妨碍您。您可以在家中、私人服务器或云端运行它。

  • magicleap/SuperGluePretrainedNetwork 强力胶:使用图神经网络学习特征匹配 。一个图神经网络,与最佳匹配层相结合,经过训练以对两组稀疏图像特征执行匹配。包括 PyTorch 代码和预训练权重,用于在 SuperPoint 关键点和描述符之上运行 SuperGlue 匹配网络。给定一对图像,可以使用此存储库提取图像对中的匹配特征。

  • neutraltone/awesome-stock-resources 免费图库摄影、视频和插图网站的链接集合

  • aleju/imgaug 机器学习实验的图像增强。

  • libvips/libvips 一个需求驱动的水平线程图像处理库。与类似的库相比,libvips 运行速度快,占用内存很少。涵盖算术、直方图、卷积、形态操作、频率过滤、颜色、重采样、统计等。它支持从 8 位 int 到 128 位复数的大量数值类型。影像可以具有任意数量的波段。它支持多种图像格式。

  • Charmve/computer-vision-in-action 学习闭环《计算机视觉实战演练:算法与应用》中文电子书、源码、读者交流社区 计算机视觉实战演练:算法与应用🌱

  • raulmur/ORB_SLAM2 单目、立体和RGB-D相机的实时SLAM,具有环路检测和重新定位功能

  • dk-liang/Awesome-Visual-Transformer 收集一些关于Transformer变压器与计算机视觉的VIT论文。

  • lukasHoel/text2room Text2Room 使用 2D 文本到图像模型 (ICCV2023) 从给定的文本提示生成纹理 3D 网格。

  • facebookresearch/ImageBind 一个嵌入空间以绑定图像的所有内容,ImageBind 学习跨六种不同模式的联合嵌入 - 图像、文本、音频、深度、热量和 IMU 数据(惯性测量单元,是用来测量物体加速度、角速度、磁场,高度等)。它支持“开箱即用”的新型紧急应用,包括跨模态检索、使用算术组合模态、跨模态检测和生成。

  • vdumoulin/conv_arithmetic 深度学习背景下卷积算法的技术报告

  • eriklindernoren/PyTorch-GAN 生成对抗网络的 PyTorch 实现。

  • spmallick/learnopencv 此存储库包含博客 LearnOpenCV.com 上共享的计算机视觉、深度学习和 AI 文章的代码。

  • facebookresearch/dino 使用PyTorch的自监督学习进行视觉转换器训练的代码

  • facebookresearch/dinov2 在没有监督的情况下学习强大的视觉特征,DINOv2 模型可产生高性能的视觉特征,这些特征可以直接与分类器一起使用,就像在各种计算机视觉任务中执行线性层一样简单;这些视觉功能非常强大,并且在各个领域中表现良好,无需任何微调。这些模型在包含 142 M 张图像的数据集上进行了预训练,没有使用任何标签或注释。

  • python-pillow/Pillow Jeffrey A. Clark (Alex) 和贡献者推出的友好 PIL 叉。PIL 是 Fredrik Lundh 和贡献者开发的 Python 图像库。

  • Zulko/moviepy 用于视频编辑的 Python 库:剪切、串联、标题插入、视频合成(又名非线性编辑)、视频处理和创建自定义效果。可以读取和写入所有最常见的音频和视频格式,包括 GIF,并使用 Python 3.6+ 在 Windows/Mac/Linux 上运行。

  • abhiTronix/vidgear 高性能视频处理 Python 库,它提供了一个易于使用、高度可扩展、彻底优化的多线程 + Asyncio API 框架,它基于许多最先进的专业库,如 OpenCV、FFmpeg、ZeroMQ、picamera、starlette、yt_dlp、pyscreenshot、dxcam、aiortc 和 python-mss 在其后端服务,使我们能够灵活地利用它们的内部参数和方法,同时静默地提供强大的错误处理和实时性能

  • Breakthrough/PySceneDetect 基于 Py 和 OpenCV 的场景剪切/过渡检测程序和库。

  • torch-points3d/torch-points3d 用于在点云上进行深度学习的 Pytorch 框架。用于根据经典基准运行用于点云分析任务的常见深度学习模型。它严重依赖 Pytorch Geometric 和 Facebook Hydra。

  • alex000kim/nsfw_data_scraper 训练 NSFW 图像分类器的脚本集合

  • tnfe/FFCreator 基于Node.js的轻量级灵活的短视频处理库。您只需要添加一些图片、音乐或视频剪辑,就可以使用它快速创建非常令人兴奋的视频相册。

  • HumanSignal/labelImg 在数十名贡献者的帮助下创建的流行图像注释工具,现已不再积极开发,而是已成为 Label Studio 社区的一部分。查看 Label Studio,这是一款最灵活的开源数据标注工具,适用于图像、文本、超文本、音频、视频和时间序列。

  • pytorch/vision 由流行的数据集、模型架构和用于计算机视觉的常见图像转换组成。

  • Cadene/pretrained-models.pytorch pytorch 预训练的 ConvNet:NASNet、ResNeXt、ResNet、InceptionV4、InceptionResnetV2、Xception、DPN 等。

  • camenduru/ShareGPT4V-colab 使用更好的字幕改进大型多模态模型。一个开创性的大规模资源,拥有 120 万个高度描述性的标题,在多样性和信息内容方面超越了现有的数据集,涵盖了世界知识、物体属性、空间关系和美学评估。具体来说,ShareGPT4V 起源于从高级 GPT4-Vision 收集的精选 100K 高质量字幕,并已扩展到 120 万,并在这个子集上训练了出色的字幕模型。ShareGPT4V 首先证明了其在监督微调 (SFT) 阶段的有效性,方法是用我们的高质量字幕子集替换现有 SFT 数据集中等量的详细字幕,显着增强了 MME 和 MMBench 基准测试上的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMM,分别获得了 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据整合到预训练和 SFT 阶段,获得了 ShareGPT4V-7B,这是一款基于简单架构的卓越 LMM,在大多数多模态基准测试中具有卓越的性能。

  • xbmc/xbmc 屡获殊荣的免费开源家庭影院/媒体中心软件和数字媒体娱乐中心。凭借其漂亮的界面和强大的皮肤引擎。

  • obsproject/obs-studio 专为高效捕获、合成、编码、录制和流式传输视频内容而设计的软件。

  • OpenTalker/SadTalker [CVPR 2023年]SadTalker:学习逼真的3D运动系数,用于风格化的音频驱动的单图像说话人脸动画

  • glfw/glfw 用于 OpenGL、OpenGL ES 和 Vulkan 应用程序开发的开源多平台库。它提供了一个简单的、独立于平台的 API,用于创建窗口、上下文和图面、读取输入、处理事件等。

  • amusi/CVPR2023-Papers-with-Code CVPR 2023 论文和开源项目合集

  • zalandoresearch/fashion-mnist  类似MNIST的时尚产品数据库。Zalando 文章图像的数据集,由包含 60,000 个示例的训练集和包含 10,000 个示例的测试集组成。每个示例都是一个 28x28 灰度图像,与来自 10 个类的标签相关联。我们打算 Fashion-MNIST 直接替代原始MNIST数据集,用于对机器学习算法进行基准测试。它与训练和测试拆分的图像大小和结构相同。

  • albumentations-team/albumentations 用于图像增强的 Python 库。图像增强用于深度学习和计算机视觉任务,以提高训练模型的质量。图像增强的目的是从现有数据创建新的训练样本。支持所有常见的计算机视觉任务,例如分类、语义分割、实例分割、对象检测和姿态估计。提供了一个简单的统一 API 来处理所有数据类型:图像(RBG 图像、灰度图像、多光谱图像)、分割掩码、边界框和关键点。该库包含 70 多种不同的增强,用于从现有数据生成新的训练样本。

  • isl-org/Open3D 支持快速开发处理 3D 数据的软件。Open3D 前端在 C++ 和 Python 中公开了一组精心挑选的数据结构和算法。后端经过高度优化,并设置为并行化。

  • microsoft/computervision-recipes 计算机视觉的最佳做法、代码示例和文档。应用包括人脸识别、图像理解、搜索、无人机、测绘、半自动和自动驾驶汽车。其中许多应用的关键部分是视觉识别任务,例如图像分类、对象检测和图像相似性。

  • esimov/caire 基于 Seam Carving for Content-Aware Image Adjustment 的内容感知图像大小调整库。

  • PointCloudLibrary/pcl 点云库 (PCL) 是一个独立的、大规模的、开放的项目,用于 2D/3D 图像和点云处理。已发布模块如下:filters 过滤器、features 特征、keypoints 关键点、registration注册、kdtree 、octree八叉树、segmentation 分割 、sample_consensus 、surface表面、recognition识别、io、visualization可视化

  • timzhang642/3D-Machine-Learning 近年来,3D机器学习领域取得了巨大的进展,这是一个融合了计算机视觉、计算机图形学和机器学习的跨学科领域。这个 repo 源自我的学习笔记,将用作对新研究论文进行分类的地方。

  • kjw0612/awesome-deep-vision 用于计算机视觉的深度学习资源精选列表

  • doitsujin/dxvk 基于 Vulkan 的 D3D9、D3D10 和 D3D11 for Linux / Wine 实现。适用于 Direct3D 9/10/11 的基于 Vulkan 的转换层,允许使用 Wine 在 Linux 上运行 3D 应用程序。

  • EBazarov/nsfw_data_source_urls 收集NSFW 图像 URL,用于训练NSFW图像分类器

  • FujiwaraChoki/MoneyPrinter 使用 MoviePy 自动创建 YouTube Shorts。

  • JoeyDeVries/LearnOpenGL 本书及其随附网站中所有 OpenGL 章节的代码存储库 learnopengl.com

  • 0voice/audio_video_streaming 音视频流媒体权威资料整理,500+份文章,论文,视频,实践项目,协议,业界大神名单。

  • danielgatis/rembg 去除图像背景的工具

  • Curzibn/Luban 可能是最接近微信朋友圈的图片压缩算法

  • leandromoreira/digital_video_introduction 视频技术的实践介绍:图像、视频、编解码器(av1、vp9、h265)等(ffmpeg 编码)

  • mltframework/shotcut 跨平台 (Qt)、开源 (GPLv3) 视频编辑器

  • ssloy/tinyrenderer 简短的计算机图形学/渲染课程,通过编写 OpenGL 的克隆(一个简化得多的克隆)来展示 OpenGL 的工作方式。令人惊讶的是,我经常遇到无法克服学习 OpenGL / DirectX 的最初障碍的人。因此,我准备了一系列简短的讲座,之后我的学生展示了相当不错的渲染器。

  • phillipi/pix2pix 使用条件对抗网络进行图像到图像转换

  • graphdeco-inria/gaussian-splatting “用于实时辐射场渲染的 3D 高斯飞溅”的原始参考实现,摘要:光辉场方法最近彻底改变了用多张照片或视频拍摄的场景的新颖视图合成。然而,实现高视觉质量仍然需要神经网络,而神经网络的训练和渲染成本很高,而最近的更快方法不可避免地会以速度换取质量。对于无界和完整的场景(而不是孤立的对象)和 1080p 分辨率渲染,目前没有一种方法可以实现实时显示速率。我们介绍了三个关键要素,使我们能够在保持有竞争力的训练时间的同时实现最先进的视觉质量,重要的是,它们允许在 1080p 分辨率下进行高质量的实时(≥ 30 fps)新颖视图合成。首先,从相机校准过程中产生的稀疏点开始,我们用 3D 高斯来表示场景,它保留了连续体积辐射场的理想属性以进行场景优化,同时避免了在空白空间中不必要的计算;其次,我们对三维高斯进行交错优化/密度控制,特别是优化各向异性协方差,以实现场景的准确表示;第三,我们开发了一种快速可见性感知渲染算法,该算法支持各向异性飞溅,既能加速训练,又能实现实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染。

  • NVlabs/stylegan2 分析和改进StyleGAN的图像质量

  • NVlabs/stylegan StyleGAN - 官方 TensorFlow 实现

  • hindupuravinash/the-gan-zoo 每周都有新的GAN论文问世,很难全部跟踪,更不用说研究人员为这些GAN命名的令人难以置信的创造性方式了!所以,这里有一个列表,最初是一个有趣的活动,汇编了所有命名的 GAN!

  • tonybeltramelli/pix2code 从图形用户界面屏幕截图生成代码

  • alyssaxuu/screenity 免费且隐私友好的屏幕录像机,没有限制。功能强大的隐私友好型屏幕录像机和注释工具,可为工作、教育等制作更好的视频。您可以创建令人惊叹的产品演示、教程、演示文稿或与您的团队分享反馈 - 所有这些都是免费的。特征:对您的选项卡、特定区域、桌面、任何应用程序或相机进行无限制的记录;录制麦克风或内部音频,并使用一键通等功能;通过在屏幕上的任意位置绘图、添加文本、箭头、形状等进行注释;使用 AI 驱动的相机背景或模糊来增强您的录制效果;平滑放大录音以专注于特定区域;模糊任何页面的任何敏感内容以保持其私密性;使用全面的编辑器删除或添加音频、剪切、修剪或裁剪您的录音;突出显示您的点击和光标,然后进入聚光灯模式;设置闹钟以自动停止录制;导出为 mp4、gif 和 webm,或将视频直接保存到 Google 云端硬盘以共享链接;设置倒计时、隐藏 UI 的某些部分或将其移动到任何位置;只有您可以看到您的视频,我们不会收集您的任何数据。您甚至可以离线;没有限制,随心所欲地制作任意数量的视频;还有更多 - 全部免费,无需登录

因果推断

  • microsoft/EconML ALICE(因果关系和经济学的自动学习和智能)是微软研究项目,旨在将AI概念应用于经济决策。 其目标之一是构建一个工具包,将最先进的机器学习技术与计量经济学相结合,以便将自动化应用于复杂的因果关系

  • Microsoft/dowhy 用于因果推理的 Python 库,它支持因果假设的显式建模和测试。 DoWhy 基于因果推理的统一语言,结合了因果图模型和潜在结果框架。

  • FenTechSolutions/CausalDiscoveryToolbox 图形和成对设置中的因果推断包。 包括用于图结构恢复和依赖关系的工具。

  • uber/causalml 使用机器学习算法进行提升建模和因果推理

  • erdogant/bnlearn 贝叶斯网络的图形结构、参数学习、推理和采样方法的 Py包。

  • rguo12/awesome-causality-algorithms 用数据学习因果关系的算法索引

  • gcastle 华为诺亚方舟实验室自研的因果结构学习工具链,主要的功能包括:数据生成及处理;因果图构建: 包含了主流的因果学习算法以及最近兴起的基于梯度的因果结构学习算法;因果评价: 提供因果结构学习评价指标,包括F1, SHD, FDR, TPR, FDR, NNZ等。

  • cmu-phil/causal-learn 用于因果发现的 python 包,它实现了经典和最先进的因果发现算法,它是Tetrad的 Python 翻译和扩展。

  • DataCanvasIO/YLearn 因果学习算法工具包,支持因果学习任务中的各类相关任务,从因果效应识别(causal effect idenfitication),到因果效应估计(causal effect estimation),到因果发现(causal discovery)等等,都可以通过YLearn实现。

  • huawei-noah/trustworthyAI 基于图自编码器的因果结构学习模型

  • wanyu-lin/ICML2021-Gem 针对图神经网络的通用因果解释方法

  • econometric/CausalitySlides 西雅图大学因果推理课程的幻灯片

  • pgmpy/pgmpy 用于学习(结构和参数)、推理(概率和因果)以及贝叶斯网络模拟的 Py库。

  • quantumblacklabs/causalnex 可帮助数据科学家推断因果关系而不是观察相关性的Py 库。

  • google/CausalImpact 用于时间序列中因果推理的 R 包

  • quantumblacklabs/causalnex “使用贝叶斯网络进行因果推理的工具包。”利用贝叶斯网络来识别数据中的因果关系,以便我们可以从分析中制定正确的干预措施。 与基于模式识别和相关性分析的传统机器学习方法相比,利用贝叶斯网络更直观地描述因果关系。 CausalNex 旨在简化因果关系和反事实分析的端到端流程。

  • fulifeng/Causal_Reading_Group 不定期更新有关机器学习+因果论的论文列表,同时也会在每周内讨论NExT++(NUS)和LDS(USTC)之间的相关论文。

  • matheusfacure/python-causality-handbook 勇敢和真实的因果推理。学习影响估计和因果关系的轻松而严格的方法。轻松而严谨的学习影响评估和敏感性分析方法。一切都在 Python 中,并带有尽可能多的模因。

金融股票与时间序列

金融股票

  • microsoft/qlib Qlib是一个面向AI的量化投资平台,旨在实现潜力,增强研究能力并创造AI技术在量化投资中的价值。包括多个模型。

  • QUANTAXIS/QUANTAXIS 量化金融策略框架

  • ricequant/rqalpha 从数据获取、算法交易、回测引擎,实盘模拟,实盘交易到数据分析,为程序化交易者提供了全套解决方案

  • cedricporter/funcat 将同花顺、通达信、文华财经麦语言等的公式写法移植到了 Python

  • georgezouq/awesome-deep-reinforcement-learning-in-finance 金融市场上使用的那些AI(RL/DL/SL/进化/遗传算法)的集合

  • wangshub/RL-Stock 如何用深度强化学习自动炒股。

  • tensortrade-org/tensortrade 一个开源强化学习框架,用于训练,评估和部署强大的交易程序。

  • juspay/hyperswitch 用 Rust 编写的开源支付开关,使支付快速、可靠且经济实惠。社区主导的开放式支付交换机,可为每个数字企业提供最佳支付基础设施。使用 Hyperswitch,您可以:减少对 Stripe 或 Braintree 等单个处理器的依赖;将开发工作量减少 90%,以添加和维护集成;通过无缝故障转移和自动重试提高成功率;通过智能路由降低处理费用;通过完全可见性和控制力自定义支付流程;通过本地/替代支付方式扩大业务覆盖面。截至 2023 年 9 月,我们支持 50+ 种支付处理器和多种全球支付方式。此外,我们还根据新处理器的覆盖范围和社区要求不断集成新处理器。我们的目标是到 2023 年下半年支持 100+ 处理器。您可以在此处找到最新的支付处理器列表、支持的方法和功能。

  • wilsonfreitas/awesome-quant 适用于量化金融的精选库、软件包和资源列表

  • OpenBB-finance/OpenBBTerminal 适合每个人、任何地方的投资研究。OpenBB致力于通过专注于每个人都可以访问的开源基础架构来构建投资研究的未来。

  • bsolomon1124/pyfinance 为投资管理和证券收益分析而构建的Python分析包。主要是对面向定量金融的现有包进行补充,如pyfolio和pandas-datareader等。pyfinance包含六个模块,它们分别是:datasets.py :金融数据下载,基于request进行数据爬虫;general.py:通用财务计算,例如主动份额计算,收益分配近似值和跟踪误差优化;ols.py:回归分析,支持pandas滚动窗口回归;options.py:期权衍生品计算和策略分析;returns.py:通过CAPM框架对财务时间序列进行统计分析,旨在模拟FactSet Research Systems和Zephyr等软件的功能,并提高了速度和灵活性;utils.py:基础架构。

  • quantopian/alphalens Python量化分析库,量化网站quantopian开发维护的量化三件套之一,用于股票因子(alpha)的性能分析。alphalens与zipline以及pyfolio常常一同使用,其中,pyfolio提供财务组合的性能和风险分析,zipline用于量化策略回测。alphalens的主要功能包括对一个alpha因子进行统计和绘图,包括:因子收益分析、因子信息系数分析、换手率分析以及分组分析。

  • quantopian/pyfolio 用于金融投资组合的性能和风险分析。它可以很好地与Zipline回测库一起工作。

  • quantopian/zipline 美国著名量化策略平台quantopian开发和维护的量化交易库,并且quantopian平台的回测引擎也是基于zipline的,除此之外,像国内有名的矿聚宽(JointQuant)、米筐(RiceQuant)、优矿的回测引擎也是基于此。zipline是一种事件驱动(event-driven)的回测框架,有完整的文档和社区,如果你是对国外美股交易感兴趣,那么zipline将比较合适;但是对于国内像A股的数据则无法支持,只能通过本地化的数据进行回测。

  • UFund-Me/Qbot AI 自动量化交易机器人,旨在实现量化投资的潜力,赋能人工智能技术。支持多种机器学习建模范式。包括监督学习、市场动态建模和强化学习。

  • gbeced/pyalgotrade 一个事件驱动的回测框架,虽然不如zipline的名气大,但是同样也具有完善的社区和详细的文档。据说pyalgotrade的运行速度和灵活度要比zipline强,但是缺点是不支持pandas。

  • mementum/backtrader 一个功能强大的量化策略回测平台。backtrader允许你专注于编写可重用的交易策略、指标和分析工具,而不是花时间构建基础设施。

  • enigmampc/catalyst 对于虚拟货币交易的量化回测平台。Catalyst是一个底层基于zipline的算法交易框架,目前比较成熟,并且可以支持策略的回测与实盘( 目前支持四家交易所 Binance, Bitfinex, Bittrex, Poloniex) 。

  • vnpy/vnpy 国内由陈晓优团队开发量化交易框架,它目前在github上star和fork的数量已经超过了zipline,目前是全球开源量化框架的首位。vn.py主要侧重于实盘交易,同样支持通过历史数据进行回测,包括数据的可视化、收益结果、参数调优等,除此之外,它还具备一些常用的CTA策略、SpreadTrading价差交易、行情录制等功能,并且它还具备完善的社区以及教程。新手在使用时,可以通过它的GUI环境VN Station进行使用,同时也可以基于它的策略模版进行自定义的策略开发。

  • waditu/tushare 拥有丰富的数据内容,如股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据。其SDK开发包支持语言,同时提供HTTP Restful接口,最大程度方便不同人群的使用。并且,它提供多种数据储存方式,如Oracle、MySQL,MongoDB、HDF5、CSV等,为数据获取提供了性能保证。

  • jindaxiang/akshare 基于 Py 的财经数据接口库, 目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具, 主要用于学术研究目的。特点是获取的是相对权威的财经数据网站公布的原始数据, 通过利用原始数据进行各数据源之间的交叉验证, 进而再加工, 从而得出科学的结论。

  • AI4Finance-LLC/FinRL-Library 哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

  • Heerozh/spectre GPU 加速的因子分析库和回测工具。

  • stefan-jansen/machine-learning-for-trading 旨在展示ML如何以实用而全面的方式为算法交易策略增加价值。它涵盖了从线性回归到深度强化学习的广泛 ML 技术,并演示了如何构建、回测和评估由模型预测驱动的交易策略。

  • midas-research/sthan-sr-aaai 通过时空超图注意力网络进行股票选择:一种学习排名方法

  • yumoxu/stocknet-dataset 从推文和历史股价预测股票走势的综合数据集。

  • goiter/CoCPC 基于 Copula 的对比预测编码 (Co-CPC)。通过考虑与宏观经济指标的耦合来发布股票走势预测的代码和数据。

  • hkgsas/LOB 中国市场限价订单短期市场预测基准数据集。

  • jrothschild33/learn_backtrader BackTrader中文教程笔记,系统性介绍Bactrader的特性、策略构建、数据结构、回测交易等,彻底掌握量化神器的使用方法。章节:介绍篇、数据篇、指标篇、交易篇、策略篇、可视化篇…

  • AI4Finance-Foundation/FinRL-Meta 数据驱动金融强化学习的市场环境和基准

  • AI4Finance-Foundation/FinRL-Live-Trading 自动股票交易的深度强化学习:一种集成策略。ICAIF 2020。

  • AI4Finance-Foundation/DQN-DDPG_Stock_Trading 使用 DQN/DDPG 进行股票交易。Xiong, Z.、Liu, XY、Zhong, S.、Yang, H. 和 Walid, A.,2018 年。股票交易的实用深度强化学习方法,NeurIPS 2018 AI in Finance Workshop。

  • AI4Finance-Foundation/FinRL_Podracer 一个优雅(轻量级、高效且稳定)的 FinRL 库,允许研究人员和量化交易者轻松开发算法策略。

  • tkfy920/qstock 打造成个人量化投研分析包,目前包括数据获取(data)、可视化(plot)、选股(stock)和量化回测(策略backtest)模块。 qstock将为用户提供简洁的数据接口和规整化后的金融市场数据。可视化模块为用户提供基于web的交互图形的简单接口; 选股模块提供了同花顺的选股数据和自定义选股,包括RPS、MM趋势、财务指标、资金流模型等; 回测模块为大家提供向量化(基于pandas)和基于事件驱动的基本框架和模型。

  • je-suis-tm/quant-trading Python 量化交易策略,包括 VIX 计算器、模式识别、商品交易顾问、蒙特卡洛、期权跨式、射击之星、伦敦突破、Heikin-Ashi、配对交易、RSI、布林带、抛物线 SAR、双推力、真棒、MACD

  • AlgoTraders/stock-analysis-engine 回测 1000 种每分钟交易算法,使用来自 IEX、Tradier 和 FinViz 的自动定价数据训练 AI。数据集和交易表现自动发布到 S3,用于构建 AI 训练数据集,以教授 DNN 如何交易。在 Kubernetes 和 docker-compose 上运行。

  • amor71/LiuAlgoTrader 一个可扩展的、多进程的 ML 就绪框架,用于有效的算法交易。该框架简化了开发、测试、部署、分析和训练算法交易策略。该框架自动分析交易会话、超参数优化,分析可用于训练预测模型。

  • bbfamily/abu 阿布量化交易系统(股票,期权,期货,比特币,机器学习) 基于python的开源量化交易,量化投资架构

  • QuantConnect/Lean 开源算法交易引擎,旨在简化策略研究、回测和实时交易。我们与常见的数据提供商和经纪公司集成,因此您可以快速部署算法交易策略。

  • StockSharp/StockSharp 算法交易和量化交易开源平台,用于开发交易机器人(股票市场、外汇、加密货币、比特币和期权)。

  • cantaro86/Financial-Models-Numerical-Methods 量化金融的笔记本集合,带有交互式py代码。偏微分方程方法、Lévy 过程、傅里叶方法或卡尔曼滤波等主题。内容:1.1) Black-Scholes 布莱克-斯科尔斯数值方法(对数正态分布、测度变化、蒙特卡罗、二项式方法)。1.2) SDE仿真与统计(路径生成、置信区间、假设检验、几何布朗运动、Cox-Ingersoll-Ross过程、Euler Maruyama法、参数估计)1.3) 傅里叶反演方法(反演公式、数值反演、期权定价、FFT、刘易斯公式)1.4) SDE、Heston 模型(相关布朗运动、Heston 路径、Heston 分布、特征函数、期权定价)1.5) SDE,莱维过程(默顿,方差伽玛,NIG,路径生成,参数估计)2.1)布莱克-斯科尔斯偏微分方程(偏微分方程离散化,隐式方法,稀疏矩阵教程)2.2) 奇异期权(二元期权、障碍期权、亚洲期权)2.3) 美式期权(偏微分方程、早期行权、二项式法、Longstaff-Schwartz、永续看跌期权)3.1) Merton Jump-Diffusion PIDE(隐式-显式离散化、离散卷积、模型限制、蒙特卡罗、傅里叶反演、半闭式)3.2) Gamma Variance PIDE(近似跳跃扩散PIDE、蒙特卡洛、傅里叶反演、与Black-Scholes的比较)3.3) 正态逆高斯PIDE(近似跳跃扩散PIDE、蒙特卡罗、傅里叶反演、Lévy测度的性质)4.1) 交易成本定价(Davis-Panas-Zariphopoulou 模型、奇异控制问题、HJB 变分不等式、无差异定价、二项式树、性能)4.2) 波动率微笑和模型校准(波动率微笑、寻根方法、校准方法)5.1) 线性回归和卡尔曼滤波(市场数据清洗、线性回归方法、卡尔曼滤波设计、参数选择)5.2) 卡尔曼自相关跟踪 - AR(1) 过程(自回归过程、估计方法、卡尔曼滤波、卡尔曼平滑、变量自相关跟踪)5.3) 波动率跟踪(赫斯顿模拟、假设检验、分布拟合、估计方法、GARCH(1,1)、卡尔曼滤波、卡尔曼平滑)6.1) Ornstein-Uhlenbeck过程及应用(参数估计、命中时间、Vasicek PDE、卡尔曼滤波、交易策略)7.1) 经典 MVO(均值方差优化、二次规划、仅多头和长空、闭合公式)

  • ranaroussi/yfinance 从雅虎财经的 API 下载市场数据

  • firefly-iii/firefly-iii 免费开源的个人理财经理,可以帮助您跟踪您的支出和收入,因此您可以花更少的钱并节省更多的钱。Firefly III 支持使用预算、类别和标签。使用一堆外部工具,您可以导入数据。它还有许多简洁的财务报告。

时间序列

  • thuml/Autoformer 用于长期序列预测的具有自相关性的分解变压器。Autoformer超越了Transformer系列,首次实现了串联。在六个基准上进行实验,涵盖五个主流应用程序。我们将我们的模型与十个基线进行比较,包括 Informer、N-BEATS 等。通常,对于长期预测设置,Autoformer 实现了 SOTA,相对于之前的基线有38% 的相对改进。

  • alan-turing-institute/sktime 时间序列的机器学习统一框架 。包括时间序列分类、回归、聚类、注释和预测。

  • facebook/prophet 用于为具有线性或非线性增长的多个季节性的时间序列数据生成高质量预测的工具。

  • jdb78/pytorch-forecasting pytorch的时间系列预测库,模型包括:RecurrentNetwork、DecoderMLP、NBeats 、DeepAR 、TemporalFusionTransformer。

  • qingsongedu/time-series-transformers-review 专业策划的关于时间序列的变压器的很棒的资源(论文、代码、数据等)列表。

  • arrigonialberto86/deepar Amazon于2017年提出的基于深度学习的时间序列预测方法

  • fjxmlzn/DoppelGANger 使用GAN共享网络时间序列数据:挑战,初步承诺和未解决的问题,IMC 2020(最佳论文入围)

  • AIStream-Peelout/flow-forecast 一个开源的深度学习时间序列预测库。包括模型:Vanilla LSTM、Full transformer、Simple Multi-Head Attention、Transformer w/a linear decoder、DA-RNN (CPU only for now)。

  • tslearn-team/tslearn 时间序列机器学习python工具包,其中包括了一些基本的时间序列预测或者分类模型,如多层感知机,SVR,KNN以及基本的数据预处理工具和数据集的生成与加载模块。

  • blue-yonder/tsfresh 时间序列特征提取python工具包,它会自动计算出大量的时间序列特征。此外,该工具包还包含了一些方法,用于评估回归或分类任务中这些特征的解释能力和重要性。

  • johannfaouzi/pyts 时间序列分类工具包。提供预处理工具及若干种时间序列分类算法。

  • PaddlePaddle/PaddleTS 基于PaddlePaddle的易于使用的深度时间序列建模,包括TSDataset,分析,转换,模型,AutoTS和Ensemble等综合功能模块,支持时间序列预测,表示学习和异常检测等多功能任务。

  • linkedin/greykite Greykite 库通过其旗舰算法 Silverkite 提供灵活、直观和快速的预测。Silverkite 算法适用于大多数时间序列,尤其适用于趋势或季节性变化点、事件/假日效应和时间依赖性的那些。它是可解释的,因此对于值得信赖的决策和洞察力很有用。

  • zhouhaoyi/Informer2020 效果远超Transformer的长序列预测,提出了ProbSparse self-attention机制来高效的替换常规的self-attention并且获得了的O(LlogL)时间复杂度以及O(LlogL)的内存使用率,提出了self-attention distilling操作,它大幅降低了所需的总空间复杂度O((2-e)LlogL);我们提出了生成式的Decoder来获取长序列的输出,这只需要一步,避免了在inference阶段的累计误差传播;

  • deeptime-ml/deeptime 用于分析时间序列数据,包括降维,聚类和马尔可夫模型估计

  • unit8co/darts python 库,用于对时间序列进行用户友好的预测和异常检测。

  • bashtage/arch 自回归条件异方差 (ARCH) 和其他金融计量经济学工具,用 Python 编写(使用 Cython 和/或 Numba 来提高性能)

  • nnzhan/MTGNN 通用的图神经网络框架 MTGNN,通过图学习模块融合外部知识和变量之间的单向关系,再使用 mix-hop 传播层和膨胀 inception 捕获空间和时序依赖。

  • VachelHU/EvoNet Time-Series Event Prediction with Evolutionary State Graph 将时间序列转化为动态图进行表示的方法。该方法成功在阿里云 ·SLS 商业化,作为一项智能巡检服务,可以对大规模时间序列进行异常检测与分析。

  • microsoft/StemGNN 基于图谱分解的时间序列预测。进一步提高多元时间序列预测的准确性。StemGNN 在spectral domain中捕获系列间(inter-series)相关性和时间依赖性(temporal dependencies)。它结合了图傅立叶变换 (GFT) 和离散傅立叶变换 (DFT),GFT对序列间(inter-series)相关性进行建模,而离散傅立叶变换 (DFT) 则对端到端框架中的时间依赖性(temporal dependencies)进行建模。通过 GFT 和 DFT 后,谱表示具有清晰的模式,可以通过卷积和序列学习模块进行有效预测。

  • fulifeng/Temporal_Relational_Stock_Ranking 基于图神经网络、图谱型数据的收益预测模型

  • emadeldeen24/TS-TCC 一个无监督的时间序列表示学习框架,通过时间和上下文对比。

  • nnzhan/MTGNN 基于图神经网络的多变量时间序列预测模型

  • adarnn 提出自适应的RNN模型,使得其可以更好地泛化。由时序相似性量化和时序分布匹配算法组成,前者用于表征时序中的分布信息,后者通过分布匹配构建广义RNN模型。

  • facebookresearch/Kats 用于分析时间系列数据的工具包,轻量级、易于使用、通用和可扩展的框架,用于执行时间系列分析,从了解关键统计数据和特征、检测变化点和异常,到预测未来趋势。

  • slaypni/fastdtw 近似动态时间规整算法,提供与 O(N)时间和内存复杂性的最佳或接近最佳对齐。

  • ourownstory/neural_prophet 基于神经网络的时间系列模型,灵感来自 Facebook Prophet 和 AR-Net,建立在 PyTorch 之上。

  • jsyoon0823/TimeGAN 时间序列生成对抗网络

  • lucidrains/perceiver-pytorch 具有迭代注意的通用感知器,利用非对称注意力机制将输入迭代地提取到一个紧密的潜在空间中,使其能够扩展以处理非常大的输入。

  • alasdairtran/radflow [TheWebConf 2021] Radflow:时间序列网络的循环、聚合和可分解模型

  • eBay/RANSynCoders 一种无监督的深度学习架构,用于在大型多元时间序列中进行实时异常检测和定位。

  • gzerveas/mvts_transformer 多元时间序列转换器框架

  • zhhlee/InterFusion KDD 2021:使用分层度量间和时间嵌入的多变量时间序列异常检测和解释

  • NSIBF/NSIBF 通过神经系统识别和贝叶斯过滤对网络物理系统进行时间序列异常检测

  • winedarksea/AutoTS AutoTS 是 Python 的时间序列包,旨在快速大规模部署高精度预测。

  • facebookresearch/transformer-sequential 两篇论文的代码:Feedback Transformer 和 Expire-Span。用于使用类似 Transformer 的架构进行长序列建模。

  • angus924/minirocket MINIROCKET:用于时间序列分类的非常快速(几乎)确定性转换

  • EvilPsyCHo/Deep-Time-Series-Prediction Seq2Seq、Bert、Transformer、WaveNet 用于时间序列预测。

  • locuslab/TCN 序列建模基准和时间卷积网络

  • jambo6/neuralRDEs 长时间序列的神经粗糙微分方程

  • sktime/sktime-dl 基于TensorFlow的深度学习sktime配套包

  • jiwidi/time-series-forecasting-with-python 使用 python 进行时间序列预测的以用例为中心的教程

  • timeseriesAI/tsai 时间序列 Timeseries 深度学习 机器学习 Pytorch fastai | Pytorch / fastai 中用于时间序列和序列的最先进的深度学习库

  • Alro10/deep-learning-time-series 使用深度学习进行时间序列预测的论文、代码和实验列表

  • ElementAI/N-BEATS 基于神经网络的单变量时间序列预测模型

  • yuezhihan/ts2vec 一个通用的时间序列表示学习框架

  • firmai/atspy Python 中的自动化时间序列模型

  • cesium-ml/cesium 用于时间序列推理的开源平台。从原始时间序列数据中提取特征,构建机器学习模型,为新数据生成预测。

  • zhengqi98/Hefei_ECG_TOP1 “合肥高新杯”心电人机智能大赛 —— 心电异常事件预测 TOP1 Solution,依据心电图机8导联的数据和年龄、性别特征,预测心电异常事件

  • thuml/Anomaly-Transformer 基于关联偏差的时间序列异常检测

  • thuml/Nonstationary_Transformers 非平稳时间序列的通用预测框架。非平稳的时序数据具有更复杂且难以捕捉的时序依赖,以及随着时间不断变化的数据分布,以往的研究旨在利用平稳化技术消除数据在时间维度上的分布差异,以提高数据本身的可预测性。然而在平稳化后的数据上进行模型训练会限制Transformer建模时序依赖的能力,导致模型仅能学到不易区分的注意力图与较弱的时序依赖,从而产生平稳性过高的预测输出与较大的预测误差,我们称之为过平稳现象(Over-stationarization)。针对非平稳时序预测问题,提出了Non-stationary Transformers,其包含一对相辅相成的序列平稳化(Series Stationarization)和去平稳化注意力(De-stationary Attention)模块,能够广泛应用于Transformer以及变体,一致提升其在非平稳时序数据上的预测效果。

  • microprediction/timemachines 利用流行的python时间序列包的功能,如river,pydlm,tbats,pmdarima,statsmodels.tsa,neuralprophet,Facebook Prophet,Uber的orbit,Facebook的greykitite等。

  • ngruver/llmtime 大型语言模型是零样本的时间序列预测器

  • rlabbe/Kalman-and-Bayesian-Filters-in-Python 使用 Jupyter Notebook 的 Kalman Filter book。专注于建立直觉和经验,而不是形式证明。包括卡尔曼滤波器、扩展卡尔曼滤波器、无迹卡尔曼滤波器、粒子滤波器等。所有练习都包括解决方案。

强化学习 Reinforcement Learning

  • ray-project/ray 构建分布式机器学习应用提供简单和通用式的API。Ray打包了Tune、RLlib、RaySGD和Ray Serve等多款机器学习库。

  • google/dopamine 多巴胺是强化学习算法快速原型设计的研究框架。它旨在满足对一个小的,易于理解的代码库的需求,用户可以在其中自由地尝试疯狂的想法(推测性研究)。

  • Farama-Foundation/PettingZoo 一个用于进行多智能体强化学习研究的 Python 库,类似于Gym的多智能体版本。

  • Unity-Technologies/ml-agents Unity 机器学习代理工具包 (ML-Agents) 是一个开源项目,它使游戏和模拟成为使用深度强化学习和模仿学习训练智能代理的环境。

  • opendilab/DI-star 星际争霸2的人工智能平台,具有大规模分布式训练和大师代理。

  • DLR-RM/stable-baselines3 PyTorch 版本的 Stable Baselines,强化学习算法的可靠实现。主要特点:最先进的RL方法、自定义环境、自定义策略、通用接口、观测空间支持、Ipython / 笔记本友好、Tensorboard 支持、PEP8 代码样式、自定义回调、高代码覆盖率、类型提示

  • Farama-Foundation/D4RL 离线强化学习的开源基准。 它为训练和基准测试算法提供标准化的环境和数据集。

  • astooke/rlpyt PyTorch中常见深度强化学习算法的模块化优化实现,具有统一的基础设施,支持三个主要系列的算法:策略梯度、深度q学习和q函数策略梯度。旨在成为中小型研究的高吞吐量代码库(大规模意味着像OpenAI Dota与100的GPU)。

  • dennybritz/reinforcement-learning 强化学习算法的实现。Python,OpenAI Gym,Tensorflow。萨顿的书和大卫·西尔弗的课程的练习和解决方案。

  • keiohta/tf2rl 深度强化学习库,它使用 TF2.x 实现各种深度强化学习算法。

  • ShangtongZhang/reinforcement-learning-an-introduction Python强化学习的实现

  • rlgraph/rlgraph 一个框架,用于在研究和实践中快速原型化,定义和执行强化学习算法。RLgraph与大多数其他库不同,因为它可以通过单个组件接口支持TensorFlow(或一般的静态图)或渴望/定义运行执行(PyTorch)。

  • bulletphysics/bullet3 用于 VR、游戏、视觉效果、机器人、机器学习等的实时碰撞检测和多物理场仿真。

  • deepmind/trfl 一个建立在TensorFlow之上的库,它公开了几个有用的构建块,用于实现强化学习代理。

  • Ceruleanacg/Personae 用于量化交易的Deep Reinforcement Learning & Supervised Learning 的工具和环境的回购。

  • dgriff777/a3c_continuous 采用 pytorch 和 A3G 设计的 A3C LSTM 的连续动作空间版本

  • keras-rl/keras-rl 在Python中实现了一些最先进的深度强化学习算法,并与深度学习库Keras无缝集成。

  • openai/gym Gym 是一个开源 Python 库,用于开发和比较强化学习算法,提供标准 API 在学习算法和环境之间进行通信,以及与该 API 兼容的标准环境集。自发布以来,Gym 的 API 已成为执行此操作的现场标准。

  • Farama-Foundation/Gymnasium 用于单代理强化学习环境的 API 标准,具有流行的参考环境和相关实用程序(以前称为 Gym)

  • georgezouq/awesome-deep-reinforcement-learning-in-finance 金融市场上使用的那些AI(RL/DL/SL/进化/遗传算法)的集合

  • brain-tokyo-workshop 世界模型 prettyNEAT

  • google-research/football 此存储库包含基于开源游戏游戏足球的 RL 环境。

  • tensortrade-org/tensortrade 一个开源强化学习框架,用于训练,评估和部署强大的交易程序。

  • Baekalfen/PyBoy 用 Python 编写的 Game Boy 模拟器

  • tencent-ailab/hok_env 腾讯王者荣耀AI开放环境

  • google-research/batch_rl 离线强化学习

  • tensorflow/agents TF-Agents是TensorFlow中的强化学习库

  • YingtongDou/Nash-Detect 通过Nash强化学习进行鲁棒的垃圾邮件发送者检测

  • deepmind/acme 强化学习的研究框架,强化学习组件和代理库

  • XinJingHao/TD3 TD3强化算法的实现

  • huawei-noah/xingtian 刑天(XingTian)是一个组件化的库,用于开发和验证强化学习算法。它支持多种算法,包括DQN,DDPG,PPO和IMPALA等,可以在多个环境中训练代理,例如Gym,Atari,Torcs,StarCraft等。

  • thu-ml/tianshou 天授是基于纯PyTorch强化学习的平台。与现有的强化学习库主要基于TensorFlow,具有许多嵌套类,不友好的API或速度较慢的现有学习库不同,天守提供了快速的模块化框架和pythonic API,用于以最少的行数构建深度强化学习代理代码。

  • Jingliang-Duan/Distributional-Soft-Actor-Critic 一种用于连续控制任务的强化学习算法—DSAC,其优势在于减少Q值的过估计并显著改进策略的性能。证明了强化学习中引入分布式回报可显著降低Q值的过估计误差,并定量表明此误差与分布的方差呈反比关系。与主流RL算法相比,策略性能提升20% 以上。

  • tencent-ailab/TLeague 一种基于竞争性自我驱动的多智能体强化学习框架。

  • minerllabs/minerl Minecraft 游戏环境

  • mwydmuch/ViZDoom ZDoom末日的AI研究平台,可从原始视觉信息进行强化学习。

  • openai/retro 复古游戏

  • rlgraph/rlgraph 用于深度强化学习的模块化计算图

  • google-research/football 基于开源游戏Game Football的RL环境

  • TorchCraft/TorchCraftAI 可让您建立机器人以学习玩《星际争霸:巢穴之战》。

  • deepmind/pysc2 星际争霸II强化学习环境

  • datamllab/rlcard 纸牌(扑克)游戏中的强化学习/ AI机器人-大酒杯,勒杜克,德克萨斯州,窦滴竹,麻将,UNO。

  • projects/torcs ORCS,开放式赛车模拟器是一种高度便携式的多平台赛车模拟。

  • Microsoft/AirSim 基于Unreal Engine / Unity的自动驾驶汽车开源模拟器

  • carla-simulator/carla 用于自动驾驶研究的开源模拟器。

  • aitorzip/DeepGTAV GTAV的插件,可将其转变为基于视觉的自动驾驶汽车研究环境。

  • deepdrive/deepdrive D模拟器,它使拥有PC的任何人都能推动最新的自动驾驶

  • robotology/gym-ignition 使用Ignition Gazebo模拟开发OpenAI Gym机器人环境的框架

  • stanfordnmbl/osim-rl 具有肌肉骨骼模型的强化学习环境

  • lsw9021/MASS 全身肌肉骨骼系统实现了基本的仿真和控制。骨骼运动由肌肉的驱动力来驱动,并与激活水平相协调。通过与python和pytorch的接口,可以使用深度强化学习(DRL)算法,例如近端策略优化(PPO)。

  • deepmind/lab DeepMind Lab为学习代理提供了一套具有挑战性的3D导航和解谜任务。它的主要目的是充当人工智能(尤其是深度强化学习)研究的测试平台。

  • maximecb/gym-minigrid OpenAI Gym的简约gridworld软件包

  • maximecb/gym-miniworld 用于RL和机器人研究的简单3D室内模拟器

  • minosworld/minos MINOS:多模式室内模拟器 旨在支持在复杂的室内环境中为目标定向导航开发多传感器模型。MINOS利用复杂3D环境的大型数据集,并支持多模式传感器套件的灵活配置。

  • facebookresearch/habitat-sim 灵活,高性能的3D仿真器,适用于嵌入式AI研究。

  • facebookresearch/habitat-lab 一个模块化的高级库,可在各种任务,环境和模拟器中训练嵌入式AI代理。

  • facebookresearch/house3d 逼真的丰富3D环境 由数以千计的室内场景组成,这些场景配有从SUNCG数据集中获取的各种场景类型,布局和对象。它包含超过4.5万个室内3D场景,从工作室到带有游泳池和健身室的两层房屋。

  • staghuntrpg/RPG 通过奖励随机化发现多智能体游戏中多样性策略行为。通过奖励随机化对原始游戏(StagHunt)的奖励(reward)进行扰动,将问题转化为在扰动后的游戏中寻找合作策略,然后再回到原始游戏中进行微调(fine-tune),进而找到最优策略。

  • daochenzha/rapid 一种为每个回合的探索动作打分和排序的机制,以选出好的探索行为。不同于以往基于内部奖励的方法,回合排序算法将好的探索行为记录下来,然后通过模仿学习鼓励智能体探索。初步结果表明,该方法具有非常好的效果,特别是在具有随机性的环境中。

  • AI4Finance-LLC/ElegantRL 基于PyTorch的轻量-高效-稳定的深度强化学习框架

  • datawhalechina/easy-rl 强化学习中文教程

  • kwai/DouZero 斗地主AI

  • opendilab/DI-engine 通用的决策智能引擎。它支持最基本的深度强化学习 (DRL) 算法,如 DQN、PPO、SAC 和域特定算法,如多代理 RL 中的 QMIX、逆RL 中的 GAIL 和探索问题的 RND。还支持各种培训管道和定制决策 AI 应用程序。

  • kzl/decision-transformer UC 伯克利、FAIR 和谷歌大脑的研究者提出了 Decision Transformer,通过序列建模进行强化学习的架构。

  • instadeepai/Mava 用于构建多智能体强化学习 (MARL) 系统的库。Mava 为 MARL 提供了有用的组件、抽象、实用程序和工具,并允许对多进程系统训练和执行进行简单的扩展,同时提供高度的灵活性和可组合性。

  • google/brax 物理模拟引擎Brax,只需一个TPU/GPU,就能和数千个CPU或GPU的计算集群的速度一样快,直接将所需时间缩短到几分钟

  • sjtu-marl/malib 专门面向基于种群的多智能体深度强化学习 PB-MARL 的开源大规模并行训练框架。MALib 支持丰富的种群训练方式(例如,self-play, PSRO, league training),并且实现和优化了常见多智能体深度强化学习算法,为研究人员降低并行化工作量的同时,大幅提升了训练效率。此外,MALib 基于 Ray 的底层分布式框架,实现了全新的中心化任务分发模型,相较于常见的多智能体强化学习训练框架(RLlib,PyMARL,OpenSpiel),相同硬件条件下吞吐量和训练速度有着数倍的提升。现阶段,MALib 已对接常见多智能体环境(星际争霸、谷歌足球、棋牌类、多人 Atari 等),后续将提供对自动驾驶、智能电网等场景的支持。

  • octavio-santiago/Super-Mario-Land-AI 机器学习和 AI 算法玩超级马里奥。

  • salesforce/warp-drive GPU 上极快的端到端深度多智能体强化学习框架。

  • xunger99/SAAC-StarCraft-Adversary-Agent-Challenge 提出了一种具有对手代理的强化学习环境,用于战争迷雾下的追捕-逃避游戏,这在航空航天应用中具有科学意义和实际意义。

  • SunQingYun1996/Graph-Reinforcement-Learning-Papers 图强化学习论文的精选列表。

  • sail-sg/envpool 用于通用 RL 环境的基于 C++ 的高性能并行环境执行引擎(矢量化环境)。

  • YeWR/EfficientZero 一种采样高效的强化学习算法.基于MuZero的一种算法。该类算法同属于蒙特卡洛树搜索(MCTS)强化学习。

  • XinJingHao/RL-Algorithms-by-Pytorch Pytorch 对强化学习算法的干净和健壮的实现。 已完成了Q-learning,DQN,DDQN,PPO 离散,PPO 连续,TD3,SAC 连续。

  • kakaoenterprise/JORLDY 开源强化学习框架 JORLDY 的存储库, 提供 20 多种 RL 算法和各种 RL 环境,算法和环境可定制,可以添加新的算法和环境,使用ray提供分布式 RL 算法,算法的基准测试是在许多 RL 环境中进行的

  • jiupinjia/rocket-recycling 基于强化学习的SpaceX火箭回收

  • p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch 深度强化学习算法和环境的 PyTorch 实现。实现的算法:深度 Q 学习 (DQN) ( Mnih et al. 2013 )、具有固定 Q 目标的 DQN ( Mnih et al. 2013 )、双 DQN (DDQN) ( Hado van Hasselt et al. 2015 )、具有优先体验重放的DDQN ( Schaul et al. 2016 )、Dueling DDQN (Wang et al. 2016)、REINFORCE 加强 (Williams et al. 1992)、深度确定性策略梯度 (DDPG) ( Lillicrap et al. 2016 )、双延迟深度确定性策略梯度 (TD3) ( Fujimoto et al. 2018 )、软演员-评论家 (SAC) ( Haarnoja et al. 2018 )、离散动作的软演员-评论家 (SAC-Discrete) ( Christodoulou 2019 )、Asynchronous Advantage Actor Critic (A3C) ( Mnih et al. 2016 )、同步优势演员评论家 (A2C)、近端策略优化 (PPO) ( Schulman et al. 2017 )、具有事后经验重放的 DQN (DQN-HER) ( Andrychowicz et al. 2018 )、具有事后经验重放的 DDPG (DDPG-HER) ( Andrychowicz et al. 2018 )、分层 DQN (h-DQN) ( Kulkarni et al. 2016 )、用于分层强化学习 (SNN-HRL) 的随机神经网络 ( Florensa et al. 2017 )、多样性就是你所需要的 (DIAYN) ( Eyensbach et al. 2018 )。所有实现都能够快速解决 Cart Pole(离散动作)、Mountain Car Continuous(连续动作)、Bit Flipping(具有动态目标的离散动作)或 Fetch Reach(具有动态目标的连续动作)。计划添加更多的分层 RL 算法。

  • distributional-rl.org 教科书《Distributional Reinforcement Learning 分布强化学习》。

  • deepmind/alphatensor 矩阵乘法是计算机要做的最关键数学计算之一。改进了目前最优的 4×4 矩阵解法(50 年前由施特拉森提出),还进一步提升了其他 70 余种不同大小矩阵的计算速度。

  • facebookresearch/diplomacy_cicero Cicero 的代码,这是一个通过开放域自然语言协商玩外交游戏的 AI 代理。

  • eloialonso/iris 提出了IRIS,由离散自编码器和自回归Transformer组成的世界模型中学习的数据高效的智能体。在Atari 100k基准测试中,只用了两小时的游戏时间,就取得了1.046的人类归一化平均分,并在26个中的10个游戏中优于人类。IRIS的世界模型获得了对游戏机制的深刻理解,从而在一些游戏中实现了像素的完美预测。本文还说明了世界模型的生成能力,在想象训练时提供了丰富的游戏体验。IRIS以最小的调整开辟了一条有效解决复杂环境问题的新道路。

  • MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning 这是一本名为“强化学习的数学基础”的新书的主页。

  • ShangtongZhang/DeepRL 深度强化学习算法在 PyTorch 中的模块化实现

  • seungeunrho/minimalRL 以最少的代码行实现基本RL算法!(基于PyTorch)

  • andri27-ts/Reinforcement-Learning 在 60 天内学习深度强化学习!Python的讲座和代码。强化学习 + 深度学习

  • carla-simulator/carla 用于自动驾驶研究的开源模拟器。

  • ApolloAuto/apollo 高性能、灵活的架构,可加速自动驾驶汽车的开发测试和部署。

  • autowarefoundation/autoware 全球领先的自动驾驶开源软件项目

  • vwxyzjn/cleanrl 具有研究友好功能(PPO、DQN、C51、DDPG、TD3、SAC、PPG)的深度强化学习算法的高质量单文件实现

  • wangshusen/DRL 深度强化学习列表

  • tensorlayer/TensorLayer 面向科学家和工程师的深度学习和强化学习库,基于 TensorFlow 的新型深度学习和强化学习库,专为研究人员和工程师设计。它提供了大量可定制的神经层,以快速构建高级 AI 模型,基于此,社区开源了大量教程和应用程序。统一的深度学习和强化学习框架,适用于所有硬件、后端和操作系统。当前版本支持TensorFlow、Pytorch、MindSpore、PaddlePaddle、OneFlow和Jittor作为后端,允许用户在Nvidia-GPU、华为-昇腾等不同硬件上运行代码。

  • yandexdataschool/Practical_RL 野外强化学习的公开课程。针对好奇者进行优化。对于所有未详细介绍的材料,都有指向更多信息和相关材料的链接(D.Silver/ Sutton/ blogs/whatever)。

  • openai/baselines OpenAI Baselines 是一组高质量的强化学习算法实现。

语音识别与合成

  • espnet/espnet End-to-End Speech Processing Toolkit 端到端的语音处理工具箱,主要特性:kaldi风格的处理模式、ASR、TTS、语音翻译、机器翻译、语音转换、DNN框架

  • PaddlePaddle/PaddleSpeech 易于使用的语音工具包,包括SOTA ASR 管道、带有文本前端的有影响力的 TTS 和端到端语音同步翻译。

  • athena-team/athena 基于序列到序列的语音处理引擎的开源实现

语音识别

  • wenet-e2e/wenet 面向工业落地应用的语音识别工具包,提供了从语音识别模型的训练到部署的一条龙服务,其主要特点如下:

    • 使用 conformer 网络结构和 CTC/attention loss 联合优化方法,统一的流式/非流式语音识别方案,具有业界一流的识别效果。
    • 提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。
    • 框架简洁,模型训练部分完全基于 pytorch 生态,不依赖于 kaldi 等复杂的工具。
    • 详细的注释和文档,非常适合用于学习端到端语音识别的基础知识和实现细节。
    • 支持时间戳,对齐,端点检测,语言模型等相关功能。
  • k2-fsa/k2 愿景是能够将有限状态自动机 (FSA) 和有限状态传感器 (FST) 算法无缝集成到基于 autograd 的机器学习工具包中,例如 PyTorch 和 TensorFlow。对于语音识别应用,这应该可以很容易地插入和组合各种训练目标,例如交叉熵、CTC 和 MMI,并联合优化具有多个解码通道的语音识别系统,包括格重新评分和置信度估计。

  • openai/whisper 一种通用的语音识别模型。 它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言ASR以及翻译和识别。Transformer 模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。 所有这些任务都联合表示为由解码器预测的一系列标记,允许单个模型替换传统语音处理管道的许多不同阶段。 多任务训练格式使用一组特殊标记作为任务说明符或分类目标。

  • m-bain/whisperX 基于whisper(耳语)的自动语音识别 (ASR),使用强制对齐提高了时间戳的准确性。带python库。

  • shirayu/whispering whisper“耳语”模型的流式识别。需足够的机器来实时转录。

  • m1guelpf/yt-whisper 使用OpenAI的Whisper自动生成YouTube字幕

  • ggerganov/whisper.cpp OpenAI Whisper自动语音识别(ASR)模型的高性能推理

  • sanchit-gandhi/whisper-jax 针对 OpenAI 的 Whisper 模型优化的 JAX 代码。与 OpenAI 的 PyTorch 代码相比,Whisper JAX 的运行速度快了 70 倍以上,使其成为可用的最快的 Whisper 实现。

  • guillaumekln/faster-whisper 使用 CTranslate2 更快的 Whisper 转录。在使用更少内存的情况下,此实现比 openai/whisper 快 4 倍,达到相同的精度。在 CPU 和 GPU 上都可以通过 8 位量化进一步提高效率。

  • mli/autocut 用文本编辑器剪视频。对你的视频自动生成字幕。然后你选择需要保留的句子,AutoCut 将对你视频中对应的片段裁切并保存。

  • yufan-aslp/AliMeeting ICASSP 2022 多通道多方会议转录挑战赛,为参与者提供会议场景中语音识别和说话人分类的基线系统。 挑战主要由两个轨道组成,名为自动语音识别 (ASR) 和说话人分类。 对于每个曲目,可以在其相应目录中找到详细说明。

  • audier/DeepSpeechRecognition 基于深度学习的中文语音识别系统

  • ZhengkunTian/OpenTransformer 语音识别的无重复序列到序列模型,实现aishell 6.7%的CER。

  • alphacep/vosk-api Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node 支持十七种语言,提供中文语言模型。

  • tencent-ailab/pika 基于Pytorch和Kaldi的轻量级语音处理工具包 PIKA 具备以下特征:即时数据增强和特征加载器;TDNN Transformer编码器,以及基于卷积和 Transformer 的解码器结构;RNNT训练和批解码;利用 Ngram FST 的 RNNT 解码;RNNT最小贝叶斯风险MBR训练;用于 RNNT 的 LAS 前向与后向重评分器;基于高效 BMUF的分布式训练。

  • speechbrain/speechbrain 基于 PyTorch 的开源一体化语音工具包,可用于开发最新的语音技术,包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等,且拥有相当出色的性能。将其特征概况为易于使用、易于定制、灵活、模块化等。

  • Snowdar/asv-subtools 基于Kaldi和PyTorch推出了一套高效、易于开发扩展的声纹识别开源工具—ASV-Subtools。

  • wav2vec 无监督语音识别 性能直逼监督模型,只需要从录制的语音音频和未配对的文本中学习,无需进行任何转录。

  • speechio/leaderboard SpeechIO 排行榜:用于自动语音识别的大型、强大、全面的基准测试平台。

  • cywang97/StreamingTransformer 流式 Transformer 关于大规模语音识别的流行端到端模型的比较,它基于 ESPnet0.6.0。 流式 Transformer 包括一个流式编码器(基于块或前瞻)和一个基于触发注意的解码器。

  • hirofumi0810/neural_sp 使用 PyTorch 实现端到端的 ASR/LM

  • thu-spmi/CAT 基于 CRF 的数据高效的端到端语音识别提供了完整的工作流程。

  • zycv/awesome-keyword-spotting 很棒的语音关键字发现(唤醒词检测)的精选列表。

  • TalAter/annyang 小型JS语音识别库,可让您的用户通过语音命令控制您的网站。

  • common-voice/common-voice 一个收集语音捐赠的平台,以便创建用于训练语音识别相关工具的公共领域数据集。

  • alibaba-damo-academy/FunASR 来自阿里达摩院的端到端语音识别工具包

  • k2-fsa/sherpa-ncnn 使用下一代 Kaldi 和 ncnn 进行实时语音识别,无需互联网连接。支持iOS,Android,Raspberry Pi,VisionFive2等。

  • wenet-e2e/wespeaker 专注于说话人嵌入学习,并应用于说话人验证任务。我们支持在线特征提取或加载 kaldi 格式的预提取特征。

  • damo/speech_charctc_kws_phone-xiaoyun CTC语音唤醒-移动端-单麦-16k-小云小云,网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》,其主体为4层cFSMN结构(如下图所示),参数量约750K,适用于移动端设备运行。模型输入采用Fbank特征,训练阶段使用CTC-loss计算损失并更新参数,输出为基于char建模的中文全集token预测,token数共2599个。测试工具根据每一帧的预测数据进行后处理得到输入音频的实时检测结果。模型训练采用"basetrain + finetune"的模式,basetrain过程使用大量内部移动端数据,在此基础上,使用1万条设备端录制安静场景“小云小云”数据进行微调,得到最终面向业务的模型。由于采用了中文char全量token建模,并使用充分数据进行basetrain,本模型支持基本的唤醒词/命令词自定义功能,但具体性能无法评估。

  • SevaSk/ecoute 一种实时转录工具,可在文本框中为用户的麦克风输入(您)和用户的扬声器输出(扬声器)提供实时脚本。它还使用 OpenAI 的 GPT-3.5 生成建议的响应,供用户根据对话的实时转录说出来。

  • sooftware/conformer Conformer 的 PyTorch 实现:用于语音识别的卷积增强转换器。Transformer 擅长捕捉基于内容的全局交互,而 CNN 则有效地利用了局部特征。Conformer 将CNN和Transformer结合,以参数高效的方式对音频序列的局部和全局依赖关系进行建模。性能明显优于以前的基于 Transformer 和 CNN 的模型。

  • Uberi/speech_recognition Py语音识别模块,支持多种引擎和API,在线和离线。

  • SocialSisterYi/bcut-asr 使用必剪API的语音字幕识别

语音合成

  • myshell-ai/OpenVoice MyShell的即时语音克隆。OpenVoice 的优势有三个方面:1.准确的色调颜色克隆。OpenVoice可以准确克隆参考音色,生成多种语言和口音的语音。2.灵活的语音风格控制。OpenVoice 支持对语音风格(如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。3.零样本跨语言语音克隆。生成的语音的语言和参考语音的语言都不需要在大规模说话人多语言训练数据集中呈现。

  • w-okada/voice-changer 实时语音转换器。客户端软件,使用各种语音转换AI(VC,语音转换)执行实时音频转换。 支持的语音转语音 AI 包括:MMVC、so-vits-svc 、RVC(Retrieval-based-Voice-Conversion 基于检索的语音转换)、DDSP-SVC、Beatrice JVS Corpus Edition

  • RVC-Boss/GPT-SoVITS 1分钟的语音数据也可以用来训练一个好的TTS模型。零样本 TTS:输入 5 秒的人声样本,体验即时文本到语音转换。Few-shot TTS:仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语和中文。WebUI工具:集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。

  • babysor/MockingBird AI拟声: 5秒内克隆您的声音并生成任意语音内容。

  • rany2/edge-tts 从Python使用Microsoft Edge的在线文本到语音服务(无需Microsoft Edge/Windows或API密钥)

  • coqui-ai/TTS 用于文本到语音的深度学习工具包,在研究和生产中经过实战测试。TTS 带有预训练模型、用于测量数据集质量的工具,并且已经在 20 多种语言中用于产品和研究项目。实例:tts --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --text "你好。"

  • jaywalnut310/vits 一种用于端到端文本语音转换的条件变分自编码器,它比现有的两阶段模型产生更自然的声音。该方法采用变分推理和归一化流以及对抗式训练过程,提高了生成式建模的表达能力。

  • MoonInTheRiver/DiffSinger DiffSinger:通过浅扩散机制(SVS和TTS)进行歌声合成;AAAI 2022年;官方代码

  • svc-develop-team/so-vits-svc SoftVC VITS 歌声转换。这个项目与 Vits 有着根本的不同。 Vits 是 TTS,这个项目是 SVC。本项目不能进行TTS,Vits不能进行SVC,两种项目模型不通用。

  • voicepaw/so-vits-svc-fork so-vits-svc fork 歌唱语音转换 具有实时支持、改进的界面和更多功能。实时语音转换、更准确的音调估计、2x 更快的训练

  • isletennos/MMVC_Trainer 人工智能实时语音转换器(培训师)

  • Plachtaa/VITS-fast-fine-tuning 用于快速扬声器适配 TTS 和多对多语音转换的 VITS 微调管道

  • jianchang512/clone-voice 带web界面的声音克隆工具,使用你的音色或任意声音来录制音频。支持 中、英、日、韩、法、德、意等语言,可在线从麦克风录制声音。为保证合成效果,建议录制时长5秒到20秒,发音清晰准确,不要存在背景噪声。

  • yl4579/StyleTTS2 通过大型语音语言模型的风格扩散和对抗训练实现人级文本转语音

  • RVC-Project/Retrieval-based-Voice-Conversion-WebUI 小于10分钟的语音数据也可以用来训练一个好的VC模型 一个基于VITS的简单易用的语音转换(变声器)框架

  • JasonWei512/Tacotron-2-Chinese 中文语音合成

  • alibaba-damo-academy/KAN-TTS 来自阿里达摩院的TTS框架,使用 KAN-TTS,您可以训练自己的 TTS 模型

  • suno-ai/bark 由Suno创建的基于变压器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频 - 包括音乐,背景噪音和简单的音效。该模型还可以产生非语言交流,如笑、叹息和哭泣。为了支持研究社区,我们正在提供对预训练模型检查点的访问,这些检查点已准备好进行推理并可用于商业用途。完全生成的文本到音频模型,用于研究和演示目的。它遵循类似于AudioLM和Vall-E的GPT风格架构以及EnCodec的量化音频表示。它不是传统的 TTS 模型,而是一个完全生成的文本到音频模型,能够以意想不到的方式偏离任何给定的脚本。与以前的方法不同,输入文本提示直接转换为音频,而无需中间使用音素。因此,它可以推广到语音以外的任意指令,例如音乐歌词、音效或其他非语音声音。

  • Plachtaa/VALL-E-X Microsoft的VALL-E X零样本TTS模型的开源实现。多语言TTS:用英语,中文和日语进行自然而富有表现力的语音合成。零样本语音克隆:注册一个看不见的演讲者的短短 3~10 秒录音, VALL-E X 即可创建听起来像他们的个性化、高质量的语音!言语情绪控制:可以合成具有与提供的声学提示相同的情感的语音,为您的音频添加额外的表现力。零样本跨语言TTS:让单语使用者踏上语言之旅!VALL-E X可以用另一种语言生成个性化的语音,而不会影响流利度或口音。口音控制:利用口音发挥创意!允许您尝试不同的口音,例如说带有英语口音的中文,反之亦然。声学环境维护:无需完全干净的音频提示!可适应输入的声学环境,使语音生成感觉自然而身临其境。

  • haoheliu/AudioLDM 生成语音、音效、音乐等。文本到音频生成:生成给定文本输入的音频。音频到音频生成:给定一个音频,生成另一个包含相同类型声音的音频。文本引导式音频到音频风格传输:使用文本描述将音频的声音传输到另一个音频中。

  • openai/jukebox 论文“点唱机:音乐的生成模型”的代码

  • OlaWod/FreeVC 迈向高质量的无文本一次性语音转换。采用VITS端到端框架进行高质量波形重建,并提出了无文本标注的干净内容信息提取策略。通过对WavLM特征施加信息瓶颈来解开内容信息,并提出基于频谱图调整大小的数据增强,以提高提取内容信息的纯度。

  • fishaudio/Bert-VITS2 具有多语言 BERT 的 vits2 骨干网

  • facebookresearch/audiocraft 一个用于通过深度学习进行音频处理和生成的库。它具有最先进的 EnCodec 音频压缩器/分词器,以及 MusicGen,这是一种简单且可控的音乐生成 LM,具有文本和旋律调节功能。

  • NATSpeech/NATSpeech 非自回归文本转语音 (NAR-TTS) 框架,包括 PortaSpeech (NeurIPS 2021) 和 DiffSpeech (AAAI 2022) 的官方 PyTorch 实现。PortaSpeech:便携式和高质量的生成文本到语音转换(NeurIPS 2021)。DiffSinger:通过浅扩散机制合成歌唱声音(DiffSpeech)(AAAI 2022)。

  • Rongjiehuang/ProDiff ProDiff (ACM-MM 22) 的 PyTorch 实现,具有极快的扩散语音合成管道。条件扩散概率模型,能够有效地生成高保真语音。demo page

  • TensorSpeech/TensorflowTTS Tensorflow 2的实时最新语音合成

  • kan-bayashi/ParallelWaveGAN Parallel WaveGAN (+ MelGAN Multi-band MelGAN) implementation with Pytorch

  • KuangDD/zhrtvc 好用的中文语音克隆兼中文语音合成系统,包含语音编码器、语音合成器、声码器和可视化模块。

  • cnlinxi/book-text-to-speech 一本关于中文文本到语音转换 (TTS) 的书。

  • JasonWei512/Tacotron-2-Chinese 中文语音合成

  • lturing/tacotronv2_wavernn_chinese tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)

  • JasonWei512/wavenet_vocoder WaveNet 声码器

  • tulasiram58827/TTS_TFLite TFLite中广泛流行的文本语音转换TTS模型的集合。

  • thuhcsi/VAENAR-TTS 基于 VAE 的非自回归 TTS 模型。

  • keonlee9420/VAENAR-TTS 基于 VAE 的非自回归 TTS 模型。PyTorch

  • ben-hayes/neural-waveshaping-synthesis 波形域中的高效神经音频合成.使用神经网络有效合成音频波形的方法。

  • Jackiexiao/zhtts 中文实时语音合成系统Demo

  • PlayVoice/vits_chinese 基于BERT和VITS结合微软自然语音特征的最佳TTS支持

  • YatingMusic/ddsp-singing-vocoders 声码器是一种条件音频生成模型,可将声学特征(如 mel 频谱图)转换为波形。从可微分数字信号处理(DDSP)中汲取灵感,提出SawSing新型声码器,用于歌声。SawSing使用线性时变有限脉冲响应滤波器过滤锯齿波源信号来合成歌唱声音的谐波部分,该滤波器的系数由神经网络根据输入的mel频谱图估计。加强了相位连续性,因此可以生成歌声,不会出现许多现有声码器的相位不连续性故障。在资源有限的场景中,收敛速度更快,且优于最先进的生成对抗网络和基于扩散的声码器,只有3个训练录音和3小时的训练时间。

  • CjangCjengh/MoeGoe 用于 VITS 推理的可执行文件,包括上海方言模型。VITS:用于语音合成带有对抗学习的条件变分自编码器。

  • enhuiz/vall-e 音频LM VALL-E的非官方PyTorch实现。3 秒音频可模仿人说话的语音大模型。使用了 Meta 提出的 Audio Codec 提取离散的音频码本,作为训练标签,其包含8(音频码维数)个 Decoder Block,每个 Block 含有 12 层 TransformerDecoder 层,第一个 block 为自回归结构,其余 block 为非自回归结构。lifeiteng/vall-e

  • espeak-ng/espeak-ng 开源语音合成器,支持一百多种语言和口音。

  • keithito/tacotron 使用预训练模型的Google的Tacotron语音合成的TensorFlow实现(非官方)

  • r9y9/deepvoice3_pytorch 基于卷积神经网络的文本到语音合成模型的Torch 实现

  • AIGC-Audio/AudioGPT 理解和生成语音、音乐、声音和说话的头部

  • riffusion/riffusion 稳定扩散,实时生成音乐

  • bytedance/SALMONN 支持语音、音频事件和音乐输入的大型语言模型(LLM),由清华大学电子工程系和字节跳动开发。SALMONN可以感知和理解各种音频输入,而不是仅语音输入或仅音频事件输入,从而获得新兴功能,例如多语言语音识别和翻译以及音频 - 语音协同推理。

  • ga642381/SpeechGen 用提示解锁语音语言模型的生成能力,探索了在称为SpeechGen的统一框架内应用提示调谐来刺激语音LM用于各种生成任务,该框架具有大约10M的可训练参数。

  • pndurette/gTTS Python 库和 CLI 工具,用于与 Google 翻译的文本转语音 API 交互

  • Rongjiehuang/FastDiff 用于高质量语音合成的快速条件扩散模型

  • archinetai/audio-diffusion-pytorch 在 PyTorch 中使用扩散模型生成音频。包括用于无条件音频生成、文本条件音频生成、扩散自动编码、上采样和声编码的模型。提供的模型是基于波形的,但是,U-Net(使用 a-unet )、 DiffusionModel 、扩散方法和扩散采样器构建,对于任何维度都是通用的,并且高度可定制以适用于其他格式。注意:(1)这里没有提供预训练的模型,(2)显示的配置是指示性的,未经测试,参见Moûsai了解论文中使用的配置。

  • marytts/marytts 用纯 Java 编写的开源、多语言文本到语音合成系统

  • KoljaB/RealtimeTTS 专为实时应用程序设计的最先进的文本转语音 (TTS) 库。它以最小的延迟将文本流快速转换为高质量的听觉输出。

  • PlayVoice/VI-SVS 基于VITS的歌声合成,不同于VISinger

  • fatchord/WaveRNN WaveRNN 声码器 + TTS

  • p0p4k/pflowtts_pytorch 通过语音提示实现快速且数据高效的零样本 TTS

  • netease-youdao/EmotiVoice 功能强大且现代的开源文本转语音引擎,可供您免费使用。EmotiVoice 会说英语和中文,并有超过 2000 种不同的声音(有关详细信息,请参阅语音列表)。最突出的特点是情绪合成,让你创造出具有广泛情绪的语音,包括快乐、兴奋、悲伤、愤怒等。

  • Edresson/YourTTS 面向所有人的零样本多扬声器 TTS 和零样本语音转换

  • neonbjb/tortoise-tts 以质量为重点的多语音TTS系统,强大的多声部功能。高度逼真的韵律和语调。

  • yxlllc/DDSP-SVC 基于DDSP(微分数字信号处理)的实时端到端歌唱语音转换系统

  • innnky/emotional-vits 无需情感标注的情感可控语音合成模型,基于VITS

  • see2023/Bert-VITS2-ext 基于Bert-VITS2做的表情、动画测试,比如TTS同步产生脸部表情数据。

语音识别与合成_其他

  • TencentGameMate/chinese_speech_pretrain WenetSpeech train_l 集的 1 万小时中文数据作为无监督预训练数据。数据主要来源于 YouTube 和 Podcast,覆盖了各种类型录制场景、背景噪声、说话方式等,其领域主要包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。

  • zzw922cn/awesome-speech-recognition-speech-synthesis-papers 自动语音识别 (ASR)、说话人验证、语音合成、文本到语音转换 (TTS)、语言建模、歌唱语音合成 (SVS)、语音转换 (VC)

  • AIGC-Audio/AudioGPT 理解和生成语音、音乐、声音和说话人头部动作。

  • deezer/spleeter 人声分离模型

  • Anjok07/ultimatevocalremovergui GUI,用于使用深度神经网络的人声去除器。

  • google-research/sound-separation 用于分离声音的开源数据集和深度学习模型。

  • WenzheLiu-Speech/awesome-speech-enhancement 总结了用于单/多通道语音增强/语音分离的论文、代码和工具。

  • stemrollerapp/stemroller 从任何歌曲中分离出人声、鼓、贝斯和其他器乐声部

  • microsoft/unilm/wavlm 用于全栈语音处理的大规模自我监督预训练,下游任务如ASR、声纹识别、声音分类等。

  • Windstudent/Complex-MTASSNet 多任务音源分离,两阶段模型,复杂域。

  • facebookresearch/seamless_communication 一系列 AI 模型,可实现更自然、更真实的跨语言交流。SeamlessM4T 是一个庞大的多语言多模态机器翻译模型,支持大约 100 种语言。SeamlessM4T 是 SeamlessExpression 和 SeamlessStreaming 的基础,SeamlessExpression 是一个跨语言保留韵律和语音风格元素的模型,该模型支持大约 100 种语言的同声传译和流式 ASR。SeamlessExpressive 和 SeamlessStreaming 合并为 Seamless,这是一个具有多语言、实时和富有表现力的翻译的统一模型。支持以下任务:Speech-to-speech translation 语音到语音翻译 (S2ST)、Speech-to-text translation语音到文本翻译 (S2TT)、Text-to-speech translation 文本到语音转换 (T2ST)、Text-to-text translation 文本到文本翻译 (T2TT)、Automatic speech recognition 自动语音识别 (ASR)

  • Rudrabha/Wav2Lip 唇语识别 唇语同步 ,用来生成准确的唇语同步视频。

  • facebookresearch/voxpopuli 目前世界上最大的多语言语音数据集,涵盖了23种语言,时长超过40万小时。

  • WenetSpeech 从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。 采用OCR 和ASR分别标记每个录音。 为了提高语料库的质量,使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

  • fighting41love/zhvoice 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字。

  • tyiannak/pyAudioAnalysis Python 音频分析库:特征提取、分类、分割和应用

  • microsoft/muzic 用人工智能理解和生成音乐,包括:符号音乐理解:MusicBERT、自动歌词转录:PDAugment 音乐生成:作曲:SongMASS、歌词生成:DeepRapper、旋律生成:TeleMelody、伴奏生成:PopMAG、歌声合成。

  • MubertAI/Mubert-Text-to-Music 演示通过 Mubert API 生成基于提示的音乐

  • facebookresearch/av_hubert 用于视听语音的自监督学习框架,在 LRS3 视听语音基准上,它在唇读、ASR 和视听语音识别方面取得了最先进的结果。

  • lhotse-speech/lhotse 在机器学习项目中处理语音数据的工具。

  • microsoft/NeuralSpeech 微软亚洲研究院的研究项目,专注于基于神经网络的语音处理,包括自动语音识别(ASR)、文本到语音(TTS)、空间音频等。

  • chrisdonahue/ddc 自动编舞系统,将原始音频转换为可播放的舞蹈。

  • google/lyra 高质量、低比特率的语音编解码器,在最慢网络上也能进行语音通信。 为此,它应用了传统的编解码器技术,同时利用机器学习 (ML) 的进步和经过数千小时数据训练的模型来创建一种压缩和传输语音信号的新方法。

  • mixxxdj/mixxx 免费的 DJ 软件,可为您提供执行现场混音所需的一切。

  • QiuChenly/QQFlacMusicDownloader [秋城落叶] QQ 音乐源无损歌曲下载

  • noisetorch/NoiseTorch Linux 上的实时麦克风噪声抑制。

  • werman/noise-suppression-for-voice 基于Xiph的RNNoise的噪声抑制插件

  • ggeop/Python-ai-assistant Python蟒蛇AI助手 语音命令助手服务,它可以识别人类语音,与用户交谈并执行基本命令。

  • spotify/pedalboard 由Spotify音频智能实验室构建,可以在Python和TensorFlow中使用工作室质量的音频效果。内置音频 I/O 实用程序:支持在所有平台上读写 AIFF、FLAC、MP3、OGG 和 WAV 文件,无需依赖关系;对读取 AAC、AC3、WMA 和其他格式的额外支持,具体取决于平台;支持对音频文件和流进行动态重采样,内存使用量为 0;通过 AudioStream 的实时音频效果。内置支持许多基本音频转换,包括:吉他风格效果;响度和动态范围效果;均衡器和滤波器;空间效果;音高效果;有损压缩;质量降低。在 macOS、Windows 和 Linux 上支持 VST3® 乐器和效果插件。支持 macOS 上的乐器和效果音频单元。强大的线程安全性、内存使用和速度保证,以允许使用多个 CPU 内核,处理单个转换的音频速度比 pySoX 快 300 倍,比 SoxBindings(通过 iCorv)快 2-5 倍,读取音频的速度比librosa.load快4倍(在许多情况下)。

  • wenet-e2e/opencpop 用于歌声合成的高质量开源中文流行歌曲数据库

  • snakers4/silero-models Silero 模型:预先训练的语音转文本、文本转语音和文本增强模型变得简单得令人尴尬.

  • LCAV/pyroomacoustics 用于室内应用音频信号处理的软件包。它是作为室内场景中波束成形算法的快速原型平台开发的。

  • asteroid-team/asteroid 面向研究人员的基于 PyTorch 的音频源分离工具包

  • boy1dr/SpleeterGui 适用于 Spleeter 的 Windows 桌面前端 - AI音乐源分离

  • krantiparida/awesome-audio-visual 视听处理领域的不同论文和数据集的精选列表

  • Rikorose/DeepFilterNet 用于全频带音频 (48kHz) 的低复杂度语音增强框架,用于深度滤波。

  • spicetify/spicetify-cli 用于自定义 Spotify 客户端的命令行工具。支持 Win、MacOS 和 Linux。

  • beetbox/beets 面向痴迷音乐极客的媒体库管理系统。一劳永逸地获得正确的音乐收藏。它会对您的收藏进行编目,并自动改进其元数据。然后,它提供了一束用于操作和访问音乐的工具。

  • resemble-ai/resemble-enhance AI 驱动的工具,旨在通过执行降噪和增强来提高语音的整体质量。它由两个模块组成:一个降噪器,用于将语音与嘈杂的音频分开,另一个增强器通过恢复音频失真和扩展音频带宽来进一步提高感知音频质量。这两个模型都使用高质量的 44.1kHz 语音数据进行训练,从而保证以高质量增强您的语音。

  • kyleneideck/BackgroundMusic macOS 音频实用工具“背景音乐”:自动暂停音乐、设置各个 App 的音量并录制系统音频。

  • ExistentialAudio/BlackHole 现代 macOS 音频环回驱动程序,允许应用程序以零额外延迟将音频传递给其他应用程序。

  • audacity/audacity 易于使用的多轨音频编辑器和录音机。从主机系统可用的任何真实或虚拟音频设备进行录制。导出/导入多种音频格式,可通过 FFmpeg 进行扩展。使用 32 位浮点音频处理的高品质。插件 支持多种音频插件格式,包括 VST、LV2 和 AU。用于链接命令和批处理的宏。使用 Python、Perl 或任何其他支持命名管道的语言编写脚本。Nyquist,一种功能强大的内置脚本语言,也可用于创建插件。编辑具有采样精度和任意采样率的多轨编辑。VI用户的可访问性。用于分析音频或其他信号数据的分析和可视化工具。

  • AudioKit/AudioKit 适用于 iOS、macOS 和 tvOS 的音频合成、处理和分析平台

  • sonic-pi-net/sonic-pi 免费的基于代码的音乐创作和表演工具。对于专业音乐家和 DJ 来说功能强大。富有表现力的构图和表演。盲人和部分视力障碍者可以使用。简单的计算和音乐课程。通过创作或表演从古典和爵士乐到嘻哈和电子舞曲等各种风格的音乐来学习创造性地编码。每个人都免费提供友好的教程。

  • MarshallOfSound/Google-Play-Music-Desktop-Player-UNOFFICIAL- 适用于 Google Play 音乐的精美跨平台桌面播放器

生物医药

蛋白质结构

  • deepmind/alphafold 此包提供了 AlphaFold v2.0 的推理流线的实现。AlphaFold是Google旗下DeepMind开发的一款人工智能程序,它使用深度学习算法通过蛋白质序列来预测蛋白质结构。蛋白质通过卷曲折叠会构成三维结构,蛋白质的功能正由其结构决定。了解蛋白质结构有助于开发治疗疾病的药物。

  • RosettaCommons/RoseTTAFold 结合AlphaFold相关思想的网络架构,并通过三轨网络获得了最佳性能,其中1D序列、2D距离图和3D坐标的信息依次转换和集成。三轨网络精度接近AlphaFold2,能够快速解决具有挑战性的X-ray晶体学和冷冻电镜结构建模问题,并提供对当前未知结构蛋白质功能的见解。还能够仅从序列信息中快速生成准确的蛋白质-蛋白质复合物模型。

  • aqlaboratory/openfold AlphaFold2的可训练、内存效率高且GPU友好的 PyTorch 再现。

  • dauparas/ProteinMPNN 基于深度学习的蛋白质序列设计方法,在计算和实验测试中都有出色的表现。在本地蛋白质骨架上,它的序列恢复率为52.4%,而Rosetta为32.9%。不同位置的氨基酸序列可以在单链或多链之间进行耦合,从而能够应用于当前广泛的蛋白质设计挑战。研究员利用X射线晶体学、冷冻电镜和功能研究证明了它的广泛实用性和高准确性,挽救了使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶标结合蛋白的失败设计。

  • HeliXonProtein/OmegaFold 《从原生层序进行高分辨率从头构造预测》的代码。AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。

  • sokrypton/ColabFold 让蛋白质折叠预测人人可及,预测蛋白质结构。

  • salesforce/provis BERTology Meets Biology: Interpreting Attention in Protein Language Models 注意力机制在蛋白质语言模型的应用

  • ElwynWang/DeepFragLib 基于深度神经网络和改进的片段测序方法从头预测蛋白质结构

  • bowman-lab/diffnets 采用DiffNets通过比较结构集来深度学习蛋白质生化特性的结构决定因素

  • nadavbra/protein_bert 专为蛋白质序列和功能设计的通用深度学习模型

  • pengxingang/Pocket2Mol 基于 3D 蛋白质口袋的高效分子采样 使用等变图神经网络来提高以前基于结构的药物设计模型的效率和分子质量。

  • jertubiana/ScanNet 可解释的几何深度学习模型,用于结构的蛋白质结合位点预测

  • strauchlab/scaffold_design 小蛋白质折叠结构和序列空间的采样

  • flatironinstitute/DeepFRI 基于结构和GCN的蛋白质功能预测

  • j3xugit/RaptorX-3DModeling RaptorX 通过深度卷积残差网络预测蛋白质接触/距离/方向和局部结构特性(例如,二级结构和 phi/psi 角度)。它还使用预测的距离/方向和 phi/psi 角度构建蛋白质序列的 3D 模型。

  • FreyrS/dMaSIF 蛋白质表面的快速端到端学习.蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明,几何深度学习可用于蛋白质的基于网格的表示,以识别潜在的功能位点,例如潜在药物的结合目标。不幸的是,使用网格作为蛋白质结构的底层表示有多个缺点,包括需要预先计算输入特征和网格连接性。这成为蛋白质科学中许多重要任务的瓶颈。在本文中,我们提出了一个新的蛋白质结构深度学习框架,以解决这些限制。

  • nferruz/ProtGPT2 一种蛋白质语言模型,可用于从头蛋白质设计和工程。ProtGPT2产生的序列保留了天然蛋白质的关键特征(氨基酸倾向、二级结构含量和球形度),同时探索蛋白质空间的未被发现的区域。

  • Superzchen/iLearnPlus 具有基于图形和基于 Web 的用户界面的机器学习平台,可以构建自动化机器学习管道,以使用核酸和蛋白质序列进行计算分析和预测。

  • baldassarreFe/graphqa 使用图卷积网络进行蛋白质质量评估

  • phermosilla/IEConv_proteins 用于学习 3D 蛋白质结构的内在-外在卷积和池化

  • sameerkhurana10/DSOL_rv0.2 深度蛋白质溶解度预测

  • luoyunan/ECNet 用于蛋白质工程的进化上下文集成深度学习框架

  • luoyunan/ECNet 用于蛋白质工程的进化上下文集成深度学习框架

  • deepmodeling/Uni-Fold Uni-Fold:训练您自己的深度蛋白质折叠模型。

  • bigbio/py-pgatk 蛋白质组学分析工具包的 Python 工具。蛋白质组学是生物学研究的一个领域,它利用蛋白质组学、基因组学和转录组学的组合来帮助发现和识别/量化肽和蛋白质。蛋白质组学用于通过将 MS/MS 光谱与源自基因组和转录组学信息的蛋白质数据库进行比较来识别新肽。

  • zjunlp/OntoProtein OntoProtein 是一种将 GO(Gene Ontology)中的结构用于文本增强的蛋白质预训练模型的有效方法。一种知识增强的蛋白质语言模型,它共同优化了 KE 和 MLM 目标,为广泛的蛋白质任务带来了出色的改进。并且我们引入了ProteinKG25,一个新的大规模KG数据集,促进了蛋白质语言预训练的研究。支持ss3, ss8( 3-class and 8-class protein secondary structure 3类和8类蛋白质二级结构), contact, remote_homology, fluorescence 荧光, stability 稳定等下游任务。

  • ProteinDesignLab/protein_seq_des 具有学习潜力的蛋白质序列设计

  • gjoni/trRosetta 从序列数据中预测蛋白质残基间几何形状的软件包

  • gjoni/trDesign 用于蛋白质设计的 trRosetta

  • RosettaCommons/RFDesign 用RoseTTAFold 实现蛋白质幻觉(AI 生成)和修复

  • facebookresearch/esm 进化规模建模(esm):蛋白质的预训练语言模型

  • uw-ipd/RoseTTAFold2NA RoseTTAFold2蛋白/核酸复合物预测

  • pylelab/USalign 核酸和蛋白质单体结构和复杂结构的通用结构比对

  • agemagician/ProtTrans 正在为蛋白质提供最先进的预训练语言模型。使用 Transformers 模型在 Summit 的数千个 GPU 和数百个 Google TPU 上进行了训练。

药物发现、药物设计

  • DeepGraphLearning/torchdrug 药物发现强大而灵活的机器学习平台

  • jdurrant/deepfrag 药物发现是一个成本高昂且耗时的过程。在前期,研究员试图找到能够初步抑制某些疾病关联蛋白的苗头化合物。但这些化合物必须经过先导优化,包括添加或交换某些化学部分,旨在提高化合物的结合亲合力或其他与吸收、分布、代谢、排泄和毒性有关的化学性质(ADMET)。而计算机辅助药物设计(CADD)能够加速前期的这些研究。例如,作者团队最近开发了基于3D卷积神经网络的模型DeepFrag来进行更进一步的先导优化,不幸的是,基于深度学习的模型对于非计算机专业研究者并不友好。为了追求更高的易用性,作者开发了名为DeepFrag的网页应用,为对编程不太熟悉的研究人员提供了图形化的界面,利用本地资源即可运行DeepFrag进行CADD的研究。

  • Mariewelt/OpenChem 用于计算化学和药物设计研究的深度学习工具包

  • deepchem/deepchem DeepChem 旨在提供一个高质量的开源工具链,使深度学习在药物发现、材料科学、量子化学和生物学中的使用民主化。

  • maxime-langevin/scaffold-constrained-generation 基于现有的 SMILES 循环神经网络模型来执行支架约束生成。支架约束生成和优化并不是很好研究的问题,但在处理药物发现项目时(尤其是在化合物的后期优化中),这是我们试图解决的问题。

  • pyli0628/MPG 一种有效的自我监督框架,用于学习药物发现的表达性分子全局表示

  • luost26/3D-Generative-SBDD 基于结构的药物设计的 3D 生成模型 (NeurIPS 2021)

  • XuhanLiu/DrugEx 多药理学中基于帕累托的多目标优化药物设计深度学习工具包。由于可用于寻找可行的类药物分子的类药物化学空间大,合理的药物设计通常从添加或修饰侧链/取代基的特定支架开始。随着深度学习在药物发现中应用的快速增长,已经开发出多种有效的方法来进行从头药物设计。提出了DrugEx 的方法,该方法可以应用于基于多目标深度强化学习的多药理学。为了提高普遍适用性, DrugEx 以设计基于支架的药物分子,支架由用户提供的多个片段组成。在这项工作中,Transformer 用于生成分子结构。Transformer 包含一个接收支架作为输入的编码器和一个生成分子作为输出的解码器。为了处理分子的图形表示,我们提出了一种基于邻接矩阵的每个原子和键的新位置编码,以扩展 Transformer 的架构。每个分子都是通过生长和连接给定支架中的片段的程序生成的,这些片段被统一到一个模型中。此外,我们在强化学习框架下训练了这个生成器,以增加所需配体的数量。

  • kekegg/DLEPS 利用深度学习从基因转录数据中预测药物疗效

  • tencent-ailab/DrugOOD 人工智能辅助药物发现的 OOD 数据集和基准

药物-靶标 药物-药物 化合物-蛋白质 相互作用

  • ddinter.scbdd.com 专门针对药物-药物相互作用的综合、专业和开放存取的数据库。它为每个 DDI 关联提供了丰富的注释,包括机制描述、风险级别、管理策略、替代药物等,以改善临床决策和患者安全。

  • kexinhuang12345/DeepPurpose PyTorch来解锁50多个用于药物-靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。

  • ETHmodlab/molgrad 通过将积分梯度可解释人工智能(XAI)方法应用于图神经网络模型,提高了理性分子设计的建模透明度,并基于四个药理学相关ADME终点的实验,验证了所提出的方法能够突出与已知药效团基序一致的分子特征和结构元素,正确识别性质断崖,并提供了对非特异性配体-靶标相互作用的见解。

  • thinng/GraphDTA 使用图神经网络预测药物-靶标的结合亲和力

  • isjakewong/MIRACLE 多视图图对比表示学习用于药物药物相互作用预测

  • FangpingWan/DeepCPI 基于深度学习的化合物和蛋白质相互作用预测框架

  • yueyu1030/SumGNN multi-typed drug interaction prediction via efficientknowledge graph summarization 基于高效知识图谱汇总的多类型药物关联预测。 整合了DDI信息(药物-药物相互作用)以及生物医学KG数据,并提出了有效的聚合机制以进行DDI预测。实验结果表明,该模型具有良好的预测性能。

  • kanz76/SSI-DDI 预测药物之间不良DDI的深度学习框架。首次将药物间相互作用预测的任务转化为子结构间相互作用预测的任务。实验结果表明,该方法有着目前最好的性能。并在transductive和inductive (冷启动场景)设置方面都取得了良好的效果。

  • jacklin18/KGNN IJCAI'20 "KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction" 基于知识图谱的图神经网络(KGNN),以解决DDI预测问题。该框架可通过在KG中挖掘相关联的关系,来有效地捕获药物及其潜在的邻域实体信息。

  • twopin/CAMP 用于多层次肽-蛋白质相互作用预测的基于卷积注意力的神经网络

  • lvguofeng/GNN_PPI 提出了一种基于图神经网络的方法 (GNN-PPI),以更好地预测新蛋白质之间的相互作用。在不同规模的真实世界数据集上的实验结果表明,GNN-PPI 显着优于最先进的 PPI 预测方法,特别是对于小说间的蛋白质相互作用预测。

  • Liuxg16/GeoPPI 用于模拟突变对蛋白质-蛋白质结合亲和力的影响的深度几何表示

  • biomed-AI/GraphPPIS GraphPPIS 是一种使用深度图卷积网络进行基于结构的蛋白质-蛋白质相互作用位点预测的新框架,它能够从高阶空间相邻氨基酸中捕获信息。

  • aqlaboratory/hsm 使用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测

  • THinnerichs/DTI-VOODOO 使用深度图学习方法进行药物靶标相互作用预测的 PPI 网络驱动方法。

  • ohuelab/QEPPI 针对蛋白质-蛋白质相互作用的化合物早期筛选的定量估计指数

  • DeepRank/deeprank使用 CNN 数据挖掘蛋白质-蛋白质相互作用的深度学习框架

  • violet-sto/TGSA TGSA 的 PyTorch 实现:基于蛋白质-蛋白质关联的双图神经网络用于相似性增强的药物反应预测

  • PaddleHelix/drug_target_interaction/sign 用于预测蛋白质-配体结合亲和力的结构感知交互式图神经网络

  • biomed-AI/GraphSite 用于使用图形转换器和来自 AlphaFold2 的预测蛋白质结构进行基于序列的蛋白质-DNA 结合位点预测。

  • pharmai/plip 根据 PDB 文件分析和可视化非共价蛋白质-配体相互作用

  • Layne-Huang/EGFI 融合丰富实体和句子信息的药物-药物相互作用提取和生成

  • Ieremie/TransformerGO 通过对基因本体术语集之间的注意力进行建模来预测蛋白质-蛋白质相互作用

  • YifanDengWHU/DDIMDL 具有多种药物特征的多模式深度学习框架来预测药物-药物相互作用(DDI)事件。

  • CSUBioGroup/BACPI 用于化合物-蛋白质相互作用和结合亲和力预测的双向注意力神经网络

  • biomed-AI/CoSMIG 多关系归纳药物-基因相互作用预测的交际子图表示学习

  • IsXudongZhang/Molormer 基于分子图空间结构的轻量级自注意药物相互作用预测方法

分子

  • futianfan/CORE 利用复制和改进策略自动优化分子

  • zhang-xuan1314/Molecular-graph-BERT 面向药物分子性质预测的大规模原子表征预训练模型

  • microsoft/Graphormer 图结构数据上的Transformer变种,应用于2D 分子化学结构图预测分子性质,还可以应用于主流图预测任务、社交网络的推荐和广告、知识图谱、自动驾驶的雷达点云数据、对交通物流运输等的时空预测和优化、程序理解和生成等等,还包括分子性质预测所涉及的行业,比如药物发掘、材料发现、分子动力学模拟、蛋白质结构预测等等。

  • dptech-corp/Uni-Mol 通用的 3D 分子预训练框架,显着扩大了药物设计中的表示能力和应用范围。由两个模型组成:一个由 209M 分子 3D 构象训练的分子预训练模型; 由 3M 候选蛋白质口袋数据训练的口袋预训练模型。两种模型独立用于不同的任务,并在用于蛋白质-配体结合任务时结合使用。 Uni-Mol 在 14/15 分子特性预测任务中优于 SOTA。 此外,在3D空间任务中实现了卓越的性能,包括蛋白质-配体结合位姿预测(protein-ligand binding pose prediction)、分子构象生成(molecular conformation generation)等。

  • HIPS/neural-fingerprint 图卷积网络用于学习分子指纹。使用神经网络在数据样本中归纳总结,然后来预测新型分子的属性或者性质。

  • binghong-ml/MolEvol 通过可解释进化进行分子优化

  • MinkaiXu/GeoDiff 用于分子构象生成的几何扩散模型 (ICLR 2022)。

  • MinkaiXu/ConfVAE-ICML21 基于双层规划的端到端分子构象生成框架

  • mohimanilab/molDiscovery 使用质谱数据预测分子的身份

  • binghong-ml/retro_star 自提升策略规划真实且可执行的分子逆合成路线

  • GraphPKU/3DLinker 用于分子链接器设计的 E (3) 等变变分自动编码器

  • marcopodda/fragment-based-dgm 基于片段的分子深度生成模型.作者在ZINC数据集上进行了实验,该数据由250K类药物化合物组成。为了进一步评估LFM的影响,作者还使用了Pub Chem Bio Assay(PCBA)数据集测试了模型变体,该数据集包括约440k小分子。

  • torchmd/torchmd 一个混合经典和机器学习势的分子模拟(molecular simulations)的框架。通过将MD(经典分子动力学)中的键合和非键合力术语扩展到任意复杂的DNN上,实现了机器学习势的快速成型和集成。TorchMD关键点:一,PyTorch编写,容易集成其他ML模型;二,提供执行端到端可微模拟能力,在参数上都是可微的。

  • MolecularAI/GraphINVENT 基于GNN的分子生成平台

  • shenwanxiang/bidd-molmap MolMapNet 可预测药物特性,通过广泛学习的基于知识的分子表示对药物特性进行开箱即用的深度学习预测

  • DeepGraphLearning/GraphAF 基于Flow的自回归模型,以生成真实多样的分子图。由于标准化Flow的灵活性,GraphAF能够模拟复杂的分子分布,并在实验中生成新的和100%有效的分子。

  • anny0316/Drug3D-Net 提出了一种新的基于分子空间几何结构的深度神经网络结构Drug3D-Net,用于预测分子性质。它是基于网格的三维卷积神经网络,具有时空门注意模块,可以提取卷积过程中分子预测任务的几何特征。

  • deepmodeling/deepmd-kit 用于多体势能表示和分子动力学的深度学习包

  • lol88/Mol2Context-vec 提供了一种深入的上下文感知分子表示,以推动药物发现的边界。它可以整合不同层次的内部状态,带来丰富的分子结构信息。

  • jcchan23/CoMPT 本文提出了Communicative Message Passing Transformer网络,一种通过在Transformer架构中融合消息传递机制并加强节点与边之间的消息交互来改进药物分子图的表征方法。此外,受热扩散现象的启发,该表征方法通过将消息传递机制转化为消息扩散机制减少了消息过度富集的影响。大量实验表明,本文提出的模型在七个化学性质数据集(图级任务)和两个化学位移数据集(节点级任务)上的性能优于基线模型的性能(平均性能提升约4%)。可视化研究也进一步表明该模型实现了更好的药物分子图表征能力。

  • zetayue/MXMNet 具有分子结构多重图的分子力学驱动图神经网络

  • ChenDdon/AGBTcode 代数图辅助双向变换器用于分子特性预测”的实现

  • yvquanli/trimnet 论文代码“TrimNet:从生物医学的三元组消息中学习分子表示”

  • lmmpf/PyAutoFEP PyAutoFEP:用于 GROMACS 的自动化 FEP 工作流程,集成了增强的采样方法.PyAutoFEP 是一种自动化自由能扰动 (FEP) 计算的工具,用于估计小分子与大分子目标的相对自由能结合 (RFEB)。它自动生成微扰图、构建配体对的双拓扑、设置 MD 系统和分析。与众不同的是,PyAutoFEP 支持多个力场,集成了增强的采样方法,并允许灵活的 λ 窗口方案。

  • hannesstark/3dinfomax 通过使用分子的 3D 几何来预训练 GNN,使自我监督学习对分子起作用。在 DGL 和 Pytorch Geometric 中实现。

  • microsoft/FS-Mol FS-Mol 是一个 Few-Shot 分子学习数据集,包含具有针对各种蛋白质靶标的活性测量值的分子化合物。该数据集提供了一个模型评估基准,旨在推动分子和图形结构数据领域的小样本学习研究。

  • zhichunguo/Meta-MGNN 用于分子性质预测的小样本图学习

  • illidanlab/MoCL-DK 论文 MoCL 的实现:具有多层次领域知识的分子图对比学习

  • smiles724/Molformer Molformer(以前称为 3D-Transformer)的存储库,它在许多分子表示学习问题中实现了最先进的技术。

  • gasteigerjo/dimenet DimeNet 和 DimeNet++ 模型,如“分子图的定向消息传递”(ICLR 2020)和“非平衡分子的快速和不确定性感知定向消息传递”(NeurIPS-W 2020)中提出

  • LiteGEM/kddcup2021-PCQM4M-LSC LiteGEM:KDD Cup 2021 PCQM4M-LSC解决方案. PCQM4M-LSC是量子化学数据集,任务是预测给定分子的重要分子特性,即HOMO-LUMO间隙(图形回归)。即一个分子图的量子特性回归数据集,它包含了3,803,453个图。它基于PubChemQC项目的归纳式图回归数据集。它包含约400万以SMILES串描述的小分子。目的是加速量子化学计算,尤其是预测每个分子的HOMO-LUMO轨道距离。HOMO-LUMO距离是量子化学中最重要的属性之一,因为他和分子的反应性、光激励、电荷输送有关。每个分子的真实标签是通过昂贵的DFT计算得到,每个分子需要计算几个小时。在足够的训练数据支持下,类似GNN的基于分子图网络的机器学习模型,可以以很小代价得到近似DFT的结果。这些分子根据他们的PubChem ID按照8:1:1划分作为训练、验证、测试数据集。

  • deepmind//ogb_lsc/pcq DeepMind 进入OGB大规模挑战赛(OGB-LSC) 的PCQM4M-LSC(量子化学)轨道的条目 。通过汇集 20 个模型(10 倍 x 2 个种子)的集合来实现的。

  • divelab/MoleculeX 用于分子探索的全新且快速发展的机器学习方法和软件工具。MoleculeX 的最终目标是实现各种基本和复杂的分子建模任务,例如分子性质预测、3D 几何建模等。目前,包括一套机器学习方法,用于基态 3D 分子几何预测和分子属性预测。具体来说,BasicProp包括基于图神经网络的基本监督学习方法,用于分子特性预测。BasicProp适用于有大量标记样本可用的任务,因此只需要监督学习。BasicProp已用于参与2021年OGB-LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了软件工具来处理我们提出的 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的包只包含 Molecule3D 模块代码。

  • divelab/MoleculeX 用于分子探索的全新且快速发展的机器学习方法和软件工具。MoleculeX 的最终目标是实现各种基本和复杂的分子建模任务,例如分子性质预测、3D 几何建模等。目前,包括一套机器学习方法,用于基态 3D 分子几何预测和分子属性预测。具体来说,BasicProp包括基于图神经网络的基本监督学习方法,用于分子特性预测。BasicProp适用于有大量标记样本可用的任务,因此只需要监督学习。BasicProp已用于参与2021年OGB-LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了一套软件工具来处理我们提出的 Molecule3D 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的 pip 包只包含 Molecule3D 模块的代码。我们将在未来逐步包含其他模块。

  • PattanaikL/GeoMol 直接从分子图生成 3D 构象集合的方法

  • IBM/QMO 基于查询的分子优化。利用来自分子自动编码器的潜在嵌入。在一组分子特性预测和评估指标的指导下,基于有效查询改进输入分子的所需特性

  • grogdrinker/pyuul 旨在处理大分子的 3D 结构,例如 PDB,将它们转换为完全可微分的数据结构。

  • Saoge123/ccgnet Co-Crystal Graph Network是二元有机共晶虚拟筛选的深度学习框架,将先验知识融入分子图的特征学习中,实现共晶筛选性能的极大提升。

  • ZJU-Fangyin/KCL 化学元素知识图谱的分子对比学习

  • nyu-dl/dl4chem-mgm 用于Masked 图建模分子生成中进行实验的模型、数据和脚本。

  • ccsb-scripps/AutoDock-Vina 速度最快、使用最广泛的开源分子对接引擎之一。基于简单的评分函数和快速梯度优化构象搜索。它最初由分子图形实验室的 Oleg Trott 博士设计和实现。在分子建模领域,对接docking是一种在配体和靶标相互结合形成稳定复合物时,预测一个分子对第二个分子的优选取向的方法。 反过来,优选方向的知识可用于预测两个分子之间的缔合强度或结合亲和力,例如使用评分函数。将小分子配体与蛋白质靶标对接产生稳定复合物。蛋白质、肽、核酸、碳水化合物和脂质等生物学相关分子之间的关联在信号转导中起着核心作用。此外,两个相互作用伙伴的相对方向可能会影响产生的信号类型(例如,激动与拮抗)。因此,对接对于预测产生的信号的强度和类型非常有用。分子对接是基于结构的药物设计中最常用的方法之一,因为它能够预测小分子配体与适当靶结合位点的结合构象。结合行为的表征在药物的合理设计以及阐明基本的生化过程中起着重要作用。

  • devalab/molgpt 使用下一个令牌预测任务在 Moses 和 Guacamol 数据集上训练小型自定义 GPT。然后将该模型用于无条件和有条件的分子生成。我们将我们的模型与之前在 Moses 和 Guacamol 数据集上的方法进行比较。使用Ecco库获得显着性图的可解释性。

  • tencent-ailab/grover 大规模分子数据上的自监督图转换器。支持预训练、微调、预测、指纹生成和评估功能。

  • rampasek/GraphGPS 通用、强大、可扩展的图形转换器的秘诀。如何构建图形转换器? 我们提供了一个由 3 部分组成的秘诀,介绍如何构建具有线性复杂度的图形转换器。 我们的 GPS 配方包括选择 3 种主要成分:位置/结构编码:LapPE、RWSE、SignNet、EquivStableLapPE,本地消息传递机制:GatedGCN、GINE、PNA,全局注意力机制:Transformer、Performer、BigBird。在ZINC 数据集上的图形回归任务目前SOTA。ZINC 是用于虚拟筛选的商用化合物的免费数据库。 ZINC 包含超过 2.3 亿种可购买的即用型 3D 格式化合物。 ZINC 还包含超过 7.5 亿种可购买的化合物,可用于搜索类似物。

  • wenhao-gao/mol_opt 实用分子优化 (PMO) 的开源基准,以促进对分子优化算法进展的透明和可重复评估。支持 23 种任务的 25 种分子设计算法。

  • THUDM/GraphMAE 生成式自监督图学习方法,在节点分类、图分类和分子特性预测等任务上与现有对比方法相比具有竞争力或更好的性能。

  • lucidrains/egnn-pytorch E(n)-等变图网络, 可能最终用于Alphafold2 复制。 适用于简单的不变特征,最终在准确性和性能上击败了所有以前的方法(包括 SE3 Transformer 和 Lie Conv)。 动力系统模型、分子活动预测任务等中的 SOTA。

  • OptiMaL-PSE-Lab/DeepDock 预测生物活性分子结合构象的几何深度学习方法

  • hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios 低资源反应预测场景的自监督分子预训练策略

  • xzenglab/KG-MTL 以协同的方式从知识图谱和分子图中提取特征。此外,我们设计了一个有效的共享单元,帮助模型在两个层次的图中共同保留药物实体的语义关系和化合物的相邻结构。在四个真实世界数据集上的广泛实验表明,我们提出的KG-MTL在两个具有代表性的分子相互作用预测任务上优于最先进的方法:药物-靶点相互作用(DTI)预测和化合物-蛋白质相互作用(CPI)预测。

抗菌肽

  • vail-uvm/amp-gan 一种基于双向条件生成对抗网络的抗菌肽(AMPs)设计方法AMPGAN v2。AMPGAN v2使用生成器和鉴别器来学习数据驱动的先验知识,并使用条件变量控制生成。

  • reymond-group/MLpeptide 机器学习设计非溶血性抗菌肽。使用来自DBAASP的数据训练RNN来设计非溶血性抗菌肽(Antimicrobial peptides, AMP),合成并测试了28个生成肽,鉴定出针对绿脓杆菌、鲍曼不动杆菌和耐甲氧西林金黄色葡萄球菌 (MRSA) 的8种新的非溶血性 AMP。结果表明机器学习可以用来设计非溶血性AMP。

  • IBM/controlled-peptide-generation IBM利用深度生成模型和分子动力学模拟加速抗菌肽发现

其他_生物医药

  • KailiWang1/DeepDTAF 预测蛋白质与配体结合亲和力的深度学习方法

  • cansyl/MDeePred 多通道蛋白质的特征化来解决深度学习下药物发现中亲和力预测问题

  • microsoft/BioGPT 用于生物医学文本生成和挖掘的生成预训练转换器的实现。提供预先训练的 BioGPT 模型检查点以及用于下游任务的微调检查点:用于PubMedQA(从PubMed摘要中收集的新颖的生物医学问答(QA)数据集。)上的问答任务、用于BC5CDR(人工标注的文档级关系抽取数据集,由1,500篇PubMed文档构成是生物医学特定领域,且仅考虑“化学诱导的疾病”关系)关系提取、用于DDI(药物间的相互作用)关系提取任务、用于KD-DTI(built upon DrugBank (Wishart et al. 2017) and Therapeutic Target Database (brieflyTTD) (Wang et al. 2020). DTI预测药物-靶点相互作用)关系提取任务、HoC 上的文档分类任务。

  • CBLUEbenchmark/CBLUE 中文医疗信息处理基准CBLUE 8个中文医疗语言理解任务。包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。

  • dmis-lab/biobert 用于生物医学文本挖掘的预训练生物医学语言表示模型

  • mims-harvard/TDC Therapeutics Data Commons (TDC),第一个机器学习在生物医药的大规模数据集。TDC目前包含了20+有意义的任务,和70多个高质量数据集,从靶蛋白的发现,药物动力学,安全性,药物生产都有包含到。而且不仅仅是小分子,还有抗体,疫苗,miRNA等。之后也会加入CRISPR,Clinical Trials等等。

  • alibaba-research/ChineseBLUE 中国生物医学语言理解评估基准

  • lrsoenksen/CL_RNA_SynthBio RNA合成生物学的深度学习

  • uci-cbcl/UFold 利用深度学习进行快速准确的 RNA 二级结构预测

  • lanagarmire/DeepImpute 一种基于深度神经网络来插补单细胞RNA测序数据的方法

  • emreg00/toolbox 疾病和药物相关的生物学数据集时所使用的各种脚本。它包含用于数据处理的通用实用程序(例如,解析,基于网络的分析,邻近性等)。

  • ruoqi-liu/DeepIPW 基于真实世界患者数据的药物重定位的深度学习框架

  • CutillasLab/DRUMLR 利用机器学习预测抗癌药物疗效。提出Drug Ranking Using ML方法,使用omics数据,根据药物抗肿瘤细胞增殖疗效对超过400种药物进行排序。

  • kaist-amsg/Synthesizability-PU-CGCNN 基于半监督学习的晶体结构的合成预测

  • xiaoyeye/CCST 使用图神经网络对空间转录组学数据进行细胞聚类。利用最近的两个技术发展,空间转录组学和图神经网络,用图神经网络进行空间转录组学数据的细胞聚类,一种基于图卷积网络的无监督细胞聚类方法,以改进从头算细胞聚类和发现 基于策划的细胞类别注释的新型子细胞类型。 CCST是处理各种空间分辨转录组学的通用框架。

  • WLYLab/PepFormer 基于Transformer的对比学习框架实现多肽可检测性预测

  • NYSCF/monoqlo_release 提出了模块化的深度学习框架Monoqlo来自动识别细胞集落,并从细胞成像中识别克隆性。

  • deepmodeling/deepks-kit DeePKS: A Comprehensive Data-Driven Approach toward Chemically Accurate Density Functional Theory 提出了构建准确且高效的密度泛函模型的通用机器学习框架,并且利用这一框架训练了具有化学精度的密度泛函模型,应用于电子结构性质的计算。

  • juexinwang/scGNN 新型的用于单细胞RNA测序分析的图神经网络框架

  • liulizhi1996/HPOFiller 基于图卷积网络(GCN)的方法,用于预测缺失的HPO注释。 人类表型本体(HPO)是描述人类疾病中遇到的表型异常的标准化词汇(疾病的术语)。探索人类蛋白质和异常表型之间的关系在疾病的预防、诊断和治疗中具有重要意义。

  • zty2009/GCN-DNN 基于图卷积网络和深度神经网络的药物靶点相互作用识别

  • WebyGit/CGINet 大规模药物信息网络构建及图卷积预测模型

  • ziyujia/SalientSleepNet 用于睡眠分期的多模态凸波检测网络

  • ziyujia/Physiological-Signal-Classification-Papers 500余篇基于机器学习/深度学习的生理信号分类论文列表

  • ziyujia/Sleep-Stages-Classification-Papers 基于深度学习的睡眠阶段分类论文列表

  • ziyujia/Motor-Imagery-Papers 基于深度学习的运动想象分类论文列表

  • BojarLab/SweetNet 图卷积神经网络分析复杂碳水化合物。

  • jaswindersingh2/SPOT-RNA2 利用进化概况、突变耦合和二维迁移学习改进了RNA二级结构和三级碱基配对预测

  • QSong-github/scGCN 单细胞图卷积网络模型(single-cell Graph Convolutional Network)可以实现跨越不同数据集的知识转移(knowledge transfer)。通过在30个单细胞组学数据集上进行基准测试实验,结果表明scGCN在利用来自不同组织、平台和物种以及分子层的细胞方面展现了优于其他方法的准确性。

  • mauragarofalo/LICTOR 抗体体细胞突变的机器学习分析预测免疫球蛋白轻链毒性

  • JieZheng-ShanghaiTech/KG4SL 用于人类癌症合成致死预测的知识图神经网络

  • immunogenomics/symphony 使用 Symphony 进行高效、精确的单细胞参考图谱映射

  • calico/scnym 用于对单细胞分类的半监督对抗式神经网络

  • enformer 一种新的Transformer模型,“通过整合长程相互作用从序列中有效预测基因表达“,可大大提高从 DNA 序列预测基因表达的准确性,其能够「阅读」很长的 DNA 序列,可处理的序列长度达到之前的 5 倍(20W 个碱基对)

  • schulter/EMOGI 一种基于图卷积网络的可解释多组学图集成方法预测癌症基因。

  • hui2000ji/scETM 生成主题模型,可促进对大规模单细胞 RNA 测序数据的综合分析。

  • Google-Health/genomics-research Google Health 共享的基因组学研究代码

  • CompbioLabUCF/omicsGAN omicsGAN 是一种基于生成对抗网络的框架,可以将两个 omiocs 数据与其交互网络相结合,以生成与每个组学特征相对应的合成数据,从而可以更好地预测表型。乳腺癌表型预测的样本数据集。

  • BackofenLab/CRISPRloci CRISPRloci 在细菌和古细菌基因组上提供了 CRISPR-Cas 系统的自动化和全面的计算机表征。它是完整的 CRISPR 基因座表征套件,包括 CRISPR 阵列定向、保守前导检测、cas 基因注释和亚型分类。

  • suhrig/arriba 从 RNA-Seq 数据中快速准确地检测基因融合

  • haiyang1986/Subtype-GAN 多组学数据综合癌症亚型的深度学习方法

  • oxpig/dlab-public “DLAB——基于结构的抗体虚拟筛选的深度学习方法”论文代码

  • heislab/scarches scArches 是一个将新生成的单细胞数据集集成到集成参考图谱中的包。我们的方法可以通过分散的培训和不同组的多个数据集的集成来促进大型协作项目。scArches 与scanpy兼容。并为单细胞数据托管了几个条件生成模型的有效实现。构建单模态或多模态 (CITE-seq) 参考图集并共享经过训练的模型和数据(如果可能)。为您感兴趣的地图集下载预先训练的模型,使用新数据集对其进行更新并与您的合作者分享。在参考的顶部投影和集成查询数据集,并使用潜在表示进行下游任务,例如:差异测试、聚类、分类

  • HantaoShu/DeepSEM 基于深度学习的方法,具有新颖的神经网络架构,可以推断基因调控网络,嵌入scRNA-seq数据,并通过解释不同的模块来模拟真实的scRNA-seq数据。

  • Tsedao/MultiRM 基于注意力的多标签神经网络,用于对十二种广泛发生的 RNA 修饰进行综合预测和解释

  • hybrid-kg/clep 用于生成由数据和先验知识驱动的新患者表示的 Python 包

  • d909b/drnet 剂量反应网络 (DRNets) 是一种学习方法,用于学习使用神经网络从观察数据中估计多个参数治疗的个体剂量反应曲线。

  • claudiashi57/dragonnet 适应神经网络以估计治疗效果 使用神经网络从观察数据中估计因果效应的方法。

  • PaddlePaddle/PaddleHelix 螺旋桨(PaddleHelix)是一个生物计算工具集,是用机器学习的方法,特别是深度神经网络,致力于促进以下领域的发展。新药发现。提供1)大规模预训练模型:化合物和蛋白质; 2)多种应用:分子属性预测,药物靶点亲和力预测,和分子生成。疫苗设计。提供RNA设计算法,包括LinearFold和LinearPartition。精准医疗。提供药物联用的应用。

  • OATML-Markslab/EVE 论文“使用进化数据和深度学习对遗传变异进行大规模临床解释”的官方存储库。

  • ZJUFanLab/scDeepSort 使用带有加权图神经网络的深度学习对单细胞转录组学进行细胞类型注释.单细胞 RNA 测序 (scRNA-seq) 的最新进展已经实现了对多个复杂组织中数千个细胞的大规模转录表征,其中准确的细胞类型识别成为 scRNA-seq 研究的先决条件和重要步骤。开发了一种预训练的细胞类型标注方法,scDeepSort 是基于加权 GNN 框架构建的,然后在两个嵌入的高质量 scRNA-seq 图集中学习,该图集包含人类和小鼠 88 个组织中的 764,741 个细胞。

  • jianhuupenn/SpaGCN SpaGCN:整合基因表达、空间位置和组织学,通过图卷积网络识别空间域和空间可变基因

  • immunogenomics/symphony 使用 Symphony 进行高效、精确的单细胞参考图谱映射

  • kipoi/models 基因组学的预测模型,并用作Kipoi的模型源。Kipoi(发音:kípi;来自希腊语 κήποι:gardens)是一个API和用于基因组学的即用型训练模型的存储库。它目前包含 2201 个不同的模型,涵盖转录和转录后基因调控中的规范预测任务。例如预测称为转录因子的蛋白质如何与DNA结合,或者酶可能在何处拼接遗传密码。

  • LiuJJ0327/CCPE scRNA-seq 数据的细胞周期假体估计。细胞周期(cell cycle)是指细胞从一次分裂完成开始到下一次分裂结束所经历的全过程,分为间期与分裂期两个阶段。

  • broadinstitute/Tangram 单细胞转录组数据的空间对齐。单细胞数据集和空间数据集应该从相同的解剖区域/组织类型中收集,最好是从生物复制中收集,并且需要共享一组基因。Tangram 通过在共享基因上拟合基因表达来对齐空间中的单细胞数据。

  • franciscozorrilla/metaGEM 一个易于使用的工作流程,用于生成特定于上下文的基因组规模代谢模型并直接从宏基因组数据预测微生物群落内的代谢相互作用

  • scverse/scvi-tools 单细胞组学数据的深度概率分析

  • www.serratus.io 一个开放科学的病毒发现平台。NCBI 序列读取存档数据库包含来自全球研究实验室十多年来收集的数百万个生物多样性样本的 DNA 和 RNA 测序数据。我们正在重新分析 NCBI 短读存档中的所有 RNA-seq、元基因组学、元转录组学和环境测序数据,以发现新病毒。即>600 万个生物样本或 >10 PB 的测序数据。

  • BioDynaMo/biodynamo 生物动力学建模器 可以通过该平台轻松创建、运行和可视化 3D 生物模拟。BioDynaMo 平台建立在最新的计算技术之上,将使用户能够执行以前无法实现的规模和复杂性的模拟,从而有可能解决具有挑战性的科学研究问题。

  • RasmussenLab/vamb 用于宏基因组分档的变分自动编码器

  • XieResearchGroup/DeepREAL 深度学习驱动的多尺度建模框架,用于预测配体结合的分布外受体活性

  • rankchen121212/RHSNet 用于重组热点识别和量化的 RHSNet 的 TF 和 Keras 实现。 重组热点是基因组中相对于中性预期表现出重组率升高的区域。热点内的重组率可以是周围区域的数百倍。 重组热点是由这些区域中较高的 DNA 断裂形成引起的,适用于有丝分裂和减数分裂细胞。这个称谓可以指由程序减数分裂双链断裂的不均匀分布引起的重组事件。通过交叉进行的减数分裂重组被认为是细胞促进同源染色体正确分离和修复 DNA 损伤的机制。交叉需要 DNA 双链断裂,然后是同源物的链入侵和随后的修复。

  • microsoft/InnerEye-DeepLearning 用于在 Azure 机器学习上训练和部署 3D 分割模型的医学影像深度学习库

  • 细菌和古细菌细胞结构图谱 随着近 20 年低温电子断层扫描 (cryo-ET) 的发展,我们对细菌和古细菌细胞结构的理解有了爆炸式增长,但传统教科书并没有跟上所有新信息。为了解决这个问题,并与世界分享我们所见,我们创作了这本书。它遵循 1960 年代和 1970 年代细胞结构图谱的传统,显示了不同细胞和组织的显微照片以及扩展的图形图例,以帮助每个人了解他们在看什么。五十年后,我们有了一组新的图像——这次是 3D 冷冻断层照片——以及展示它们的新技术:我们的每个免费数字页面都包含一部 3D 断层照片的电影,而不是一本昂贵的书中的静态 2D 数字。一个单元格,带有注释和动画。

  • TencentAILabHealthcare/MLA-GNN 对于胶质瘤数据集,基于共表达基因模块用于疾病诊断和预后的多级注意力图神经网络。

  • TencentAILabHealthcare/scBERT 单细胞RNA-seq数据细胞类型注释的大规模预训练深度语言模型。可靠的细胞类型注释是单细胞RNA测序数据下游分析的先决条件。受大规模预训练语言模型的启发,提出了基于预训练深度神经网络的模型scBERT。scBERT的第一阶段,它通过对大量未标记的scRNA-seq数据进行预训练,获得了对基因 - 基因相互作用的一般理解。然后,预先训练的scBERT可以通过监督微调用于看不见和用户特异性scRNA-seq数据的细胞注释任务。

  • Graylab/IgFold 通过深度学习对大量天然抗体进行快速、准确的抗体结构预测。

  • Graylab/IgLM 抗体设计的衍生语言建模

  • oxpig/AbLang 抗体的语言模型。动机:一般蛋白质语言模型已被证明可以将蛋白质序列的语义总结为对最先进的预测方法有用的表示。然而,对于抗体特异性问题,例如恢复由于测序错误而丢失的残基,仅根据抗体训练的模型可能更强大。抗体是为数不多的可以获得此类语言模型所需序列数据的蛋白质类型之一,例如在观察到的抗体空间(OAS)数据库中。

  • luost26/diffab 使用基于扩散的蛋白质结构生成模型进行抗原特异性抗体设计和优化(NeurIPS 2022)

  • volkamerlab/kissim 提供了一种专为激酶口袋设计的新型指纹图谱策略,允许对结构覆盖的激酶组进行相似性研究。激酶指纹图谱基于 KLIFS 口袋比对,它定义了所有激酶结构的 85 个口袋残基。这样就可以逐个残基进行比较,而无需计算成本高昂的对齐步骤。

  • jerryji1993/DNABERT 来自 Transformers 模型的预训练双向编码器表示,用于基因组中的 DNA 语言

  • google/deepvariant 使用深度神经网络从下一代 DNA 测序数据中调用遗传变异。基于深度学习的 trio 变体调用器,构建在 DeepVariant 之上。DeepTrio 扩展了 DeepVariant 的功能,使其能够利用神经网络的力量来预测三人组或二重组的基因组变异。

  • sourmash-bio/sourmash 快速搜索、比较和分析基因组和宏基因组数据集。 K-mer 分析多功能工具,为各种序列比较提供稳定、强大的编程和命令行 API。

  • KamilSJaron/smudgeplot 利用全基因组测序数据推断倍性和杂合性结构。该工具从 kmer 计数数据库中提取杂合 kmer 对。够通过比较 kmer 对覆盖率 (CovA + CovB) 的总和与其相对覆盖率 (CovB / (CovA + CovB)) 来解开基因组结构。这种方法还使我们能够分析具有重复性、各种倍性水平等的晦涩基因组。

  • shenwei356/kmcp 准确的宏基因组分析和快速的大规模序列/基因组搜索

  • mcveanlab/mccortex 从头基因组组装和多样本变异检出,使用 Linked de bruijn 图进行多样本从头组装和变体调用。有和没有参考基因组的变异检出。在密切相关的样本或高度分歧的样本之间。从细菌基因组到哺乳动物基因组。

  • HUANGLIZI/LViT [IEEE医学影像汇刊/TMI]此 repo 是“LViT:语言在医学图像分割中的视觉转换器”的官方实现

  • AI4Chem/ChemLLM-7B-Chat-1.5-DPO 第一个用于化学和分子科学的开源大型语言模型,基于 InternLM-2 构建

图数据库图算法

图神经网络GNN

图机器学习库

  • dmlc/dgl Deep Graph Library一个易于使用、高性能和可扩展的 Python 包,用于对图进行深度学习。

  • dmlc/dgl/examples 官方DGL示例和模块,包含与图神经网络相关的选定研究论文的示例实现。半监督节点分类、聚类、节点分类、标签传播、图注意力等。

  • rusty1s/pytorch_geometric PyTorch的深度图学习扩展库。PyG对已发表或者常用的图神经网络和数据集都进行了集成,因而是当前最流行和广泛使用的GNN库。

  • alibaba/euler 分布式图深度学习框架。

  • facebookresearch/PyTorch-BigGraph 从大型图形结构化数据生成嵌入

  • shenweichen/GraphNeuralNetwork 图神经网络的实现和实验,gcn\graphsage\gat等。

  • THUDM/cogdl 图形表示学习工具包,实现的模型,非GNN基线:如Deepwalk,LINE,NetMF,GNN基线:如GCN,GAT,GraphSAGE

  • imsheridan/CogDL-TensorFlow 图表示学习工具包,使研究人员和开发人员可以轻松地训练和比较基线或自定义模型,以进行节点分类,链接预测和其他图任务。它提供了许多流行模型的实现,包括:非GNN基准,例如Deepwalk,LINE,NetMF;GNN基准,例如GCN,GAT,GraphSAGE。

  • CrawlScript/tf_geometric 高效友好的图神经网络库 节点分类:图卷积网络(GCN)、多头图注意力网络(GAT),链接预测:平均池、SAGPooling,图分类:图形自动编码器(GAE)

  • alibaba/graph-learn 旨在简化图神经网络应用的框架。从实际生产案例中提取解决方案。已在推荐,反作弊和知识图系统上得到应用和验证。

  • BUPT-GAMMA/OpenHINE 异构信息网络嵌入(OpenHINE)的开源工具包。实现的模型包括:DHNE,HAN,HeGAN,HERec,HIN2vec,Metapath2vec,MetaGraph2vec,RHINE。

  • PaddlePaddle/PGL 基于PaddlePaddle的高效灵活的图学习框架

  • THUDM/cogdl 由清华大学计算机系知识工程实验室(KEG)开发的基于图的深度学习的研究工具,基于Python语言和Pytorch库。

  • THUMNLab/AutoGL 开源自动图学习工具包AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。

  • benedekrozemberczki/pytorch_geometric_temporal 该库包含来自各种已发表研究论文的dynamic+temporal图深度学习,embedding以及spatio-temporal regression 方法。它还带有许多带有时间和动态图的基准数据集。离散递归图卷积 DCRNN GConvGRU GConvLSTM GC-LSTM LRGCN DyGrEncoder EvolveGCNH EvolveGCNO ;辅助图卷积 Temporal Graph Convolutions 时间图卷积 STGCN ;Auxiliary Graph Convolutions TemporalConv DConv

  • divelab/DIG 支持研究方向:图生成、图自监督学习、图神经网络可解释性以及 3D 图深度学习。对于每个领域,DIG 都提供了通用、可扩展的数据接口、常用算法与评估标准实现。

  • chaitjo/awesome-efficient-gnn 令人敬畏的高效图神经网络,一份关于有效图神经网络和可扩展图表示学习的必读论文的精选列表,用于实际应用。

  • EdisonLeeeee/GraphGallery 一个用于对图神经网络 (GNN) 进行基准测试的图库。实现的方法:节点分类、图净化、链接预测、节点嵌入。

  • Awesome-GNN-Research 很棒的 GNN 研究

  • quiver-team/torch-quiver 用于快速轻松的分布式图学习的 PyTorch 库

  • GRAND-Lab/Awesome-Graph-Neural-Networks 图神经网络论文列表

  • GNNBook@2022 图神经网络 基础、前沿和应用

  • stellargraph/stellargraph 星际图机器学习库

  • JDGalileo/galileo Galileo(伽利略)是一个图深度学习框架,具备超大规模、易使用、易扩展、高性能、双后端等优点,旨在解决超大规模图算法在工业级场景的落地难题,提供图神经网络和图嵌入等模型的训练评估及预测能力。

  • networkx/networkx: Network Analysis in Python Python 包,用于创建、操作和研究复杂网络的结构、动力学和功能。

图注意力机制

  • PetarV-/GAT Graph Attention Networks 图注意力神经网络

  • inyeoplee77/SAGPool Self-Attention Graph Pooling torch 自我注意力图池化

  • aravindsankar28/DySAT 提出了DYNAMIC SELF-ATTENTION NETWORK,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。

  • jwzhanggy/Graph-Bert 仅基于Attention机制而不依赖任何类卷积或聚合操作即可学习图的表示,并且完全不考虑节点之间的连接信息。通过将原始图分解为以每个节点为中心的多个子图来学习每个节点的表征信息,这不仅能解决图模型的预训练问题,还能通过并行处理还提高效率。

  • dongkwan-kim/SuperGAT ICLR2021|GAT升级版:通过多种自监督方式提升GAT中注意力,性能在15个数据集有所提升。

  • graphdeeplearning/graphtransformer 针对任意图的 Transformer 神经网络架构的泛化 。注意机制是图中每个节点的邻域连通性的函数。位置编码由拉普拉斯特征向量表示,它自然地概括了 NLP 中经常使用的正弦位置编码。层归一化被批量归一化层取代。该架构被扩展为具有边缘表示,这对于边缘信息丰富的任务或成对交互(例如分子中的键类型或 KG 中的关系类型等)至关重要。

  • Graph-COM/GSAT 提出了一种全新的随机注意力机制(Stochastic Attention Mechanism),该机制显示出了强大的可解释能力和泛化能力。对比过去的可解释工作,该机制在6个数据集上提升了至多20%、平均12%的可解释性能;在11个数据集上提升了平均3%的模型准确率,并且在OGBG-MolHiv榜单上达到SOTA(在不使用手工设计的专家特征的模型中)。

  • Diego999/pyGAT Pytorch 实现的图注意力网络模型,作者:Veličković et.AL

异构图、 异质图

  • BUPT-GAMMA/OpenHGNN 这是一个基于 DGL 的异构图神经网络(OpenHGNN)的开源工具包。支持特定任务的模型:RGCN[ESWC 2018]、HAN[WWW 2019]、KGCN[WWW 2019]、HetGNN[KDD 2019]、GTN[NeurIPS 2019]RSHN[ICDM 2019]、DGMI[AAAI 2020]、MAGNN[WWW 2020]、CompGCN[ICLR 2020]、NSHE[IJCAI 2020]、NARS[arxiv]、MHNF[arxiv]、HGSL[AAAI 2021]、HGNN-AC[WWW 2021]、HeCo[KDD 2021]、HPN[TKDE 2021]、RHGNN[arxiv]

  • Jhy1993/HAN 异构图注意力网络,遵循经典的异质图神经网络架构(节点级别聚合与语义级别聚合),为了更好的实现层次聚合函数,HAN利用语义级别注意力和节点级别注意力来同时学习元路径与节点邻居的重要性,并通过相应地聚合操作得到最终的节点表示。

  • brxx122/HeterSumGraph 用于提取文档摘要的异构图神经网络

  • chuxuzhang/KDD2019_HetGNN KDD2019论文中HetGNN的代码:异构图神经网络 用了LSTM作为来聚合某种关系下的节点邻居并更新节点表示。这里的邻居选择也有所不同:通过random walk with restart来选择固定数量的邻居。

  • acbull/pyHGT Heterogeneous Graph Transformer 异构图Transformer 可以处理大规模的异构图和动态图.

  • Googlebaba/KDD2019-MEIRec 基于异质图神经网络的用户意图推荐

  • Andy-Border/HGSL 异质图结构学习(Heterogeneous Graph Structure Learning)问题,并提出了HGSL框架来联合学习适合分类的异质图结构和图神经网络参数。通过挖掘特征相似性、特征与结构之间的交互以及异质图中的高阶语义结构来生成适合下游任务的异质图结构并联合学习GNN参数。HGSL的性能优于基线模型。

  • yuduo93/THIGE 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。

  • iqiyi/HMGNN 异构小图神经网络及其在拉新裂变风控场景的应用.尝试通过图神经网络对欺诈邀请进行检测的方法。在GCN和异构图神经网络的基础上,HMGNN使用超图和异构图卷积克服了小图和异构图带来的问题。并在实际拉新场景中取得了不错的效果。此外,我们也在尝试将其应用到更广阔的场景中,比如金融反欺诈、关注点赞反作弊等问题。

  • THUDM/cogdl 用于图形表示学习的广泛研究平台

  • kepsail/ie-HGCN 可解释且高效的异构图卷积网络,IEEE TKDE 2021

  • AutoML-Research/DiffMG 异构图神经网络的可微元图搜索

  • jindi-tju/HGNN-AC “WWW21 - 通过属性完成的异构图神经网络”的源代码

  • safe-graph/GNN-FakeNews 基于GNN假新闻检测模型的集合。异构图分类。

  • liun-online/HeCo 具有协同对比学习的自监督异构图神经网络。

  • NSSSJSS/MHGCN 多路异构图卷积网络,节点分类任务,链接预测任务。

图嵌入、网络表征学习

  • thunlp/OpenKE 使用PyTorch实现的知识嵌入开源框架。RESCAL、DistMult, ComplEx, Analogy、TransE, TransH, TransR, TransD、SimplE、RotatE

  • DeepGraphLearning/graphvite GraphVite 高速、大规模图嵌入.通过多个 CPU 和 GPU 加速图形嵌入。只需大约1分钟即可学习具有100万个节点的图形的节点嵌入,从而实现算法和思想的快速迭代。

  • shenweichen/GraphEmbedding 图嵌入算法的实现和实验。算法包括:DeepWalk、LINE、Node2Vec、SDNE、Struc2Vec。

  • thunlp/Fast-TransX Fast-TransX这是TransE及其扩展模型用于知识表示学习的高效轻量级实现,包括 TransH、TransR、TransD、TranSparse 和 PTransE。TensorFlow版

  • thunlp/NRLPapers 关于网络表示学习(NRL)/网络嵌入(NE)的必读论文。

  • Wentao-Xu/SEEK 轻量级知识图谱嵌入框架

  • woojeongjin/dynamic-KG 嵌入动态知识图

  • awslabs/dgl-ke 高性能,易于使用且可扩展的软件包,用于学习大规模知识图嵌入。

  • leoribeiro/struc2vec struc2vec算法学习任何图形中节点的连续表示,捕获节点之间的结构等效性。

  • HLTCHKUST/ke-dialogue 将任意大小的知识库直接嵌入到模型参数中的方法

  • aditya-grover/node2vec 由Aditya Grover和Jure Leskovec提出的一种Graph Embedding方法,node2vec在DeepWalk的基础上引入BFS(广度优先搜索)和DFS(深度优先搜索)两种有偏的随机游走方式,以达到分别表征网络的结构对等性(structural equivalence)和同质性(homophily)的目的。

  • jwzhanggy/Graph-Bert 学习图形表示只需要注意力机制。

  • thunlp/OpenNE 该库提供了标准的NE/NRL(网络表示学习)训练和测试框架 :DeepWalk、node2vec、LINE、GraRep、TADW、GCN、GraphFactorization、SDNE

  • Shubhranshu-Shekhar/ctdne 连续时间动态网络嵌入。依据deepwalk与node2vec等模型的启发,作者基于动态图的性质,提出了temporal random walk的概念,即在一条随机游走路径上,从起始节点到终止节点,连边的时态信息依次递增。针对边上存在时态信息的问题,作者提出了unbiased/biased采样算法。采样后的路径将会蕴含动态图中的时态依赖信息。作者在多个动态图数据集上做了实验,并与Deepwalk/Node2vec/LINE等静态图表示学习算法进行了对比。

  • TUM-DAML/pprgo_pytorch 在一个包含1240万个节点,17300万条边组成的大规模图上,PPRGo只花了不到2分钟就给图上所有节点分了类,这2分钟还是包括了预处理、训练、预测的全流程时间. PPRGo先用每个节点的本地特征学习出每个节点的本地embedding,再用PPR矩阵完成本地embedding在图上的传递与聚合。

  • Malllabiisc/CompGCN 针对多关系有向图的图神经网络。该模型实现框架采用了R-GCN提出的Encoder-Decoder框架,在编码阶段将Entity Embedding和Realtion Embedding进行组合Aggregation,然后在解码阶段再采用类似TransE/H或者ConvE等方式对(h,r,t)三元组进行解码。因为它在编码阶段就引入了Realtion,使用同一套Realtion Embedding,使得表征学习更加精准。

  • TimDettmers/ConvE 2D卷积知识图谱嵌入

  • daiquocnguyen/ConvKB 通过使用卷积神经网络改进了最先进的模型,因此它可以捕获实体之间的全局关系和过渡特性,以及知识库中的关系。在ConvKB中,每个三元组(头实体,关系,尾部实体)都表示为3列矩阵,其中每个列向量代表一个三元元素。然后将此3列矩阵馈送到卷积层,在该卷积层上对矩阵操作多个滤波器以生成不同的特征图。然后将这些特征图串联到代表输入三元组的单个特征向量中。通过点积将特征向量与权重向量相乘以返回分数。

  • kavehhassani/mvgrl 通过对比图的结构视图来学习节点和图级表示的自监督方法。通过对比一阶邻居编码和图扩散来实现的。在线性评估协议下,在 8 个节点中的 8 个和图分类基准上实现了新的最先进的自监督学习结果。

  • phanein/deepwalk DeepWalk 使用短随机游走来学习图中顶点的表示。

  • KDDCUP_2020_AutoGraph_1st_Place KDDCUP 2020自动图形表示学习:第一名解决方案。实现了四种不同的模型GCN、GAT、GraphSage、TAGConv.

  • JinheonBaek/GMT 使用 Graph Multiset Pooling 准确学习图表示。GMT 也包含在 PyTorch Geometric 中nn.glob.GraphMultisetTransformer ,可以在其中更轻松地实现模型。贡献:将图池化问题视为多集编码问题,在此问题下,考虑具有多个注意单元的集合中节点之间的关系,以仅使用一个全局函数来紧凑地表示整个图,而无需额外的消息传递操作。展示了现有的 GNN 与我们的参数池操作可以与 WL 测试一样强大,并且还可以轻松扩展到具有可学习集群的节点集群方法。广泛验证了 GMT 在合成图和现实图上的图分类、重建和生成任务,在这些任务上,它在很大程度上优于大多数图池基线。

时空网络_交通预测_动态图

  • guoshnBJTU/ASTGCN-r-pytorch 基于注意的时空图卷积网络,用于交通流量预测。

  • LeiBAI/AGCRN 端到端的流量预测模型-自适应图卷积递归网络。AGCRN可以捕获流量序列中特定于节点的细粒度空间和时间相关性,并通过嵌入DAGG来统一修订GCN中的节点嵌入。这样,训练AGCRN可以针对每个交通系列源(例如,用于交通速度/流量的道路,用于乘客需求的车站/区域)产生有意义的节点表示向量。学习的节点表示包含有关道路/区域的有价值的信息,并且可以潜在地应用于其他任务。

  • nnzhan/Graph-WaveNet 时空序列预测模型,本文目标是,给定图G和历史S步的图信号数据,学习映射关系f,进而预测接下来T步的图信号。源于WaveNet,并在图卷积的基础上提出了动态自适应的邻接矩阵来捕获隐藏的图结构关系。数据集:META-LA是洛杉矶公路探测器收集到的交通数据,有207个传感器搜集了四个月的数据(2012.3.1 2012.6.30);PEMS-BAY是加州交通部门Performance Measurement System搜集到的交通数据,有325个传感器搜集了六个月的数据(2017.1.1 2017.5.31)。

  • Davidham3/STSGCN 时空同步图卷积网络:一种时空网络数据预测的新框架 该模型能够有效地捕捉复杂的局域时空相关性。同时,在模型中设计了多个不同时间段的模块,以有效地捕获局部时空图中的异质性。

  • IBM/EvolveGCN 动态时序知识图谱。为了实现动态学习主要注意以下三点:1、每个时间片单独学习一个GCN,每个GCN输入不同体现在图谱的邻接矩阵不同,但在代码实现时必须要求每个时刻的节点是保持一致的,而节点之间的关系存在变动;2、为了考虑动态图谱联系,用RNN将每个时间片GCN模型参数串起来进行序列学习;3、RNN循环网络采用两种:GRU,LSTM。

  • twitter-research/tgn Temporal Graph Networks 动态图的神经网络模型

  • lehaifeng/T-GCN 通过图卷积网络进行的城市交通流量预测的工作。文件结构如下所示:1 T-GCN是时间图卷积网络的源代码。2 A3T-GCN是具有注意力结构的时间图卷积网络的源代码。3 AST-GCN是属性增强的时空图卷积网络的源代码。4 基准包括以下方法,例如历史平均模型(HA)、自回归综合移动平均模型(ARIMA)、支持向量回归模型(SVR)、图卷积网络模型(GCN)、门控循环单位模型(GRU)

  • palash1992/DynamicGEM 捕捉动态图演化的动力学特征,生成动态图表示的方法,本质上是输入为动态图的前T个时间步的snapshot,输出为T+1时刻的图嵌入式表达。

  • LZH-YS1998/STHSL 城市犯罪预测的时空超图自监督学习中提出的STHSL模型代码

  • rootlu/MMDNE 从微观/宏观两种层级建模动态网络中节点演化规律,并能够在节点表示中学习到这种规律。微观更偏向于捕捉具体边对形成过程 宏观更偏向于从网络动力学挖掘网络演变的规律,最终生成节点的表示。

  • skx300/DyHATR 同时考虑到图的异构性和动态性的特点,对于图的每个时间切片,利用node-level attention和edge-level attention以上两个层次的注意力机制实现异质信息的有效处理,并且通过循环神经网络结合self-attention研究节点embedding的演化特性,并且通过链接预测任务进行试验,验证模型的有效性。

  • aravindsankar28/DySAT 提出了DYNAMIC SELF-ATTENTION机制,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。

  • luckiezhou/DynamicTriad 依据动态网络的特性,提出了依据triad结构建模动态图演化模式的方法DynamicTraid。三元组(Triad)演化的过程就是三个节点中两个互不链接的节点之间建立链接,形成一个闭合三元组的过程。作者在几个不同的真实业务场景(电信欺诈,贷款偿还等)数据集中做了实验,证明了模型的有效性。

  • jwwthu/GNN4Traffic 整理了基于图神经网络的交通预测相关的顶会论文及统计分析。

  • SpaceLearner/Awesome-DynamicGraphLearning 将深度学习技术(图神经网络等)应用在动态图、动态网络、动态知识图谱上的论文、代码、工具等。

  • liangzhehan/DMSTGCN 用于交通速度预测的动态和多方面时空深度学习

  • LibCity/Bigscity-LibCity-PaperList 交通预测领域论文列表

  • LibCity/Bigscity-LibCity 统一、全面、可扩展的代码库,为交通预测领域的研究人员提供了一个可靠的实验工具和便捷的开发框架。 我们的库基于 PyTorch 实现,并将与交通预测相关的所有必要步骤或组件包含到系统的流水线中,使研究人员能够进行全面的对比实验。 我们的库将有助于交通预测领域的标准化和可复现性。LibCity 目前支持以下任务:- 交通状态预测(交通流量预测、交通速度预测、交通需求预测、起点-终点(OD)矩阵预测、交通事故预测)轨迹下一跳预测、到达时间预测、路网匹配、路网表征学习。

  • microsoft/FOST FOST 是一个通用的预测工具,它展示了我们在实际预测领域的经验和先进技术,包括时间、时空和分层预测。当前的通用预测工具(亚马逊的Gluon-TS、facebook的Prophet等)无法处理和建模结构图数据,尤其是在空间数据中

  • drop-out/Tianchi-Wifi-Positioning 天池wifi定位大赛第一名解决方案 。给定交易时的环境信息(包括GPS坐标、wifi信息(bssid/信号强度/是否连接)、用户id),确定交易所处的商铺。

  • Cantoria/dynamic-graph-papers 动态图表示学习、动态图分析论文汇总项目

  • BIRD-TAO/CLCRN 用于时空气象预报的条件局部卷积的 Pytorch 实现,AAAI 2022

图预训练 Pre-Training of Graph

  • THUDM/GCC Graph Contrastive Coding for Graph Neural Network Pre-Training 用于图形神经网络预训练的图形对比编码,下游任务:节点分类、图分类、相似性搜索。

  • acbull/GPT-GNN Generative Pre-Training of Graph Neural Networks 图神经网络的生成式预训练。在预处理阶段,算法会首先随机地遮盖掉图中的一些边和点,利用生成模型来生成(预测)这些边的存在和节点的属性。模型的损失函数会使得预测的结果尽量接近真实的网络结构。这样的话,在GPT-GNN训练完成后,其内部的图神经网络层就可以被拿出来进行调优。

  • rootlu/L2P-GNN 首次探索学习预训练GNNs,缓解了预训练与微调目标之间的差异,并为预训练GNN提供了新的研究思路。针对节点与图级表示,该研究提出完全自监督的GNN预训练策略。针对预训练GNN,该研究建立了一个新型大规模书目图数据,并在两个不同领域的数据集上进行了大量实验。实验表明,该方法显著优于SOTA方法。

  • Shen-Lab/GraphCL 设计了一种针对无监督图表示学习的图对比学习框架 GraphCL。在该框架下,作者探索了 4 种不同先验下的图数据增强方法。考虑到半监督,无监督和迁移等任务,作者在很多数据集上系统的分析了不同图增强组合的影响。实验结果表明,作者所设计的 GraphCL 框架能够取得相似或者更优于 SOTA。GraphCL是一个基于对比学习的自监督图谱预训练模型,GraphCL模型对一个节点得到两个随机扰动的L-hop的Subgraph,通过最大化两个Subgraph之间的相似度来进行自监督学习。

图对抗攻击

  • EdisonLeeeee/Graph-Adversarial-Learning 图对抗性攻击和防御的精选集合。

  • danielzuegner/robust-gcn Robust Graph Convolutional Network是最早的有关于图数据集上对抗攻击防御的工作之一。本文对GCN作出的改进主要体现在以下两点:基于高斯分布的图卷积层(Gaussian-based Graph Convolution Layer) 、采用attention机制为聚合的邻居特征分配权重。

  • ChandlerBang/Pro-GNN 鲁棒图神经网络的图结构学习,抗严重干扰。

  • DSE-MSU/DeepRobust 用于图像和图模型的攻击和防御方法的pytorch库.

    • 图模型防御方法
      • adv_training、gcn、pgd近端梯度下降
      • gcn_preprocess GCNJaccard 首先通过不同的边缘对输入图进行预处理,并根据处理后的图训练GCN。
      • GCNSVD 一个2层图卷积网络,以SVD作为预处理。All You Need Is Low (Rank): Defending Against Adversarial Attacks on Graphs
      • prognn Pro-GNN 属性图神经网络
      • r_gcn 强大的图卷积网络,抵抗对抗攻击。KDD 2019。
  • ChandlerBang/awesome-graph-attack-papers 此存储库旨在提供有关图形数据或 GNN(图形神经网络)上对抗性攻击和防御作品的链接。

  • MengmeiZ/LafAK 图神经网络的对抗标签翻转攻击与防御.提出了基于自监督的防御框架, 以社区分类作为辅助任务,引入社区级别的信号以惩罚过拟合翻转标签的GNN。

  • snap-stanford/gib 图信息瓶颈 (GIB)。研究者基于该原则构建了两个 GNN 模型:GIB-Cat 和 GIB-Bern,二者在抵御对抗攻击时取得了优异的性能。 图信息Bottleneck打造图最优表示->避免过拟合,并具备稳健性

  • liaopeiyuan/GAL 图对抗网络 Information Obfuscation of Graph Neural Networks 图神经网络的信息模糊处理,使得攻击者很难推断。

  • mims-harvard/GNNGuard 保护图神经网络免受对抗性攻击。 即使是最强大和最流行的GNN,图结构的微小、不明显的扰动也会灾难性地降低性能。通过与提出的 GNNGuard 集成,GNN 分类器即使在强烈的对抗性攻击下也可以正确分类目标节点。GNNGuard 关键思想是检测和量化图结构和节点特征之间的关系(如果存在),然后利用这种关系来减轻攻击的负面影响。GNNGuard 学习如何最好地为连接相似节点的边分配更高的权重,同时修剪不相关节点之间的边。GNNGuard不是神经消息传递,而是控制消息流,例如阻止来自不相关邻居的消息,但加强来自高度相关邻居的消息。是第一个可以保护异质图(例如,具有结构等价性)的模型,而所有现有的防御者只考虑同质图。

图聚合_节点聚合

  • williamleif/GraphSAGE 核心思想就是学习聚合节点的邻居特征生成当前节点的信息的「聚合函数」,有了聚合函数不管图如何变化,都可以通过当前已知各个节点的特征和邻居关系,得到节点的embedding特征。

  • trinayan/PinSageMultiGPU 一个能够学习节点嵌入的随机游走GCN,由Pinterest公司和Stanford完成的工作,首次将图方法落地到了工业界。PinSage的理论背景是基于GraphSAGE,即归纳(inductive)式的学习,直接学习聚合函数而不是固定的节点,这也是其他的图算法如GCN等等直推式(transductive)方法无法做到的,更能满足实际中的图节点是不断变化的需求(节点和关系都会不断的变化)。

  • graphdml-uiuc-jlu/geom-gcn 几何图卷积网络 将节点映射为连续空间的一个向量graph embedding,在隐空间查找邻居并进行聚合。

  • EstelleHuang666/gnn_hierarchical_pooling Hierarchical Graph Representation Learning 构建了一个多层次的、节点可微分的聚合 GNN 网络。在每一层中,完成信息的抽取,并将当前的图聚合为一个更粗粒度的图,供下一层使用。

  • lukecavabarrett/pna 提出了Principal Neighbourhood Aggregation (PNA),一种考虑了 degree 的全新的 GNN 聚合器(泛化了现有的求和聚合器)。作者通过一些图例形象的解释了现有的各种聚合器的表示能力及其缺陷。

图卷积网络

  • benedekrozemberczki/ClusterGCN 提出了一种新的方法来进行GCN训练:首先,对图进行聚类,把原图划分成一些紧密连接的子图;然后,抽样一个或者一些子图作为一个batch,在抽样出来的子图上进行卷积计算。

  • tkipf/relational-gcn 关系图卷积网络,是最早提出利用GCN来解决图结构中不同边关系对节点影响,在进行信息汇聚更新时,充分考虑节点之间的Edge对节点表征影响的模型。

  • MichSchli/RelationPrediction 图卷积网络用于关系链接预测

  • JD-AI-Research-Silicon-Valley/SACN 端到端结构感知卷积网络(SACN)模型充分利用了GCN和ConvE的优势来完成知识库。SACN由加权图卷积网络(WGCN)的编码器和称为Conv-TransE的卷积网络的解码器组成。WGCN利用知识图节点结构,节点属性和边缘关系类型。解码器Conv-TransE使最新的ConvE能够在实体和关系之间转换,同时保持与ConvE相同的链路预测性能。

  • zhiyongc/Graph_Convolutional_LSTM

  • Jiakui/awesome-gcn 该存储库用于收集GCN,GAT(图形关注)相关资源。

  • tkipf/gcn 图卷积网络在TensorFlow中的实现 keras

  • karenlatong/AGC-master Attributed Graph Clustering via Adaptive Graph Convolution 通过自适应图卷积的属性图聚类

  • TAMU-VITA/L2-GCN GCN高效分层训练框架

  • mdeff/cnn_graph 具有快速局部光谱滤波的图卷积神经网络,实现了将流行的卷积神经网络 (CNN) 有效地推广到任意图

  • tkipf/pygcn PyTorch 中的图卷积网络

图监督_半监督_对比学习

  • THUDM/GRAND Graph Random Neural Network ,用于图半监督学习的新型图神经网络框架。在模型架构上,提出了一种简单有效的图数据增强方法 Random Propagation,用来增强模型鲁棒性及减轻过平滑。基于 Random Propagation,GRAND 在优化过程中使用一致性正则(Consistency Regularization)来增强模型的泛化性,即除了优化标签节点的 cross-entropy loss 之外,还会优化模型在无标签节点的多次数据增强的预测一致性。节点预测 state of the Art.

  • LirongWu/awesome-graph-self-supervised-learning 图自监督学习(Graph Self-supervised Learning)最新综述+Github代码汇总

  • RingBDStack/SUGAR “SUGAR:具有强化池和自监督互信息机制的子图神经网络”的代码

  • lxiaorui/ElasticGNN 弹性图神经网络提出了一种新颖的GNN通用消息传递方案到。这种算法不仅对反向传播训练友好,而且在理论上收敛保证的情况下实现了所需的平滑特性。半监督学习任务的实验表明,所提出的 Elastic GNN 在基准数据集上获得了更好的适应性,并且对图对抗攻击的鲁棒性明显更强。

  • SXKDZ/awesome-self-supervised-learning-for-graphs 一个很棒的图表自监督学习的精选列表。

  • GraphCL/PyGCL PyTorch 的图形对比学习库.图对比学习 (GCL) 建立了一种无需人工注释即可学习图表示的新范式。 典型的 GCL 算法首先通过输入的随机增强构造多个图视图,然后通过将正样本与负样本进行对比来学习表示。

其他_图神经网络GNN

  • naganandy/graph-based-deep-learning-literature 基于图的深度学习中的会议出版物

  • DGraphXinye/2022_finvcup_baseline 第七届信也科技杯-欺诈用户风险识别的baseline。节点分类

  • RobertAckleyKid/2022_finvcup_RobertAckley_8363 第七届信也科技杯图算法大赛——欺诈用户风险识别 代码 。包括三步:基于GraphSAGE的节点Embedding(与baseline一致),手工加入时序等特征,通过LightGBM分类。

  • pygod-team/pygod 用于图异常值检测(异常检测)的 Python 库。包含10多种最新的基于图的检测算法。

  • graphdeeplearning/benchmarking-gnns 用于基准测试图形神经网络的存储库

  • alibaba/GraphScope 阿里巴巴一站式大规模图计算系统 图分析 图查询 图机器学习

  • tkipf/gae 图自动编码器在TensorFlow中的实现

  • peter14121/intentgc-models 意图gc模型.从常见的用户行为和项目信息中收集了大量的关系,并提出名为IntentGC的新框架,通过图卷积网络来利用显式偏好和异构关系。

  • shawnwang-tech/GeniePath-pytorch 自适应深度和广度图神经网络表征学习模型Geniepath

  • GRAND-Lab/SUBLIME 走向无监督深度图结构学习

  • neural_graph_collaborative_filtering 神经图协同滤波(NGCF)是一种基于图神经网络的新型推荐框架,通过进行嵌入传播,以用户-项目二分图中的高阶连接性形式对协同信号进行显式编码。

  • gated-graph-neural-network-samples 门控图神经网络的两种实现,用于学习化学分子的性质

  • deepmind/graph_nets 在Tensorflow中构建图网

  • hwwang55/RippleNet 将知识图谱作为额外信息,融入到CTR/Top-K推荐。完整的逐行中文注释笔记

  • klicperajo/ppnp 预测然后传播:图形神经网络满足个性化PageRank

  • Variational-Graph-Auto-Encoders 可变图自动编码器 链接预测

  • animutomo/gcmc Graph Convolution Matrix Completion 解决推荐系统中 矩阵补全 matrix completion 问题,并引入 side information(节点的额外信息)提升预测效果。

  • Ruiqi-Hu/ARGA 对抗正则化图自动编码器Adversarially Regularized Graph Autoencoder,可用于图卷积的链路预测。进化路线GAE->VGAE->ARGA

  • safe-graph/DGFraud 基于深度图的工具箱,用于欺诈检测

  • graph-fraud-detection-papers 基于图的欺诈检测论文和资源

  • awesome-fraud-detection-papers 关于欺诈检测的数据挖掘论文的精选列表。

  • snap-stanford/distance-encoding 距离编码-为结构表示学习设计更强大的GNN,提出了一类与结构相关的特征,称为距离编码(Distance Encoding,DE),以帮助 GNN 以比 1-WL test 更严格的表达能力来表示任意大小的节点集。

  • megvii-research/DPGN Distribution Propagation Graph Network for Few-shot Learning 分布传播图网络的小样本学习

  • CUAI/CorrectAndSmooth 标签信息 + 简单模型 直接使用标签进行预测。与其他方案相比,本文中的CS模型需要的参数量往往要少得多。在很多标准直推式节点分类(transductive node classification)基准上,超过或媲美当前最优的性能。

  • YimiAChack/GraphSTONE Graph Structural-topic Neural Network 图结构主题神经网络 本文类比自然语言处理中的相关概念,借助主题模型学习图的结构信息。

  • YuGuangWang/PAN 借鉴了物理中的一些概念,设计了一种 path integral based graph neural networks (PAN)。 PAN 将图拉普拉斯泛化到一种新的转移矩阵 maximal entropy transition (MET) matrix。重要的是,MET 矩阵的对角线元素直接和子图中心性相关,因此提供了一种自然的自适应池化机制。

  • benedekrozemberczki/SimGNN A Neural Network Approach to Fast Graph Similarity Computation 图相似度计算

  • snap-stanford/GraphGym Identity-aware Graph Neural Networks一种身份感知图神经网络对现有的消息传递 GNN 进行了扩展,将其性能提升到了高于 1-WL 测试的水平。实验结果表明,将现有的 GNN 转变为 ID-GNN 可以在难以分类的节点预测、边预测、图属性预测任务中获得平均 40% 的准确率提升;在节点和图分类对比基准任务获得 3%的准确率提升;链接预测任务获得 15% 的ROC提升。

  • YuweiCao-UIC/KPGNN 图神经网络增量学习在事件检测中的应用

  • divelab/DeeperGNN 解耦Transformation和Propagation的深度图神经网络 1、Transformation操作:MLP操作,torch.nn.Linear线性映射操作;2、Propagation操作:图中的邻居节点往中心节点汇聚的操作,最简单的实现方式是AH,A是图的邻接矩阵,H是图的特征矩阵。

  • BUPT-GAMMA/CPF 提出了一个有效的知识蒸馏框架,以将任意预训练的GNN教师模型的知识注入精心设计的学生模型中。学生模型是通过两个简单的预测机制构建的,即标签传播和特征转换,它们自然分别保留了基于结构和基于特征的先验知识。

  • WangXuhongCN/APAN Asynchronous Propagation Attention Network for Real-time Temporal Graph Embedding 实时时间图嵌入的异步传播注意网络

  • flyingdoog/PGExplainer GNN 的参数化解释器 PGExplainer。PGExplainer 利用深度神经网络对解释的生成过程进行参数化处理,能够实现同时对多个实例进行解释。

  • lsj2408/GraphNorm 图归一化:一种加速图神经网络训练的原则性方法,通过一个可学习的移位来归一化每个单独图的所有节点上的特征值。收敛速度要快得多。它还改进了GNN的泛化,在图分类上实现更好的性能。

  • YuGuangWang/UFG 基于小波变换(framelet transforms)的图神经网络。

  • maxiaoba/GRAPE 基于GNN的缺失特征填充和标签预测模型。将特征填充问题转为边级别的预测任务,将标签预测问题转为节点级别的预测任务。

  • PKU-DAIR/DGMLP 评估深度图神经网络,对图形结构数据使用深度汇总的实验评估。GNN模型普遍较浅的真正原因 - 模型退化与过平滑。

  • snap-stanford/CAW 基于因果匿名游走的时序网络归纳表示学习模型

  • BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks 用于估计适配于GNN的图结构,以提高下游任务性能。GEN引入结构模型考虑图生成过程中的潜在社团结构,并提出观察模型将多方面信息(例如,多阶邻域相似性)作为图结构的观测。基于这些模型,GEN利用贝叶斯推断框架得到最终估计图。大量实验结果验证了GEN的有效性及其估计图的合理性。

  • thunlp/GNNPapers 图神经网络上的必读论文 (GNN)

  • google-research/graph-attribution 用于评估图神经网络属性的代码库

  • Saro00/DGN 定向图网络在 PyTorch 和 DGL 中的实现

  • liaopeiyuan/GAL 图神经网络的信息混淆 使用 FB15k-237 和 WN18RR 数据集进行知识图链接预测。使用 Movielens-1M 数据集进行推荐系统链接预测任务。

  • zwt233/GAMLP 图形注意多层感知器 ,在 OGB 数据集上重现

  • susheels/adgcl 对抗性图增强以改善图对比学习

  • amazon-science/gnn-tail-generalization 提取具有不完整或缺失邻域的图节点表示。GNN在节点分类或回归任务中表现出卓越的性能。归纳GNN 需要事先知道节点的边缘连接结构才能正常工作。在节点度数具有幂律分布的几个实际应用中,情况通常并非如此,并且具有少量连接的节点可能具有噪声边缘。一个极端的情况是严格的冷启动 (SCS) 问题,其中没有可用的邻域信息,迫使预测模型完全依赖于节点特征。为了使用归纳 GNN 解决 SCS 问题,引入特征贡献率 (FCR),这是一种量化节点特征及其邻域特征在预测节点标签中的贡献的指标,并将这个新指标用作模型选择奖励。然后,提出Cold Brew,这是一种通过蒸馏方法在 SCS 中比基于点和基于图的模型更好地概括 GNN 的新方法。动机:长尾分布普遍存在于大规模图挖掘任务中。在某些应用中,一些冷启动节点在图中的邻域太少或没有邻域,这使得基于图的方法由于没有足够的高质量边来执行消息传递而变得次优。

  • zhitao-wang/PLNLP 用于ogb链路预测的成对学习神经链预测。2022年,在Open Graph Benchmark链接预测数据集中包括ddi和collab,ppa和ciation2分别实现了第1、2名的成绩。

  • yushundong/REFEREE “关于图神经网络中偏差的结构解释”的开源代码。 以GE-REFEREE为例来解释经过训练的GAT模型。评估它如何帮助GAT消除偏见。

  • yongduosui/CAL "可解释和可归纳图分类的因果注意"。基于PyTorch的因果注意在可解释和可推广图分类中的实现

  • PKU-DAIR/SGL 针对可扩展图形学习的图形神经网络工具包,它支持对超大型数据集进行深度图形学习。SGL允许用户轻松实现可扩展的图形神经网络,并评估其在节点分类、节点聚类和链路预测等各种下游任务中的性能。

  • Thinklab-SJTU/pygmtools Python 图形匹配求解器库。图匹配是模式识别、数据挖掘等领域中一个基本但具有挑战性的问题。图匹配旨在通过求解NP硬组合优化问题,找到多个图之间的节点间对应关系。特点:支持多种求解器,包括传统的组合求解器(包括线性、二次和多图)和新型的基于深度学习的求解器;支持各种后端,包括 numpy 普遍可访问的后端,以及一些支持 GPU 的最先进的深度学习架构: pytorch 、jittor 、mindspore 、 paddle、tensorflow ;深度学习友好,这些操作旨在最好地保留计算过程中的梯度,并支持批处理操作以获得最佳性能。

  • HKUDS/GraphGPT 该框架与图结构知识和图指令调优范式保持一致LLMs。图神经网络 (GNN) 通过图节点之间的递归信息交换和聚合来理解高级图结构。为了提高模型的鲁棒性,自监督学习(SSL)已成为一种很有前途的数据增强方法。然而,用于生成预训练图嵌入的现有方法通常依赖于对特定下游任务标签的微调,这限制了它们在标记数据稀缺或不可用的情况下的可用性。为了解决这个问题,我们的研究重点是在具有挑战性的零样本学习场景中提高图模型的泛化能力。受大型语言模型(LLMs)成功的启发,我们的目标是开发一种面向图的图LLM,即使没有来自下游图数据的任何信息,也可以在不同的下游数据集和任务中实现高度泛化。在这项工作中,我们提出了与图结构知识和图指令调优范式相一致LLMs的 GraphGPT 框架。我们的框架包含一个文本图基础组件,以在文本信息和图结构之间建立联系。此外,我们还提出了一种双阶段指令调优范式,并配有轻量级图形-文本对齐投影仪。该范式探索了自监督图结构信号和特定于任务的图指令,以指导LLMs理解复杂的图结构并提高其在不同下游任务中的适应性。我们的框架在监督和零样本图学习任务上进行了评估,展示了卓越的泛化性和优于最先进的基线。

大数据

数据库管理系统

  • MySQL 开源的关系数据库管理系统 (RDBMS)。它的名字是“My”(联合创始人 Michael Widenius 的女儿 My 的名字)和“SQL”(结构化查询语言的缩写)的组合。它将数据组织成一个或多个数据表,其中数据可能相互关联;这些关系有助于构建数据。SQL 是程序员用来创建、修改和从关系数据库中提取数据以及控制用户对数据库的访问的语言。mysql/mysql-server

  • MariaDB MySQL的社区开发、商业支持的分支,旨在在 GNU 通用公共许可证下保持免费和开源软件。开发由 MySQL 的一些原始开发人员领导,由于担心 2009 年被甲骨文公司收购,他们将其分叉。

  • PostgreSQL 一个免费的开源关系数据库管理系统 (RDBMS),强调可扩展性和 SQL 合规性。它最初被命名为 POSTGRES,指的是它的起源是加州大学伯克利分校开发的 Ingres 数据库的继承者。一个功能强大的开源对象关系数据库系统,经过 30 多年的积极开发,在可靠性、功能稳健性和性能方面赢得了良好的声誉。

  • oceanbase/oceanbase 一个高可用、高性能、横向扩展、兼容SQL标准的企业级分布式关系数据库。蚂蚁集团从零开始构建的分布式关系 SQL 数据库。它具有高度可扩展性、弹性,可以同时处理事务和分析工作负载,并且与 MySQL 语法和功能高度兼容。OceanBase 可以部署在任何云中的虚拟机或本地物理主机上。同时,由于是多租户集群,用户可以实现数据库资源池化,提高效率。

  • apache/flink 开源的流处理框架,具有强大的流处理和批处理能力。支持批处理和数据流式处理程序的流优先运行时;Java 和 Scala 中优雅流畅的 API;同时支持非常高吞吐量和低事件延迟的运行时;支持基于数据流模型的 DataStream API 中的事件时间和无序处理;跨不同时间语义(事件时间、处理时间)的灵活窗口(时间、计数、会话、自定义触发器);容错,保证一次处理;流媒体节目中的自然背压;用于图形处理(批处理)、机器学习(批处理)和复杂事件处理(流式处理)的库;DataSet(批处理)API 中对迭代程序 (BSP) 的内置支持;自定义内存管理,可在内存中和核外数据处理算法之间实现高效、稳健的切换;Apache Hadoop MapReduce的兼容层;与 YARN、HDFS、HBase 和 Apache Hadoop 生态系统的其他组件集成;

  • pingcap/tidb 开源、云原生、分布式、MySQL 兼容数据库,用于弹性扩展和实时分析。开源分布式SQL数据库,支持混合事务和分析处理(HTAP)工作负载。它与 MySQL 兼容,并具有水平可扩展性、强一致性和高可用性。

  • apache/doris 简单易用、高性能、统一的分析数据库。基于 MPP 架构的简单易用、高性能、实时的分析数据库,以其极快的速度和易用性而闻名。在海量数据下,只需亚秒级响应时间即可返回查询结果,不仅可以支持高并发的点查询场景,还可以支持高吞吐量的复杂分析场景。

  • apache/zookeeper 集中式服务,实现高度可靠的分布式协调。用于维护配置信息、命名、提供分布式同步和提供组服务。所有这些类型的服务都以某种形式被分布式应用程序使用。每次实施它们时,都会有很多工作来修复不可避免的错误和竞争条件。由于实现此类服务的困难,应用程序最初通常会吝啬它们,这使得它们在存在变化时变得脆弱并且难以管理。即使操作得当,这些服务的不同实现也会导致部署应用程序时的管理复杂性。

  • binhnguyennus/awesome-scalability 一个更新和有组织的阅读列表,用于说明可扩展、可靠和高性能的大型系统的模式。概念在著名工程师的文章和可靠的参考文献中进行了解释。案例研究取自为数百万至数十亿用户提供服务的经过实战考验的系统。

  • apache/hive Apache Hive (TM) 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。它建立在 Apache Hadoop (TM) 之上,提供:通过 SQL 轻松访问数据的工具,从而实现数据仓库任务,例如提取/转换/加载 (ETL)、报告和数据分析;一种将结构强加于各种数据格式的机制;访问直接存储在 Apache HDFS (TM) 或其他数据存储系统(如 Apache HBase (TM))中的文件;使用 Apache Hadoop MapReduce 或 Apache Tez 框架执行查询。Hive 提供标准的 SQL 功能,包括许多后来的 2003 和 2011 分析功能。其中包括 OLAP 函数、子查询、通用表表达式等。Hive 的 SQL 还可以通过用户定义函数 (UDF)、用户定义聚合 (UDAF) 和用户定义表函数 (UDTF) 使用用户代码进行扩展。Hive 用户可以选择 Apache Hadoop MapReduce 或 Apache Tez 框架作为其执行后端。请注意,MapReduce框架从Hive 2开始就被弃用了,推荐使用Apache Tez。MapReduce是一个成熟的框架,在大规模上得到了验证。但是,MapReduce是一个纯粹的批处理框架,使用它的查询可能会遇到更高的延迟(数十秒),即使在较小的数据集上也是如此。Apache Tez 专为交互式查询而设计,与 MapReduce 相比,开销大大降低。用户可以随时在这些框架之间自由切换。在每种情况下,Hive 都最适合处理的数据量大到需要分布式系统的用例。Hive 不是为联机事务处理而设计的。它最适合用于传统的数据仓库任务。Hive 旨在最大限度地提高可扩展性(通过动态向 Hadoop 集群添加更多计算机进行横向扩展)、性能、可扩展性、容错性以及与其输入格式的松散耦合。

  • heibaiying/BigData-Notes 大数据入门指南

  • newTendermint/awesome-bigdata 令人敬畏的大数据框架、资源和其他令人敬畏的精选列表。

  • guangzhengli/k8s-tutorials k8s 教程

  • seata/seata 简单可扩展的自主事务体系结构

  • apache/incubator-shardingsphere 分布式数据库中间件生态圈

  • Tencent/wwsearch 企业微信后台自研的全文检索引擎

  • apache/druid Apache Druid:高性能的实时分析数据库,可在负载下大规模对流和批处理数据进行亚秒级查询。在具有数十亿到数万亿行的高基数和高维数据集上,在毫秒内执行 OLAP 查询,而无需预先定义或缓存查询。构建实时分析应用程序,以一致的性能支持每秒 100 到 100,000 次查询,采用比其他数据库使用更少的基础架构的高效架构。通过 Druid 与 Apache Kafka 和 Amazon Kinesis 的原生集成释放流数据潜力,因为它支持每秒数百万个事件的到达时查询、低延迟摄取和有保证的一致性。Druid 专为快速查询和摄取非常重要的工作流而设计。Druid 擅长为 UI 提供支持、运行操作(即席)查询或处理高并发性。考虑将 Druid 作为各种用例的数据仓库的开源替代品。设计文档解释了关键概念。你可以通过我们的本地或 Docker 快速入门开始使用 Druid。Druid 提供了一组丰富的 API(通过 HTTP 和 JDBC)来加载、管理和查询您的数据。您还可以通过内置的 Web 控制台与 Druid 进行交互。使用点击式向导加载流式处理和批处理数据,以指导您完成引入设置。监视一次性任务和引入主管。轻松管理集群。从一个方便的位置查看数据源、区段、引入任务和服务。所有这些都由 SQL 系统表提供支持,允许您查看每个视图的基础查询。使用内置的查询工作台对 DruidSQL 和本机查询进行原型设计,或连接帮助您充分利用 Druid 的众多工具之一。

  • apache/airflow 一个以编程方式编写,安排和监视工作流的平台

  • apache/shardingsphere Distributed database middleware 分布式数据库中间件

  • opencurve/curve 网易自主设计研发的高性能、高可用、高可靠分布式存储系统,具有良好扩展性。

  • ClickHouse/ClickHouse 开源极速列式数据库系统,允许实时生成数据分析报告。

  • mongodb/mongo 文档数据库,旨在简化应用程序开发和扩展。借助基于领先的现代数据库构建的应用程序数据平台,更快地将您的想法推向市场。支持事务性、搜索、分析和移动使用案例,同时采用通用查询接口和开发人员喜爱的数据模型。

  • canonical/dqlite 可嵌入、复制和故障耐受性 SQL 引擎。

  • apache/iceberg 新兴的数据湖框架之一,开创性的抽象出”表格式“(table format)这一中间层,既独立于上层的计算引擎(如Spark和Flink)和查询引擎(如Hive和Presto),也和下层的文件格式(如Parquet,ORC和Avro)相互解耦。同时,还提供了许多额外的能力:ACID事务;时间旅行(time travel),以访问之前版本的数据;完备的自定义类型、分区方式和操作的抽象;列和分区方式可以进化,而且进化对用户无感,即无需重新组织或变更数据文件;隐式分区,使SQL不用针对分区方式特殊优化;面向云存储的优化

  • apache/hudi 基于Hadoop兼容的存储,提供了Update/Delete Record、Change Streams 将HDFS和Hudi结合起来,提供对流处理的支持能力。如:支持记录级别的更新、删除,以及获取基于HDFS之上的Change Streams。

  • greenplum-db/gpdb 基于 PostgreSQL 的高级、功能齐全的开源数据仓库。 它提供对 PB 级数据量的强大而快速的分析。 Greenplum Database 专门针对大数据分析,由世界上最先进的基于成本的查询优化器提供支持,可在大数据量上提供高分析查询性能。

  • TurboWay/bigdata_analyse 大数据分析项目,包括1 亿条淘宝用户行为分析 、1000 万条淘宝用户行为 、300 万条《野蛮时代》的玩家 、130 万条深圳通刷卡、10 万条厦门招聘、7000 条租房、6000 条倒闭企业、COVID-19 疫情、7 万条天猫订单数据

  • juicedata/juicefs Apache License 2.0 下发布的高性能 POSIX 文件系统,专为云原生环境设计。通过 JuiceFS 存储的数据会持久化在对象存储(例如 Amazon S3)中,相应的元数据可以根据场景和需求持久化到 Redis、MySQL、TiKV 等各种兼容的数据库引擎中。JuiceFS,海量云存储可以直接连接到大数据、机器学习、人工智能以及生产环境中的各种应用平台。无需修改代码,海量云存储可以像本地存储一样高效使用。

  • trinodb/trino Trino 的官方存储库,用于大数据的分布式 SQL 查询引擎,以前称为 PrestoSQL。Trino 是一个用于大数据分析的快速分布式 SQL 查询引擎。

  • facebook/rocksdb 提供可嵌入的持久键值存储,以实现快速存储。由 Facebook 数据库工程团队开发和维护。它建立在 Sanjay Ghemawat ([email protected]) 和 Jeff Dean ([email protected]) 在 LevelDB 上的早期工作之上。它构成了快速键值服务器的核心构建块,特别适用于在闪存驱动器上存储数据。它采用对数结构合并数据库 (LSM) 设计,可在写入放大因子 (WAF)、读取放大因子 (RAF) 和空间放大因子 (SAF) 之间灵活权衡。它具有多线程压缩功能,特别适合在单个数据库中存储数 TB 的数据。

  • avinassh/fast-sqlite3-inserts 1分钟插入10亿行数据,写脚本请使用Rust

  • baidu/BaikalDB 分布式HTAP数据库 支持PB级结构数据的顺序和随机实时读取/写入。 B与MySQL协议兼容,并且支持MySQL样式SQL方言,通过该方言,用户可以将其数据存储从MySQL无缝迁移到BaikalDB。

  • ApsaraDB/PolarDB-for-PostgreSQL 阿里云自主研发的云原生数据库服务。PolarDB-X 是一款面向超高并发、海量存储、复杂查询场景设计的云原生分布式数据库系统。其采用 Shared-nothing 与存储计算分离架构,支持水平扩展、分布式事务、混合负载等能力,具备企业级、云原生、高可用、高度兼容 MySQL 系统及生态等特点。

  • ApsaraDB/galaxysql GalaxySQL 是 PolarDB-X 的计算节点(CN, Compute Node)。

  • ApsaraDB/galaxyengine GalaxyEngine 是源自阿里巴巴集团的 MySQL 分支,特别支持大型分布式数据库系统。

  • qiurunze123/miaosha 秒杀系统设计与实现.互联网工程师进阶与分析

  • timescale/tsbs 时间序列基准套件,用于比较和评估时间序列数据数据库工具

  • byzer-org/byzer-lang Byzer(前 MLSQL):一种用于数据管道、分析和 AI 的低代码开源编程语言。

  • xephonhq/awesome-time-series-database 精选的时间序列数据库、基准和论文列表

  • influxdata/influxdb 用 Rust 编写的开源时间序列数据库,使用 Apache Arrow、Apache Parquet 和 Apache DataFusion 作为其基础构建块。InfluxDB 的最新版本 (3.x) 专注于为各种观察数据(指标、事件、日志、跟踪等)提供实时缓冲区,这些数据可通过 SQL 或 InfluxQL 进行查询,并作为 Parquet 文件批量保存到对象存储中,然后其他第三方系统可以使用。它既可以使用预写日志运行,也可以在禁用预写日志的情况下完全关闭对象存储(在此操作模式下,对于尚未持久保存到对象存储的任何缓冲数据,都有数据丢失的可能性窗口)。

  • XiaoMi/soar SQL Optimizer And Rewriter是对 SQL进行优化改写的自动化工具。

  • Meituan-Dianping/SQLAdvisor 输入SQL,输出索引优化建议

  • cookieY/Yearning: 一个最流行的mysql审计平台

  • hhyo/Archery archer的分支项目,定位于SQL审核查询平台,旨在提升DBA的工作效率,支持多数据库的SQL上线和查询,同时支持丰富的MySQL运维功能,所有功能都兼容手机端操作

  • MyCATApache/Mycat-Server Java语言编写的MySQL数据库网络协议的开源中间件, 它支持分布式SQL查询,兼容MySQL通信协议,以Java生态支持多种后端数据库,通过数据分片提高数据查询处理能力。

  • Qihoo360/Quicksql 体系结构图可帮助您更轻松地访问 Quicksql

  • Qihoo360/Atlas MySQL的高性能稳定代理,由奇虎DBA和基础架构团队开发

  • akopytov/sysbench 可编写脚本的数据库和系统性能基准

  • github/gh-ost MySQL 的无触发在线模式迁移解决方案。它是可测试的,并提供可暂停性、动态控制/重新配置、审计和许多操作特权。

  • openark/orchestrator MySQL 复制拓扑管理和 HA

  • alchemystar/Freedom 自己DIY一个具有ACID的数据库

  • alibaba/otter 阿里巴巴分布式数据库同步系统(解决中美异地机房)

  • m3o/m3o 一个云平台,它将现有的公共 API 变成更小更易于使用的微服务,您可以在一个地方探索、发现和使用更简单的可编程构建块。该平台生成统一的 API 文档、客户端和示例,这使得使用所有 API 变得更加容易。

  • meta-soul/LakeSoul 基于数据湖的表结构存储,统一批处理和流式数据处理

  • PrefectHQ/prefect 工作流引擎。设计初衷是为了处理现代数据堆栈所需的动态、可扩展的工作负载。它由全新的异步规则引擎 Prefect Orion 提供支持。

  • facebookincubator/velox 旨在优化查询引擎和数据处理系统的 C++ 矢量化数据库加速库。

  • alibaba/havenask 阿里巴巴自研的大规模分布式检索系统。支持千亿级数据实时检索,百万QPS查询,百万TPS写入,毫秒级查询延迟与秒级数据更新。

  • grafana/grafana 开放、可组合的可观测性和数据可视化平台。可视化来自多个来源的指标、日志和跟踪,如 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等等。

  • ctripcorp/x-pipe 携程框架部门研发的Redis多数据中心复制管理系统。基于Redis的Master-Slave复制协议,实现低延时、高可用的Redis多中心、跨公网数据复制,并且提供一键机房切换,复制监控、异常报警等功能。

  • ctripcorp/drc 携程框架架构研发部数据中心组推出的用于数据双向或多向复制的数据库中间件,服务于异地多活项目,同时赋予了业务全球化的部署能力。为了做到真正的数据异地多活,实现MySQL同机房就近读写,机房故障时无需进行数据库DR操作,只进行流量切换,就需要引入数据实时双向(多向)复制组件。

  • digoal/blog 关于数据库,业务的一切。(大多数用于PostgreSQL)。

  • zhisheng17/flink-learning Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等内容的学习案例,还有 Flink 落地应用的大型项目案例(PVUV、日志存储、百亿数据实时去重、监控告警)分享。

  • donnemartin/awesome-aws 精选的亚马逊云科技 (AWS) 库、开源存储库、指南、博客和其他资源列表。以 AWSome 的火热仪表为特色。

  • spotify/luigi Luigi 是一个 Python 模块,可帮助您构建复杂的批处理作业管道。它处理依赖关系解析、工作流管理、可视化等。它还内置了Hadoop支持。

  • cockroachdb/cockroach 开源的云原生分布式SQL数据库。

  • wangzhiwubigdata/God-Of-BigData 专注大数据学习面试,大数据成神之路开启。Flink/Spark/Hadoop/Hbase/Hive...

  • apache/spark 用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的一般计算图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和数据帧的Spark SQL,用于pandas工作负载的Spark上的pandas API,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的结构化流。

  • google/leveldb 一个在Google编写的快速键值存储库,它提供了从字符串键到字符串值的有序映射。

  • apache/couchdb 开源 NoSQL 文档数据库,用于存储 JSON 格式的数据。与关系数据库不同,CouchDB 使用无模式数据模型,简化了各种计算设备、手机和 Web 浏览器中的记录管理。特点:双向复制,用于在多个服务器和设备之间同步数据。将视图用作运行查询以及根据存储的文档文件创建报告的主要工具。使用 REST API 从任何地点访问数据库,并具有完全的 CRUD(创建、读取、更新、删除)操作灵活性。设计中考虑了脱机操作。高效的文档存储。提供多种兼容性优势,可轻松地与当前基础架构集成。优点:可扩展性。没有读取锁。

  • surrealdb/surrealdb 可扩展的、分布式的、协作的、文档图形数据库,用于实时 Web。端到端的云原生数据库,专为现代应用程序而设计,包括 Web、移动、无服务器、Jamstack、后端和传统应用程序。借助 SurrealDB,您可以简化数据库和 API 基础架构,缩短开发时间,并快速、经济高效地构建安全、高性能的应用程序。

  • pingcap/talent-plan 由 PingCAP 发起的开源培训计划。它旨在为对开源、分布式系统、Rust、Golang 和其他基础设施知识感兴趣的人创建或组合一些开源学习材料。因此,它提供了一系列专注于开源协作、rust 编程、分布式数据库和系统的课程。

  • alibaba/druid 阿里云计算平台DataWorks团队出品,为监控而生的数据库连接池。一个 JDBC 组件库,包含数据库连接池、SQL Parser 等组件, 被大量业务和技术产品使用或集成,经历过最严苛线上业务场景考验,是你值得信赖的技术产品。

  • questdb/questdb 用于快速摄取和 SQL 查询的开源时间序列数据库。QuestDB 非常适合金融市场数据、物联网传感器数据、应用程序指标、实时仪表板和快速分析。

  • duckdb/duckdb 进程内SQL OLAP数据库管理系统,高性能的分析数据库系统。它快速可靠、便携且易于使用。提供了丰富的SQL方言,其支持远远超出了基本的SQL。支持任意和嵌套的相关子查询、窗口函数、排序规则、复杂类型(数组、结构)等。

  • dbeaver/dbeaver 面向开发人员、SQL 程序员、数据库管理员和分析师的免费多平台数据库工具。支持任何具有JDBC驱动程序的数据库(基本上意味着 - 任何数据库)。商业版本还支持非JDBC数据源,如MongoDB、Cassandra、Couchbase、Redis、BigTable、DynamoDB等。可以找到商业版本中支持的所有数据库的列表。

  • etcd-io/etcd 分布式可靠的键值存储,用于存储分布式系统中最关键的数据,重点是:简单:定义明确、面向用户的 API (gRPC),安全:具有可选客户端证书身份验证的自动 TLS,快速:以 10,000 次写入/秒为基准,可靠:使用 Raft 正确分发。etcd 是用 Go 语言编写的,它使用 Raft 共识算法来管理一个高度可用的复制日志。

  • typicode/lowdb 简单易用的类型安全本地 JSON 数据库

  • pouchdb/pouchdb 开源的 JavaScript 数据库,其灵感来自 Apache CouchDB,旨在在浏览器中运行良好。

  • dolthub/dolt 一个 SQL 数据库,您可以像 Git 存储库一样对其进行分叉、克隆、分支、合并、推送和拉取。连接到 Dolt 就像连接到任何 MySQL 数据库以读取或修改架构和数据一样。版本控制功能通过系统表、函数和过程在 SQL 中公开。

  • realm/realm-swift 一个移动数据库,直接运行在手机、平板电脑或可穿戴设备中。这个仓库保存了 iOS、macOS、tvOS 和 watchOS 版本的 Realm Swift 和 Realm Objective-C 的源代码。

  • realm/realm-java 移动数据库:SQLite 和 ORM 的替代品,java版

  • beekeeper-studio/beekeeper-studio 适用于 MySQL、Postgres、SQLite、SQL Server 等的现代且易于使用的 SQL 客户端。Linux、MacOS 和 Windows。

  • go-sql-driver/mysql golang写的数据库/sql 包的 MySQL 驱动程序

  • arangodb/arangodb 原生多模型数据库,具有用于文档、图形和键值的灵活数据模型。使用方便的类似 SQL 的查询语言或 JavaScript 扩展构建高性能应用程序。

  • golang-migrate/migrate 用 Go 编写的数据库迁移。用作 CLI 或作为库导入。Migrate 从源读取迁移,并按正确的顺序将其应用于数据库。驱动程序是“愚蠢的”,迁移将所有内容粘合在一起,并确保逻辑是无懈可击的。数据库驱动程序不会假设某些事情或尝试更正用户输入。

  • dotnet/efcore .NET 的新式对象数据库映射器。它支持 LINQ 查询、更改跟踪、更新和架构迁移。EF Core 通过提供程序插件 API 与 SQL Server、Azure SQL 数据库、SQLite、Azure Cosmos DB、MySQL、PostgreSQL 和其他数据库配合使用。

  • dgraph-io/badger 可嵌入的、持久的、快速的键值 (KV) 数据库,用纯 Go 编写。它是 Dgraph 的基础数据库,Dgraph 是一个快速的分布式图形数据库。它旨在成为非基于 Go 的键值存储(如 RocksDB)的高性能替代方案。

  • rqlite/rqlite 关系数据库,它结合了 SQLite 的简单性和健壮、容错的分布式系统的强大功能。它专为易于部署和轻量级操作而设计,为 Linux、macOS 和 Win 以及各种 CPU 平台提供开发人员友好且以操作员为中心的解决方案。

  • edgedb/edgedb 具有声明性架构、内置迁移系统和下一代查询语言的图关系数据库

  • scylladb/scylladb NoSQL数据存储使用seastar框架,与Apache Cassandra兼容

  • cstack/db_tutorial 用 C 从头开始编写 sqlite 克隆

  • coleifer/peewee 小型的、富有表现力的 ORM -- 支持 PostgreSQL、MySQL、SQLite 和 CockroachDB,ORM是对象关系映射,用于把面向对象的概念和数据库中的表的概念对应起来,方便编程和操作。

  • pingcap/awesome-database-learning 了解数据库内部结构的学习材料清单

  • orbitdb/orbitdb 去中心化网络的点对点数据库

  • risingwavelabs/risingwave 用于流处理、分析和管理的可扩展 Postgres。KsqlDB 和 Apache Flink 替代方案。生产率提高 10 倍。成本效益提高 10 倍。

  • bigchaindb/bigchaindb 区块链数据库。它具有一些数据库特征和一些区块链属性,包括去中心化、不变性和对资产的原生支持。

  • oceanbase/miniob 紧凑的数据库,可帮助开发人员了解数据库的基本工作原理。

  • Wisser/Jailer 数据库子集和关系数据浏览工具。Subsetter 从数据库中创建小切片(一致且引用完整),作为 SQL(拓扑排序)、DbUnit 记录或 XML。非常适合创建测试数据的小样本或使用相关生产数据进行本地问题分析。通过数据浏览器,您可以按照表之间的关系(基于外键或用户定义)浏览数据库。

  • mirage/irmin 分布式数据库,遵循与 Git 相同的设计原则。OCaml 库,用于构建可合并、可分支的分布式数据存储。

  • georgia-tech-db/evadb 使软件开发人员能够通过几行代码构建 AI 应用程序。其强大的 SQL API 简化了结构化和非结构化数据的 AI 应用程序开发。EvaDB的优势包括:轻松将 EvaDB 查询引擎与您的数据源(如 PostgreSQL 或 S3 存储桶)连接,并使用 SQL 查询构建 AI 驱动的应用程序。使用 Hugging Face、OpenAI、YOLO、Stable Diffusion 等预训练的 AI 模型查询您的连接数据。创建或微调用于回归、分类和时间序列预测的 AI 模型。得益于以 AI 为中心的查询优化,例如缓存、批处理和并行处理,因此可以更快地进行 AI 查询。

  • apple/foundationdb 分布式数据库,旨在跨商用服务器集群处理大量结构化数据。它将数据组织为有序的键值存储,并将 ACID 事务用于所有操作。它特别适用于读/写工作负载,但对于写入密集型工作负载也具有出色的性能。用户使用 API 语言绑定与数据库进行交互。

  • citusdata/citus  PostgreSQL 扩展,可将 Postgres 转换为分布式数据库,因此您可以在任何规模下实现高性能。借助 Citus,您可以使用新的超能力扩展 PostgreSQL 数据库:分布式表在 PostgreSQL 节点集群中进行分片,以组合其 CPU、内存、存储和 I/O 容量。引用表将复制到所有节点,以便从分布式表中进行联接和外键,并实现最大读取性能。分布式查询引擎在整个集群中路由和并行化分布式表上的 SELECT、DML 和其他操作。列式存储可压缩数据,加快扫描速度,并支持常规表和分布式表上的快速投影。通过从任何节点进行查询,可以利用集群的全部容量进行分布式查询

  • mongodb/mongo-go-driver MongoDB 的官方 Golang 驱动程序

  • apache/arrow 多语言工具箱,用于加速数据交换和内存处理。初创团队主要来自于Dremio公司和由Apache Parquet(一种列式存储格式)的开发人员于2016年创建。其最初的定位是通过定义一套通用数据结构和 API,使数据可以在不同的编程语言和计算引擎之间以零复制(zero-copy)的方式进行共享和交换,从而提高数据处理的效率。Arrow 的核心数据结构是统一的列式内存格式,该格式采用了内存连续布局和零复制策略,以减少数据传输的开销。它支持对连续的列式数据使用现代处理器中包SIMD(单指令、多数据)进行向量化操作。此外,Arrow 还提供了一套丰富的数据操作接口,如过滤、转换、聚合等,以支持高效的数据分析和处理。随着时间的推移,Apache Arrow 在逐渐扩展和发展,到现在Apache Arrow已经发展成为一个用于构建处理和传输大型数据集的高性能应用程序软件开发平台,它不仅支持多种编程语言(如C++, Java, Python, R等),还与许多主流的数据处理框架集成,如 Apache Spark、Pandas、TensorFlow 等。

  • pgadmin-org/pgadmin4 PostgreSQL 最受欢迎且功能丰富的开源管理和开发平台,PostgreSQL 是世界上最先进的开源数据库。pgAdmin 4 是作为 Web 应用程序编写的,服务器端使用 Python(Flask),客户端使用 ReactJS、HTML5 和 CSS,用于客户端处理和 UI。虽然使用 Web 技术开发,但 pgAdmin 4 可以使用浏览器部署在 Web 服务器上,也可以独立部署在工作站上。runtime/ 子目录包含一个基于 NWjs 的运行时应用程序,旨在允许这样做,它将执行 Python 服务器并显示 UI。

  • sosedoff/pgweb PostgreSQL 数据库的跨平台客户端,基于 Web 的 PostgreSQL 数据库浏览器,用 Go 编写,适用于 Mac、Linux 和 Windows 机器。作为零依赖关系的简单二进制文件分发。非常易于使用,并包含适量的功能。

  • FerretDB/FerretDB MongoDB 事实上的开源替代品。FerretDB 是一个开源代理,使用 PostgreSQL 或 SQLite 作为数据库引擎,将 MongoDB 5.0+ 有线协议查询转换为 SQL。

  • delta-io/delta 开源存储框架,支持使用 Spark、PrestoDB、Flink、Trino 和 Hive 等计算引擎以及 API 构建湖仓一体架构。以下是一些比较流行的 Delta Lake 集成:Apache Spark™:此连接器允许 Apache Spark™ 读取和写入 Delta Lake。Apache Flink(预览版):此连接器允许 Apache Flink 写入 Delta Lake。PrestoDB:此连接器允许 PrestoDB 从 Delta Lake 读取数据。Trino:此连接器允许 Trino 读取和写入 Delta Lake。Delta Standalone:此库允许基于 Scala 和 Java 的项目(包括 Apache Flink、Apache Hive、Apache Beam 和 PrestoDB)读取和写入 Delta Lake。Apache Hive:此连接器允许 Apache Hive 从 Delta Lake 读取数据。Delta Rust API:该库允许 Rust(使用 Python 和 Ruby 绑定)对 Delta 表进行低级访问,旨在与数据处理框架一起使用,例如 datafusion、ballista、rust-dataframe、vega 等。

  • Sequel-Ace/Sequel-Ace 适用于 macOS 的 MySQL/MariaDB 数据库管理

  • tursodatabase/libsql SQLite 的一个分支,它既是开源的,也是开放贡献的。由 Turso 创建和维护。我们的目标是改进它,以适应比SQLite最初设计的更多的用例,并计划在任何有意义的地方使用第三方OSS代码。特征:嵌入式副本,允许您在应用内复制数据库。用于远程 SQLite 访问的 libSQL 服务器,类似于 PostgreSQL 或 MySQL。支持 Rust、JavaScript、Python、Go 等。

  • apache/storm 分布式实时计算系统。与Hadoop提供一组用于进行批处理的通用原语类似,Storm提供了一组用于执行实时计算的通用原语。Storm 很简单,可以与任何编程语言一起使用,被许多公司使用,而且使用起来很有趣!Apache Storm 有许多用例:实时分析、在线机器学习、持续计算、分布式 RPC、ETL 等。Apache Storm 速度很快:基准测试显示,每个节点每秒处理超过 100 万个元组。它具有可扩展性、容错性,可保证您的数据得到处理,并且易于设置和操作。Apache Storm 与您已经使用的排队和数据库技术集成。Apache Storm 拓扑使用数据流,并以任意复杂的方式处理这些流,根据需要在计算的每个阶段之间重新划分流。在本教程中阅读更多内容。

数据搜索引擎

  • searx/searx 尊重隐私的元搜索引擎

  • benbusby/whoogle-search 一个自托管、无广告、尊重隐私的元搜索引擎

  • elastic/elasticsearch 免费开放、分布式、RESTful 搜索引擎

  • typesense/typesense Algolia + Pinecone 的开源替代品和 ElasticSearch 的更易于使用的替代品。 快速、容错、内存模糊搜索引擎,用于构建令人愉悦的搜索体验

  • zincsearch/zincsearch 轻量级elasticsearch 替代方案,需要最少的资源,用 Go 编写。

  • apache/lucene-solr Apache Lucene和Solr开源搜索软件

  • valeriansaliou/sonic 快速、轻量级和无模式的搜索后端。Elasticsearch的替代方案,运行在几MB的RAM上。

  • opensearch-project/OpenSearch 开源分布式和 RESTful 搜索引擎。Elasticsearch 和 Kibana 的社区驱动的开源分支

  • quickwit-oss/tantivy 一个全文搜索引擎库,灵感来自Apache Lucene,用Rust编写。

  • medcl/elasticsearch-analysis-ik IK 分析插件将 Lucene IK 分析器集成到 elasticsearch 中,支持自定义词典。

  • deviantony/docker-elk 由Docker和Compose提供支持的Elastic stack(ELK)。使用 Elasticsearch 的搜索/聚合功能和 Kibana 的可视化功能来分析任何数据集。

  • chrismattmann/tika-python Tika-Python 是与 Apache Tika REST 服务的 Python 绑定,允许在 Python 社区中本地调用 Tika™。Apache Tika 是一个内容分析工具包,可以检测上千种文件类型,并提取它们的元数据和文本。tika在设计上十分精巧,单一的接口使它易于使用,在搜索引擎索引,内容分析,翻译等诸多方面得到了广泛使用。

  • appbaseio/dejavu Elasticsearch 缺少的 Web UI:使用丰富的过滤器和查询视图导入、浏览和编辑数据,直观地创建搜索 UI。

  • oramasearch/orama 快速、内存中、容错、用 TypeScript 编写的全文搜索引擎。

  • nextapps-de/flexsearch 适用于浏览器和Nodejs的下一代js全文搜索库

  • RediSearch/RediSearch Redis的查询和索引引擎,提供二级索引,全文搜索,矢量相似性搜索和聚合。

  • GerevAI/gerev 人工智能驱动的企业搜索引擎

  • alibaba/Chat2DB 智能且通用的SQL客户端和数据库报告工具,集成了ChatGPT功能。

  • amazon-science/esci-data 一个困难搜索查询的大型数据集,旨在促进查询和产品语义匹配领域的研究。对于每个查询,数据集提供最多 40 个潜在相关结果的列表,以及 ESCI 相关性判断(精确、替代、补充、不相关),指示产品与查询的相关性。每个查询产品对都附有其他信息。数据集是多语言的,因为它包含英语、日语和西班牙语的查询。

  • searxng/searxng 免费的互联网元搜索引擎,它汇总了来自各种搜索服务和数据库的结果。既不会跟踪用户,也不会对用户进行分析。

向量数据库、向量搜索、最近邻搜索

  • milvus-io/milvus 大规模特征向量的最快相似度搜索引擎 基于Faiss、Annoy等开源库,并针对性做了定制,支持结构化查询、多模查询等业界比较急需的功能;Milvus支持cpu、gpu、arm等多种类型的处理器;同时使用mysql存储元数据,并且在共享存储的支持下,Milvus可以支持分布式部署。

  • vearch/vearch 用于嵌入式向量高效相似性搜索的分布式系统

  • spotify/annoy C++/Python 中的近似最近邻针对内存使用和加载/保存到磁盘进行了优化

  • qdrant/qdrant 一个矢量相似性搜索引擎和矢量数据库。它提供生产就绪的服务,并带有方便的 API 来存储、搜索和管理点 - 具有附加有效载荷的矢量 Qdrant 专为扩展过滤支持量身定制。它使其可用于各种神经网络或基于语义的匹配、分面搜索和其他应用程序。

  • weaviate/weaviate Weaviate 是一个开源矢量数据库,它存储对象和矢量,允许将矢量搜索与结构化过滤与云原生数据库的容错和可扩展性相结合,所有这些都可以通过 GraphQL、REST 和各种语言客户端访问。

  • pgvector/pgvector Postgres的开源向量相似性搜索

  • FALCONN-LIB/FALCONN 余弦和其他最近邻的首次查找(基于快速局部敏感哈希)

  • yahoojapan/NGT 使用邻域图和树进行最近邻搜索,以获取高维数据

  • hora-search/hora 高效的近似最近邻搜索算法集合库用 Rust 编写。

  • marqo-ai/marqo 端到端的多模态矢量搜索引擎。借助 Marqo,用户可以通过单个易于使用的 API 存储和查询非结构化数据,例如文本、图像和代码。输入预处理、机器学习推理和存储都是开箱即用的,可以轻松扩展。

  • currentslab/awesome-vector-search 矢量搜索相关库、服务和研究论文集

  • vdaas/vald 高度可扩展的分布式矢量搜索引擎

  • docarray/docarray Python 库,专为多模态数据的表示、传输、存储和检索而精心制作。专为多模态AI应用程序的开发量身定制,其设计可确保与广泛的Python和机器学习生态系统无缝集成。

  • neuml/txtai 用于语义搜索、LLM 编排和语言模型工作流的一体化开源嵌入数据库

  • chroma-core/chroma AI 原生开源嵌入数据库

  • milvus-io/milvus-lite Milvus 的轻量级版本,可以嵌入到 Python 应用程序中。

  • milvus-io/bootcamp 处理所有非结构化数据,如反向图像搜索、音频搜索、分子搜索、视频分析、问答系统、NLP 等。使用神经网络从非结构化数据中提取特征向量,例如图像、音频和视频等。然后通过计算特征向量来分析非结构化数据,例如计算向量的欧几里得或余弦距离以获得相似性。

  • zilliztech/VectorDBBench 不仅仅是主流矢量数据库和云服务的基准测试结果,还是您进行终极性能和成本效益比较的首选工具。VectorDBBench 在设计时考虑到了易用性,旨在帮助用户(甚至是非专业人士)重现结果或测试新系统,从而在众多云服务和开源矢量数据库中寻找最佳选择变得轻而易举。

  • Tencent/wcdb WCDB是由微信开发的跨平台数据库框架。高效、完整、易用的移动数据库框架,用于微信应用。它基于SQLite和SQLCipher,支持五种语言:C++,Java,Kotlin,Swift和Objective-C。

  • lancedb/lancedb 面向 AI 应用程序的开发人员友好型无服务器向量数据库。轻松为您的LLM应用程序添加长期记忆!

  • infiniflow/infinity 专LLM为应用程序构建的 AI 原生数据库,提供令人难以置信的快速全文和矢量搜索

  • tensorchord/pgvecto.rs Postgres 中可扩展、低延迟和支持混合的矢量搜索。彻底改变矢量搜索,而不是数据库。超低延迟、高精度的矢量搜索。使用 SPLADE 或 BM25 算法进行基于关键字的向量搜索。跨任何语言的全面文本搜索,由 tsvector 提供支持。完整的 SQL 支持,支持连接和筛选器,没有限制或额外配置。非阻塞插入,具有最新的查询就绪情况。无需将向量和元数据与外部向量数据库同步,简化开发。支持 FP16 和 INT8 数据类型,以提高存储和计算效率。使用二进制向量进行向量索引,并支持 Jaccard 距离。子向量索引,如向量[0:256],用于增强的套娃嵌入。支持高达 65535 的矢量长度,是最新尖端模型的理想选择。与 PostgreSQL 集成的久经考验的数据库生态系统。逻辑复制支持,确保高可用性。利用 PostgreSQL 实现高效的属性存储。简单的访问控制,如只读角色,由 PostgreSQL 提供支持。

其他__大数据

  • redis/redis 一个内存中数据库,它保留在磁盘上。数据模型是键值,但支持许多不同类型的值:字符串、列表、集合、排序集、哈希、流、Hyper Log Logs、位图。

  • dragonflydb/dragonfly Redis和Memcached的现代替代品

  • bilibili/overlord 哔哩哔哩基于Go语言编写的memcache和redis cluster的代理及集群管理功能,致力于提供自动化高可用的缓存服务解决方案。

  • redis/redis-py redis内存中数据库的python客户端

  • redis/node-redis redis内存中数据库的Node.js客户端

  • redis/ioredis 适用于 Node.js 的强大、注重性能且功能齐全的 Redis 客户端。

  • redis/jedis Redis Java 客户端

  • redis/go-redis redis内存中数据库的Go 客户端

  • redisson/redisson 具有内存数据网格功能的简易 Redis Java 客户端。Sync/ Async/RxJava/Reactive API.超过50个基于Redis的Java对象和服务:Set,Multimap,SortedSet,Map,List,Queue,Deque,Semaphore,Lock,AtomicLong,Map Reduce,Bloom filter,Spring Cache,Tomcat,Scheduler,JCache API,Hibernate,RPC,本地缓存...

  • sohutv/cachecloud 搜狐视频(sohu tv)Redis私有云平台 :支持Redis多种架构(Standalone、Sentinel、Cluster)高效管理、有效降低大规模redis运维成本,提升资源管控能力和利用率。平台提供快速搭建/迁移,运维管理,弹性伸缩,统计监控,客户端整合接入等功能。

  • qishibo/AnotherRedisDesktopManager 更快,更好,更稳定的Redis桌面管理器[GUI客户端],兼容Linux,Windows,Mac。

  • luin/medis 美观、易用的 Redis Mac 数据库管理应用程序。

  • twitter/twemproxy memcached 和 redis 的快速、轻量级代理

  • Snapchat/KeyDB Redis 的高性能分支,专注于多线程、内存效率和高吞吐量。除了性能改进外,KeyDB 还提供主动复制、闪存存储和子密钥过期等功能。KeyDB 具有 MVCC 架构,允许您执行 KEYS 和 SCAN 等查询,而不会阻塞数据库和降低性能。KeyDB 保持与 Redis 协议、模块和脚本的完全兼容。这包括脚本和事务的原子性保证。由于 KeyDB 与 Redis 开发保持同步,因此 KeyDB 是 Redis 功能的超集,因此 KeyDB 可以替代现有的 Redis 部署。在相同的硬件上,KeyDB 可以实现比 Redis 高得多的吞吐量。主动复制简化了热备盘故障转移,使您能够轻松地在副本上分配写入,并使用基于 TCP 的简单负载平衡/故障转移。KeyDB的更高性能允许您在更少的硬件上做更多的事情,从而降低运营成本和复杂性。

  • golang/groupcache 一个缓存和缓存填充库,在许多情况下旨在替代 memcached。

  • huangz1990/redis-3.0-annotated 带有详细注释的 Redis 3.0 代码

  • DataTalksClub/data-engineering-zoomcamp 免费数据工程课程

  • apache/kafka 分布式数据存储和流处理平台,可以发布和订阅记录流,按顺序存储和处理数据。

  • yahoo/CMAK 用于管理 Apache Kafka 群集的工具

  • phpmyadmin/phpmyadmin MySQL 和 MariaDB 的 Web 界面,phpMyAdmin 使用 Composer 来管理库依赖项;使用 Git 开发版本时,必须手动运行 Composer。有关详细信息,请参阅文档。

  • prisma/prisma 下一代 ORM 对象关系映射(Object Relational Mapping,为了解决面向对象与关系数据库存在的互不匹配)for Node.js & TypeScript |PostgreSQL,MySQL,MariaDB,SQL Server,SQLite,MongoDB和CockroachDB

  • sequelize/sequelize 功能丰富的ORM(Object Relational Mapping,为了解决面向对象与关系数据库存在的互不匹配),用于现代Node.js和TypeScript,它支持PostgreSQL(支持JSON和JSONB),MySQL,MariaDB,SQLite,MS SQL Server,Snowflake,Oracle DB(v6),DB2和DB2 for IBM i。

  • mikro-orm/mikro-orm 基于数据映射器、工作单元和身份映射模式的 Node.js 的 TypeScript ORM。支持 MongoDB、MySQL、MariaDB、MS SQL Server、PostgreSQL 和 SQLite/libSQL 数据库。

  • porsager/postgres Postgres.js - 适用于 Node.js、Deno、Bun 和 CloudFlare 的最快全功能 PostgreSQL 客户端

  • seaweedfs/seaweedfs 一个快速分布式存储系统,适用于 blob、对象、文件和数据湖,适用于数十亿个文件!Blob 存储具有 O(1) 磁盘查找和云分层。Filer 支持 Cloud Drive、跨 DC 主动-主动复制、Kubernetes、POSIX FUSE 挂载、S3 API、S3 Gateway、Hadoop、WebDAV、加密、纠删码。

  • Database-like ops benchmark 对开源数据科学中流行的各种类似数据库的工具进行基准测试。

  • tonsky/datascript 用于 Clojure、ClojureScript 和 JS 的不可变数据库和数据日志查询引擎

  • cube-js/cube 多维数据集 — 用于构建数据应用程序的语义层。帮助数据工程师和应用程序开发人员访问新式数据存储中的数据,将其组织成一致的定义,并将其交付给每个应用程序。

  • bytebase/bytebase 面向开发人员、DBA 和平台工程团队的世界上最先进的数据库 DevOps 和 CI/CD。用于数据库 DevOps 的 GitLab/GitHub。

  • mingrammer/diagrams 允许您在 Python 代码中绘制云系统架构。它诞生于在没有任何设计工具的情况下对新的系统架构设计进行原型设计。您还可以描述或可视化现有系统架构。Diagrams目前支持的主要提供商包括: GCP \ Kubernetes \Alibaba Cloud \Oracle Cloud \Azure AWS 等。它还支持 On-Premise 节点、 SaaS 主要 Programming 框架和语言。

  • alibaba/DataX 阿里云DataWorks数据集成的开源版本。在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

  • PRQL/prql 用于转换数据的现代语言 — 一种简单、强大、流水线式的 SQL 替代品

  • go-gorm/gorm Golang的梦幻般的ORM库,旨在对开发人员友好

  • ben-manes/caffeine 适用于 Java 的高性能缓存库,Google Guava 启发的API提供内存缓存。这些改进借鉴了Guava缓存和ConcurrentLinkedHashMap的经验。

  • ipfs/kubo Kubo是第一个IPFS实现,也是当今使用最广泛的一个。实施星际文件系统 - 用于内容寻址的 Web3 标准,可与 HTTP 互操作。因此,由IPLD的数据模型和用于网络通信的libp2p提供支持。

  • tendermint/tendermint 拜占庭容错 (BFT) 中间件,它采用状态转换机器(用任何编程语言编写)并在许多机器上安全地复制它。

  • lni/dragonboat Go 中功能完整且高性能的多组 Raft 库。像 Raft 这样的共识算法通过让系统在大多数成员服务器可用时继续运行来提供容错能力。例如,一个 5 台服务器的 Raft 分片,即使有 2 台服务器出现故障,也可以取得进展。在客户看来,它也是一个单一的实体,始终提供强大的数据一致性。所有 Raft 副本都可用于处理聚合读取吞吐量的读取请求。

  • spandanb/learndb-py 通过从头开始实现数据库来学习数据库内部结构。

  • dbcli/pgcli 具有自动完成和语法突出显示功能的 Postgres CLI

  • tiangolo/sqlmodel Python 中的 SQL 数据库,旨在实现简单性、兼容性和稳健性。

  • diesel-rs/diesel 摆脱了数据库交互的样板,并在不牺牲性能的情况下消除了运行时错误。充分利用 Rust 的类型系统来创建一个“感觉像 Rust”的低开销查询构建器。

  • launchbadge/sqlx Rust SQL 工具包。一个异步的纯 Rust SQL crate,具有编译时检查的查询,无需 DSL。支持 PostgreSQL、MySQL、SQLite 和 MSSQL。

  • codenotary/immudb 基于零信任的不可变数据库,SQL/键值/文档模型,防篡改,数据更改历史。

  • tiangolo/full-stack-fastapi-postgresql 全栈、现代 Web 应用程序生成器。使用 FastAPI、PostgreSQL 作为数据库、Docker、自动 HTTPS 等。

  • timescale/timescaledb 针对快速引入和复杂查询进行了优化的开源时序 SQL 数据库。打包为 PostgreSQL 扩展。

  • osquery/osquery SQL 支持的操作系统检测、监控和分析。

  • PostgREST/postgrest 适用于任何 Postgres 数据库的 REST API

  • minio/minio 高性能、兼容 S3 的对象存储。它专为大规模 AI/ML、数据湖和数据库工作负载而构建。它是软件定义的,可在任何云或本地基础架构上运行。MinIO 在开源 GNU AGPL v3 和商业企业许可证下获得双重许可。

  • sqlitebrowser/sqlitebrowser DB浏览器SQLite版

  • xuxueli/xxl-job 分布式任务调度框架。它的核心设计目标是快速开发并学习简单、轻量级和易于扩展。它已经开源,许多公司在生产环境中使用它,真正的“开箱即用”。

  • tikv/tikv 分布式事务性键值数据库,最初是为了补充 TiDB 而创建的

  • airbytehq/airbyte 用于 ELT 管道的数据集成平台,从 API、数据库和文件到数据库、仓库和湖泊。只有开源的数据移动解决方案才能覆盖数据源的长尾,同时使数据工程师能够自定义现有的连接器。我们的最终愿景是帮助您将数据从任何来源移动到任何目的地。Airbyte 已经为 API、数据库、数仓和数据湖提供了300+ 连接器。

  • apache/dolphinscheduler 现代数据编排平台。敏捷地使用低代码创建高性能工作流。它还提供了强大的用户界面,专门用于解决数据管道中的复杂任务依赖关系,并提供开箱即用的各种类型的作业。易于部署,提供四种部署方式,包括单机、集群、Docker 和 Kubernetes。简单易用,工作流可以通过四种方式创建和管理,包括 Web UI、Python SDK、Yaml 文件和 Open API。高可靠高可用,多主多工作线程的去中心化架构,原生支持水平扩展。高性能,其性能比其他编排平台快N倍,每天可支持数千万个任务。云原生,DolphinScheduler 支持编排多云/数据中心工作流,支持自定义任务类型。对工作流和工作流实例(包括任务)进行版本控制。工作流和任务的各种状态控制,支持随时暂停/停止/恢复。其他如回填支持(Web UI原生),权限控制,包括项目、资源和数据源。

  • apache/rocketmq 云原生消息和流式处理平台,可以简化构建事件驱动的应用程序。分布式消息流平台,具有低时延、高性能、高可靠、万亿级容量和灵活扩展性。

  • jaegertracing/jaeger 受 Dapper 和 OpenZipkin 的启发,是由 Uber Technologies 创建并捐赠给云原生计算基金会的分布式追踪平台。它可用于监控基于微服务的分布式系统:分布式上下文传播、分布式事务监控、根本原因分析、服务依赖分析、性能/延迟优化。

  • alibaba/spring-cloud-alibaba 阿里巴巴中间件的分布式解决方案提供一站式应用开发解决方案。

  • elastic/logstash 传输和处理您的日志、事件或其他数据。是 Elastic Stack 的一部分。Logstash 是一个服务器端数据处理管道,可同时从多个来源提取数据,对其进行转换,然后将其发送到您最喜欢的“存储”。

  • elastic/beats 用 Go 编写的轻量级数据传送器,您可以将其安装在服务器上以捕获各种操作数据(例如日志、指标或网络数据包数据)。Beats 将运营数据直接或通过 Logstash 发送到 Elasticsearch,以便使用 Kibana 进行可视化。

  • apache/pulsar 分布式 pub-sub 消息传递平台,具有非常灵活的消息传递模型和直观的客户端 API。特点:水平可扩展(每秒发布数百万个独立主题和数百万条消息)、强大的排序和一致性保证、低延迟持久存储、主题和队列语义、负载均衡器、设计用于部署为托管服务:多租户 认证 授权 配额 支持混合非常不同的工作负载 可选硬件隔离、跟踪消费者光标位置、用于配置管理和统计的 REST API、异地复制、透明地处理分区主题、消息的透明批处理

  • harelba/q 直接在分隔文件和多文件 sqlite 数据库上运行 SQL。允许以下操作:直接对表格文本数据执行类似 SQL 语句,自动缓存数据以加速对同一文件的其他查询。直接在多文件 sqlite3 数据库上执行 SQL,而无需合并它们或将它们加载到内存中。

  • theanalyst/awesome-distributed-systems 关于分布式系统上令人敬畏的材料的精选列表

  • apache/zeppelin 基于 Web 的笔记本,支持数据驱动的交互式数据分析以及使用 SQL、Scala 等的协作文档。

  • dtm-labs/dtm 分布式事务框架,支持工作流、saga、tcc、xa、两阶段消息、发件箱模式,支持多种语言。

  • k8sgpt-ai/k8sgpt 用于扫描 Kubernetes 集群、诊断和分类问题的工具,用简单的英语。它将 SRE 经验编入其分析器中,并帮助提取最相关的信息以使用 AI 来丰富它。与 OpenAI、Azure、Bedrock、Google Gemini 和本地模型的开箱即用集成。

  • mongodb/node-mongodb-native 官方的MongoDB Node.js驱动程序

  • xo/usql PostgreSQL,MySQL,Oracle数据库,SQLite3,Microsoft SQL Server和许多其他数据库(包括NoSQL和非关系数据库)的通用命令行界面

  • yugabyte/yugabyte-db 用于关键任务应用程序的云原生分布式 SQL 数据库。旨在支持所有 PostgreSQL 功能。它最适合云原生 OLTP(即实时、业务关键型)应用程序,这些应用程序需要绝对的数据正确性,并且至少需要以下一项:可伸缩性、对故障的高容忍度或全球分布式部署。核心特点:强大的 RDBMS 功能 Yugabyte SQL(简称 YSQL)重用了 PostgreSQL 的查询层(类似于 Amazon Aurora PostgreSQL),从而支持其大部分功能(数据类型、查询、表达式、运算符和函数、存储过程、触发器、扩展等)。以下是 YSQL 当前支持的功能的详细列表。分布式事务 事务设计基于 Google Spanner 架构。通过使用混合逻辑时钟将 Raft 共识用于复制和集群范围的分布式 ACID 事务,可以实现写入的强一致性。支持快照、可序列化和读取提交隔离级别。默认情况下,读取(查询)具有很强的一致性,但可以动态调整以从关注者和只读副本中读取。持续可用性 YugabyteDB 通过本机故障转移和修复对常见中断具有极强的弹性。YugabyteDB可以配置为自动容忍磁盘、节点、可用区、区域和云故障。对于在公有云上跨多个区域部署一个区域的典型部署,RPO 为 0(表示故障时不会丢失任何数据),RTO 为 3 秒(表示故障节点提供的数据在 3 秒内可用)。水平可扩展性 扩展 YugabyteDB 集群以实现更高的 IOPS 或数据存储就像向集群添加节点一样简单。地理分布式多云 YugabyteDB 可以部署在公共云中,也可以原生部署在 Kubernetes 中。它支持跨三个或更多容错域的部署,例如多区域、多区域和多云部署。它还支持具有单向主从和双向多主主配置的 xCluster 异步复制,可在双区域部署中利用。若要以低延迟提供(过时)数据,只读副本也是一项受支持的功能。多 API 设计 YugabyteDB 的查询层构建为可扩展的。目前,YugabyteDB 支持两个分布式 SQL API:Yugabyte SQL (YSQL),一个完全关系的 API,重用 PostgreSQL 的查询层,以及 Yugabyte Cloud QL (YCQL),一个半关系型 SQL,支持 Apache Cassandra QL 根的文档/索引。100% 开源 YugabyteDB 在 Apache 2.0 许可下是完全开源的。开源版本具有强大的企业功能,例如分布式备份、静态数据加密、动态 TLS 加密、更改数据捕获、只读副本等。

  • mbdavid/LiteDB 小型、快速和轻量级的 .NET NoSQL 嵌入式数据库。

  • manticoresoftware/manticoresearch 易于使用的开源快速数据库,用于搜索 |现在是 Elasticsearch 的好替代品 |即将在 ELK 中直接替代 E。它非常快,因此比替代品更具成本效益,例如 Manticore 是:对于小数据,速度比 MySQL 快 182 倍;比 Elasticsearch 快 29 倍的日志分析;对于小型数据集,速度比 Elasticsearch 快 15 倍;中型数据比 Elasticsearch 快 5 倍;比 Elasticsearch 大数据快 4 倍;在单个服务器上提取数据的最大吞吐量比 Elasticsearch 快 2 倍。凭借其现代多线程架构和高效的查询并行化功能,Manticore 能够充分利用您的所有 CPU 内核,以实现尽可能快的响应时间。强大而快速的全文搜索可与小型和大型数据集无缝协作。小型、中型和大型数据集的逐行存储。对于更大的数据集,Manticore 通过 Manticore 列式库提供列式存储支持,能够处理太大而无法放入 RAM 的数据集。系统会自动创建高性能二级索引,从而节省您的时间和精力。基于成本的查询优化器可优化搜索查询以获得最佳性能。Manticore 是 SQL 优先的,利用 SQL 作为其本机语法,并提供与 MySQL 协议的兼容性,允许您使用您喜欢的 MySQL 客户端。借助 PHP、Python、JavaScript、Typescript、Java、Elixir 和 Go 中的客户端,与 Manticore Search 的集成变得容易。Manticore 还提供了一个编程化的 HTTP JSON 协议,用于更通用的数据和模式管理。Manticore Search 内置于 C++ 中,可快速启动并使用最少的 RAM,低级优化有助于其令人印象深刻的性能。通过实时插入,可以立即访问新添加的文档。互动课程可通过互动课程获得,让学习变得轻而易举。Manticore 还拥有内置的复制和负载平衡功能,可提高可靠性。可以轻松地从 MySQL、PostgreSQL、ODBC、xml 和 csv 等来源同步数据。虽然不完全符合 ACID,但 Manticore 仍然支持事务和二进制日志以确保安全写入。使用内置工具和 SQL 命令轻松备份和恢复数据。

  • digoal/blog PostgreSQL, Greenplum 学习视频,开源,数据库,商业,思想。

  • flyway/flyway 数据库迁移变得简单。在所有实例中轻松可靠地改进数据库架构。支持的数据库:Aurora MySQL、Aurora PostgreSQL、Azure Synapse、Clickhouse、CockroachDB、DB2、Derby、Firebird、Google BigQuery、Google Cloud Spanner、H2、HSQLDB、Informix、MariaDB、MongoDB、MySQL、Oracle、Percona XtraDB Cluster、PostgreSQL、Redshift、SAP HANA(包括 SAP HANA Cloud)、SingleStoreDB、Snowflake、SQLite、SQL Server、Sybase ASE、TiDB、TimescaleDB、YugabyteDB

  • doctrine/dbal 基于 PHP 的 Doctrine 数据库抽象层,具有许多用于数据库模式自省和模式管理的功能。提供了一个面向对象的 API 和许多额外的水平功能,如数据库模式内省和操作。

  • twpayne/chezmoi 安全地跨多台不同的机器管理您的点文件。Chezmoi 可帮助您跨多台计算机管理您的个人配置文件(dotfiles,如 ~/.gitconfig )。Chezmoi 提供了许多功能,除了符号链接或使用裸 Git 存储库之外,还包括:模板(用于处理机器之间的微小差异)、密码管理器支持(用于安全地存储您的机密)、从存档导入文件(非常适合 shell 和编辑器插件)、完整文件加密(使用 GPG 或 AGE)和运行脚本(用于处理其他所有事情)。

  • syndtr/goleveldb Go 编程语言实现的 LevelDB 键/值数据库。

  • spacejam/sled 基于rust的嵌入式数据库,特征:类似于 threadsafe BTreeMap 的 API;可序列化 (ACID) 事务,用于对多个密钥空间中的多个密钥进行原子读取和写入;全原子单键操作,包括比较和交换;零拷贝读取;写入批处理;订阅键前缀的更改;多个键空间;合并运算符;对项目范围进行正向和反向迭代器;一个碰撞安全的单调 ID 生成器,每秒能够生成 7千5百万-1.25 亿个唯一 ID;zstd 压缩(使用 compression 构建功能,默认禁用);CPU 可扩展的无锁实现;闪存优化的日志结构化存储;使用现代 B 树技术(如前缀编码和后缀截断)来降低具有共享前缀的长键的存储成本。如果密钥的长度和顺序相同,那么在大多数情况下,系统可以避免存储 99%+ 的密钥数据,本质上就像一个学习索引

  • StarRocks/starrocks Linux 基金会的一个项目,是面向全分析场景的下一代亚秒级 MPP OLAP 数据库,包括多维度分析、实时分析、即席查询等。InfoWorld 的 2023 年 BOSSIE 最佳开源软件奖。旨在使数据密集型实时分析变得快速和简单。它的查询速度比其他流行的解决方案快 5 到 10 倍。StarRocks 在更新历史记录的同时,可以很好地进行实时分析。它还可以轻松地利用来自数据湖的历史数据来增强实时分析。使用 StarRocks,您可以摆脱非规范化的表,获得最佳的性能和灵活性。特征:原生矢量化SQL引擎:StarRocks采用矢量化技术,充分利用CPU的并行算力,在多维分析中实现亚秒级查询返回,比以往系统快5-10倍。标准 SQL:StarRocks 支持 ANSI SQL 语法(完全支持 TPC-H 和 TPC-DS)。它还与MySQL协议兼容。可以使用各种客户端和 BI 软件来访问 StarRocks。 智能查询优化:StarRocks 可以通过 CBO(Cost Based Optimizer,成本优化器)对复杂查询进行优化。有了更好的执行计划,数据分析效率就会大大提高。实时更新:StarRocks 更新后的模型可以根据主键进行更新/删除操作,在并发更新的同时实现高效查询。智能物化视图:StarRocks 的物化视图可在数据导入过程中自动更新,并在执行查询时自动选择。直接查询数据湖中的数据:StarRocks 支持直接访问来自 Apache Hive™、Apache Iceberg™ 和 Apache Hudi™ 的数据,无需导入。资源管理:支持 StarRocks 限制查询资源消耗,实现同一集群租户间资源的隔离和高效利用。易于维护:简单的架构使 StarRocks 易于部署、维护和扩展。StarRocks 敏捷地调整查询计划,在集群扩容或扩容时均衡资源,并在节点故障时自动恢复数据副本。

  • datafuselabs/databend 基于 Rust的开源云数据仓库,可作为 Snowflake 的经济高效的替代方案。它专注于快速查询执行和数据摄取,专为对世界上最大的数据集进行复杂分析而设计。云原生:与 AWS S3、Azure Blob、Google Cloud 等集成。高性能:Rust 构建,具有尖端、高速矢量化执行。经济高效:专为可扩展的存储和计算而设计,在提高性能的同时降低成本。AI 驱动的分析:使用 AI 功能实现高级分析。数据简化:简化数据引入,无需外部 ETL。格式灵活性:支持多种数据格式和类型,包括 JSON、CSV、Parquet、GEO 等。ACID 事务:通过原子、一致、隔离和持久的操作确保数据完整性。版本控制:为数据提供类似 Git 的版本控制,允许随时查询、克隆和还原。无模式:VARIANT 数据类型,支持无模式数据存储和灵活的数据建模。灵活索引:虚拟列、聚合索引和全文索引,可加快数据检索速度。社区驱动:加入热情好客的社区,获得用户友好的云分析体验。

  • groue/GRDB.swift SQLite数据库工具包,专注于swift应用程序开发

  • volatiletech/sqlboiler 生成针对您的数据库架构量身定制的 Go ORM。

  • vrana/adminer 单个 PHP 文件中的数据库管理

  • apache/seatunnel 新一代超高性能、分布式、海量数据集成工具,能够每天同步大量数据。它因其效率和稳定性而受到众多公司的信任。SeaTunnel 解决了常见的数据集成挑战:多样化的数据源:与数百个不断发展的数据源无缝集成。复杂同步场景:支持多种同步方式,包括实时同步、CDC同步、全量数据库同步等。资源效率:最大限度地减少计算资源和 JDBC 连接,以实现实时同步。质量和监控:提供数据质量和监控,以防止数据丢失或重复。主要特点:多样化的连接器:支持 100 多个连接器,并不断扩展。批量流集成:易于调整的连接器简化了数据集成管理。分布式快照算法:确保同步数据之间的数据一致性。多引擎支持:适用于 SeaTunnel Zeta 引擎、Flink 和 Spark。JDBC多路复用和日志解析:高效同步多表和数据库。高吞吐低时延:提供低时延的高吞吐量数据同步。实时监控:在同步过程中提供详细的见解。两种作业开发方法:支持使用 SeaTunnel Web 项目进行编码和可视化作业管理。

  • debezium/debezium 各种数据库的更改数据捕获。为变更数据捕获 (CDC) 提供了一个低延迟的数据流平台。您设置并配置 Debezium 以监视您的数据库,然后您的应用程序会为对数据库所做的每个行级更改使用事件。只有提交的更改是可见的,因此应用程序不必担心回滚的事务或更改。Debezium 提供了所有变更事件的单一模型,因此您的应用程序不必担心每种数据库管理系统的复杂性。此外,Debezium 将数据更改的历史记录记录在持久的复制日志中,因此您的应用程序可以随时停止和重新启动,并且它将能够使用它在不运行时错过的所有事件,从而确保所有事件都得到正确和完整的处理。监控数据库并在数据更改时收到通知一直很复杂。关系数据库触发器可能很有用,但特定于每个数据库,并且通常仅限于更新同一数据库中的状态(不与外部进程通信)。一些数据库提供用于监控更改的 API 或框架,但没有标准,因此每个数据库的方法都不同,需要大量知识渊博的专业代码。确保以相同的顺序查看和处理所有更改,同时将对数据库的影响降至最低,这仍然非常具有挑战性。Debezium 提供了为您完成这项工作的模块。有些模块是通用的,可以与多个数据库管理系统配合使用,但在功能和性能方面也受到一些限制。其他模块是为特定的数据库管理系统量身定制的,因此它们通常功能更强大,并且它们利用了系统的特定功能。Debezium 通过重用 Kafka 和 Kafka Connect 来实现其持久性、可靠性和容错质量。部署到 Kafka Connect 分布式、可伸缩、容错服务的每个连接器都监视单个上游数据库服务器,捕获所有更改并将其记录在一个或多个 Kafka 主题(通常每个数据库表一个主题)中。Kafka 确保所有这些数据更改事件都是复制的和完全有序的,并允许许多客户端独立使用这些相同的数据更改事件,而对上游系统的影响很小。此外,客户端可以随时停止消费,当他们重新启动时,他们会从中断的地方恢复。每个客户端都可以确定是要一次性还是至少一次性传递所有数据更改事件,并且每个数据库/表的所有数据更改事件都按照它们在上游数据库中发生的顺序传递。不需要或不需要这种级别的容错、性能、可伸缩性和可靠性的应用程序可以使用 Debezium 的嵌入式连接器引擎直接在应用程序空间内运行连接器。他们仍然希望获得相同的数据更改事件,但更愿意让连接器将它们直接发送到应用程序,而不是将它们保存在 Kafka 中。常见用例:缓存失效:一旦条目的记录发生更改或删除,就会自动使缓存中的条目失效。如果缓存在单独的进程(例如 Redis、Memcache、Infinispan 等)中运行,则可以将简单的缓存失效逻辑放入单独的进程或服务中,从而简化主应用程序。在某些情况下,可以使逻辑更复杂一些,并且可以使用更改事件中的更新数据来更新受影响的缓存条目。简化单片式应用:许多应用程序会更新数据库,然后在提交更改后执行其他工作:更新搜索索引、更新缓存、发送通知、运行业务逻辑等。这通常称为“双重写入”,因为应用程序正在写入单个事务之外的多个系统。不仅应用程序逻辑复杂且更难维护,而且如果应用程序在提交后但在执行某些/所有其他更新之前崩溃,双重写入还存在丢失数据或使各种系统不一致的风险。使用变更数据捕获,当数据提交到原始数据库中时,可以在单独的线程或单独的进程/服务中执行这些其他活动。这种方法对故障的容忍度更高,不会错过事件,可以更好地扩展,并且更容易支持升级和操作。共享数据库:当多个应用程序共享一个数据库时,一个应用程序意识到另一个应用程序提交的更改通常并非易事。一种方法是使用消息总线,尽管非事务性消息总线会遇到上述“双重写入”问题。然而,这在 Debezium 中变得非常简单:每个应用程序都可以监控数据库并对更改做出反应。数据集成:数据通常存储在多个位置,尤其是当它用于不同的目的并且形式略有不同时。保持多个系统的同步可能具有挑战性,但可以使用 Debezium 和简单的事件处理逻辑快速实现简单的 ETL 类型的解决方案。CQRS系列:命令查询责任分离 (CQRS) 体系结构模式使用一个数据模型进行更新,使用一个或多个其他数据模型进行读取。当更改记录在更新端时,这些更改将被处理并用于更新各种读取表示形式。因此,CQRS 应用程序通常更加复杂,尤其是当它们需要确保可靠和完全有序的处理时。Debezium 和 CDC 可以使这一点更易于理解:写入记录为正常,但 Debezium 将这些更改捕获在持久的、完全有序的流中,这些流由异步更新只读视图的服务使用。写入端表可以表示面向域的实体,或者当 CQRS 与事件溯配对时,写入端表是命令的仅追加事件日志。

  • kysely-org/kysely 类型安全且自动完成友好的 TypeScript SQL 查询构建器。灵感来自Knex.js。主要为Node.js开发,但也可以在所有其他 JavaScript 环境(如 Deno、Bun、Cloudflare Workers 和 Web 浏览器)上运行。

  • VictoriaMetrics/VictoriaMetrics 快速、经济高效且可扩展的监控解决方案和时间序列数据库。具有以下突出功能:它可以用作 Prometheus 的长期存储。它可以用作 Grafana 中 Prometheus 的直接替代品,支持 Prometheus 查询 API。它可以用作 Grafana 中 Graphite 的直接替代品,因为它支持 Graphite API,与 Graphite 相比,VictoriaMetrics 可将基础设施成本降低 10 倍以上。它易于设置和操作:VictoriaMetrics 由一个没有外部依赖项的小型可执行文件组成。所有配置都是通过具有合理默认值的显式命令行标志完成的。所有数据都存储在 -storageDataPath 命令行标志指定的单个目录中。可以使用 vmbackup/vmrestore 工具轻松快速地从即时快照进行备份。它实现了类似 PromQL 的查询语言 - MetricsQL,它在 PromQL 之上提供了改进的功能。它提供全局查询视图。多个 Prometheus 实例或任何其他数据源可能会将数据摄取到 VictoriaMetrics 中。稍后,可以通过单个查询查询此数据。它为数据引入和数据查询提供了高性能以及良好的垂直和水平可伸缩性。它的性能比 InfluxDB 和 TimescaleDB 高出 20 倍。在处理数百万个独特的时间序列(又名高基数)时,它使用的 RAM 比 InfluxDB 少 10 倍,比 Prometheus、Thanos 或 Cortex 少 7 倍。它针对具有高流失率的时间序列进行了优化。它提供了高数据压缩率:根据这些基准测试,与TimescaleDB相比,在有限的存储中可以存储多达70倍的数据点,与Prometheus、Thanos或Cortex相比,所需的存储空间减少了7倍。根据这个基准。它针对具有高延迟 IO 和低 IOPS 的存储(AWS、Google Cloud、Microsoft Azure 等中的 HDD 和网络存储)进行了优化。请参阅这些基准测试中的磁盘 IO 图。单节点 VictoriaMetrics 可以替代使用 Thanos、M3DB、Cortex、InfluxDB 或 TimescaleDB 等竞争解决方案构建的中等规模的集群。查看垂直可扩展性基准测试,将 Thanos 与 VictoriaMetrics 集群进行比较,以及 PromCon 2019 上的远程写入存储大战演讲。由于存储架构,它可以保护存储在不干净的关闭(即 OOM、硬件重置或 kill -9 )时免受数据损坏。它支持通过以下协议进行指标抓取、摄取和回填:从 Prometheus 导出器抓取的指标、Prometheus 远程写入 API、Prometheus展览形式、基于 HTTP TCP 和 UDP 的 InfluxDB 线路协议、带有标签的Graphite plaintext协议、Statsd 明文协议、OpenTSDB消息、HTTP OpenTSDB /api/put 请求、JSON 行格式、任意 CSV 数据、本机二进制格式、DataDog 代理或 DogStatsD、NewRelic 基础结构代理、OpenTelemetry 指标格式。它支持强大的流聚合,可以用作 statsd 的替代方案。它支持指标重新标记。它可以通过系列限制器处理高基数问题和高流失率问题。它非常适合处理来自 APM、Kubernetes、物联网传感器、联网汽车、工业遥测、财务数据和各种企业工作负载的大量时间序列数据。它有一个开源集群版本。它可以将数据存储在基于 NFS 的存储上,例如 Amazon EFS 和 Google Filestore。

  • sabledb-io/sabledb 键值NoSQL数据库, RocksDb 它作为其存储引擎,并与Redis协议兼容。与 Redis 相比,它旨在降低内存成本并增加容量。 SableDb 功能包括通过任何 Redis 客户端进行与 Redis 兼容的访问、高达 64K 的数据库支持、使用事务日志尾随的异步复制和 TLS 连接支持。

  • ploomber/ploomber 构建数据管道的最快方法。使用您喜欢的编辑器(Jupyter、VSCode、PyCharm)以交互方式进行开发和部署,而无需更改代码(Kubernetes、Airflow、AWS Batch 和 SLURM)。你有旧版笔记本吗?使用单个命令将它们重构为模块化管道。

  • VertaAI/modeldb 用于机器学习模型版本控制、元数据和实验管理的开源系统。开源系统,用于对机器学习模型(包括其成分代码、数据、配置和环境)进行版本控制,并在整个模型生命周期中跟踪 ML 元数据。

  • lux-org/lux Python 库,通过自动化可视化和数据分析过程来促进快速简便的数据探索。通过简单地在 Jupyter 笔记本中打印出数据帧,Lux 推荐一组可视化效果,突出显示数据集中有趣的趋势和模式。可视化通过交互式小部件显示,使用户能够快速浏览大量可视化并理解其数据。

  • tobymao/sqlglot Python SQL 解析器和转译器,无依赖性的 SQL 解析器、转译器、优化器和引擎。它可用于格式化 SQL 或在 21 种不同的方言之间进行翻译,例如 DuckDB、Presto / Trino、Spark / Databricks、Snowflake 和 BigQuery。它旨在读取各种 SQL 输入,并在目标方言中输出语法和语义正确的 SQL。

云&虚拟化

  • istio/istio 开源服务网格,透明地分层到现有的分布式应用程序上。Istio 的强大功能提供了一种统一且更高效的方式来保护、连接和监控服务。Istio 是负载均衡、服务到服务身份验证和监控的途径,只需很少或无需更改服务代码。

  • apolloconfig/apollo 可靠的配置管理系统,适用于微服务配置管理场景。

  • jesseduffield/lazydocker docker 简单终端 UI

  • KubeOperator/KubeOperator KubeOperator

  • rancher/k3s Lightweight Kubernetes. 5 less than k8s. k3s.io

  • kubernetes/minikube 在 macOS、Linux 和 Windows 上实现了本地 Kubernetes 集群。minikube 的主要目标是成为本地 Kubernetes 应用程序开发的最佳工具,并支持所有适合的 Kubernetes 功能。

  • rootsongjc/kubernetes-handbook Kubernetes中文指南/云原生应用架构实战手册。Kubernetes 是 Google 于 2014 年 6 月基于其内部使用的 Borg 系统开源出来的容器编排调度引擎,Google 将其作为初始和核心项目贡献给 CNCF(云原生计算基金会),近年来逐渐发展出了云原生生态。Kubernetes 的目标不仅仅是一个编排系统,而是提供一个规范用以描述集群的架构,定义服务的最终状态,使系统自动地达到和维持该状态。Kubernetes 作为云原生应用的基石,相当于一个云原生操作系统,其重要性不言而喻。云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括 容器、服务网格、微服务、不可变基础设施 和 声明式 API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。——CNCF(云原生计算基金会)。Kubernetes Handbook 项目始于 2016 年底,开源于 2017 年 3 月,作为第一本系统介绍 Kubernetes 的中文电子书,其后经过不断完善。写作本书的过程中,笔者记录了从零开始学习和使用 Kubernetes 的历程,着重于经验总结和资料分享,亦有 Kubernetes 核心概念解析,希望能够帮助大家少走弯路,为大家介绍 Kubernetes 周边生态,如微服务、DevOps、大数据应用、服务网格、云原生应用、Serverless 等领域。

  • docker-slim/docker-slim 请勿更改Docker容器映像中的任何内容并将其最小化30倍

  • kubernetes-sigs/kustomize kustomize 允许您自定义原始的、无模板的 YAML 文件以用于多种用途,使原始 YAML 保持不变并按原样使用。kustomize 以 Kubernetes 为目标;它理解并可以修补 kubernetes 样式的 API 对象。这就像 make ,因为它所做的是在文件中声明的,就像 sed 一样,因为它发出编辑过的文本。

  • silenceshell/docker_mirror 发现国内加速的docker源。

  • AliyunContainerService/GPUshare-scheduler-extender GPU共享调度程序扩展器

  • yeasy/docker_practice 真正的DevOps实践,学习和理解Docker&Container技术

  • kubescape/kubescape 开源的 Kubernetes 安全平台,适用于 IDE、CI/CD 管道和集群。它包括风险分析、安全性、合规性和错误配置扫描,为 Kubernetes 用户和管理员节省宝贵的时间、精力和资源。包括漏洞和错误配置扫描。您可以通过 CLI 运行扫描,或添加 Kubescape Helm 图表,该图表可以深入了解集群中正在发生的事情。Kubescape 包括错误配置和漏洞扫描,以及风险分析和安全合规指标。所有结果都显示在上下文中,用户会根据扫描结果获得许多有关操作的提示。它面向 DevSecOps 从业者或平台工程师,提供易于使用的 CLI 界面、灵活的输出格式和自动扫描功能。

  • harness/drone 基于集装箱技术的持续交付系统。Drone 使用一个简单的 YAML 构建文件来定义和执行 Docker 容器内的构建管道。

  • portainer/portainer 让 Docker 和 Kubernetes 管理变得简单。

  • kubesphere/kubesphere 专为 Kubernetes 多云、数据中心和边缘管理⎈ desktop_computer cloud 量身定制的容器平台

  • hashicorp/consul 分布式、高度可用且具有数据中心感知能力的解决方案,用于跨动态分布式基础架构连接和配置应用程序。

  • foxlet/macOS-Simple-KVM 用于在 QEMU 中设置快速 macOS VM 的工具,由 KVM 加速。

  • utmapp/UTM 适用于 iOS 和 macOS 的虚拟机

  • kholia/OSX-KVM 在 QEMU/KVM 上运行 macOS。现在有了OpenCore + Big Sur + Monterey + Ventura的支持

  • ima-vm/lima 在 macOS 上运行Linux 虚拟机容器

  • sickcodes/Docker-OSX 在 Docker 中运行 macOS VM!在 Docker 中运行在本机 OSX-KVM 附近!X11 转发!用于 OS X 安全研究的 CI/CD

  • rancher/rancher 完整的容器管理平台。开源容器管理平台,专为在生产中部署容器的组织而构建。Rancher 使在任何地方运行 Kubernetes 变得容易,满足 IT 要求,并为 DevOps 团队提供支持。

  • opentofu/opentofu 允许您以声明方式管理您的云基础架构。一个 OSS 工具,用于安全高效地构建、更改和版本控制基础设施。OpenTofu可以管理现有和流行的服务提供商以及定制的内部解决方案。

  • lensapp/lens 世界运行 Kubernetes 的方式,核心是一个库,由 Electron 和 React 提供支持。与通用的 Electron + React 框架/样板不同,它非常固执己见地创建类似 Lens Desktop 的应用程序,并支持 Lens Extensions。

  • argoproj/argo-cd Kubernetes 的声明式持续部署

  • kubeshark/kubeshark Kubernetes 的 API 流量分析器提供实时 K8s 协议级可见性,捕获和监控进出容器、Pod、节点和集群的所有流量和有效负载。受 Wireshark 的启发,专为 Kubernetes 构建

  • moby/moby 容器生态系统的一个协作项目,用于组装基于容器的系统, Docker 创建的开源项目,用于启用和加速软件容器化。

  • containrrr/watchtower 自动执行 Docker 容器基础映像更新的过程。

  • docker/awesome-compose 这些示例提供了如何使用 Compose 文件集成不同服务以及使用 Docker Compose 管理其部署的起点。

  • wagoodman/dive 用于浏览 docker 映像中每个层的工具

  • louislam/dockge 花哨易用且灵敏的自托管 docker compose面向堆栈的管理器

  • bcicen/ctop 容器运行情况监控界面

  • hadolint/hadolint 更智能的 Dockerfile linter,可帮助您构建最佳实践 Docker 映像。linter 将 Dockerfile 解析为 AST,并在 AST 之上执行规则。它站在 ShellCheck 的肩膀上,在指令中 RUN 对 Bash 代码进行 lint 检查。

  • docker/compose 使用 Docker 定义和运行多容器应用程序。撰写文件用于定义如何配置组成应用程序的一个或多个容器。拥有撰写文件后,可以使用单个命令创建和启动应用程序: docker compose up 。

  • earthly/earthly 超级简单的构建框架,具有快速、可重复的构建和即时熟悉的语法——就像 Dockerfile 和 Makefile 生了一个孩子一样。

  • veggiemonk/awesome-docker Docker 资源和项目的精选列表

  • bottlerocket-os/bottlerocket 专为托管容器而设计的操作系统,基于 Linux 的免费开源操作系统,用于托管容器。专注于安全性和可维护性,为基于容器的工作负载提供可靠、一致和安全的平台。

  • linuxkit/linuxkit 用于为容器构建安全、可移植和精益操作系统的工具包。一个用于构建自定义最小、不可变的 Linux 发行版的工具包。

  • argoproj/argo-workflows 开源容器原生工作流引擎,用于在 Kubernetes 上编排并行作业。Argo Workflows是作为Kubernetes CRD(自定义资源定义)实现的。

  • derailed/k9s Kubernetes CLI 以时尚的方式管理您的集群

  • eip-work/kuboard-press 基于 Kubernetes 的微服务管理界面。同时提供 Kubernetes 免费中文教程,入门教程,最新版本的 Kubernetes v1.23.4 安装手册,(k8s install) 在线答疑,持续更新。

  • qemu/qemu QEMU是一个通用的开源机器和用户空间模拟器和虚拟器。QEMU 能够在软件中模拟完整的机器,而无需硬件虚拟化支持。通过使用动态平移,它实现了非常好的性能。QEMU 还可以与 Xen 和 KVM 虚拟机管理程序集成,以提供模拟硬件,同时允许虚拟机管理程序管理 CPU。借助虚拟机管理程序支持,QEMU 可以实现接近本机的 CPU 性能。当QEMU直接模拟CPU时,它能够在另一台机器(例如x86_64 PC板)上运行为一台机器(例如ARMv7板)制作的操作系统。

  • kubernetes-sigs/kubespray 部署生产就绪的 Kubernetes 集群

  • ramitsurana/awesome-kubernetes 精选的 Kubernetes 源代码列表

  • spacedriveapp/spacedrive 开源的跨平台文件浏览器,由用 Rust 编写的虚拟分布式文件系统提供支持。

  • firecracker-microvm/firecracker 实现容器和函数工作负载的安全、多租户、最小开销的执行。一种开源虚拟化技术,专为创建和管理安全的多租户容器和基于函数的服务而构建,这些服务提供无服务器操作模型。Firecracker 在称为 microVM 的轻量级虚拟机中运行工作负载,这些虚拟机将硬件虚拟化技术提供的安全性和隔离属性与容器的速度和灵活性相结合。

  • fission/fission 适用于 Kubernetes 的快速简单的无服务器函数

  • fnproject/fn 容器原生、与云无关的无服务器平台。

  • kelseyhightower/kubernetes-the-hard-way 在 Google Cloud Platform 上艰难地引导 Kubernetes。没有脚本。

  • labring/sealos 生产就绪的 K8s 发行版,为公有云和私有云提供一站式解决方案。

  • cert-manager/cert-manager cert-manager 将证书和证书颁发者添加为 Kubernetes 集群中的资源类型,并简化了获取、续订和使用这些证书的过程。它支持从各种来源颁发证书,包括 Let's Encrypt (ACME)、HashiCorp Vault 和 Venafi TPP/TLS Protect Cloud,以及本地集群内颁发。cert-manager 还确保证书保持有效和最新,尝试在到期前的适当时间续订证书,以降低中断风险并消除工作。

  • abiosoft/colima macOS(和 Linux)上的容器运行时,只需最少的设置

  • alibaba/Sentinel 强大的流量控制组件,支持微服务的可靠性、弹性和监控。(面向云原生微服务的高可用流控防护组件)

  • alibaba/nacos 一个易于使用的动态服务发现、配置和服务管理平台,用于构建云原生应用程序。

  • go-kit/kit 编程工具包,用于在 Go 中构建微服务(或优雅的单体)。我们解决分布式系统和应用程序架构中的常见问题,因此您可以专注于交付业务价值。

  • dapr/dapr 可移植的、事件驱动的运行时,用于跨云和边缘构建分布式应用程序。

  • google/gvisor 用 Go 编写的应用程序内核,它实现了 Linux 系统表面的很大一部分。它包括一个名为 Open Container Initiative (OCI) 的运行时 runsc ,该运行时在应用程序和主机内核之间提供隔离边界。 runsc 运行时与 Docker 和 Kubernetes 集成,使运行沙盒容器变得简单。

  • hashicorp/nomad 易于使用、灵活且高性能的工作负载编排器,可以部署微服务、批处理、容器化和非容器化应用程序的组合。Nomad 易于操作和扩展,并具有原生 Consul 和 Vault 集成

  • aws/aws-cdk 用于在代码中定义云基础设施的框架。提供了高级的面向对象的抽象,以使用现代编程语言的强大功能来强制定义 AWS 资源。使用 CDK 的基础设施构造库,可以将 AWS 最佳实践封装到基础设施定义中并共享,而无需担心样板逻辑。

  • gitpod-io/gitpod 开源 Kubernetes 应用程序,适用于可直接编写代码的云开发环境,可在几秒钟内在云中为每个任务启动全新的自动化开发环境。它使您能够将开发环境描述为代码,并直接从浏览器或桌面 IDE 启动即时、远程和云开发环境。

  • infracost/infracost 显示 Terraform 的云成本估算。它允许工程师在进行更改之前查看成本明细并了解成本,无论是在终端、VS Code 还是拉取请求中。

  • firebase/functions-samples 示例应用集合,展示了使用 Cloud Functions for Firebase 的热门用例。Cloud Functions 是一个托管、私有且可扩展的 Node.js 环境,可在其中运行 JS 或 Py 代码。Cloud Functions for Firebase 集成了 Firebase 平台,让您能够编写代码来响应事件并调用其他 Firebase 功能公开的功能。

  • google/go-cloud Go 云开发工具包 (Go CDK) 允许 Go 应用程序开发人员在云提供商的任意组合上无缝部署云应用程序。它通过为存储和数据库等常见用途提供稳定、惯用的接口来实现这一点。

  • dotnet/orleans 跨平台框架,用于构建可靠、可扩展的分布式应用程序。以 .NET 的开发人员生产力为基础,并将其引入分布式应用程序(如云服务)的世界。Orleans 从单个本地服务器扩展到云中全球分布的高可用性应用程序。

  • helm/helm 用于管理Kubernetes的工具。预配置的 Kubernetes 资源包。

  • apache/openwhisk 用于构建云应用程序的无服务器函数平台。OpenWhisk 提供了一个丰富的编程模型,用于从函数创建无服务器 API、将函数组合到无服务器工作流中,以及使用规则和触发器将事件连接到函数。OpenWhisk 也可以安装在 Kubernetes 集群上。您可以使用从公有云提供商(例如 AKS、EKS、IKS、GKE)预配的托管 Kubernetes 集群,也可以使用您自己管理的集群。此外,对于本地开发,OpenWhisk 与 Minikube 和 Kubernetes for Mac 兼容,使用 Docker 18.06(或更高版本)中内置的支持。

安全与渗透

扫描器、资产收集、子域名

  • nmap/nmap 网络映射器,网络端口扫描器。

  • zyylhn/zscan 开源的内网端口扫描器、爆破工具和其他实用工具的集合体可以称为工具包。以主机和内网网段发现和端口扫描为基础,可以对mysql、mssql、redis、mongo、postgres、ftp、ssh、ldap、rdp、smb等服务进行爆破,还有其他netbios、smb、oxid、socks server(扫描内网中的代理服务器)、snmp、ms17010等扫描功能,支持poc(xray v1格式)单个和批量检测。

  • rverton/webanalyze Wappalyzer 的端口(揭示网站上使用的技术)以自动进行大规模扫描。

  • a1phaboy/FastjsonScan Fastjson扫描器,可识别版本、依赖库、autoType状态等。

  • inbug-team/SweetBabyScan 支持弱口令爆破的内网资产探测漏洞扫描工具,集成了Xray与Nuclei的Poc

  • b0bac/ApolloScanner 自动化巡航扫描框架(可用于红队打点评估).资产收集 github敏感信息收集 破解(基于exp的暴力破解) 漏洞扫描模块

  • Adminisme/ServerScan 使用Golang开发的高并发网络扫描、服务探测工具。

  • i11us0ry/goon 集合了fscan和kscan等优秀工具功能的扫描爆破工具。功能包含:ip探活、port扫描、web指纹扫描、title扫描、压缩文件扫描、fofa获取、ms17010、mssql、mysql、postgres、redis、ssh、smb、rdp、telnet、tomcat等爆破以及如netbios探测等功能。

  • jwt1399/Sec-Tools 基于Python-Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。

  • lcvvvv/kscan 纯go的全方位扫描器,具备端口扫描、协议检测、指纹识别,暴力破解等功能。支持协议1200+,协议指纹1w+,应用指纹2w+,暴力破解协议10余种。

  • kelvinBen/AppInfoScanner 一款适用于以HW行动/红队/渗透测试团队为场景的移动端(Android、iOS、WEB、H5、静态网站)信息收集扫描工具,可以帮助渗透测试工程师、攻击队成员、红队成员快速收集到移动端或者静态WEB站点中关键的资产信息并提供基本的信息输出,如:Title、Domain、CDN、指纹信息、状态信息等。

  • airson/Yasso 强大的内网渗透辅助工具集-让Yasso像风一样 支持rdp,ssh,redis,postgres,mongodb,mssql,mysql,winrm等服务爆破,快速的端口扫描,强大的web指纹识别,各种内置服务的一键利用(包括ssh完全交互式登陆,mssql提权,redis一键利用,mysql数据库查询,winrm横向利用,多种服务利用支持socks5代理执行)

  • fullhunt/log4j-scan 用于查找 log4j RCE CVE-2021-44228 的的扫描程序

  • H4ckForJob/dirmap 一个高级web目录、文件扫描工具,功能将会强于DirBuster、Dirsearch、cansina、御剑。

  • chaitin/xray 完善的安全评估工具,支持常见 web 安全问题扫描和自定义 poc

  • wgpsec/DBJ 大宝剑-边界资产梳理工具(红队、蓝队、企业组织架构、子域名、Web资产梳理、Web指纹识别、ICON_Hash资产匹配

  • sullo/nikto 网络服务器扫描仪

  • zhzyker/vulmap web 漏洞扫描和验证工具, 可对 webapps 进行漏洞扫描, 并且具备漏洞验证功能

  • Lissy93/web-check 用于分析任何网站的多合一 OSINT 工具

  • maurosoria/dirsearch 暴力破解网络服务器的目录和文件,网络路径扫描器

  • wpscanteam/wpscan WordPress 安全扫描器。为安全专家和博客维护者编写,用于测试其 WordPress 网站的安全性。

  • projectdiscovery/nuclei 基于简单 YAML 的 DSL 的快速且可定制的漏洞扫描器

  • foryujian/yjdirscan 御剑目录扫描专业版,简单实用的命令行网站目录扫描工具,支持爬虫、fuzz、自定义字典、字典变量、UA修改、假404过滤、扫描控速等功能。

  • robertdavidgraham/masscan TCP 端口扫描器,异步发送 SYN 数据包,在 5 分钟内扫描整个互联网,从单台机器每秒传输 1000 万个数据包。

  • 78778443/QingScan 漏洞扫描器粘合剂,添加目标后30款工具自动调用;支持 web、系统、目录、主机扫描、子域名收集、主机发现、组件识别、URL爬虫、XRAY扫描、AWVS自动扫描、POC批量验证,SSH批量测试、vulmap。

  • test502git/awvs14-scan 针对 Acunetix AWVS扫描器开发的批量扫描脚本,支持log4j漏洞、SpringShell、SQL注入、XSS、弱口令等专项,支持联动xray、burp、w13scan等被动批量

  • We5ter/Scanners-Box 安全行业从业者自研开源扫描器合辑

  • projectdiscovery/naabu 用 go 编写的快速端口扫描器,专注于可靠性和简单性。旨在与其他工具结合使用,以在错误赏金和渗透测试中发现攻击面

  • projectdiscovery/nuclei 基于简单 YAML 的 DSL 的快速且可定制的漏洞扫描器。

  • AlphabugX/httpscan 用于C段http资产快速扫描,目前只支持80端口。(多线程)

  • SiJiDo/H 一款强大的资产收集管理平台 主要用于src信息收集和红蓝对抗资产收集用,采用python celery分布式实现多节点部署,提高效率

  • EdgeSecurityTeam/Ehole 对资产中重点系统指纹识别的工具,在红队作战中,信息收集是必不可少的环节,如何才能从大量的资产中提取有用的系统(如OA、VPN、Weblogic...)。EHole旨在帮助红队人员在信息收集期间能够快速从C段、大量杂乱的资产中精准定位到易被攻击的系统,从而实施进一步攻击。

  • knownsec/Kunyu 让企业资产收集更高效,使更多安全相关从业者了解、使用网络空间测绘技术。

  • OWASP/Amass 使用开源信息收集和主动侦察技术执行攻击面的网络和资产发现。

  • hakluke/hakrawler 简单快速的网络爬虫,发现网络应用程序中的端点和资产

  • 0x727/ShuiZe_0x727 水泽-信息收集自动化工具 只需要输入根域名即可全方位收集相关资产,并检测漏洞。

  • punk-security/dnsReaper 子域接管工具,每秒扫描大约 50 个子域,使用超过 50 个接管签名测试每个子域。在10 秒内扫描其整个 DNS 资产。

  • zhzyker/dismap 快速识别 Web 指纹信息,定位资产类型。辅助红队快速定位目标资产信息,辅助蓝队发现疑似脆弱点

  • s7ckTeam/Glass 针对资产列表的快速指纹识别工具,通过调用Fofa ZoomEye Shodan 360等api接口快速查询资产信息并识别重点资产的指纹,也可针对IP/IP段或资产列表进行快速的指纹识别。

  • wappalyzer/wappalyzer 识别网站上的技术。例如 CMS、Web 框架、电子商务平台、JavaScript 库、分析工具等。

  • 0x727/ObserverWard 命令行Web指纹识别工具

  • urbanadventurer/WhatWeb 识别网站,包括内容管理系统 (CMS)、博客平台、统计/分析包、JavaScript 库、网络服务器和嵌入式设备。WhatWeb 有超过 1800 个插件,每个插件都能识别不同的东西。WhatWeb 还可以识别版本号、电子邮件地址、帐户 ID、Web 框架模块、SQL 错误等。

  • yogeshojha/rengine 用于 Web 应用程序的自动化侦察框架,专注于通过引擎、侦察数据关联和组织、持续监控、简单而直观的用户界面以及简单而直观的用户界面。reNgine 使渗透测试人员可以轻松地收集侦察信息

  • l3m0n/whatweb WEB指纹识别 - gowap基础上修改的golang版本

  • riramar/Web-Attack-Cheat-Sheet Web 攻击备忘单

  • TideSec/TideFinger TideFinger——指纹识别小工具,汲取整合了多个web指纹库,结合了多种指纹检测方法,让指纹检测更快捷、准确。

  • hktalent/scan4all vuls 扫描:1.5W+PoCs; 23种应用密码破解; 7K+网络指纹; 146种协议和9W+条规则端口扫描; Fuzz,硬件,很棒的 BugBounty(͡° ͜ʖ ͡°)...

  • m3n0sd0n4ld/GooFuzz 使用OSINT方法执行模糊测试的工具,设法枚举目录,文件,子域或参数,同时利用Google Dorking,而无需在目标上留下证据。

  • guchangan1/All-Defense-Tool 全网优秀的攻防武器工具项目,包含自动化利用,子域名、目录扫描、端口扫描等信息收集工具,各大中间件、cms漏洞利用工具,爆破工具、内网横向及免杀、社工钓鱼以及应急响应等资料。

  • KingOfBugbounty/KingOfBugBountyTips 分享一些知名漏洞猎人的技巧。使用侦察方法,我们能够找到已经可利用的子域、api 和令牌。

  • devanshbatham/ParamSpider 从 Web 档案的黑暗角落挖掘参数。 从输入域的网络档案中查找参数。也从子域中查找参数。支持排除具有特定扩展名的 url。以干净整洁的方式保存输出结果。它从网络档案中挖掘参数(不与目标主机交互)

  • m4ll0k/takeover 子域接管漏洞扫描程序

  • 3nock/sub3suite 用于子域枚举、OSINT 信息收集和攻击面映射的研究级工具套件。支持对具有许多可用功能和工具的各种目标类型进行手动和自动分析。

  • d3mondev/puredns 快速的域解析器和子域暴力破解工具,可以准确过滤掉通配符子域和 DNS 中毒条目。

  • FeeiCN/ESD Enumeration sub domains(枚举子域名)

  • Threezh1/JSFinder 快速在网站的js文件中提取URL,子域名的工具。

  • shmilylty/OneForAll 功能强大的子域收集工具

  • tomnomnom/assetfinder 查找与给定域相关的域和子域

  • projectdiscovery/shuffledns 使用主动暴力破解枚举有效的子域,并通过通配符处理和简单的输入输出支持来解析子域。

  • projectdiscovery/subfinder 子域发现工具,可以为网站发现有效的子域。设计为被动框架,可用于漏洞赏金和安全渗透测试。

  • knownsec/ksubdomain 无状态子域名爆破工具

  • aboul3la/Sublist3r 用于渗透测试人员的快速子域枚举工具

  • lijiejie/subDomainsBrute 高并发的DNS暴力枚举工具。

  • edoardottt/scilla 信息收集工具 - DNS / 子域 / 端口 / 目录枚举

  • graynjo/Heimdallr 完全被动监听的谷歌插件,用于高危指纹识别、蜜罐特征告警和拦截、机器特征对抗

  • StarCrossPortal/scalpel 命令行漏洞扫描工具,支持深度参数注入,拥有一个强大的数据解析和变异算法,可以将常见的数据格式(json, xml, form等)解析为树结构,然后根据poc中的规则,对树进行变异,包括对叶子节点和树结构 的变异。变异完成之后,将树结构还原为原始的数据格式。

  • dark-kingA/superSearchPlus 谷歌插件版本- 聚合型信息收集插件,支持综合查询,资产测绘查询,信息收集 js敏感信息提取 注释资源扫描 目录扫描 整合了目前常见的资产测绘平台 同时支持数据导出

  • lukebaggett/dnscat2-powershell dnscat2 的 Powershell 客户端,一种加密的 DNS 命令和控制工具。

  • blark/aiodnsbrute 异步 DNS 暴力破解

  • pablosnt/rekono 自动执行结合多种黑客工具的完整渗透测试流程

  • Kento-Sec/AsamF 集成Fofa、Quake、Hunter、Shodan、Zoomeye、Chinaz、0.zone及爱企查的一站式企业信息资产收集、网络资产测绘工具。

  • jwt1399/Sec-Tools 基于Python-Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。

  • liamg/scout 轻量级URL模糊器和蜘蛛:发现Web服务器的未公开文件,目录和VHOST。

  • D3Ext/AORT 用于漏洞赏金的多合一侦察工具

  • Sma11New/webEye 快速批量检测IP上指定端口的Web站点存活信息,获取其Title,红队信息搜集、蓝队资产探测梳理。

  • ghtwf01/excavator 基于mitmproxy的插件式被动安全漏洞扫描器

  • DedSecInside/TorBot 暗网OSINT(公开资源情报, Open-source intelligence)

  • trufflesecurity/trufflehog 查找泄露的凭据。

  • RustScan/RustScan 现代端口扫描仪(rust)

  • qeeqbox/social-analyzer API、CLI 和 Web 应用程序,用于在 1000 个社交媒体\网站中分析和查找个人的个人资料

  • fastfire/deepdarkCTI 从深网和暗网收集网络威胁情报来源

  • CISOfy/lynis 适用于Linux,macOS和基于UNIX的系统的安全审计工具.协助进行一致性测试(HIPAA/ISO27001/PCI DSS)和系统强化。无代理,安装可选。它执行深入的安全扫描并在系统本身上运行。主要目标是测试安全防御,并为进一步强化系统提供提示。它还将扫描常规系统信息、易受攻击的软件包和可能的配置问题。系统管理员和审计人员通常使用 Lynis 来评估其系统的安全防御。除了“蓝队”之外,如今渗透测试人员的工具包中也有 Lynis。

  • future-architect/vuls 适用于 Linux、FreeBSD、容器、WordPress、编程语言库、网络设备的无代理漏洞扫描程序

  • prowler-cloud/prowler 适用于 AWS、Azure 和 GCP 的开源安全工具,用于执行云安全最佳实践评估、审计、事件响应、合规性、持续监控、强化和取证准备。包括 CIS、NIST 800、NIST CSF、CISA、FedRAMP、PCI-DSS、GDPR、HIPAA、FFIEC、SOC2、GXP、Well-Architected Security、ENS 等。

  • zaproxy/zaproxy Zed 攻击代理 (ZAP) 是世界上最受欢迎的免费安全工具之一,由专门的国际志愿者团队积极维护。它可以帮助您在开发和测试应用程序时自动查找 Web 应用程序中的安全漏洞。对于有经验的渗透测试人员来说,它也是一个很好的工具,可以用于手动安全测试。

  • maurosoria/dirsearch 目录搜索 - Web 路径发现,高级网络路径暴力破解程序

  • yogeshojha/rengine 用于 Web 应用程序的自动化侦察框架,专注于通过引擎、侦察数据关联和组织、持续监控、数据库支持以及简单而直观的用户界面进行高度可配置的简化侦察过程。reNgine 使渗透测试人员可以轻松地收集侦察信息

  • iovisor/bcc 用于基于 BPF 的 Linux IO 分析、网络、监控等的工具

  • zhzyker/vulmap web 漏洞扫描和验证工具, 可对 webapps 进行漏洞扫描, 并且具备漏洞验证功能

  • Datalux/Osintgram Instagram 上的 OSINT 工具。它提供了一个交互式外壳,可以通过其昵称对任何用户的Instagram帐户进行分析

  • sherlock-project/sherlock 在社交网络上按用户名寻找社交媒体帐户

  • bettercap/bettercap 用于 802.11、BLE、IPv4 和 IPv6 网络侦察和 MITM 攻击的瑞士军刀。

  • samratashok/nishang 用于红队,渗透测试和攻击性安全性的攻击性PowerShell.

  • aress31/burpgpt Burp Suite 扩展,集成了 OpenAI 的 GPT,可执行额外的被动扫描以发现高度定制的漏洞,并支持运行任何类型的基于流量的分析。

  • chaitin/xray 一款完善的安全评估工具,支持常见 web 安全问题扫描和自定义 poc | 使用之前务必先阅读文档

  • laramies/theHarvester 简单易用但功能强大的工具,设计用于红色的侦察阶段团队评估或渗透测试。它执行开源情报 (OSINT) 收集以帮助确定域的外部威胁态势。

  • soxoj/maigret 通过用户名从数千个站点收集有关某人的档案

web shell、shellcode

  • web shell 使用PHP、Python、Ruby 等编程语言编写的恶意代码,可以上传到网站以访问存储在该网站上的文件。一旦它被上传,黑客可以利用它来编辑,删除或下载网站上的任何文件,或上传他们自己想要的文件或程式码。

  • shellcode是一段用于利用软件漏洞而执行的代码,shellcode为16进制之机械码,以其经常让攻击者获得shell而得名。shellcode常常使用机器语言编写,由于现代电脑系统基本上启用NX位元保护使得机械码无法直接执行,可透过返回导向编程编写shellcode。

  • WangYihang/Platypus 用 go 编写的现代多反向 shell 会话管理器

  • Idov31/FunctionStomping shellcode 注入技术。以 C++ 头文件、独立的 Rust 程序或库的形式给出。

  • czz1233/GBByPass 冰蝎 哥斯拉 WebShell bypass

  • Tas9er/ByPassBehinder4J 冰蝎Java WebShell自动化免杀生成

  • LandGrey/webshell-detect-bypass 绕过专业工具检测的Webshell研究文章和免杀的Webshell

  • HZzz2/go-shellcode-loader GO免杀shellcode加载器混淆AES加密

  • epinna/weevely3 为后期开发目的而设计的 web shell,可以在运行时通过网络进行扩展。将它上传到目标服务器以获取对其的远程 shell 访问。它有 30 多个模块来协助管理任务、维护访问、提供态势感知、提升权限以及传播到目标网络。

  • asta-mouse/Sherlock PowerShell 脚本,快速查找权限提升漏洞的缺失补丁。

  • FunnyWolf/pystinger 使用webshell进行流量转发的出网工具

  • Cracked5pider/ShellcodeTemplate Win x64/x86 的易于修改的 shellcode 模板

  • icyguider/Nimcrypt2 Nim 编写的 .NET、PE 和原始 Shellcode 打包程序/加载程序

  • hosch3n/msmap 一个Memory WebShell生成器。

  • tihanyin/PSSW100AVB 具有 100% AV 绕过功能的有用 Powershell 脚本。

  • bdamele/icmpsh 简单的反向 ICMP shell,win32 从站和一个 C、Perl 或 Python 中的 POSIX 兼容主站。它不需要管理权限即可在目标机器上运行。

  • JoelGMSec/PyShell 多平台 Python WebShell。此工具可帮助您在 Web 服务器上获得类似 shell 的界面以进行远程访问。

  • WhaleFell/CameraHack 批量扫描破解海康威视、大华等摄像头的常见漏洞。

  • LoRexxar/Kunlun-M 完全开源的静态白盒扫描工具,支持PHP、JavaScript的语义扫描,基础安全、组件安全扫描,Chrome Ext\Solidity的基础扫描。

  • wikiZ/ServerlessScan 云函数扫描器实现代码

  • hannob/snallygaster 用于扫描 HTTP 服务器上的机密文件的工具

  • michelin/ChopChop 帮助开发人员扫描端点并识别敏感服务/文件/文件夹的公开。

  • 1N3/Sn1per 自动侦察扫描程序,用于发现资产并用最新开源工具和技术扫描漏洞。

  • shadow1ng/fscan 一款内网综合扫描工具,方便一键自动化、全方位漏扫扫描。

  • 1n7erface/RequestTemplate 双语双端内网扫描以及验证工具

  • API-Security/APIKit 主动/被动扫描发现应用泄露的API文档,并将API文档解析成BurpSuite中的数据包用于API安全测试。

  • zan8in/afrog 性能卓越、快速稳定、PoC 可定制化的漏洞扫描工具

  • achuna33/MYExploit 基于产品的一键扫描工具。

  • ajinabraham/CMSScan CMS 扫描仪:扫描 Wordpress、Drupal、Joomla、vBulletin 网站以查找安全问题

  • dionach/CMSmap 开源 CMS 扫描程序,它可以自动检测最流行的 CMS 的安全漏洞。支持的 CMS 有 WordPress、Joomla、Drupal 和 Moodle。

  • 0e0w/PassivesScan 《被动扫描资源汇总》被动扫描一般是根据代理的流量中特定参数进行简单粗暴的发起请求。有些漏洞通过主动扫描很难发现,必须通过被动扫描实现。被动扫描结合爬虫技术往往是漏洞扫描的最优解。

  • chroblert/WindowsVulnScan 基于主机的漏洞扫描工具,采用多线程确保可以快速的请求数据,采用线程锁可以在向sqlite数据库中写入数据避免database is locked的错误,采用md5哈希算法确保数据不重复插入。

  • greenbone/openvas-scanner Greenbone 社区版的扫描仪组件 一个功能齐全的扫描引擎,可执行持续更新和扩展的漏洞测试 (VT) 馈送。

  • d3ckx1/Fvuln Find-Vulnerability是为了自己工作方便专门编写的一款自动化工具,主要适用于日常安全服务、渗透测试人员和RedTeam红队人员,它集合的功能包括:存活IP探测、开放端口探测、web服务探测、web漏洞扫描、smb爆破、ssh爆破、ftp爆破、mssql爆破等其他数据库爆破工作以及大量web漏洞检测模块。

  • sting8k/BurpSuite_403Bypasser 绕过 403 限制目录的 burpsuite 扩展。 通过使用 PassiveScan,每个 403 请求都会被这个扩展自动扫描。

  • HatBoy/Struts2-Scan Struts2全漏洞扫描利用工具 支持的漏洞如下: S2-001, S2-003, S2-005, S2-007, S2-008, S2-009, S2-012, S2-013, S2-015, S2-016, S2-019, S2-029, S2-032, S2-033, S2-037, S2-045, S2-046, S2-048, S2-052, S2-053, S2-devMode, S2-057

  • Tas9er/ByPassBehinder 冰蝎WebShell免杀生成

  • Axx8/ShellCode_Loader Msf&CobaltStrike免杀ShellCode加载器、免杀Shellcode加密生成工具,目前测试免杀360&火绒&电脑管家&Windows Defender

  • OWASP/wstg 《Web 安全测试指南》是用于测试 Web 应用程序和 Web 服务安全性的综合开源指南。

  • SpiderLabs/ModSecurity 由 Trustwave 的 SpiderLabs 开发的适用于 Apache、IIS 和 Nginx 的开源跨平台 Web 应用程序防火墙 (WAF) 引擎。它具有强大的基于事件的编程语言,可防止针对 Web 应用程序的一系列攻击,并允许 HTTP 流量监控、日志记录和实时分析

  • 0xInfection/Awesome-WAF 从安全角度来看,Web 应用程序防火墙 (WAF)。

  • EnableSecurity/wafw00f 允许识别和指纹保护网站的 Web 应用程序防火墙 (WAF) 产品。

  • flamegraph-rs/flamegraph Rust和其他所有项目的简单火焰图,无需 Perl 或管道

  • Hacker0x01/hacker101 Hacker101 的源代码 - 免费的在线 Web 和移动安全课程。

  • juice-shop/juice-shop OWASP Juice Shop:可能是最现代、最复杂的不安全 Web 应用程序,它可以用于安全培训、意识演示、CTF,也可以用作安全工具的白鼠!Juice Shop 包含来自整个 OWASP Top Ten 的漏洞,以及在实际应用程序中发现的许多其他安全漏洞!

  • digininja/DVWA 该死的易受攻击的 Web 应用程序

  • koalaman/shellcheck 一个 GPLv3 工具,它为 bash/sh shell 脚本提供警告和建议

  • tarunkant/Gopherus 如果您知道某个地方容易受到 SSRF 攻击,此工具将帮助您生成 Gopher 有效负载,以利用 SSRF(服务器端请求伪造)并获得 RCE(远程代码执行)。它还将帮助您在受害者服务器上获取反向外壳。

杀毒免杀、逆向工程

  • TideSec/BypassAntiVirus 远控免杀系列文章及配套工具,汇总测试了互联网上的几十种免杀工具、113种白名单免杀方式、8种代码编译免杀、若干免杀实战技术,并对免杀效果进行了一一测试,为远控的免杀和杀软对抗免杀提供参考。

  • NationalSecurityAgency/ghidra 由国家安全局研究局创建和维护的软件逆向工程 (SRE) 框架。该框架包括一套功能齐全的高端软件分析工具,使用户能够在各种平台(包括 Windows、macOS 和 Linux)上分析编译后的代码。功能包括反汇编、汇编、反编译、绘图和脚本,以及数百种其他功能。Ghidra 支持多种处理器指令集和可执行格式,可以在用户交互和自动模式下运行。用户还可以使用 Java 或 Python 开发自己的 Ghidra 扩展组件和/或脚本。

  • rshipp/awesome-malware-analysis 精选的恶意软件分析工具和资源列表。

  • awsaaaq/GoBP 免杀工具 Go语言编写

  • Yihsiwei/GoFileBinder golang免杀捆绑器

  • midisec/BypassAnti-Virus 免杀姿势学习、记录、复现。

  • Arks7/Go_Bypass 一个免杀生成器模板,目前可以过国内主流杀毒。

  • Ed1s0nZ/cool Golang-Gin框架写的免杀平台,内置分离、捆绑等BypassAV方式。

  • Gality369/CS-Loader CS免杀,包括python版和C版本

  • TideSec/GoBypassAV 整理了基于Go的16种API免杀测试、8种加密测试、反沙盒测试、编译混淆、加壳、资源修改等免杀技术,并搜集汇总了一些资料和工具。

  • 0x9ef/golang-uacbypasser 用 Go 实现和编写的 Windows UAC 绕过技术

  • safe6Sec/GolangBypassAV 研究利用golang各种姿势bypassAV

  • Tlaster/YourAV 宇宙级最轻量杀毒软件

  • BC-SECURITY/Beginners-Guide-to-Obfuscation 规避检测:新手混淆指南防御者不断调整他们的安全措施以应对新的威胁。学习恶意软件交付和避免检测背后的方法。 探讨了 Microsoft 的反恶意软件扫描接口 (AMSI)、Windows Defender 和 Windows 事件跟踪 (ETW) 的内部工作原理。 学习如何使用 Visual Basic (VB)、PowerShell 和 C# 来使用混淆的恶意软件来避开 Microsoft 的防御。学习构建 AMSI 绕过技术,混淆来自动态和静态签名检测方法的有效负载,并了解替代网络规避方法。

  • seventeenman/CallBackDump 能过国内杀软的dump lsass进程工具,参考代码链接在下面。由minidumpCallback实现,对缓冲区中内存做了些修改后再写入磁盘。工具也没有任何网络行为。dump lsass通过检索Windows内存中的lsass.exe进程来获取凭据信息并将其存储到一个文件中,从而使攻击者能够拿到有效的用户凭据。它还可以在远程系统上执行恶意代码,以便获取更多的敏感信息。

  • H4de5-7/Bundler-bypass 免杀捆绑器,过主流杀软。

  • x64dbg/x64dbg 适用于 Windows 的开源用户模式调试器。针对逆向工程和恶意软件分析进行了优化。

  • capstone-engine/capstone 用于ARM,ARM64(ARMv8),BPF,Ethereum VM,M68K,M680X,Mips,MOS65XX,PPC,RISC-V(rv32G / rv64G),SH,Sparc,SystemZ,TMS320C64X,TriCore,Webassembly,XCore和X86的Capstone反汇编/反汇编器框架。

  • cyrus-and/gdb-dashboard GDB 仪表板是使用 Python API 编写的独立 .gdbinit 文件,它支持模块化界面,显示有关正在调试的程序的相关信息。其主要目标是减少检查当前程序状态所需的 GDB 命令数量,从而使开发人员能够主要关注控制流。

  • OWASP/owasp-mastg 移动应用安全测试指南 (MASTG) 是一本用于移动应用安全测试和逆向工程的综合手册。它描述了用于验证 OWASP 移动应用程序安全验证标准 (MASVS) 中列出的控件的技术过程。

  • rizinorg/cutter 由 rizin 提供支持的免费开源逆向工程平台。它旨在成为一个先进且可定制的逆向工程平台,同时牢记用户体验。

  • cs01/gdbgui 基于浏览器的 gdb 前端(gnu 调试器)。在 C、C++、Go、Rust 和 Fortran 中添加断点、查看堆栈、可视化数据结构等。从终端运行 gdbgui,浏览器中将打开一个新选项卡。

  • brannondorsey/wifi-cracking 使用 Airodump-ng 和 Aircrack-ng/Hashcat 破解 WPA/WPA2 Wi-Fi 路由器

  • winsiderss/systeminformer Windows 10 免费、功能强大、用途广泛的工具,可帮助您监控系统资源、调试软件和检测恶意软件。由 Winsider Seminars & Solutions, Inc. 提供。

  • icsharpcode/ILSpy 开源的 .NET 程序集浏览器和反编译器。

  • semgrep/semgrep 适用于多种语言的轻量级静态分析。查找具有类似源代码的模式的 bug 变体。可以扫描代码和包依赖项以查找已知问题、软件漏洞,并高精度地查找密钥

漏洞库、漏洞靶场

  • pwntester/0day 各种CMS、各种平台、各种系统、各种软件漏洞的EXP、POC 该项目将不断更新

  • ReAbout/web-sec WEB安全手册(红队安全技能栈),漏洞理解,漏洞利用,代码审计和渗透测试总结。

  • cckuailong/vulbase 各大漏洞文库合集 Vulbase漏洞库

  • helloexp/0day 各CMS、各平台、各系统、各软件漏洞的EXP、POC

  • lxflxfcl/monitor 漏洞监控平台。目前实现了监控GitHub、微软、CNNVD三者的漏洞信息,并使用企业微信实时推送。还可以使用邮箱推送,默认关闭。

  • binganao/vulns-2022 用于搜集 2022 年的漏洞,注意:本项目并不刻意搜集 POC 或 EXP,主要以CVE-2021、CVE-2022 为关键词,包含但不限于漏洞资讯、漏洞复现、漏洞分析、漏洞验证、漏洞利用

  • AonCyberLabs/Windows-Exploit-Suggester 该工具将目标补丁级别与 Microsoft 漏洞数据库进行比较,以检测目标上潜在的缺失补丁。如果存在可用于丢失公告的公共漏洞利用和 Metasploit 模块,它还会通知用户。

  • tangxiaofeng7/SecExample JAVA 漏洞靶场 (Vulnerability Environment For Java)

  • l4yn3/micro_service_seclab Java漏洞靶场是基于SpringBoot开发,目的是用来检测SAST工具的准确性(关注漏报和误报问题)的。

  • Threekiii/Vulnerability-Wiki 一个综合漏洞知识库,集成了Vulhub、Peiqi、Edge、0sec、Wooyun等开源漏洞库

  • wooyunwang/Fortify 源代码各种审计漏洞白测试盒的漏洞描述或具体修复方案

  • fofapro/vulfocus 漏洞集成平台,将漏洞环境docker镜像,开箱即用。

  • sqlsec/ssrf-vuls 手把手带你用 SSRF 打穿内网靶场源码

  • edoardottt/awesome-hacker-search-engines 在渗透测试、漏洞评估、红/蓝团队操作、漏洞赏金等期间有用的出色搜索引擎的精选列表

  • aquasecurity/trivy 查找容器、Kubernetes、代码存储库、云等中的漏洞、错误配置、机密、SBOM

  • qazbnm456/awesome-web-security 精心策划的网络安全材料和资源列表。

  • Mr-xn/Penetration_Testing_POC 渗透测试有关的POC、EXP、脚本、提权、小工具等---About penetration-testing python-script poc getshell csrf xss cms php-getshell domainmod-xss csrf-webshell cobub-razor cve rce sql sql-poc poc-exp bypass oa-getshell cve-cms

  • Gallopsled/pwntools CTF 框架和漏洞利用开发库。它是用 Python 编写的,专为快速原型设计和开发而设计,旨在使漏洞编写尽可能简单。

  • LandGrey/SpringBootVulExploit SpringBoot 相关漏洞学习资料,利用方法和技巧合集,黑盒安全评估 check list

安卓Android

加密、密码破解、字典

  • openssl/openssl 强大的、商业级的、功能齐全的开源工具包,适用于 TLS(以前称为 SSL)、DTLS 和 QUIC(目前仅限客户端)协议。协议实现基于一个完整的通用加密库,该库也可以独立使用。还包括一个经过验证符合 FIPS 标准的加密模块。

  • 0xHJK/TotalPass 默认密码扫描器 是否存在默认密码\搜索常见设备默认密码\支持手动和自动更新密码库 扫描类型有SSH\Telnet\SNMP\Redis

  • certbot/certbot Certbot 是 EFF 的工具,用于从 Let's Encrypt 获取证书,并(可选)在您的服务器上自动启用 HTTPS。它还可以充当使用 ACME 协议的任何其他 CA 的客户端。

  • zricethezav/gitleaks 用于检测和防止git repos 中的密码、api 密钥和令牌等硬编码秘密。易于使用的一体化解决方案,用于检测代码中过去或现在的秘密。

  • bitsadmin/fakelogonscreen 伪造 Windows 登录屏幕以窃取密码

  • gentilkiwi/mimikatz 从内存中提取明文密码、哈希、PIN 码和 kerberos 票证。还可以执行 pass-the-hash、pass-the-ticket 或构建Golden Tickets

  • hashcat/hashcat 世界上速度最快、最先进的密码恢复实用程序,支持 300 多种高度优化的哈希算法的五种独特攻击模式。hashcat 目前支持 Linux、Win 和 macOS 上的 CPU、GPU 和其他硬件加速器,并具有帮助实现分布式密码破解的工具。

  • JDArmy/SharpXDecrypt Xshell全版本密码恢复工具

  • L-codes/pwcrack-framework 用Ruby编写的密码自动破解框架,目前提供了 22 个在线破解和 29 个离线破解接口,支持 52 种算法破解

  • Leon406/ToolsFx 基于kotlin+tornadoFx的跨平台密码学工具箱.包含编解码,编码转换,加解密, 哈希,MAC,签名,大数运算,压缩,二维码功能,ctf等实用功能,支持插件

  • sry309/PwdBUD 一款SRC密码生成工具,尝试top字典无果后,可以根据域名、公司名等因素来生成特定的字典

  • 914525753/Sh4d0w-BlastingDictionary 搜集的爆破字典,包括常用用户名、密码弱口令、XSS的on事件遍历、SQL万能密码等

  • whiteknight7/wordlist 常用字典,弱用户名、弱口令、目录列表等。

  • t43Wiu6/blackJack-Dicts 参考十余个项目整理的目录和文件字典。

  • Karanxa/Bug-Bounty-Wordlists 包含在寻找错误时使用的所有重要字典

  • insightglacier/Dictionary-Of-Pentesting Pentesing、Fuzzing、Bruteforce 和 BugBounty 等字典项目。渗透测试、SRC漏洞、爆破、Fuzzing等字典收集项目。

  • liamg/dismember Linux 工具包,可用于扫描所有进程(或特定进程)的内存以查找公共机密和自定义正则表达式等。

  • zapstiko/wordlists 所有类型的有效负载字典。

  • drduh/YubiKey-Guide 使用 YubiKey 作为智能卡来存储 GPG 加密、签名和身份验证密钥的指南,这些密钥也可用于 SSH。本文档中的许多原则适用于其他智能卡设备。

  • getsops/sops 用于管理机密的简单灵活的工具,一个加密文件编辑器,支持 YAML、JSON、ENV、INI 和 BINARY 格式,并使用 AWS KMS、GCP KMS、Azure Key Vault、age 和 PGP 进行加密。

  • google/tink 多语言、跨平台开源库,提供安全、易于正确使用且不滥用的加密 API。

  • dani-garcia/vaultwarden 用 Rust 编写的非官方 Bitwarden 兼容服务器。Bitwarden 是一款安全的密码管理应用,帮助您保存密码并保证安全。

  • massgravel/Microsoft-Activation-Scripts 使用 HWID / Ohook / KMS38 / Online KMS 激活方法的 Windows 和 Office 激活器,开源代码和较少的防病毒检测。

  • pyca/cryptography 为 Python 开发人员提供加密配方和原语的包。包括常见加密算法(如对称密码、消息摘要和密钥派生函数)的高级配方和低级接口。

  • keepassxreboot/keepassxc 现代、安全且开源的密码管理器,可存储和管理您最敏感的信息。您可以在 Windows、macOS 和 Linux 系统上运行 KeePassXC。适用于对安全个人数据管理有极高要求的人。它将许多不同类型的信息(例如用户名、密码、URL、附件和注释)保存在一个离线加密文件中,该文件可以存储在任何位置,包括私有云和公共云解决方案。为了便于识别和管理,可以为条目指定用户定义的标题和图标。此外,条目被分类为可自定义的组。集成的搜索功能允许您使用高级模式轻松查找数据库中的任何条目。可自定义、快速且易于使用的密码生成器实用程序允许您使用任意字符组合或易于记忆的密码短语创建密码。

  • gravitational/teleport 保护对所有基础架构的访问。Teleport 为基础设施提供连接、身份验证、访问控制和审计。

  • Infisical/infisical 开源密钥管理平台:在团队/基础架构中同步密钥并防止密钥泄露。

  • jedisct1/libsodium 易于使用的全新软件库,用于加密、解密、签名、密码哈希等。

  • moonD4rk/HackBrowserData 可全平台运行的浏览器数据导出解密工具。

  • keeweb/keeweb 与KeePass兼容的免费跨平台密码管理器

  • fail2ban/fail2ban 用于禁止导致多个身份验证错误的主机的守护程序,Fail2Ban 扫描日志文件,例如 /var/log/auth.log 并禁止 IP 地址进行过多失败的登录尝试。它通过更新系统防火墙规则来拒绝来自这些 IP 地址的新连接,并在可配置的时间内实现此目的。Fail2Ban 开箱即用,可以读取许多标准日志文件,例如 sshd 和 Apache 的日志文件,并且可以轻松配置为读取您选择的任何日志文件,以处理您希望的任何错误。尽管 Fail2Ban 能够降低错误身份验证尝试的速率,但它无法消除弱身份验证带来的风险。如果确实想要保护服务,请将服务设置为仅使用双因素或公共/私有身份验证机制。

  • Ciphey/Ciphey 在不知道密钥或密码的情况下自动解密加密,解码编码和破解哈希

其他_安全与渗透

  • Lissy93/personal-security-checklist 保护您的数字安全和隐私的精选提示清单

  • sqlmapproject/sqlmap 自动 SQL 注入和数据库接管工具

  • rapid7/metasploit-framework 渗透测试平台,使您能够查找,利用和验证漏洞。 该平台包括Metasploit框架及其商业对手,如Metasploit Pro。 Metasploit是一个免费的、可下载的框架,通过它可以很容易对计算机软件漏洞实施攻击。 它本身附带数百个已知软件漏洞的专业级漏洞攻击工具。

  • trimstray/the-book-of-secret-knowledge 一系列鼓舞人心的列表、手册、备忘单、博客、黑客、单行、cli/web 工具等。

  • vitalysim/Awesome-Hacking-Resources 黑客/渗透测试资源集合,让您变得更好!

  • The-Art-of-Hacking/h4cker 该存储库主要由 Omar Santos (@santosomar) 维护,包括与道德黑客/渗透测试、数字取证和事件响应 (DFIR)、人工智能、漏洞研究、漏洞开发、逆向工程等相关的数千种资源。

  • carpedm20/awesome-hacking 黑客教程,工具和资源的精选列表

  • Hack-with-Github/Awesome-Hacking 为黑客、渗透测试人员和安全研究人员收集的各种很棒的列表

  • fr0gger/Awesome-GPT-Agents 由社区创建的编制一份专注于网络安全(进攻性和防御性)的 GPT 代理综合列表。

  • Z4nzu/hackingtool 黑客的多合一黑客工具 包括:匿名隐藏、信息收集、词表生成器、无线攻击、SQL 注入、网络钓鱼攻击、网络攻击、后期利用、取证工具、有效载荷创建、利用框架、逆向工程、DDOS 攻击、远程管理 (RAT)、XSS 攻击、隐写工具、社交媒体蛮力、安卓黑客、IDN Homograph 攻击、电子邮件验证、哈希破解、Wifi 取消身份验证、社交媒体查找器、有效载荷注入器、网络爬取、混合工具

  • sbilly/awesome-security 一系列很棒的软件、图书馆、文档、书籍、资源和有关安全的酷炫内容。

  • enaqx/awesome-pentest 一系列令人敬畏的渗透测试和攻击性网络安全资源。渗透测试是对计算机系统及其物理基础设施发起授权的模拟攻击,以暴露潜在的安全弱点和漏洞的做法。如果发现漏洞,请按照此指南负责任地报告。

  • prometheus/prometheus 系统和服务监控系统。它以给定的时间间隔从配置的目标收集指标,评估规则表达式,显示结果,并在观察到指定条件时触发警报。

  • djsime1/awesome-flipperzero Flipper Zero设备的精彩资源集合。Flipper Zero配备了多种用于黑客的工具。您有用于模拟遥控器的无线电,RFID阅读器,红外收发器,甚至是GPIO引脚。

  • grafana/grafana 开放、可组合的可观测性和数据可视化平台。可视化来自多个来源的指标、日志和跟踪,如 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等等。

  • pinecone-wifi/pinecone WLAN网络审计工具,适合红队使用。它可以通过模块进行扩展,并且设计为在基于 Debian 的操作系统中运行。松果专门用于与树莓派一起使用,作为便携式无线审计盒。

  • occlum/occlum 蚂蚁集团自研的开源可信执行环境(Trusted Execution Environments,简称 TEE) OS 系统 Occlum ,大幅降低 SGX 应用开发的门槛.机密计算(Confidential Computing)使得数据始终保持加密和强隔离状态,从而确保用户数据的安全和隐私。

  • LandGrey/domainNamePredictor 现代公司域名使用规律预测及生成工具

  • Al1ex/Pentest-tools 内网渗透工具:ACL突破、交换、真实劫持、信息收集、内网电话、密码喷洒、密码抓取、密码破解、权限提升、权限维持、横向移动、端口扫描、端口转发、网络嗅探、集成工具

  • 1N3/IntruderPayloads Burpsuite Intruder 有效载荷、BurpBounty 有效载荷、模糊列表、恶意文件上传和 Web 渗透测试方法和清单的集合。

  • safe6Sec/PentestDB 各种数据库的利用姿势

  • evilsocket/jscythe 滥用 node.js 检查器机制以强制任何基于 node.js/electron/v8 的进程执行任意 javascript 代码。

  • michaelweber/Macrome 用于红队和分析师的 Excel 宏文档阅读器/编写器。

  • DonatoReis/arno 一个自动化工具,用于安装最流行的漏洞赏金或渗透测试工具! 这将为您在设置机器工作时节省 90% 的时间。

  • olist213/Information_Security_Books 信息安全方面的书籍书籍

  • xuanhusec/OscpStudyGroup Oscp公益学习组,包括:小技巧合集、Kali基本操作、常用工具、windows提权汇总、反弹shell方法汇总、靶机推荐列表、缓冲区溢出通关脚本框架、OSCP命令大全、反弹shell方法汇总、linux提权方法汇总、win提权方法汇总、Linux提权辅助、Win提权辅助、渗透测试方法论、靶机练习

  • DanMcInerney/xsscrapy XSS 蜘蛛 - 检测到 66/66 wavsep XSS

  • mitmproxy/mitmproxy 渗透测试人员和开发人员的交互式 TLS 拦截 HTTP 代理。用于 MITM的 proxy,MITM即中间人攻击(Man-in-the-middle attack)。用于中间人攻击的代理首先会向正常的代理一样转发请求,保障服务端与客户端的通信,其次,会适时的查、记录其截获的数据,或篡改数据,引发服务端或客户端特定的行为。 mitmproxy 不仅可以截获请求帮助开发者查看、分析,更可以通过自定义脚本进行二次开发。

  • teamssix/container-escape-check Docker 容器逃逸检测

  • KeenSecurityLab/BinAbsInspector 静态分析器,用于二进制文件中的自动逆向工程和扫描漏洞。它基于抽象解释,适用于Ghidra的Pcode而不是汇编。目前它支持 x86,x64、armv7 和 aarch64 上的二进制文件。

  • ybdt/post-hub 传播代理、C2、免杀、横向、域渗透

  • maK-/parameth 该工具可用于暴力发现 GET 和 POST 参数

  • quasar/Quasar 适用于 Windows 的免费、开源远程管理工具。用 C# 编码的快速、轻量级的远程管理工具。 使用范围从用户支持到日常管理工作再到员工监控。 提供高稳定性和易于使用的用户界面,是您的完美远程管理解决方案。

  • FreeRDP/FreeRDP 远程桌面协议 (RDP) 的免费实现,在 Apache 许可下发布。 在一个互操作性最终可以解放您的计算体验的世界中,享受随时随地以您想要的方式使用您的软件的自由。

  • Cool-Coding/remote-desktop-control 远程桌面控制(Spring+Netty+Swing)

  • ffuf/ffuf Go写的快速网络模糊器 内容发现\虚拟主机发现\参数模糊\POST 模糊测试

  • nelhage/reptyr 实用程序,用于获取现有正在运行的程序并将其附加到新终端。 通过 ssh 启动了一个长时间运行的进程,但不得不离开并且不想中断它? 只需启动一个屏幕,使用 reptyr 抓取它,然后终止 ssh 会话并回家。

  • michenriksen/aquatone 跨大量主机对网站进行可视化检查的工具,便于快速了解基于 HTTP 的攻击面。

  • pen4uin/awesome-java-security Java安全☞漏洞研究

  • ac0d3r/Hyuga 监控带外(Out-of-Band)流量的工具

  • tomnomnom/httprobe 获取域列表并探测工作的 HTTP 和 HTTPS 服务器

  • ProjectAnte/dnsgen 根据提供的输入生成域名组合。组合是根据单词表创建的。每次执行都会提取自定义词

  • xuedingmiaojun/wxappUnpacker 小程序反编译(支持分包)

  • neargle/my-re0-k8s-security 从零开始Kubernetes攻防

  • wetools/wept 微信小程序多端实时运行工具.支持iOS 安卓 Mac, Win 以及 Linux

  • ffffffff0x/1earn ffffffff0x 团队维护的安全知识框架,内容包括不仅限于 web安全、工控安全、取证、应急、蓝队设施部署、后渗透、Linux安全、各类靶机writup

  • Power7089/PenetrationTest-Tips 渗透测试小技巧,渗透测试Tips

  • Lotus6/ThinkphpGUI Thinkphp 漏洞利用工具,支持各版本TP漏洞检测,命令执行,getshell。

  • frida/frida 面向开发、逆向工程师和安全研究的动态检测工具。-> rida.re

  • chaitin/veinmind-tools 长亭科技自研,基于 veinmind-sdk 打造的容器安全工具集

  • lintstar/About-Attack 一个旨在通过应用场景 / 标签对 Github 红队向工具 / 资源进行分类收集,降低红队技术门槛的手册

  • RickGray/vscan-go 用于nmap 服务和应用程序版本检测的 golang 版本

  • projectdiscovery/uncover 使用多个搜索引擎快速发现互联网上暴露的主机。

  • huiyadanli/RevokeMsgPatcher PC版微信/QQ/TIM防撤回补丁

  • tombstoneghost/TIWAP 使用 Flask 制作的 Web 安全测试实验室,供新手安全爱好者了解各种 Web 漏洞。

  • qianxiao996/CTF-Tools Python+Pyqt写的CTF编码、解码、加密、解密工具。

  • AntSwordProject/antSword 中国蚁剑是跨平台的开源网站管理工具。

  • yzddmr6/As-Exploits 中国蚁剑后渗透框架

  • ph4ntonn/Stowaway 利用go语言编写、专为渗透测试工作者制作的多级代理工具

  • Dliv3/Venom 使用Go开发的多级代理工具。

  • jweny/pocassist 全新的开源漏洞测试框架,实现poc在线编辑、运行、批量测试。

  • wh1t3p1g/ysomap 一个有用的 Java 反序列化漏洞利用框架。

  • whwlsfb/BurpCrypto AES/RSA/DES/ExecJs(execute JS encryption code in burpsuite). 支持多种加密算法或直接执行JS代码的用于爆破的BurpSuite插件

  • jonaslejon/malicious-pdf 生成一堆带有 phone-home 功能的恶意 pdf 文件。可以与 Burp Collaborator 或 Interact.sh 一起使用

  • al0ne/LinuxCheck Linux应急处置/信息搜集/漏洞检测工具,支持基础配置/网络流量/任务计划/环境变量/用户信息/Services/bash/恶意文件/内核Rootkit/SSH/Webshell/挖矿文件/挖矿进程/供应链/服务器风险等13类70+项检查

  • ffffffff0x/f8x 红蓝队环境自动部署工具,支持多场景,渗透,开发,代理,服务可选项等.

  • SafeGroceryStore/Caesar 一个全新的敏感文件发现工具

  • pen4uin/pentest-note 渗透测试☞经验/思路/想法/总结/笔记

  • timwhitez/Frog-checkCDN 批量检查目标是否为cdn

  • MountCloud/FireKylin 麒麟-网络安全应急响应工具(系统痕迹采集)

  • helloSystem/hello 专注于简单、优雅和可用性的创作者桌面系统。基于 FreeBSD。

  • hash3liZer/SillyRAT 用纯 Python 编写的跨平台 RAT。RAT 接受命令和参数,以充当接受连接的服务器或充当与服务器建立连接的客户端/目标。

  • Cyber-Guy1/API-SecurityEmpire 旨在展示API安全领域独特的攻击和防御方法

  • s0md3v/uro 整理用于爬行/渗透测试的 url 列表

  • mzet-/linux-exploit-suggester Linux提权审计工具 帮助检测给定 Linux 内核/基于 Linux 的机器的安全缺陷。它提供以下功能:评估已知漏洞的内核暴露情况、 验证内核强化安全措施的状态。

  • Idov31/Sandman 基于 NTP 的后门,用于强化网络中的红队参与。

  • knownsec/pocsuite3 由 Knownsec 404 团队开发的开源远程漏洞测试框架。

  • techgaun/github-dorks 通过 github 搜索找到泄露的秘密

  • H4CK3RT3CH/github-dorks Github 搜索是非常强大和有用的功能,可用于搜索存储库中的敏感数据。可以揭示敏感的个人和/或组织信息,例如私钥、凭据、身份验证令牌等。这个列表应该对评估安全性和执行系统的渗透测试很有用。

  • NyDubh3/Pentesting-Active-Directory-CN 域渗透脑图中文翻译版

  • Maka8ka/NGLite 基于区块链网络的匿名跨平台远控程序 理论上完全的匿名性,当然要是有人监测并分析了所有中间节点除外,目前节点约8W个

  • 3xpl01tc0d3r/ProcessInjection 该程序旨在演示各种进程注入技术

  • Le0nsec/SecCrawler 方便安全研究人员获取每日安全日报的爬虫和推送程序,目前爬取范围包括先知社区、安全客、Seebug Paper、跳跳糖、奇安信攻防社区、棱角社区以及绿盟、腾讯玄武、天融信、360等实验室博客,持续更新中。

  • redcode-labs/Coldfire Golang 中的恶意软件开发库 提供了各种有用的方法。

  • vxunderground/MalwareSourceCode 收集各种不同编程语言、各种平台的恶意软件源代码。

  • hlldz/pickl3 Windows 活动用户凭据网络钓鱼工具

  • 4ra1n/SpringInspector Java自动代码审计工具,尤其针对Spring框架,核心原理是模拟JVM栈帧进行分析,无需提供源码,通过一个JAR包即可

  • Tencent/secguide 面向开发人员梳理的代码安全指南

  • slowmist/cryptocurrency-security 加密资产安全解决方案

  • xmendez/wfuzz 在 HTTP 请求的任何字段中注入任何输入,允许在不同的 Web 应用程序组件中执行复杂的 Web 安全攻击,例如:参数、身份验证、表单、目录/文件、标头等。一个完全模块化的Python框架

  • Ryze-T/Sylas 数据库综合利用工具

  • lab52io/LeakedHandlesFinder 泄露的 Windows 进程句柄识别工具

  • pen4uin/cloud-native-security 云原生安全

  • weixinbao/ReverseTool 逆向工具集合 Java & Jar (Android)、 C++ & So (Android)、 C# & Dll & EXE、iOS

  • p0dalirius/DumpSMBShare 从 Windows 共享 SMB 转储文件和文件夹的脚本。

  • yhy0/github-cve-monitor 实时监控github上新的cve和工具更新,多渠道推送通知

  • whydee86/PlayWithDefender 禁用和启用 Windows 防御者保护的简单工具

  • xiecat/fofax 基于ofa.info API 的命令行查询工具

  • AntSwordProject/AntSword-Loader 蚁剑加载器

  • swisskyrepo/PayloadsAllTheThings Web 应用程序安全和 Pentest/CTF 的有用有效负载和绕过列表

  • payloadbox/sql-injection-payload-list SQL 注入负载列表

  • projectdiscovery/interactsh OOB交互收集服务器和客户端库。用于检测带外交互的开源工具。它是一种旨在检测导致外部交互的漏洞的工具。

  • 4ra1n/JavaSecInterview Java安全研究与安全开发面试题库,同是也是常见知识点的梳理和总结,包含问题和详细的答案,计划定期更新

  • devanshbatham/Awesome-Bugbounty-Writeups 精选 bugbounty 文章列表(Bug 类型)包括:跨站脚本 (XSS)、跨站请求伪造 (CSRF)、点击劫持(UI Redressing Attack)、本地文件包含 (LFI)、子域接管、拒绝服务 (DOS)、身份验证绕过、SQL注入、不安全的直接对象引用 (IDOR)、2FA 、CORS 、服务器端请求伪造 (SSRF)、远程代码执行 (RCE)、安卓渗透测试

  • Impact-I/reFlutter Flutter 逆向工程框架

  • m4ll0k/Atlas 快速 SQLMap 篡改建议器.Quick SQLMap Tamper Suggester

  • AntSwordProject/ant 实时上线的 XSS 盲打平台

  • Lazenca/Kernel-exploit-tech Linux 内核开发教程。

  • mstxq17/VunHunterTips 漏洞挖掘技巧及其一些工具集成 。端口扫描、APP挖掘、BugbountyTips、SQL注入、SSRF、XSS、burp技巧、信息收集、信息泄露、另类漏洞挖掘、字典、常用扫描器、并发漏洞、弱口令Fuzz、文件读取、浏览器技巧、目录扫描、设备弱口令、越权相关、跳转redirect。

  • rabbitmask/WeblogicScan Weblogic一键漏洞检测工具

  • BeichenDream/Godzilla 内置3种Payload以及6种加密器,6种支持脚本后缀,20内置插件

  • Chora10/Cknife 跨平台的基于配置文件的中国菜刀(渗透测试工具),把所有操作给予用户来定义,主程序只是图形的展示,以及数据的发送。

  • b1ackc4t/MarsCTF Vue+Springboot开发的CTF学习平台,提供动态靶机、学习模块、writeup模块等等CTF平台的核心功能。提供docker版本

  • xuanhun/PythonHackingBook1 Python黑客编程之极速入门 教程分为6个大的部分:Python编程基础 网络安全 Web应用安全 漏洞利用 逆向.

  • VMsec/iisScaner 多线程批量检测IIS短文件名漏洞+漏洞利用

  • shimmeris/SCFProxy 利用云函数实现各种功能的工具。HTTP 代理\SOCKS5 代理\接收反弹 shell\C2 域名隐藏

  • AnLoMinus/Bug-Bounty 很棒的漏洞赏金工具

  • daffainfo/Oneliner-Bugbounty 用于 bug 赏金的集合 oneliner 脚本

  • daffainfo/AllAboutBugBounty 关于漏洞赏金(绕过、有效负载等)

  • hfiref0x/UACME 通过滥用内置的 Windows AutoElevate 后门来获取Windows 用户帐户控制。

  • ezshine/wxapkg-convertor 反编译微信小程序的工具,仓库也收集各种微信小程序/小游戏.wxapkg文件

  • outflanknl/C2-Tool-Collection 通过 BOF 和反射 DLL 加载技术与 Cobalt Strike(以及可能的其他 C2 框架)集成的工具集合。

  • J0o1ey/BountyHunterInChina 重生之我是赏金猎人系列,分享自己和团队在SRC、项目实战漏洞测试过程中的有趣案例

  • metaStor/SpringScan SpringScan 漏洞检测 Burp插件

  • biggerduck/RedTeamNotes 红队笔记 ,涉及代码审计/打点/免杀/内网渗透等方向

  • DawnFlame/POChouse POC&EXP仓库、hvv弹药库、Nday、1day

  • vavkamil/awesome-bugbounty-tools 各种错误bug赏金工具的精选列表

  • cdk-team/CDK 为容器环境定制的渗透测试工具,在已攻陷的容器内部提供零依赖的常用命令及PoC/EXP。集成Docker/K8s场景特有的 逃逸、横向移动、持久化利用方式,插件化管理。

  • projectdiscovery/nuclei-templates 社区核心引擎模板列表,用于查找安全漏洞。

  • Junehck/SQL-injection-bypass 记录实战中的各种sql注入绕过姿势. 脏数据绕过waf\emoji绕过waf\注释符绕过waf%00绕过waf\中间件特性绕过waf\关键字替换绕过waf\base64绕waf\全局替换绕过

  • codeyso/CodeTest 脚本工具合集GUI版本,内置漏洞验证、利用模块,可自定义脚本实现批量验证。

  • G4rb3n/IoT_Sec_Tutorial IoT安全教程 01-提取IoT固件 02-静态分析IoT固件 03-动态分析IoT固件 04-解密dlink固件 05-修复固件运行环境

  • CTF-MissFeng/NmapBrutes 解析nmap扫描结果,并调用hydra进行暴力破解

  • YDHCUI/manjusaka 基于WEB界面的仿CobaltStrike C2远控

  • reidmu/sec-note 记录安全方面的笔记/工具/漏洞合集

  • erev0s/VAmPI 用 Flask 制作的易受攻击的 API,它包括来自 OWASP 前 10 个 API 漏洞的漏洞。

  • FirmWire/FirmWire 一个全系统基带固件仿真平台,用于对智能手机基带固件进行模糊测试、调试和根本原因分析

  • BWASP/BWASP 一个开源的分析工具,用于支持 Web 漏洞手动分析

  • djadmin/awesome-bug-bounty Bug 赏金计划的综合列表和文章。

  • Gapsdehal/awesome-ctf Capture The Flag (CTF) 框架、库、资源、软件和教程的精选列表。此列表旨在帮助初学者和经验丰富的 CTF 玩家在一个地方找到与 CTF 相关的所有内容。

  • Viralmaniar/BigBountyRecon 使用 58 种不同的技术,使用各种 Google dorks 和开源工具来加快对目标组织的初始侦察过程。

  • j3ssie/osmedeus Osmedeus 是用于进攻性安全的工作流引擎。它旨在构建具有能力和灵活性的基础,使您能够构建自己的侦察系统并在大量目标上运行它。

  • hahwul/dalfox 一款功能强大的开源 XSS 扫描工具和参数分析器、实用工具

  • streaak/keyhacks KeyHacks 展示了可以使用在错误赏金计划中找到的特定 API key密钥的方法,以检查它们是否有效。

  • p1ngul1n0/blackbird 一个 OSINT 工具,用于在社交网络中按用户名搜索帐户。

  • NextronSystems/ransomware-simulator 用 Golang 编写的勒索软件模拟器

  • epsylon/xsser Cross Site "Scripter" (aka XSSer) 是一个自动框架,用于检测、利用和报告基于 Web 的应用程序中的 XSS 漏洞。

  • 0xJin/awesome-bugbounty-builder 令人敬畏的bug赏金建设者项目

  • OTRF/ThreatHunter-Playbook 一个社区驱动的开源项目,用于共享检测逻辑、对手的技术和资源,以提高检测开发的效率。

  • EdOverflow/bugbounty-cheatsheet 漏洞猎人的载荷、提示和技巧的列表。

  • lanmaster53/recon-ng 开源情报收集工具,减少从开源收集信息所花费的时间。

  • projectdiscovery/httpx 快速且多用途的 HTTP 工具包,它允许使用 retryablehttp 库运行多个探针。它旨在通过增加线程数来保持结果可靠性。

  • s0md3v/Arjun HTTP 参数发现套件。它使用包含 25,890 个参数名称的巨大默认字典找到有效的 HTTP 参数。

  • ron190/jsql-injection 用于自动 SQL 数据库注入的 Java 应用程序。

  • defparam/smuggler HTTP 请求走私/去同步测试工具.请求走私大多发生于前端服务器和后端服务器对客户端传入的数据理解不一致的情况。这是因为HTTP规范提供了两种不同的方法来指定请求的结束位置,即 Content-Length 和 Transfer-Encoding 标头。协议层的攻击——HTTP请求走私

  • smicallef/spiderfoot 自动化 OSINT 以获取威胁情报并映射您的攻击面。

  • jaeles-project/jaeles 用于自动化 Web 应用程序测试的瑞士军刀

  • FortyNorthSecurity/EyeWitness 截取网站截图,提供一些服务器标头信息,并在可能的情况下识别默认凭据。分析不同的 Web 应用程序,并将相似的 Web 应用程序分组在一起,那么可以很容易地快速分类/查看您想要定位的组。

  • tomnomnom/meg 为许多主机获取许多路径 - 不杀死主机

  • lc/gau 从 AlienVault 的 Open Threat Exchange、Wayback Machine 和 Common Crawl 获取已知 URL。

  • fuzzdb-project/fuzzdb 黑盒应用程序故障注入和资源发现的攻击模式和原语字典。

  • jhaddix/tbhm Bug Hunters 漏洞猎人方法论

  • HolyBugx/HolyTips 关于漏洞赏金狩猎和 Web 安全性的注释、清单、文章的集合。

  • nahamsec/Resources-for-Beginner-Bug-Bounty-Hunters 初学者漏洞猎人资源

  • ncabatoff/process-exporter 挖掘 /proc 以报告选定进程的 Prometheus 导出器

  • lu2ker/PHP-Code 通过ThinkPHP框架学习PHP代码审计

  • UzJu/Cloud-Bucket-Leak-Detection-Tools 六大云存储,泄露利用检测工具

  • JDArmy/DCSec 专注于域控安全

  • 0xsanny/solsec 用于研究 Solana 智能合约安全、审计和漏洞利用的资源集合。

  • kadenzipfel/smart-contract-attack-vectors 智能合约攻击向量以及预防方法。

  • Sakurasan/scf-proxy 云函数代理服务

  • teamssix/twiki 面向云安全方向的知识库

  • Getshell/LinuxTQ Linux提权方法论 包括提权漏洞原理或方法工具等。Linux提权在后渗透过程中较为重要,尤其是对于权限维持至关重要。

  • rootkit-io/awesome-malware-development 恶意软件开发资源的列表

  • Yyyyshen/HackTechLearning 学习《Windows黑客编程技术详解》 每个例子都有

  • KathanP19/HowToHunt 收集各种 Web 漏洞的方法和测试用例。->gitbook

  • HummerRisk/HummerRisk 云原生安全平台,包括混合云安全治理和安全检测。

  • wangyu-/udp2raw 使用原始套接字将 UDP 流量转换为加密的 UDP/FakeTCP/ICMP 流量的隧道,帮助您绕过 UDP 防火墙(或不稳定的 UDP 环境)

  • iagox86/dnscat2 通过 DNS 协议创建加密的命令和控制 (C&C) 通道,这是几乎每个网络的有效通道。

  • SECFORCE/Tunna 通过 HTTP 包装和隧道化任何 TCP 通信。 它可用于绕过完全防火墙环境中的网络限制。

  • sensepost/reGeorg reDuce 的继任者,拥有堡垒 Web 服务器并通过 DMZ 创建 SOCKS 代理。

  • XTLS/Xray-core 穿透一切。也是最好的v2ray核心,支持XTLS。完全兼容的配置。

  • vaxilu/x-ui 支持多协议多用户的 xray 面板,支持的协议:vmess、vless、trojan、shadowsocks、dokodemo-door、socks、http

  • hq450/fancyss 为ASUSWRT / Merlin的路由器提供代理工具。

  • mack-a/v2ray-agent Xray多合一一键脚本

  • shadowsocks/shadowsocks-rust Rust 的 shadowsocks 接口

  • apernet/hysteria 一个强大、闪电般快速且无审查的代理。广泛的模式范围,包括SOCKS5,HTTP代理,TCP / UDP转发,Linux TProxy - 更不用说不断添加的其他功能。Hysteria 由自定义 QUIC 协议提供支持,即使在最不可靠和最有损的网络上也能提供无与伦比的性能。我们的协议旨在伪装成标准的HTTP / 3流量,因此很难在不造成广泛附带损害的情况下进行检测和阻止。我们有针对所有主要平台和架构的构建。随处部署,随处使用。凭借对自定义身份验证、流量统计和访问控制的内置支持,Hysteria 可以轻松集成到您的基础设施中。

  • yichengchen/clashX 简单轻量化的代理客户端,HTTP/HTTPS 和 SOCKS 协议,地理 IP 规则支持,浪涌式配置,支持Vmess/Shadowsocks/Socks5/Trojan,支持 Netfilter TCP 重定向

  • L-codes/Neo-reGeorg 积极重构 reGeorg 的项目,目的是:提高可用性,避免特征检测\提高 tunnel 连接安全性\提高传输内容保密性\应对更多的网络环境场景下使用

  • Endava/cats REST API 模糊器和 OpenAPI 端点的负面测试工具。CATS 以最少的配置自动生成、运行和报告测试,无需编码工作。测试是自我修复的,不需要维护。

  • t3l3machus/toxssin XSS 利用命令行界面和有效负载生成器。

  • FeeiCN/GSIL GitHub敏感信息泄露监控

  • TophantTechnology/ARL 资产侦察灯塔系统旨在快速侦察与目标关联的互联网资产,构建基础资产信息库。 协助甲方安全团队或者渗透测试人员有效侦察和检索资产,发现存在的薄弱点和攻击面。

  • banach-space/llvm-tutor 用于教学和学习的 out-of-tree LLVM passes 的集合

  • optiv/Mangle 可操纵已编译的exe 或 DLL的各个方面,以避免被 EDR 检测到

  • 0xrawsec/whids 适用于 Windows 的开源 EDR(终端检测与响应)

  • MatrixTM/MHDDoS 最佳 DDoS 攻击脚本 Python3,有 56 种方法

  • D3Ext/WEF 一个完全攻击 802.11 网络和协议的框架,具有针对 WPA/WPA2 和 WEP 的不同类型的攻击、自动哈希破解等。

  • ainfosec/FISSURE 与频率无关的基于 SDR 的信号理解和逆向工程。开源 RF 和逆向工程框架,专为所有技能水平而设计,具有用于信号检测和分类、协议发现、攻击执行、IQ 操纵、漏洞分析、自动化和 AI/ML 的钩子。 该框架旨在促进软件模块、无线电、协议、信号数据、脚本、流程图、参考资料和第三方工具的快速集成。友好的 Python 代码库和界面允许初学者快速了解涉及 RF 和逆向工程的流行工具和技术。

  • RedTeamPentesting/pretender 您的 MitM 助手,用于中继攻击,具有 DHCPv6 DNS 接管以及 mDNS、LLMNR 和 NetBIOS-NS 欺骗。

  • r0uble-mAker/POC-bomber 漏洞检测/利用工具,利用大量高危漏洞的POC/EXP快速获取目标服务器权限 支持weblogic,tomcat,apache,jboss,nginx,struct2,thinkphp2x3x5x,spring,redis,jenkins,php语言漏洞,shiro,泛微OA,致远OA,通达OA等易受攻击组件的漏洞检测,支持调用dnslog检测无回显的rce(包括log4j2的检测),支持单目标和批量检测,程序采用高并发线程池,支持自定义导入poc/exp,并能够生成漏洞报告.使用验证模式进行poc的验证,如返回结果中attack的值为True时,可以加-attack进入攻击模式直接调用exp进行攻击(需要指定poc文件名),达到一键getshell

  • mitre/caldera 一个网络安全平台,旨在轻松实现对手模拟的自动化、协助手动红队和自动化事件响应。

  • onekey-sec/unblob 准确、快速且易于使用的提取套件。 它为超过 30 种不同的存档、压缩和文件系统格式解析未知二进制 blob,递归地提取它们的内容,并分割出尚未考虑的未知块。这使 unblob 成为提取、分析和逆向工程固件映像的完美伴侣。

  • outflanknl/EvilClippy 用于创建恶意 MS Office 文档的跨平台助手。 可以隐藏 VBA 宏,踩踏 VBA 代码(通过 P-Code)并混淆宏分析工具。

  • decalage2/oletools 用于分析 MS OLE2 文件(结构化存储、复合文件二进制格式)和 MS Office 文档的 python 工具,用于恶意软件分析、取证和调试。

  • hluwa/frida-dexdump frida 工具,将dex转储到内存中以分析恶意软件。

  • 1ndianl33t/Bug-Bounty-Roadmaps Bug赏金路线图

  • stark0de/nginxpwner 用于查找常见的 Nginx 配置错误和漏洞。

  • Ettercap/ettercap 中间人攻击的综合套件。 它具有实时连接嗅探、动态内容过滤和许多其他有趣的技巧。 它支持对许多协议的主动和被动剖析,并包括许多用于网络和主机分析的功能。

  • zhkl0228/unidbg 允许您模拟 Android 本机库和实验性 iOS 模拟

  • qilingframework/qiling 真正可检测的二进制仿真框架

  • BeichenDream/PrintNotifyPotato 使用PrintNotify COM服务进行提权。适用于Windows 10 – 11、Windows Server 2012 – 2022

  • redteamsocietegenerale/DLLirant 自动的DLL劫持研究一个特定的二进制

  • wecooperate/iMonitor 冰镜 - 终端行为分析系统,提供了对进程、文件、注册表、网络等系统行为的监控。支持扩展和脚本,可以轻易定制和添加更多功能。可以用于病毒分析、软件逆向、入侵检测,EDR等。

  • 7dog7/bottleneckOsmosis 瓶颈渗透,web渗透,red红队,fuzz param,注释,js字典,ctf

  • rootkiter/EarthWorm 便携式的网络穿透工具,具有 SOCKS v5服务架设和端口转发两大核心功能,可在复杂网络环境下完成网络穿透。

  • OWASP/crAPI 将帮助您了解十个最关键的API安全风险。crAPI 在设计上是脆弱的,但您将能够安全地运行它来教育/培训自己。

  • DavidBuchanan314/dlinject 将共享库(即任意代码)注入实时 Linux 进程,无需跟踪

  • CoolerVoid/casper-fs 一个自定义隐藏的 Linux 内核模块生成器。每个模块都在文件系统中工作,以保护和隐藏机密文件。

  • DataDog/threatest 一个用于端到端测试威胁检测规则的 CLI 和 Go 框架。

  • Idov31/MrKaplan 帮助红队成员通过清除处决证据来隐藏。

  • Chuyu-Team/Dism-Multi-language Dism++ (功能全面的Windows系统精简工具)多语言支持和 BUG 报告.

  • acidanthera/OpenCorePkg 带有开发SDK的OpenCore引导加载程序。

  • radareorg/radare2 类 UNIX 逆向工程框架和命令行工具集。最初是一个简单的命令行十六进制编辑器,专注于取证。今天,r2 是一个功能丰富的低级命令行工具,支持脚本编写。R2 可以编辑本地硬盘驱动器上的文件、查看内核内存以及在本地或通过远程 GDB 服务器调试程序。R2 广泛的架构支持允许您分析、模拟、调试、修改和反汇编任何二进制文件。

  • 2dust/v2rayN 适用于Windows的GUI客户端,支持Xray核心和v2fly核心等

  • 233boy/v2ray 最好用的 V2Ray 一键安装脚本 & 管理脚本

  • FelisCatus/SwitchyOmega 快速轻松地在多个代理之间管理和切换。该项目可作为Chromium扩展。

  • xtaci/kcptun 基于 KCP 的可靠、安全的隧道,使用 N:M 多路复用和 FEC。

  • amark/gun 用于同步分散图形数据的开源网络安全协议。GUN是一个工具生态系统,可让您构建社区运行和加密的应用程序 - 例如开源Firebase或Decentralized Dropbox。

  • GreyDGL/PentestGPT GPT 支持的渗透测试工具。由大型语言模型(LLM)提供支持的渗透测试工具。它旨在自动化渗透测试过程。它建立在 ChatGPT 之上,并以交互模式运行,以指导渗透测试人员的整体进度和特定操作。

  • Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning 使用机器学习算法开发入侵检测系统(决策树,随机森林,额外树,XGBoost,堆栈,k均值,贝叶斯优化..)

  • skylot/jadx Dex to Java 反编译器,命令行和GUI工具,用于从Android Dex和Apk文件生成Java源代码

  • Konloch/bytecode-viewer 字节码查看器 - 轻量级的用户友好型Java / Android字节码查看器,反编译器等。

  • pluja/awesome-privacy 令人敬畏的隐私 - 尊重您的隐私的精选服务和替代方案列表,因为隐私很重要。

  • k4m4/movies-for-hackers 每个黑客和赛博朋克都必须观看的电影的精选列表。

  • WerWolv/ImHex 一个十六进制编辑器,适用于逆向工程师、程序员和在凌晨 3 点工作时重视视网膜的人。

  • GTFOBins/GTFOBins.github.io Unix 二进制文件的精选列表,可用于绕过配置错误的系统中的本地安全限制

  • sharkdp/hexyl 命令行十六进制查看器

  • LC044/WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告

  • carlospolop/PEASS-ng 适用于 Win、Linux/Unix* 和 MacOS 的权限提升工具。

  • imthenachoman/How-To-Secure-A-Linux-Server 用于保护 Linux 服务器的不断发展的操作指南。

  • v1s1t0r1sh3r3/airgeddon 多用途的 bash 脚本,用于 Linux 系统审计无线网络。

  • slackhq/nebula 可扩展的 Overlay 网络工具,专注于性能、简单性和安全性。它可以让您无缝连接世界任何地方的计算机。Nebula 是可移植的,可以在 Linux、OSX、Windows、iOS 和 Android 上运行。它可以用来连接少量的计算机,但也能够连接数以万计的计算机。Nebula 包含了许多现有概念,如加密、安全组、证书和隧道,这些单独的部分在 Nebula 之前就以各种形式存在。Nebula 与现有产品的不同之处在于,它将所有这些想法结合在一起,从而产生一个大于其各个部分的总和。

  • threat9/routersploit 专用于嵌入式设备的开源渗透测试开发框架。

  • wifiphisher/wifiphisher 流氓接入点框架,用于执行红队参与或 Wi-Fi 安全测试。使用 Wifiphisher,渗透测试人员可以通过执行有针对性的 Wi-Fi 关联攻击,轻松实现针对无线客户端的中间人位置。Wifiphisher 可以进一步用于对连接的客户端发起受害者定制的网络钓鱼攻击,以捕获凭据(例如来自第三方登录页面或 WPA/WPA2 预共享密钥)或用恶意软件感染受害者站。

  • danluu/post-mortems 互联网公司和平台事故及相关故障的事后分析的集合。

  • Manisso/fsociety fsociety 黑客工具包 – 渗透测试框架

  • Tencent/secguide 面向开发人员梳理的代码安全指南,旨在梳理API层面的风险点并提供详实可行的安全编码方案。

  • evilsocket/pwnagotchi 基于 A2C 的“AI”,它利用 bettercap 从其周围的 WiFi 环境中学习,以最大限度地利用它捕获的可破解 WPA 密钥材料(被动或通过执行身份验证和关联攻击)。此材料以 PCAP 文件的形式收集,其中包含 hashcat 支持的任何形式的握手,包括 PMKID、全 WPA 握手和半 WPA 握手。

  • carlospolop/hacktricks 黑客技巧,找到我从 CTF、现实生活中的应用程序、阅读研究和新闻中学到的每个黑客技巧/技术/任何内容。

  • vpncn/vpncn.github.io 2024中国VPN推荐以及上网,稳定好用。对比SSR、蓝灯、V2ray、VPS搭梯等上网软件,中国最新上网下载推荐,访问Chatgpt。

  • infosecn1nja/Red-Teaming-Toolkit 包含尖端的开源安全工具 (OST),这些工具将在对手模拟期间为您提供帮助,并且用于威胁猎人的信息可以更轻松地进行检测和预防控制。以下工具列表可能被 APT 和人为勒索软件 (HumOR) 等威胁行为者滥用。如果您想为此列表做出贡献,请向我发送拉取请求。

  • trimstray/the-practical-linux-hardening-guide 本指南详细介绍了如何创建安全的 Linux 生产系统。OpenSCAP(C2S/CIS、STIG)。

  • anderspitman/awesome-tunneling 此列表的目的是跟踪和比较隧道解决方案。这主要针对那些想要做一些事情的自托管者和开发人员,例如通过公共域名公开本地 Web 服务器,使用自动 HTTPS,即使在 NAT 或其他受限网络后面也是如此。

  • yaklang/yakit 网络安全一体化平台,基于安全融合的理念,Yaklang.io 团队研发出了安全领域垂直语言Yaklang,对于一些无法原生集成在 Yak 平台中的产品/工具,利用Yaklang可以重新编写他们的“高质量替代”。对于一些生态完整且认可度较高的产品,Yaklang能直接编译融合,并对源码进行必要修改,更好地适配Yaklang语言。对于一些不想写代码的安全从业者,Yakit会为Yaklang中所有的能力提供合适的GUI。

  • chaitin/safeline 一款足够简单、足够好用、足够强的免费 WAF。基于业界领先的语义引擎检测技术,作为反向代理接入,保护你的网站不受黑客攻击。核心检测能力由智能语义分析算法驱动,专为社区而生,不让黑客越雷池半步。

  • Safe3/uuWAF 工业级免费、高性能、高扩展,支持AI和语义引擎的Web应用和API安全防护产品-南墙。Web应用防火墙、WAF、WAAP

  • Atlas-OS/Atlas 对 Windows 的开放和轻量级修改,旨在优化性能、隐私和安全性。它通过消除对游戏性能产生负面影响的因素来增强 Windows。优化包括增强的隐私性、可用性、性能和更改,以最大限度地减少卡顿和输入延迟,同时专注于维护功能。Atlas 删除了 Windows 中嵌入的大部分遥测数据,并实施了许多组策略,以最大程度地减少数据收集。但是,它无法确保 Windows 范围之外的隐私,例如浏览器和其他第三方应用程序。Atlas在性能和兼容性之间取得了平衡。它实现了许多有意义的更改,以提高 Windows 性能和响应能力,而不会破坏基本功能。Atlas不会对安慰剂效应或边际收益进行调整,使Atlas更加稳定和兼容。

  • wazuh/wazuh 开源安全平台。为端点和云工作负载提供统一的 XDR 和 SIEM 保护。免费的开源平台,用于威胁预防、检测和响应。它能够保护本地、虚拟化、容器化和基于云的环境的工作负载。Wazuh 解决方案由部署到受监控系统的端点安全代理和用于收集和分析代理收集的数据的管理服务器组成。此外,Wazuh 已与 Elastic Stack 完全集成,提供搜索引擎和数据可视化工具,允许用户浏览他们的安全警报。

  • veeral-patel/how-to-secure-anything 如何保护任何东西,安全工程是构建安全系统的学科。它的经验教训不仅适用于计算机安全。事实上,在这个 repo 中,我的目标是记录一个保护任何东西的过程,无论是中世纪城堡、艺术博物馆还是计算机网络。没有所谓的系统是安全的,只有针对特定对手的安全。这就是为什么了解你的对手是谁,以及每个对手背后的动机和能力很重要的原因。

硬件

CPU RISC-V

  • OpenXiangShan/XiangShan 开源高性能 RISC-V 处理器

  • unicorn-engine/unicorn Unicorn CPU仿真器框架(ARM,AArch64,M68K,Mips,Sparc,PowerPC,RiscV,S390x,TriCore,X86)

  • SI-RISCV/e200_opensource 蜂鸟 E203 开源处理器核心

  • Lichee-Pi/Tang_E203_Mini LicheeTang 蜂鸟E203 Core

  • riscv-mcu/e203_hbirdv2 开源 Hummingbirdv2 E203 RISC-V 处理器内核和 SoC 项目,它由中国大陆领先的 RISC-V IP 和解决方案公司Nuclei System Technology开发和开源。

  • mit-pdos/xv6-riscv xv6 是丹尼斯 · 里奇和肯 · 汤普森的Unix 版本 6 (v6)的重新实现。 xv6 松散地遵循 v6 的结构和风格,但使用 ANSI C 为现代 RISC-V 多处理器实施。

  • plctlab/writing-your-first-riscv-simulator《从零开始的RISC-V模拟器开发》配套的PPT和教学资料

  • cccriscv/mini-riscv-os 从零开始为 RISC-V 构建最小的多任务操作系统内核

  • plctlab/riscv-operating-system-mooc 《从头写一个RISC-V OS》课程配套的资源

  • darklife/darkriscv 一个晚上从零开始在 Verilog 实现 RISC-V cpu

  • ultraembedded/riscv RISC-V CPU 核心 (RV32IM)

  • ultraembedded/biriscv 32 位超级RISC-V Cpu

  • liuqidev/8-bits-RISC-CPU-Verilog 基于有限状态机的8位RISC(精简指令集)CPU(中央处理器)简单结构和Verilog实现。

  • litex-hub/linux-on-litex-vexriscv 使用 VexRiscv CPU 运行 Linux,这是一种 32 位的 Linux 功能 RISC-V CPU。

  • riscv2os/riscv2os 手把手帶你學習 RISC-V 到可以自製 RISC-V 處理器上的作業系統的電子書。

  • sgmarz/osblog 在 Rust 中编写 RISC-V 操作系统

  • SpinalHDL/VexRiscv FPGA 友好的 32 位 RISC-V CPU 实现

  • chipsalliance/rocket-chip 实例化 RISC-V Rocket Core 所需的 Rocket 芯片生成器。

  • riscv-boom/riscv-boom 伯克利乱序 RISC-V 处理器.一个可合成和可参数化的开源 RV64GC RISC-V 内核,用Chisel硬件构造语言编写。其重点是为研究创建一个高性能、可综合和可参数化的核心。当前版本的 BOOM 微架构(SonicBOOM,或 BOOMv3)与商用高性能无序内核具有竞争力,达到 6.2 CoreMarks/MHz。

  • ucb-bar/chipyard 具有有序内核、无序内核、加速器等的敏捷 RISC-V SoC 设计框架

  • ucb-bar/riscv-sodor risc-v isa 的教育微架构

  • pulp-platform/pulpino 基于RISC-V的开源微控制器系统 苏黎世联邦理工学院开发的32位RISC-V内核。可配置为使用RISCY或零风险内核。

  • riscv-software-src/riscv-tools RISC-V 工具(ISA 模拟器和测试)

  • YosysHQ/picorv32 尺寸优化的 RISC-V CPU.实现RISC-V RV32IMC 指令集的 CPU 内核。它可以配置为 RV32E、RV32I、RV32IC、RV32IM 或 RV32IMC 内核,并可选择包含内置中断控制器。

  • liangkangnan/tinyriscv 一个从零开始写的极简、非常易懂的RISC-V处理器核。

  • ucb-bar/riscv-mini Chisel 编写的简单 3 级流水线 RISC-V

  • openhwgroup/cva6 6 级、单期、有序CPU,它实现了64位RISC-V指令集。它完全实现了第I卷中指定的I、M、A 和C扩展:用户级ISA V2.3以及草案权限扩展 1.10。它实现了三个特权级别 M、S、U 以完全支持类 Unix 操作系统。此外,它还符合外部调试规范草案 0.13。

  • plctlab/PLCT-Open-Reports PLCT实验室的公开演讲,或者决定公开的组内报告 RISCV LLVM 等。

  • lowRISC/ibex 小型 32 位 RISC-V CPU 内核,以前称为 zero-riscy。用 System Verilog 编写的生产级开源 32 位 RISC-V CPU 内核。CPU 内核高度可参数化,非常适合嵌入式控制应用。Ibex 正在接受广泛的验证,并且已经看到多个流片。Ibex 支持整数 (I) 或嵌入式 (E)、整数乘除法 (M)、压缩 (C) 和B(位操作)扩展。

  • shawn110285/Cookabarra rv32im cpu 的训练目标实现,设计简单易懂。

  • risclite/ARM9-compatible-soft-CPU-core ARM9 兼容软 CPU 内核 ARMv4 兼容的 CPU 内核内置在可合成的 verilog 中。它可以在 MODELSIM 中启动 uCLinux 和 Linux。它具有很高的 Dhrystone 基准值:1.2 DMIPS/MHz。如果您掌握了这个 .v 文件的接口,它可以在您的 FPGA 设计中作为一个子模块使用。该 IP 核非常紧凑。它是一个 .v 文件,只有不到 1800 行。

  • ZipCPU/openarty Arty 上实现ZipCPU,以及所有 Arty 外围设备的开源驱动程序。

  • chsasank/ARM7 ARM7 TDMI流水线处理器Verilog的实现。

  • nxbyte/ARM-LEGv8 Verilog 编写的 ARM LEGv8 CPU 的源代码。支持的指令包括:LDUR, STUR, ADD, SUB, ORR, AND, CBZ, B, 和NOP.单周期:模拟 ARM LEGv8 单周期 CPU 仅流水线:模拟 ARM LEGv8 多周期/流水线 CPU Pipelined with Hazard Detection and Forwarding Unit:模拟具有危险检测和转发功能的 ARM LEGv8 多周期/流水线 CPU

  • risclite/R8051 8051软核CPU。111 条指令的 700 行语句。完全可合成的 Verilog-2001 内核。

  • freecores/8051 8051软核

  • jmahler/mips-cpu 在 Verilog 中实现的 MIPS CPU

  • lvyufeng/step_into_mips 重庆大学由2017年开始实施的计算机组成原理课程改革实验内容,通过合理的梯度划分,一步一步由单独器件连接构成CPU,最后实现一个简单的MIPS五级流水CPU。

  • ljlin/MIPS48PipelineCPU 冯爱民老师《计算机组成原理A》课程设计 本实验通过工程化方法,使用 verilog 了一个支持 MIPS 指令执行集中 48 条指令,通过转向和支持阻尼冒险的 CPU。

  • olgirard/openmsp430 用 Verilog 编写的16 位微控制器内核。

  • qing-2/CPU 单周期 8指令 MIPS32CPU

  • fallen/tinycpu Tiny CPU 是一个小型的 32 位 CPU,主要用于教育目的。

  • riscv-collab/riscv-gnu-toolchain 用于RISC-V的GNU工具链,包括GCC

  • pulp-platform/pulpino 开源的单核微控制器系统,基于苏黎世联邦理工学院开发的32位RISC-V内核。PULPino可以配置为使用RISCY或零RISCY内核。具有4个流水线级,其IPC接近1,完全支持基本整数指令集(RV32I),压缩指令(RV32C)和乘法指令集扩展(RV32M)。它可以配置为具有单精度浮点指令集扩展(RV32F)。它实现了多个 ISA 扩展,例如:硬件环路、后递增加载和存储指令、位操作指令、MAC 操作、支持定点运算、打包 SIMD 指令和点积。它旨在提高超低功耗信号处理应用的能效。RISCY实现了1.9特权规范的子集。

  • OSCPU/NutShell 国科大学生设计的RISC-V SoC。目前它支持 riscv64/32。

  • microdynamics-cpu/tree-core-ide 用于处理器设计和验证的下一代集成开发环境。它具有多硬件语言支持、开源 IP 管理和易于使用的 RTL 仿真工具集。

  • microdynamics-cpu/tree-core-cpu 从零开始编写的一系列RISC-V软核处理器。现在,我们使用所有开源工具链(凿子,铣削,验证器,NEMU,AM和difftest框架等)进行设计和验证。

  • LekKit/RVVM 用С编写和实现的RISC-V CPU和系统软件

  • TheThirdOne/rars RARS,RISC-V汇编器,模拟器和运行时,将组装和模拟RISC-V汇编语言程序的执行。主要目标是为开始使用RISC-V的人们提供一个有效的开发环境。

  • mortbopet/Ripes 用于 RISC-V ISA 的图形处理器模拟器和装配编辑器

  • rustsbi/rustsbi Rust 中的 RISC-V Supervisor 二进制接口 (RISC-V SBI) 库;在 M 或 HS 模式下运行;对嵌入式 Rust 生态系统的良好支持。

  • rcore-os/rCore-Tutorial-v3 让我们从头开始编写一个可以在 Rust 中的 RISC-V 上运行的操作系统!

  • stnolting/neorv32 一款小巧、可定制且高度可扩展的 MCU 级 32 位 RISC-V 软核 CPU 和类似微控制器的 SoC,采用独立于平台的 VHDL 编写。

  • openhwgroup/cv32e40p CV32E40P是一款基于PULP平台RI5CY的4级RISC-V RV32IMFCXpulp CPU。一款小巧高效的32位有序RISC-V内核,具有4级流水线,可实现RV32IM[F|Zfinx]C 指令集架构和 PULP 自定义扩展,可实现更高的代码密度、性能和能效。它最初是基于OpenRISC ISA的OR10N CPU内核的一个分支。然后,以RI5CY的名义,它成为RISC-V核心(2016年),并由PULP平台团队维护,直到2020年2月,它被贡献给OpenHW集团。

  • olofk/serv 一款屡获殊荣的位串行 RISC-V 内核的CPU。 SERV 是世界上最小的 RISC-V CPU。每当您需要一些计算并且硅空间非常宝贵时,它都是完美的伴侣。

  • d0iasm/rvemu RISC-V仿真器,用于CLI和Web,用Rust和WebAssembly编写。它支持 xv6 和 Linux(正在进行中)。

  • probe-rs/probe-rs 在单独主机上调试嵌入式 ARM 和 RISC-V 目标的调试工具集和库

  • syntacore/scr1 开源且免费使用的RISC-V兼容MCU级内核,由Syntacore设计和维护。它是工业级和硅验证(包括全晶圆生产),在所有主要的EDA流程和Verilator中开箱即用,并带有广泛的宣传资料和文档。

硬件_其他

  • zhengnianli/EmbedSummary 精品嵌入式资源汇总

  • thibmaek/awesome-raspberry-pi 树莓派工具、项目、图像和资源的精选列表

  • arduino/Arduino 基于简单 I/O 板和实现处理/布线语言的开发环境的开源物理计算平台。Arduino可用于开发独立的交互式对象,也可以连接到计算机上的软件(例如Flash,Processing和MaxMSP)。

  • micropython/micropython 用于微控制器和受限系统的精简高效的 Python 实现

  • adafruit/circuitpython 适合初学者的 Python 开源版本,适用于称为微控制器的微型廉价计算机。微控制器是许多电子产品的大脑,包括用于构建业余爱好项目和原型的各种开发板。CircuitPython 基于 MicroPython。

  • micropython/micropython-lib 一个包的存储库,旨在用于编写 MicroPython 应用程序。此处的包分为与四个顶级目录相对应的类别:python-stdlib:Python 标准库中模块的兼容版本。这些应该是相应 Python 模块的直接替代品。python-ecosys:来自更广泛的 Python 生态系统的兼容但功能缩减的包版本。例如,可以在 Python 包索引中找到的包。micropython:特定于 MicroPython 的包,在其他 Python 环境中没有等效包。这包括硬件(例如传感器、外围设备或显示器)的驱动程序、使用嵌入式功能(例如蓝牙)的库,或 CPython 中没有等效项的特定于 MicroPython 的包。unix-ffi:这些软件包专门用于 MicroPython Unix 移植,并通过 FFI 提供对操作系统和第三方库的访问,或者对非 Unix 移植没有用的功能。

  • Lichee-Pi/Tang_FPGA_Examples LicheeTang FPGA例程

  • nf9/police_light Lichee Tang板实现警灯

  • danjulio/lepton/ESP32 基于 ESP32 的热像仪(Lepton 3.5)。

  • larryli/u8g2_wqy 适合 u8g2 的中文字体,采用文泉驿点阵宋体作为源本,提供 12x12、13x13、14x14、15x15 和 16x16 点阵字库。

  • edgeimpulse/example-esp32-cam 在 ESP32 Cam 上构建并运行导出的图像分类

  • lvgl/lvgl 强大且易于使用的嵌入式 GUI 库,具有许多小部件、高级视觉效果(不透明度、抗锯齿、动画)和低内存要求(16K RAM、64K 闪存)。

  • avakar/usbcorev 用 Verilog 编写的全速设备端 USB 外设内核。

  • Kevincoooool/ESP_MASTER ESP32-CAM 带 LVGL 语音/人脸识别红外控制

  • FASTSHIFT/WatchX 开源智能手表, 高质量流畅(60FPS+)的动画效果, 易于扩展的系统框架.

  • amaranth-lang/amaranth 开源工具链,用于使用 Python 编程语言开发基于同步数字逻辑的硬件,以及评估板定义、片上系统工具包等。它旨在易于学习和使用,减少或消除常见的编码错误,并使用可重用的组件简化复杂硬件的设计。

  • MegEngine/MegPeak 测试处理器峰值计算工具,支持OpenCL驱动的arm,x86和GPU。

  • killerp/off_asr 智能遥控器(离线版)本项目基于esp32a1s模组,设计了一个遥控器,除了实现基本的红外遥控功能,人们还能通过语音,手机远程进行红外遥控。同时又加入温度传感器,并支持将温度数据上传云端,使能随时随地查看、分析数据。

  • killerp/smart_control 智能遥控器(在线版)。

  • espressif/esp-skainet 乐鑫推出的智能语音助手,目前支持唤醒词和命令词识别。

  • Neutrino-1/Fitness_Watch 一款基于 esp12E 和 arudino 框架的健身手表。功能包括:自动显示开启和关闭、运动检测、心率传感器、NTP时间同步、触觉反馈、SMTP 电子邮件功能

  • alexforencich/verilog-ethernet 用FPGA实现的 Verilog 以太网组件

  • corundum/corundum 用于网络计算的开源基于 FPGA 的 NIC 和平台

  • MiSTer-devel/Main_MiSTer MiSTer是一个开放项目,旨在使用现代硬件重新创建各种经典计算机、游戏机和街机。它允许软件和游戏图像像在原始硬件上一样运行,使用鼠标、键盘、游戏杆和其他游戏控制器等外围设备。

  • revoxhere/duino-coin 几乎可以用任何东西开采的硬币,包括 Arduino 板。

  • eloquentarduino/EloquentTinyML 用于微控制器的Tensorflow Lite的Eloquent接口,可在arduino上进行机器学习计算推理。

  • ultraembedded/cores: Various HDL (Verilog) IP Cores 各种 HDL (Verilog) IP 核 sram FIFO 接口 I2S USB

  • dawsonjon/fpu Verilog 中可合成的 IEEE 754 浮点库。

  • pebri86/esplay_micro_hardware esplay硬件微版,基于ESP32的游戏机

  • WalkerLau/DetectHumanFaces 采用ARM Cortex-M3软核及FPGA构成了轻量级的实时人脸检测SOC,通过ov5640摄像头采集实时图像,经过检测系统的检测后,将已经框出人脸的实时图像通过HDMI输出到显示器,同时可以通过UART查看检测时间等信息,还能通过板载LED灯查看检测到的人脸数量。

  • Qirun/ARM_Cortex-M3 在FPGA上搭建Cortex-M3软核、图像协处理器,并通过OV5640摄像头采集车牌图像,实现对车牌的识别与结果显示。基于Altera DE1 FPGA搭载Cortex-M3软核,依据AHB-Lite总线协议,将LCD1602、RAM、图像协处理器等外设挂载至Cortex-M3。视频采集端,设计写FiFo模块、SDRAM存储与输出、读FiFo模块、灰度处理模块、二值化、VGA显示等模块。最终将400位宽的结果数据(对应20张车牌)存储在RAM中,输出至AHB总线,由Cortex-M3调用并显示识别结果。

  • TimRudy/ice-chips-verilog Verilog 中所有常见分立逻辑器件的库 74LS、74HC、74HCT 系列芯片

  • awrie/fpga_pio 尝试在 FPGA 中重新创建 RP2040 PIO.PIO 代表 Progammaable I/O,它是 RP2040 SoC 的一部分,它比 SPI、I2C、UART 等特定协议的硬件实现灵活得多。它可以实现所有这些协议,甚至更多速度和任何 GPIO 引脚。

  • abnoname/iceZ0mb1e 使用完整的开源 FPGA工具链流程 构建基于 TV80 的演示片上系统,包括使用 SDCC 进行固件编译。

  • brickbots/HandiPi 带键盘和显示屏的手持式 树莓派4 计算机

  • mit-han-lab/tiny-training 256KB 内存下的设备上训练DNN

  • pbatard/rufus 实用程序,可帮助格式化和创建可启动的USB闪存驱动器。

  • mainflux/mainflux 工业物联网消息传递和设备管理平台。用 Go 编写的现代、可扩展、安全、开源且无专利的物联网云平台。

  • ExpressLRS/ExpressLRS 基于 STM32/ESP32/ESP8285 的高性能无线电链路,适用于 RC 应用。它旨在成为最好的 FPV 链接, 它基于梦幻般的 Semtech SX127x/SX1280 LoRa 硬件与乐鑫或 STM32 处理器相结合。使用 LoRa 调制以及减小的数据包大小,它实现了同类最佳范围和延迟.它使用高度优化的无线数据包结构来实现这一点,从而提供同时范围和延迟优势。它支持 900 MHz 和 2.4 GHz 链路,每种链路都有自己的优势。900 MHz 支持最大 200 Hz 的数据包速率,具有更高的穿透率。2.4 GHz 在 EdgeTX 上支持极快的 1000 Hz。拥有 60 多个不同的硬件目标和 13 个硬件制造商,硬件的选择不断增加,不同的硬件适合不同的要求。

  • 1technophile/OpenMQTTGateway MQTT网关,用于ESP8266,ESP32,Sonoff RF Bridge或Arduino,双向433mhz / 315mhz / 868mhz,红外通信,BLE,蓝牙,信标检测,mi flora,mi jia,LYWSD02,LYWSD03MMC,Mi Scale,TPMS,BBQ温度计兼容性,SMS和LORA。

  • Aircoookie/WLED 通过 WiFi 使用 ESP8266 或 ESP32 控制WS2812B和更多类型的数字 RGB LED

  • coolsnowwolf/lede Lean 的 LEDE 路由器系统的源码仓库。LEDE是OpenWrt 的一个分支。

  • mcxiaoke/mqtt MQTT协议3.1.1中文翻译版,IoT,物联网

  • vernemq/vernemq 基于 Erlang/OTP 的分布式 MQTT 消息代理。专为高质量和工业用例而设计。

  • ZoneMinder/zoneminder 一个免费的开源闭路电视软件应用程序,为Linux开发,支持IP,USB和模拟摄像机。

  • qewer33/qpaperOS 适用于 LILYGO T ESP32 开发板的智能手表固件

  • Rem0o/FanControl.Releases 适用于 Windows 的高度可定制的风扇控制软件。

  • rwaldron/johnny-five JavaScript Robotics和IoT编程框架,由Bocoup开发。一个开源的,基于Firmata协议的物联网和机器人编程框架,由Nodebots社区开发。Johnny-Five 程序可以编写为 Arduino(所有型号)、Electric Imp、Beagle Bone、Intel Galileo & Edison、Linino One、Pinoccio、pcDuino3、Raspberry Pi、Particle/Spark Core & Photon、Tessel 2、TI Launchpad 等

  • justcallmekoko/ESP32Marauder 一套适用于 ESP32 的 WiFi/蓝牙攻防工具

  • MarlinFirmware/Marlin 基于Arduino平台的RepRap 3D打印机的优化固件。许多商用3D打印机都安装了Marlin。如果您需要特定计算机的源代码,请咨询您的供应商。

  • OpenMachine-ai/tinyfive 轻量级的RISC-V仿真器和汇编器,Python编写,带有神经网络示例。

  • hybridgroup/gobot 用于机器人、无人机和物联网 (IoT) 的 Golang 框架

  • mpaland/printf 用于嵌入式系统的微小、快速、非依赖和满载的 printf 实现。广泛的测试套件通过。

  • cesanta/mongoose 用于 C/C++ 的网络库。它为 TCP、UDP、HTTP、WebSocket、MQTT 实现了事件驱动的非阻塞 API。它专为连接设备并使其联机而设计。自 2004 年以来在市场上,被大量开源和商业产品使用 - 它甚至在国际空间站上运行!猫鼬使嵌入式网络编程快速、强大且简单。

  • arendst/Tasmota 基于 ESP8266 和 ESP32 的设备的替代固件,使用 webUI 轻松配置、OTA 更新、使用计时器或规则实现自动化、可扩展性以及对 MQTT、HTTP、串行或 KNX 的完全本地控制。

  • tinygo-org/tinygo 通过创建一个基于 LLVM 的新编译器,将 Go 编程语言引入嵌入式系统和现代 Web。可以在超过 94 个不同的微控制器板上编译和运行 TinyGo 程序,例如 BBC micro:bit 和 Arduino Uno。还可以生成大小非常紧凑的 WebAssembly (WASM) 代码。您可以为 Web 浏览器以及支持 WebAssembly 系统接口 (WASI) 系列接口的服务器和边缘计算环境编译程序。

  • seemoo-lab/openhaystack 一个框架,用于通过Apple庞大的“查找我的”网络跟踪个人蓝牙设备。使用它来创建您自己的跟踪标签,您可以将其附加到物理对象(钥匙圈、背包等)或将其集成到其他支持蓝牙的设备(如笔记本电脑)中。是苹果的Find My网络(或离线查找)的逆向工程和安全分析工作的结果。

  • OctoPrint/OctoPrint 3D打印机的活泼Web界面

  • sipeed/MaixPy MicroPython for K210 RISC-V,让我们更轻松地玩边缘AI

  • tzapu/WiFiManager ESP8266具有网络强制门户的WiFi连接管理器,带回退的Web 配置门户

  • chipsalliance/chisel 现代硬件设计语言,Constructing Hardware in a Scala Embedded Language 是一种开源硬件描述语言 (HDL),用于在寄存器传输级别描述数字电子和电路,促进 ASIC 和 FPGA 的高级电路生成和设计重用。

  • logisim-evolution/logisim-evolution 用于设计和仿真数字逻辑电路的教育软件。 Logisim-evolution是免费、开源和跨平台的。

  • openscopeproject/InteractiveHtmlBom 交互式HTML BOM生成插件,适用于KiCad,EasyEDA,Eagle,Fusion360和Allegro PCB设计器

  • travisgoodspeed/gbrom-tutorial 关于掩模ROM恢复的快速小教程,我们将从任天堂GameBoy的掩模ROM照片开始,最后得到一个可以拆卸或模拟的ROM文件。

  • benhoyt/inih 简单。C 语言的 INI 文件解析器,适用于嵌入式系统

  • beeper/beepy Pi Zero的显示器键盘外设。超低功耗、高对比度、高分辨率、夏普存储液晶显示器。带背光和触摸板的点击式键盘,便于输入和导航。可自定义的键盘映射以满足您的需求。由Pi Zero W(可选)或任何其他兼容的SBC(如Radxa Zero、MQ-Pro)供电,具有薄型无焊接头。

  • copy/v86 v86 模拟兼容 x86 的 CPU 和硬件。机器代码在运行时被转换为 WebAssembly 模块,以实现良好的性能。

  • RetroPie/RetroPie-Setup Shell脚本,用于设置带有RetroArch模拟器和各种内核的Raspberry Pi / Odroid / PC

  • microsoft/devicescript 用于微型物联网设备的 TypeScript(ESP32、RP2040 等)

  • ClemensElflein/OpenMower 让我们将廉价的现成机器人割草机升级为基于 RTK GPS 的现代智能割草机器人

  • emqx/emqx 适用于物联网、工业物联网和互联汽车的最具可扩展性的开源 MQTT 代理

  • thingsboard/thingsboard 开源物联网平台 - 设备管理、数据收集、处理和可视化。

  • blakeblackshear/frigate NVR具有实时本地物体检测功能,适用于IP摄像机

  • mqttjs/MQTT.js Node.js 和浏览器的 MQTT 客户端

  • eclipse/mosquitto MQTT 协议版本 5.0、3.1.1 和 3.1 的服务器的开源实现。它还包括一个 C 和 C++ 客户端库,以及用于发布和订阅的 mosquitto_pub 和 mosquitto_sub 实用程序。

  • esphome/esphome 通过简单而强大的配置文件来控制您的 ESP8266/ESP32 并通过家庭自动化系统远程控制它们的系统。

  • MichMich/MagicMirror 开源的模块化智能镜子平台。随着可安装模块的不断增加,MagicMirror² 允许您将走廊或浴室镜子转换为您的私人助理。

  • chrislgarry/Apollo-11 阿波罗11号制导计算机(AGC)指令舱(Comanche055)和登月舱(Luminary099)的原始源代码。由虚拟AGC和麻省理工学院博物馆的人们数字化。目标是成为原始阿波罗 11 号源代码的存储库。

  • peng-zhihui/Dummy-Robot 超迷你机械臂机器人项目。

  • PX4/PX4-Autopilot 用于无人机的 PX4 飞行控制解决方案,主要应用程序位于 src/modules 目录中。它还包含 PX4 无人机中间件平台,该平台提供运行无人机的驱动程序和中间件。PX4 具有高度的便携性,独立于操作系统,并支持开箱即用的 Linux、NuttX 和 MacOS。

  • Ly0n/awesome-robotic-tooling 用于 C++ 和 Python 专业机器人开发的工具,带有 ROS、自动驾驶和航空航天功能。

  • cyberbotics/webots 完整的开发环境,用于对机器人、车辆和机械系统进行建模、编程和仿真。

  • awesome-robotic-tooling 用于 C++ 和 Python 专业机器人开发的工具,带有 ROS、自动驾驶和航空航天的触感。

  • MichaIng/DietPi 非常轻量级的基于 Debian 的操作系统。它针对最小的 CPU 和 RAM 资源使用进行了高度优化,确保您的 SBC 始终发挥其最大潜力。

  • FreeCAD/FreeCAD FreeCAD的官方源代码,FreeCAD是一个免费的开源多平台3D参数化建模器。

  • thibmaek/awesome-raspberry-pi 精选的RaspberryPi工具、项目、图像和资源列表

  • DarkFlippers/unleashed-firmware Flipper Zero Unleashed 固件存储库,最稳定的自定义固件专注于原始固件组件的新功能和改进,几乎没有 UI 更改

  • RT-Thread/rt-thread 开源的物联网实时操作系统 (RTOS)

  • qmk/qmk_firmware 适用于 Atmel AVR 和 Arm USB 系列的开源键盘固件

  • zephyrproject-rtos/zephyr 一个可扩展的实时操作系统 (RTOS),支持多种硬件架构,针对资源受限的设备进行了优化,并在构建时考虑到了安全性。Zephyr OS 基于小尺寸内核,专为资源受限系统而设计:从简单的嵌入式环境传感器和 LED 可穿戴设备到复杂的智能手表和物联网无线网关。Zephyr 内核支持多种架构,包括 ARM(Cortex-A、Cortex-R、Cortex-M)、Intel x86、ARC、Nios II、Tensilica Xtensa 和 RISC-V、SPARC、MIPS 以及大量支持的主板。

其他项目

Python

  • python/cpython Python编程语言

  • jobbole/awesome-python-cn Python资源大全中文版,包括:Web框架、网络爬虫、模板引擎、数据库、数据可视化、图片处理等

  • mouredev/Hello-Python 从头开始学习Python编程语言的课程,适合初学者。超过30节课,25小时视频,代码和群聊。从基础知识到创建有数据库的后端 API 等等......

  • jackfrued/Python-100-Days Python - 100天从新手到大师

  • Asabeneh/30-Days-Of-Python 30天的Python编程挑战是在30天内学习Python编程语言的分步指南。这个挑战可能需要100多天

  • satwikkansal/wtfpython 通过令人惊讶的片段探索和理解Python。

  • rasbt/python_reference 有用的函数、教程和其他 Python 相关的东西

  • Python-programming-exercises 100 多个具有挑战性的 Python 编程练习

  • yidao620c/python3-cookbook 《Python Cookbook》第三版翻译

  • vinta/awesome-python 很棒的 Python 框架、库、软件和资源的精选列表

  • joaoventura/full-speed-python 全速 Python:一本面向自学者的书

  • trekhleb/learn-python 用于学习 Python 的游乐场和备忘单。Python 脚本的集合,按主题拆分并包含带有解释的代码示例

  • jerry-git/learn-python3 用于教学/学习 Python 3 的 Jupyter 笔记本

  • microsoft/playwright-python 针对 Python 语言的纯自动化工具,它可以通过单个API自动执行 Chromium,Firefox 和 WebKit 浏览器,连代码都不用写,就能实现自动化功能。

  • leisurelicht/wtfpython-cn 收集 Python 中那些难以理解和反人类直觉的例子以及鲜为人知的功能特性, 并尝试讨论这些现象背后真正的原理

  • hoffstadt/DearPyGui 针对Py的快速强大的图形用户界面工具包,具有最小的依赖性

  • sympy/sympy 用纯 Python 编写的计算机代数系统。符号计算系统(顺便说一下,通常也称为计算机代数系统,或简称为 CAS),能够计算带有变量的符号表达式。

  • geekcomputers/Python 创建这些小程序作为实验来玩Python,或者为自己解决问题。我很乐意接受其他人的指示,以改进、简化或提高代码效率。

  • emeryberger/scalene 适用于Python的高性能,高精度CPU和内存分析器.用于Python脚本的CPU和内存分析器,能够正确处理多线程代码,还能区分Python代码和本机代码的运行时间。

  • pyenv/pyenv 简单的 Python 版本管理,轻松地在多个 Python 版本之间切换。它简单、不显眼,并遵循 UNIX 的单一用途工具的传统,可以很好地完成一件事。

  • bloomberg/memray Memray 是 Python 的内存分析器。它可以跟踪 Python 代码、本机扩展模块和 Python 解释器本身中的内存分配。它可以生成几种不同类型的报告来帮助您分析捕获的内存使用数据。虽然通常用作 CLI 工具,但它也可以用作库来执行更细粒度的分析任务。

  • joerick/pyinstrument Python的调用堆栈分析器。向您展示为什么您的代码很慢!

  • psf/black 毫不妥协的 Python 代码格式化程序

  • chriskiehl/Gooey 只需一行即可将(几乎)任何 Python 命令行程序转换为完整的 GUI 应用程序

  • Yixiaohan/codeparkshare Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐

  • spotify/chartify Python 库,使数据科学家可以轻松创建图表。

  • matplotlib/matplotlib 全面的在Python中创建静态,动画和交互式可视化。

  • matplotlib/cheatsheets Matplotlib 用户的备忘单

  • nvbn/thefuck 一款出色的应用程序,灵感来自一条@liamosaur推文,可更正以前控制台命令中的错误。

  • jupyter/notebook 基于 Web 的交互式计算笔记本环境。Project Jupyter 的与语言无关的 HTML 笔记本应用程序。2015 年,Jupyter notebook 作为 IPython 代码库 The Big Split™ 的一部分发布。IPython 3 是最后一个主要的单体版本,包含与语言无关的代码(如 IPython 笔记本)和特定语言的代码(如 Python 的 IPython 内核)。由于计算跨越多种语言,Project Jupyter 将继续在此存储库中开发与语言无关的 Jupyter 笔记本,并在社区的帮助下开发特定于语言的内核,这些内核可以在他们自己的离散存储库中找到。

  • benfred/py-spy Python程序的采样分析器。它使您可以可视化Python程序花费的时间,而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低:它是用 Rust 编写的,以提高速度,并且不会在与分析的 Python 程序相同的进程中运行。这意味着py-spy可以安全地用于生产Python代码。

  • ManimCommunity/manim 社区维护的Python框架,用于创建数学动画。

  • dabeaz-course/practical-python 实用的Python编程(@dabeaz课程)

  • jackfrued/Python-Core-50-Courses Python语言基础50课

  • pandas-dev/pandas 灵活而强大的 Python 数据分析/操作库,提供类似于 R data.frame 对象的标记数据结构、统计函数等等

  • pymupdf/PyMuPDF MuPDF的增强型Python绑定 - 轻量级PDF,XPS和电子书查看器,渲染器和工具包。

  • postmanlabs/httpbin HTTP Request & Response Service,用Py + Flask编写。

  • modularml/mojo Mojo是一种新的编程语言,通过将Python语法和生态系统与系统编程和元编程功能相结合,弥合了研究和生产之间的差距。Mojo还很年轻,但它旨在随着时间的推移成为Python的超集。

  • pybind/pybind11 C++11 和 Python 之间的无缝可操作性

  • kitao/pyxel Pyxel是Python的复古游戏引擎。由于其受复古游戏机启发的简单规格,例如只能显示 16 种颜色,只能同时播放 4 种声音,您可以随意享受制作像素艺术风格游戏的乐趣。

  • pytest-dev/pytest 使编写小型测试变得容易,但可扩展以支持复杂的功能测试

  • x-hw/amazing-qr Python中惊人的QRCode生成器(支持动画gif) - Python amazing QR 生成器(支持 gif 动态图片二维码)

  • Nuitka/Nuitka 用Python编写的Python编译器。它与Python 2.6,2.7,3.4,3.5,3.6,3.7,3.8,3.9,3.10和3.11完全兼容。你给它提供你的Python应用程序,它做了很多聪明的事情,并吐出一个可执行文件或扩展模块。

  • jackzhenguo/python-small-examples 告别枯燥,致力于打造 Python 实用小例子

  • faif/python-patterns Python 中的设计模式和习语的集合。

  • Jack-Cherish/PythonPark Python 开源项目之「自学编程之路」,保姆级教程:AI实验室、宝藏视频、数据结构、学习指南、机器学习实战、深度学习实战、网络爬虫、大厂面经、程序人生、资源分享。

  • astral-sh/ruff 一个非常快的 Python linter 和代码格式化程序,用 Rust 编写。

  • python-poetry/poetry 帮助您声明、管理和安装 Python 项目的依赖项,确保您在任何地方都有正确的堆栈。

  • google/python-fire 用于从任何 Python 对象自动生成命令行界面 (CLI) 的库。

  • pypa/pip Python 的包安装程序。可使用 pip 从 Python 包索引和其他索引安装包。

  • jazzband/pip-tools 一组工具,用于使固定的 Python 依赖项保持最新。

  • mitsuhiko/rye Python 的实验性包管理解决方案,Armin 个人一站式商店,可以满足他所有的 Python 需求。它安装和管理 Python 安装、管理文件、安装和卸载依赖项、在后台管理 pyproject.toml  virtualenv。它支持 monorepos 和全局工具安装。

  • pypa/pipenv Python virtualenv 管理工具,它支持多种系统,并很好地弥合了 pip、python(使用系统 python、pyenv 或 asdf)和 virtualenv 之间的差距。

  • kivy/python-for-android 将您的 Python 应用程序变成 Android APK

  • navdeep-G/setup.py 提供一个示例 setup.py 文件,该文件可用于引导下一个 Py 项目。它包括一些高级模式和最佳实践 setup.py ,以及一些注释掉的好东西。

  • pypa/hatch 现代、可扩展的 Python 项目管理,标准化的构建系统,默认具有可重现的构建、强大的环境管理,支持自定义脚本、可配置的 Python 分发管理、使用合理的默认值进行静态分析、轻松发布到 PyPI 或其他索引、版本管理、最佳实践项目生成、响应式 CLI,比同等工具快 ~2-3 倍

  • pdm-project/pdm 支持最新 PEP 标准的现代 Python 包和依赖项管理器

  • cookiecutter/cookiecutter 一个跨平台的命令行实用程序,用于从千篇一律的(项目模板)创建项目,例如 Python 包项目、C 项目。

  • kivy/kivy 用 Python 编写的开源 UI 框架,可在 Windows、Linux、macOS、Android 和 iOS 上运行

  • theskumar/python-dotenv 从 .env 文件中读取键值对,并将其设置为环境变量。它有助于按照 12 因素原则开发应用程序。

  • tqdm/tqdm 适用于 Python 和 CLI 的快速、可扩展的进度条

  • microsoft/pyright 功能齐全、基于标准的 Python 静态类型检查器。它专为高性能而设计,可与大型 Python 源代码库一起使用。

  • PySimpleGUI/PySimpleGUI 轻松创建复杂的窗口。支持tkinter,Qt,WxPython,Remi(在浏览器中)。使用全套小部件轻松创建 GUI 应用程序。多窗口应用程序也很简单。支持 3.4 至 3.11。325+ 演示程序和食谱,用于快速入门。广泛的文档

  • cool-RR/PySnooper 一个穷人的调试器。如果你使用过 Bash,它就像 Python 一样 set -x ,只是它更高级。

  • pyscript/pyscript 一个框架,允许用户使用 HTML 的界面和 Pyodide、MicroPython 和 WASM 以及现代 Web 技术的强大功能在浏览器中创建丰富的 Python 应用程序。

  • xianhu/LearnPython 以撸代码的形式学习Python

  • psf/requests 一个简单而优雅的 HTTP 库。

  • huangsam/ultimate-python 适合新手和专业人士的终极 Python 学习指南。

  • pamoroso/free-python-books Python 书籍可免费在线阅读或下载.

  • junnplus/awesome-python-books Python 书籍目录

  • xxg1413/python Python 书籍和课程

  • thonny/thonny 面向初学者的 Python IDE

  • pola-rs/polars 由多线程、矢量化查询引擎提供支持的数据帧 Dataframe,Rust编写

  • plotly/plotly.py Py的交互式图形库 这个项目现在包括 Plotly Express

  • pyecharts/pyecharts Py的数据可视化库。Apache ECharts 是由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多的认可。

  • mwaskom/seaborn 基于 matplotlib 的 Python 可视化库。它提供了一个高级界面,用于绘制有吸引力的统计图形。

  • bokeh/bokeh 用于现代 Web 浏览器的交互式可视化库。它提供了优雅、简洁的多功能图形结构,并在大型或流式数据集中提供了高性能的交互性。散景可以帮助任何想要快速轻松地创建交互式绘图、仪表板和数据应用程序的人。

  • google/yapf 基于clang-format(由 Daniel Jasper 开发)的 Py 格式化程序。该算法获取代码并计算符合配置样式的最佳格式。它消除了维护代码的很多苦差事。

  • getpelican/pelican 支持 Markdown 和 reST 语法的静态站点生成器。

  • pyinstaller/pyinstaller  将 Python 应用程序及其所有依赖项捆绑到一个包中。用户可以在不安装 Python 解释器或任何模块的情况下运行打包的应用。

  • marceloprates/prettymaps 一小组Python函数,用于从OpenStreetMap数据中绘制漂亮的地图。基于 osmnx、matplotlib 和 shapely 库。

  • dabeaz-course/python-mastery 以练习为导向的高级 Python 编程课程,十多年来在企业培训巡回赛中经过了数百次的实战测试。作者:David Beazley,他是 Python Cookbook, 3rd Edition (O'Reilly) 和 Python Distilled (Addison-Wesley) 的作者。在知识共享许可下发布。

  • gto76/python-cheatsheet 全面的python备忘单

  • norvig/pytudes Python程序,通常很短,难度相当大,以完善特定的技能。

  • walter201230/Python 最良心的 Python 教程

  • python/mypy Python 的静态类型检查器。类型检查器有助于确保在代码中正确使用变量和函数。使用 mypy,将类型提示 (PEP 484) 添加到您的 Python 程序中,当您错误地使用这些类型时,mypy 会警告您。Python 是一种动态语言,因此通常只有在尝试运行它时才会在代码中看到错误。Mypy 是一个静态检查器,因此它甚至可以在不运行程序的情况下发现程序中的错误!

  • pydantic/pydantic 使用 Python 类型提示进行数据验证。Pydantic 快速且可扩展,可以很好地与您的 linters/IDE/大脑配合使用。定义数据在纯规范 Python 3.8+ 中应该如何存在;使用 Pydantic 验证它。

  • ipython/ipython IPython 本身的官方存储库。IPython 组织中的其他存储库包含网站、文档构建等内容。IPython (Interactive Python) 是一个用于多种编程语言的交互式计算的命令 shell,最初是为 Python 编程语言开发的,它提供内省、富媒体、shell 语法、Tab 自动补全和历史记录。

  • mahmoud/awesome-python-applications 运行良好的免费软件,也恰好是开源 Python。

  • psf/black 毫不妥协的Python代码格式化程序。通过使用它,您同意放弃对手动格式化细节的控制。作为回报,Black 为您提供速度、确定性和免于 pycodestyle 唠叨格式的自由。您将为更重要的事情节省时间和精力。

  • psf/pyperf 用于编写、运行和分析基准测试的工具包。用于运行可靠基准测试的简单 API、自动校准时间预算的基准、生成多个工作进程、计算平均值和标准差、检测基准测试结果是否不稳定、用于存储基准测试结果的 JSON 格式、支持多种单位:秒、字节和整数。

  • joke2k/faker Python 包,可以为您生成虚假数据。

  • Delgan/loguru 旨在为 Python 带来愉快日志记录的库。特征:开箱即用,无需样板 ;没有处理程序,没有格式化程序,没有过滤器;通过旋转/保留/压缩更轻松地记录文件;使用大括号样式的现代字符串格式;在线程或 main 中捕获异常;漂亮的彩色日志记录;异步、线程安全、多进程安全;完全描述性的异常;根据需要进行结构化日志记录;对昂贵函数的延迟评估;可定制的级别;更好的日期时间处理;适用于脚本和库;与标准日志记录完全兼容;通过环境变量实现个性化默认值;方便的解析器;详尽的通知程序;比内置日志记录快 10 倍。

  • fabric/fabric 通过 SSH 远程执行 shell 命令,从而产生有用的 Python 对象作为返回。它建立在Invoke(子流程命令执行和命令行功能)和Paramiko(SSH协议实现)之上,扩展了它们的API以相互补充并提供额外的功能。

  • pallets/click Python 包,用于以可组合的方式创建漂亮的命令行界面,并根据需要使用尽可能少的代码。它是“命令行界面创建工具包”。它是高度可配置的,但具有开箱即用的合理默认值。

  • avinashkranjan/Amazing-Python-Scripts 精选的惊人 Python 脚本集合,从基础到高级,带有自动化任务脚本。

  • facebook/pyre-check: Performant type-checking for python. 符合 PEP 484 的 Python 高性能类型检查器。Pyre 可以逐步分析包含数百万行代码的代码库,从而在开发人员编写代码时为他们提供即时反馈。可在 Pyre Playground 中中试用它。

  • arrow-py/arrow Python 库,提供了明智且人性化的方法来创建、操作、格式化和转换日期、时间和时间戳。可以帮助您以更少的导入和更少的代码处理日期和时间。

  • exaloop/codon 高性能的 Python 实现,可编译为本机机器代码,而不会产生任何运行时开销。在单个线程上,与普通 Python 相比,典型的加速约为 10-100 倍或更多。密码子的性能通常与 C/C++ 相当(有时甚至更好)。与 Python 不同,Codon 支持原生多线程,这可以使速度提高许多倍。

  • mahmoud/boltons 超过230个BSD许可的纯Python实用程序

  • realpython/python-guide 旨在为新手和专家 Python 开发人员提供一本关于日常安装、配置和使用 Python 的最佳实践手册。

  • gaogaotiantian/viztracer 低开销的日志记录/调试/分析工具,可以跟踪和可视化 python 代码执行。

  • bee-san/pyWhat 识别任何东西。pyWhat 可让您轻松识别电子邮件、IP 地址等。给它一个 .pcap 文件或一些文本,它会告诉你它是什么

  • taizilongxu/interview_python 关于Python的面试题

  • reloadware/reloadium Python 的热重载、分析和 AI 调试

  • TomSchimansky/CustomTkinter 基于 Tkinter 的 python UI 库,它提供了新的、现代的和完全可定制的小部件。它们的创建和使用方式与普通的 Tkinter 小部件类似,也可以与普通的 Tkinter 元素结合使用。小部件和窗口颜色要么适应系统外观,要么适应手动设置的模式(“浅色”、“深色”),并且所有小部件和窗口都支持 HighDPI 缩放。在所有桌面平台上获得一致且现代的外观。

  • tiangolo/typer 用于构建 CLI 应用程序的库,用户会喜欢使用,开发人员会喜欢创建。基于 Python 3.6+ 类型提示。

  • borgbackup/borg 重复数据删除备份程序。它支持压缩和经过身份验证的加密。

  • MagicStack/uvloop 内置 Asyncio 事件循环的快速直接替代品。uvloop 是在 Cython 中实现的,并在后台使用 libuv。

  • mwouts/jupytext Jupyter Notebooks Markdown文档、Julia、Python或R脚本

  • giampaolo/psutil 用于 Python 中进程和系统监控的跨平台库

  • sanic-org/sanic 异步 Python 3.7+ web 框架

  • Textualize/textual 受现代Web开发启发的 Python 的 TUI(文本用户界面)框架。

  • ijl/orjson 支持数据类、日期时间和 numpy 的高速、准确的 Python JSON 库

  • Davy-Zhou/zip2pdf 基于Python自动化解压压缩包成PDG,PDG合成PDF

  • jupyterlab/jupyterlab-git 使用 Git 进行版本控制的 JupyterLab 扩展

  • damianavila/RISE 允许您立即将 Jupyter 笔记本变成幻灯片。

  • jupyter/nbdime 用于区分和合并 Jupyter 笔记本的工具。

  • voila-dashboards/voila 将 Jupyter 笔记本变成独立的网络应用程序

  • jazzband/tablib 用于 XLS、CSV、JSON、YAML 和 c 表格数据集的 Python 模块。

  • robotframework/robotframework 用于验收测试和 RPA 的通用自动化框架

  • tebelorg/RPA-Python 用于 RPA(机器人流程自动化)的 Python 包

  • python-visualization/folium folium 建立在 Python 生态系统的数据整理优势和 Leaflet.js 库的映射优势之上。在 Python 中操作您的数据,然后通过 folium 将其可视化在 Leaflet 地图中。

  • davidhalter/jedi 很棒的 Python 自动完成、静态分析和重构库,Jedi 专注于自动完成和转到功能。其他功能包括重构、代码搜索和查找引用。有一个简单的 API 可供使用。有一个参考实现作为 VIM-Plugin。REPL中的自动完成也是可能的,IPython本机使用它,对于CPython REPL,您可以安装它。绝地武士经过了很好的测试,错误应该很少见。

  • ActivityWatch/activitywatch 最好的免费和开源自动时间跟踪器。跨平台、可扩展、注重隐私。在不损害用户隐私的情况下收集尽可能多的有价值的生活数据。

C/C++ 程序设计

  • skyline-emu/skyline 实验性模拟器,可在 ARMv8 Android™ 设备上运行并模拟 Nintendo Switch™ 游戏机系统的功能

  • huihut/interview C/C++ 技术面试基础知识总结

  • wuye9036/CppTemplateTutorial 中文的C++ Template的教学指南。与知名书籍C++ Templates不同,该系列教程将C++ Templates作为一门图灵完备的语言来讲授,以求帮助读者对Meta-Programming融会贯通。

  • Qihoo360/safe-rules 详细的C/C++编程规范指南,由360质量工程部编著,适用于桌面、服务端及嵌入式软件系统。

  • isocpp/CppCoreGuidelines C++ 核心指南是一组关于使用 C++ 编码的久经考验的指南、规则和最佳实践

  • TheAlgorithms/C-Plus-Plus 以 C++ 实现的数学、机器学习、计算机科学和物理学中的各种算法的集合,用于教育目的。

  • chengxumiaodaren/cpp-learning C++学习

  • jobbole/awesome-cpp-cn C++ 资源大全中文版,标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。

  • AnthonyCalandra/modern-cpp-features 现代C++语言和库功能的备忘单。

  • llvm/llvm-project LLVM 项目是模块化和可重用的编译器和工具链技术的集合。用于构建高度优化的编译器、优化器和运行时环境的工具包。LLVM 项目有多个组件。该项目的核心本身称为“LLVM”。它包含处理中间表示并将其转换为目标文件所需的所有工具、库和头文件。工具包括汇编程序、反汇编程序、位码分析器和位码优化器。类 C 语言使用 Clang 前端。此组件使用 LLVM 将 C、C++、Objective-C 和 Objective-C++ 代码编译为 LLVM 位码,然后从那里编译为目标文件。其他组件包括:libc++ C++ 标准库、LLD 链接器等。

  • Tencent/libco 广泛应用于微信后台服务的协程库。 已经在数万台机器上运行。

  • cloudwu/coroutine C 的非对称协程库。

  • attractivechaos/klib 独立轻量级 C 库,MIT/X11许可。 多数组件都独立于外部库,除了标准 C 库,并且彼此独立。Klib 致力于提高效率和减少内存占用。 就速度和内存使用而言,某些组件(如 khash.h、kbtree.h、ksort.h 和 kvec.h)是所有编程语言中类似算法或数据结构的最有效实现之一。

  • nothings/stb 用于 C/C++ 的单文件公共域(或 MIT 许可)库

  • miloyip/json-tutorial 从零开始的 JSON 库教程 C/C++ 编程

  • liu-jianhao/Cpp-Design-Patterns C++设计模式

  • facebook/folly Facebook开发和使用的开源C++库。

  • fffaraz/awesome-cpp A curated list of awesome C++ (or C) frameworks, libraries, resources, and shiny things. Inspired by awesome-... stuff.

  • tangtangcoding/C-C- C语言电子书与视频资料分享

  • linyacool/WebServer C++11编写的Web服务器

  • jupyter-xeus/xeus-cling 用于 C++ 编程语言的 Jupyter 内核

  • gozfree/gear-lib 一组通用的C基础库,用POSIX C实现,目标是为了跨平台兼容。适用于物联网,嵌入式,以及网络服务开发等场景。

  • google/googletest Google 测试和模拟框架 C++ 测试框架

  • ocornut/imgui 具有最小依赖性的 C++ 无膨胀图形用户界面

  • SFML/SFML 简单、快速、跨平台和面向对象的多媒体 API。它提供对窗口、图形、音频和网络的访问。它是用 C++ 编写的,并具有各种语言的绑定,例如 C、.Net、Ruby、Python。

  • citra-emu/citra 用 C++ 编写的实验性开源 Nintendo 3DS 模拟器/调试器。

  • microsoft/vcpkg 帮助您管理 Win、Linux 和 MacOS 上的 C 和 C++ 库。

  • libcpr/cpr libcurl的简单包装器,灵感来自优秀的Python Requests项目。

  • open-source-parsers/jsoncpp 用于与 JSON 交互的C++库。C++库,允许操作 JSON 值,包括字符串的序列化和反序列化。它还可以在反序列化/序列化步骤中保留现有注释,使其成为存储用户输入文件的方便格式。

  • progschj/ThreadPool 一个简单的 C++11 线程池实现

  • libevent/libevent 事件通知库。libevent API 提供了一种机制,用于在文件描述符上发生特定事件或达到超时后执行回调函数。此外,libevent 还支持由于信号或定期超时而产生的回调。libevent 旨在替换事件驱动网络服务器中的事件循环。应用程序只需要调用 event_dispatch,然后动态添加或删除事件,而无需更改事件循环。目前 libevent 支持 /dev/poll、kqueue、event ports、POSIX select、Windows select、poll和 epoll。内部事件机制完全独立于公开的事件 API,对 libevent 的简单更新可以提供新功能,而无需重新设计应用程序。因此,Libevent 允许可移植应用程序开发,并提供操作系统上可用的最具可扩展性的事件通知机制。Libevent 还可用于多线程应用程序,方法是隔离每个event_base,以便只有一个线程访问它,或者通过锁定对单个共享event_base的访问。Libevent 应该在 Linux、*BSD、Mac OS X、Solaris、Windows 等平台上编译。Libevent 还为缓冲网络 IO 提供了一个复杂的框架,支持套接字、过滤器、速率限制、SSL、零拷贝文件传输和 IOCP。Libevent 支持多种有用的协议,包括 DNS、HTTP 和最小的 RPC 框架。使用 libevent 的程序:Chromium – Google 的开源网络浏览器(使用 Libevent);Memcached – 高性能分布式内存对象缓存系统;Transmission 一个快速、简单且免费的 BitTorrent 客户端;NTP – 使时钟正确的网络时间协议(在 SNTP 中使用 Libevent);tmux – 一个干净、现代、BSD 许可的终端多路复用器,类似于 GNU 屏幕;Tor – 一个匿名的互联网通信系统。libevhtp – libevent 的 http 客户端/服务器 API 的快速灵活替代品

  • idealvin/coost 一个优雅高效的跨平台C++基础库。它的目标是创建一把C++之剑,使C++编程变得简单愉快。

  • C 程序设计 · 语雀

  • koshox/pythonvm 《自己动手写python虚拟机》C++实现

  • federico-busato/Modern-CPP-Programming 现代 C++ 编程课程 (C++ 11/14/17/20/23),这门开放获取课程面向那些已经熟悉 C 和面向对象编程的人,以达到 C++ 编程的熟练程度。该课程涵盖 C++ 编程的基础知识,并转向高级 C++ 语义和概念。

  • carbon-language/carbon-lang Carbon Language的主要存储库:文档,设计,实现和相关工具。Carbon是一种后继语言方法,而不是试图逐步发展C++。它围绕与C++的互操作性以及现有C++代码库和开发人员的大规模采用和迁移而设计。C++仍然是性能关键型软件的主要编程语言,拥有大量且不断增长的代码库和投资。然而,如上所述,它正在努力改善和满足开发人员的需求,这在很大程度上是由于积累了数十年的技术债务。逐步改进C++非常困难,这既是由于技术债务本身,也是由于其演变过程的挑战。解决这些问题的最佳方法是避免直接继承 C 或 C++ 的遗产,而是从坚实的语言基础开始,如现代泛型系统、模块化代码组织和一致、简单的语法。

  • abseil/abseil-cpp  C++ 库代码的开源集合,旨在增强 C++ 标准库。Abseil 库代码是从 Google 自己的 C++ 代码库中收集的,经过广泛的测试并在生产中使用,与我们日常编码生活中依赖的代码相同。

  • akheron/jansson 用于编码、解码和操作 JSON 数据的 C 库

  • simdjson/simdjson 每秒解析千兆字节的JSON:由Facebook / Meta Velox,WestmelonDB,Apache Doris,StarRocks使用。simdjson 库使用常用的 SIMD 指令和微并行算法来解析 JSON 的速度比 RapidJSON 快 4 倍,比 JSON 快 25 倍,适用于现代C++。

  • Tencent/rapidjson 快速JSON解析/生成器,同时使用C++ SAX/DOM 样式 API

  • bblanchon/ArduinoJson 用于Arduino和嵌入式C++的JSON库。简单高效。

  • miloyip/nativejson-benchmark C/C++ JSON 解析器/生成器基准测试

  • miloyip/json-tutorial 从零开始的 JSON 库教程

  • nlohmann/json 适用于现代C++的 JSON

  • DaveGamble/cJSON ANSI C 中的超轻量级 JSON 解析器

  • Mooophy/Cpp-Primer C++ 入门5答案

  • facebook/infer 适用于 Java、C、C++ 和 Objective-C 的静态分析器

  • Tencent/MMKV 微信开发的高效、小型移动键值存储框架。

  • openframeworks/openFrameworks 社区开发的跨平台工具包,用于C++中的创造性编码。

  • gabime/spdlog 非常快速,仅标头/编译的 C++ 日志记录库。

  • catchorg/Catch2 用于单元测试、TDD 和 BDD 的现代 C++ 原生测试框架 - 使用 C++14、C++17 及更高版本

  • fmtlib/fmt 开源格式库,为 C stdio 和 C++ iostreams 提供了快速安全的替代方案。

  • rigtorp/awesome-modern-cpp 有关现代 C++ 的资源集合。目标是收集资源列表,以帮助人们了解和利用现代 C++11 及更高版本。

  • sumatrapdfreader/sumatrapdf C/C++ Windows 的多格式(PDF、EPUB、MOBI、CBZ、CBR、FB2、CHM、XPS、DjVu)阅读器,采用 (A)GPLv3 许可,部分代码采用 BSD 许可。

  • CnTransGroup/EffectiveModernCppChinese 《Effective Modern C++ 》翻译

  • ttroy50/cmake-examples CMake 是一个跨平台的开源元构建系统,可以构建、测试和打包软件。这个存储库包括一些现代 CMake 配置示例,我在探索它在各种项目中的用法时已经拿起了这些配置。这些示例以类似教程的格式进行布局。第一个示例非常基础,并且利用前面的示例来展示更复杂的用例,复杂性会慢慢增加。

  • facebook/zstd 快速无损压缩算法,针对 zlib 级的实时压缩场景和更好的压缩比。它由 Huff0 和 FSE 库提供的非常快的熵级支持。Zstandard 的格式是稳定的,并记录在RFC8878中。已经有多个独立的实现可用。此存储库表示参考实现,作为开源双 BSD 或 GPLv2 许可的 C 库提供,以及生成和解码 .zst 、 .gz .xz 和 .lz4 文件的命令行实用程序。

  • xmake-io/xmake 基于 Lua 的跨平台构建实用程序

  • upx/upx eXecutables 的终极打包器c++

  • jart/cosmopolitan Cosmopolitan Libc 使 C 语言成为一种随处运行一次的语言,就像 Java 一样,但它不需要解释器或虚拟机。取而代之的是,它重新配置了库存 GCC 和 Clang,以输出 POSIX 批准的多语言格式,该格式在 Linux + Mac + Windows + FreeBSD + OpenBSD + NetBSD + BIOS 上本地运行,具有最佳性能和可以想象到的最小的占用空间。

  • bkaradzic/bgfx 跨平台、与图形 API 无关的“自带引擎/框架”风格的渲染库。

  • TheCherno/Hazel Windows 的早期交互式应用程序和渲染引擎。

  • zhongyang219/TrafficMonitor 用于Windows平台的网速监控悬浮窗软件,可以显示当前网速、CPU及内存利用率,支持嵌入到任务栏显示,支持更换皮肤、历史流量统计等功能。

Rust 程序设计

  • rust-lang/rust rust使每个人都能构建可靠、高效的软件。Rust 的主要源代码存储库。它包含编译器、标准库和文档。

  • servo/servo 用 Rust 语言编写的原型 Web 浏览器引擎。

  • rust-unofficial/awesome-rust Rust 代码和资源的精选列表。

  • TheAlgorithms/Rust 所有算法都在 Rust 中实现

  • sger/RustBooks Rust 书籍列表

  • rust-lang/book Rust 编程语言,您也可以在线免费阅读这本书。请参阅本书随最新的稳定版、测试版或每晚 Rust 版本一起提供。

  • dani-garcia/vaultwarden Rust 编写并与上游 Bitwarden 客户端兼容的 服务器 API 的替代实现,非常适合运行官方资源密集型服务可能不理想的自托管部署。Bitwarden是自由且开源的密码管理服务,用户可在加密的保管库中存储敏感信息。

  • sunface/rust-course “连续六年成为全世界最受喜爱的语言,无GC也无需手动内存管理、极高的性能和安全性、过程/OO/函数式编程、优秀的包管理、JS未来基石" 。Rust语言圣经拥有全面且深入的讲解、生动贴切的示例、德芙般丝滑的内。这可能是目前最用心的Rust中文学习教程/书籍

  • rust-lang/cargo Rust包管理器,Cargo下载你的Rust项目的依赖项并编译你的项目。

  • rust-lang/mdBook 从markdown文件创建书籍。像Gitbook 一样,但在 Rust 中实现

  • iced-rs/iced 一个跨平台的 Rust GUI 库,灵感来自 Elm

  • phil-opp/blog_os 在 Rust 中编写操作系统系列的源代码 os.phil-opp.com。

  • hyperium/hyper 一个 Rust 的 HTTP 库。Hyper 是一个相对低级的库,旨在成为库和应用程序的构建块。如果您正在寻找一个方便的HTTP客户端,那么您可能希望考虑reqwest。如果您不确定选择哪种HTTP服务器,那么您可能需要考虑axum或warp,后者采用更实用的方法。两者都建在这个库之上。

  • seanmonstar/reqwest 一个简单而强大的 Rust HTTP 客户端

  • tokio-rs/axum 符合人体工程学的模块化 Web 框架,由Tokio、Tower和Hyper构建

  • seanmonstar/warp 一个超级简单,可组合的Web服务器框架。

  • Rust 程序设计 · 语雀

  • veloren/veloren 用 Rust 编写的多人体素 RPG。从 Cube World、Minecraft 和 Dwarf Fortress 等游戏中汲取灵感。该游戏目前正在大力开发中,但可以玩。

  • emilk/egui 简单、快速且高度可移植的 Rust 即时模式 GUI 库。

  • bevyengine/bevy 用 Rust 构建的令人耳目一新的简单数据驱动游戏引擎

  • rust-lang/rustlings 小练习,让你习惯阅读和编写 Rust 代码

  • yewstack/yew 用于构建客户端 Web 应用程序的 Rust / Wasm 框架

  • swc-project/swc 用 Rust 编写的超快 TypeScript / JavaScript 编译器。它同时是 Rust 和 JavaScript 的库。

  • tokio-rs/tokio 使用 Rust 编写可靠异步应用程序的运行时。提供 I/O、网络、调度、定时器等

  • redox-os/redox 用 Rust 编写的操作系统,Rust 是一种专注于安全和高性能的语言。Redox 遵循微内核设计,旨在安全、可用和免费。Redox 的灵感来自以前的内核和操作系统,例如 SeL4、MINIX、Plan 9 和 BSD。不仅仅是一个内核,它还是一个功能齐全的操作系统,提供软件包(内存分配器、文件系统、显示管理器、核心实用程序等),它们共同构成了一个功能强大且方便的操作系统。你可以粗略地把它看作是GNU或BSD生态系统,但采用的是内存安全的语言和现代技术。

  • hyperium/tonic 具有异步/等待支持的本机 gRPC 客户端和服务器实现。

  • clap-rs/clap 一个功能齐全、快速的 Rust 命令行参数解析器

  • neovide/neovide 在 Rust 中没有废话的 neovim 客户端

  • slint-ui/slint Slint 是一个声明性 GUI 工具包,用于为 Rust、C++ 或 JavaScript 编写的应用程序构建本机用户界面。

  • rust-embedded/awesome-embedded-rust Rust 编程语言嵌入式和低级开发的精选资源列表

  • rust-embedded/rust-raspberrypi-OS-tutorials 树莓派上的 Rust 操作系统开发教程。面向刚接触 ARM 64 位 ARMv8-A 架构的业余操作系统开发人员。这些教程将提供有关如何 embedded system 从头开始编写整体式操作系统 kernel 的指导性分步教程。它们涵盖了常见操作系统任务的实现,例如写入串行控制台、设置虚拟内存和处理硬件异常。同时利用 Rust 的独特功能来提供安全性和速度。

  • chyyuu/os_kernel_lab 基于 Rust/C & RISC-V 64/X86-32 的操作系统内核实验室

  • rust-lang/rust-analyzer 用于 IDE 的 Rust 编译器前端

  • RustPython/RustPython 用 Rust 编写的 Python 解释器

  • google/comprehensive-rust 这是 Google Android 团队使用的 Rust 课程。它为您提供了快速教授 Rust 的材料。

  • PyO3/pyo3 Python 解释器的 Rust 绑定,包括用于创建原生 Python 扩展模块的工具。还支持从 Rust 二进制文件运行和交互 Python 代码。

  • sunface/rust-by-practice 通过实践学习 Rust,通过具有挑战性的示例、练习和项目缩小初学者和熟练开发人员之间的差距。

  • serde-rs/serde 用于高效和通用地序列化和反序列化 Rust 数据结构的框架。

  • rust-unofficial/patterns 关于 Rust 编程语言设计模式和习语的开源书籍

  • ruffle-rs/ruffle 用 Rust 编写的 Flash Player 模拟器

  • rust-bakery/nom 用 Rust 编写的解析器组合器库。它的目标是提供工具来构建安全的解析器,而不会影响速度或内存消耗。为此,它广泛使用了 Rust 强大的类型和内存安全性来生成快速和正确的解析器,并提供函数、宏和特征来抽象大多数容易出错的管道。

  • gfx-rs/wgpu 跨平台、安全、纯生rust的图形 API。它在 Vulkan、Metal、D3D12 和 OpenGL 上原生运行;以及 wasm 上的 WebGL2 和 WebGPU。该 API 基于 WebGPU 标准。它是 Firefox 和 Deno 中 WebGPU 集成的核心。

  • ctjhoa/rust-learning 一堆用于学习 Rust 的博客文章、文章、视频等的链接

  • linebender/druid 数据优先的 Rust 原生 UI 设计工具包。

  • rcore-os/zCore 在 Rust 中重新实现 Zircon 微内核。

  • rcore-os/rCore-Tutorial-Book-v3 关于如何在 Rust 中轻松编写操作系统内核的书。

  • uutils/coreutils Rust 重写跨平台的GNU coreutils

  • ratatui-org/ratatui Rust 库,就是关于构建终端用户界面 (TUI)

  • ogham/exa rust编写的“ls”的现代替代品。提供更多功能和更好的默认值。它使用颜色来区分文件类型和元数据。它知道符号链接、扩展属性和 Git。它体积小,速度快,只有一个二进制文件。

  • Canop/broot 查看和导航目录树的新方法

  • XAMPPRocky/tokei 显示有关代码统计信息的程序。Tokei 将显示文件数、这些文件中的总行数以及按语言分组的代码、注释和空白。

  • analysis-tools-dev/static-analysis 适用于所有编程语言、配置文件、构建工具等的静态分析 (SAST) 工具和 linter 的精选列表。重点是提高代码质量的工具。

  • tree-sitter/tree-sitter 一个解析器生成器工具和一个增量解析库。它可以为源文件构建具体的语法树,并在编辑源文件时有效地更新语法树。目标是:通用到足以解析任何编程语言;速度足够快,可以在文本编辑器中解析每个击键;足够强大,即使在存在语法错误的情况下也能提供有用的结果;无依赖性,因此运行时库(用纯 C 语言编写)可以嵌入到任何应用程序中

  • sharkdp/hyperfine 命令行基准测试工具。特征:跨多个运行的统计分析。支持任意 shell 命令。关于基准进度和当前估计的持续反馈。预热运行可以在实际基准测试之前执行。可以在每次计时运行之前设置缓存清除命令。统计异常值检测,用于检测来自其他程序的干扰和缓存效果。将结果导出为各种格式:CSV、JSON、Markdown、AsciiDoc。参数化基准(例如,改变线程数)。跨平台。

  • lsd-rs/lsd 对GNU ls 的重写,增加了许多功能,如颜色、图标、树视图、更多的格式化选项等。该项目深受超级colorls项目的启发。

flutter

  • flutter/flutter Flutter 可以轻松快速地为移动设备及其他领域构建漂亮的应用程序

  • crazycodeboy/awesome-flutter-cn 一个很棒的Flutter学习资源,官方教程,插件,工具,文章,App,视频教程等的资源列表

  • osoutpost/awesome-flutter-cn Flutter 资源大全中文版。包括:组件、导航、模板、插件、框架和引擎等

  • CarGuo/gsy_github_app_flutter Flutter 超完整的开源项目,功能丰富,适合学习和日常使用。

  • alibaba/flutter-go flutter 开发者帮助 APP,包含 flutter 常用 140+ 组件的demo 演示与中文文档

  • mitesh77/Best-Flutter-UI-Templates 最佳 Flutter-UI 模板

  • CarGuo/gsy_github_app_flutter Flutter 超完整的开源项目,功能丰富,适合学习和日常使用。GSYGithubApp系列的优势:我们目前已经拥有Flutter、Weex、ReactNative、kotlin 四个版本。 功能齐全,项目框架内技术涉及面广,完成度高,持续维护,配套文章,适合全面学习,对比参考。跨平台的开源Github客户端App,更好的体验,更丰富的功能,旨在更好的日常管理和维护个人Github

  • iampawan/FlutterExampleApps 基本的 Flutter 应用程序,适用于开发人员。

  • cfug/dio 一个强大的 HTTP 客户端,用于 Dart 和 Flutter,支持全局设置、拦截器、FormData、中止和取消请求、文件上传和下载、请求超时、自定义适配器等。

  • balena-io/etcher 安全、轻松地将操作系统映像闪存到 SD 卡和 USB 驱动器。

  • xujiyou/zhihu-flutter Flutter 高仿知乎 UI,非常漂亮,也非常流畅。

  • Solido/awesome-flutter 包含了最好的 Flutter 库、工具、教程、文章等。

  • running-libo/Tiktok 高仿抖音APP

  • wenmingvs/WeiBo 第三方新浪微博客户端

  • sanfengliao/vue-juejin vue仿掘金app客户端开发web版掘金app

  • chaychan/TouTiao 精仿今日头条

  • tbl00c/TLChat 高仿微信,iOS代码重构。此版本TLChat基于TLKit、 ZZFLEX实现

  • zwStar/vue-meituan vue+node+mongodb仿美团外卖点餐系统带支付功能

  • yukilzw/dy_flutter 斗鱼直播APP 多元化Flutter开源项目。涵盖礼物特效、手势动画、弹幕池、抽奖、鱼吧等(另提供服务端Mock接口)

  • boyan01/flutter-netease-music 仿网易云音乐

  • xujiyou/zhihu-flutter Flutter 高仿知乎 UI,非常漂亮,也非常流畅。

  • nisrulz/flutter-examples 给初露头角的flutter开发者的简单基本的应用程序示例。

  • fluttercandies/wechat_flutter Flutter版本微信,一个优秀的Flutter即时通讯IM开源库

  • simplezhli/flutter_deer Flutter 练习项目(包括集成测试、可访问性测试)。内含完整UI设计图,更贴近真实项目的练习。

  • Sangwan5688/BlackHole 满足您所有需求的开源音乐播放器应用程序!Flutter

  • AweiLoveAndroid/Flutter-learning Flutter安装和配置,Flutter开发遇到的难题,Flutter示例代码和模板,Flutter项目实战,Dart语言学习示例代码。

  • CoderMikeHe/flutter_wechat 利用 Flutter 来高仿微信(WeChat) 7.0.0+ App

  • youxinLu/flutter_mall 一款Flutter开源在线商城应用程序

  • ducafecat/flutter_learn_news flutter实战学习-新闻客户端

  • freestyletime/FlutterNews 用Flutter写的新闻类小项目

  • imaNNeoFighT/fl_chart FL Chart 是高度可定制的 Flutter 图表库,支持折线图、条形图、饼图、散点图和雷达图。

  • TheAlphamerc/flutter_twitter_clone 使用 Firebase 实时数据库和存储在 flutter 框架中构建的全功能 Twitter 克隆

  • LianjiaTech/bruno 基于一整套设计体系的 Flutter 组件库。

  • LianjiaTech/bruno Bruno 是基于一整套设计体系的 Flutter 组件库。一套企业级移动端 Flutter 组件库.

  • felangel/bloc 有助于实现 BLoC 设计模式的可预测状态管理库。BLoC是Business Logic Component的英文缩写,译为业务逻辑组件,是一种使用响应式编程来构建应用的方式。

  • dart-lang/sdk Dart SDK,包括 VM、dart2js、核心库等。

  • jonataslaw/getx 在没有上下文的情况下打开屏幕/小吃栏/对话框/底部工作表,使用 Get 轻松管理状态并注入依赖项。

  • kaina404/FlutterDouBan Flutter豆瓣客户端,Awesome Flutter Project,全网最100%还原豆瓣客户端。首页、书影音、小组、市集及个人中心,一个不拉。

  • toly1994328/FlutterUnit Flutter 集录指南 App,Flutter源码中的可用的组件一共350个左右,纷繁复杂,也没有明确的分类标准 FlutterUnit 对大大小小,常用不常用的组件能收的尽量收录。

  • alibaba/flutter_boost FlutterBoost 是一个 Flutter 插件,它能够以最少的努力为您现有的本机应用程序实现 Flutter 的混合集成。

  • firebase/flutterfire 用于 Flutter 应用的 Firebase 插件集合。组 Flutter 插件,使 Flutter 应用能够使用 Firebase 服务。

  • simplezhli/flutter_deer Flutter 练习项目(包括集成测试、可访问性测试)。内含完整UI设计图,更贴近真实项目的练习。颤振实践项目(包括集成测试和可访问性测试)。包含完整的 UI 设计图纸,用于更真实的实践项目。

  • brianegan/flutter_architecture_samples 项目演示了解决或避免构建Flutter应用中常见的问题。

  • lollipopkit/flutter_server_box 使用 Flutter 的服务器状态和工具箱应用程序

  • flutter/packages 由 Flutter 团队维护的有用软件包的集合

  • flutter/plugins 这个 repo 是 main flutter repo 的配套 repo。它包含 Flutter 第一方插件(即由 Flutter 核心团队开发的插件)的源代码。READ ONLY

Go 程序设计

  • golang/go Go 是一种开源编程语言,可以轻松构建简单、可靠且高效的软件。

  • Go 程序设计 · 语雀 Go 程序设计 · 语雀

  • dariubs/GoBooks Go书籍列表

  • hoanhan101/ultimate-go 终极Go学习指南

  • qax-os/excelize 用于读写Microsoft Excel™ (XLAM / XLSM / XLSX / XLTM / XLTX)电子表格的Go语言库

  • a8m/golang-cheat-sheet Go 语法和功能概述。

  • gonum/gonum 用于 Go 编程语言的数字库。它包含矩阵、统计、优化等库

  • uber-go/zap 在 Go 中实现超快、结构化、分级的日志记录。

  • moovweb/gvm Go 版本管理器

  • golang-standards/project-layout 标准 Go 项目布局

  • unknwon/go-fundamental-programming 《Go 编程基础》是一套针对 Google 出品的 Go 语言的视频语音教程,主要面向新手级别的学习者。

  • ahmedash95/build-redis-from-scratch 如何在 Go 中实现内存中数据库(如 Redis )的文章系列。

  • restic/restic Golang 编写的快速、高效和安全的备份程序。它支持三种主要操作系统(Linux、macOS、Windows)和一些较小的操作系统(FreeBSD、OpenBSD)。

  • jroimartin/gocui 极简主义的 Go 包,旨在创建控制台用户界面。

  • chai2010/advanced-go-programming-book 《Go语言高级编程》图书,涵盖CGO、Go汇编、RPC、Protobuf插件实现、Web框架实现、分布式系统等高阶主题

  • gopherjs/gopherjs 从 Go 到 JavaScript 的编译器,用于在浏览器中运行 Go 代码

  • gogf/gf GoFrame 是 Go 的一个模块化、功能强大、高性能的企业级应用开发框架。

  • alist-org/alist 一个文件列表/ WebDAV程序,支持多个存储,由Gin和Solidjs提供支持。/ 一个支持多存储的文件列表/WebDAV程序,使用 Gin 和 Solidjs。

  • gin-gonic/gin 一个用 Go (Golang) 编写的 HTTP Web 框架。它具有类似Martini的API,性能要好得多 - 速度提高了40倍。

  • cosmtrek/air Go 应用的实时重新加载

  • avelino/awesome-go 精选的 Go 框架、库和软件的精选列表

  • unknwon/go-study-index Go 语言学习资料与社区索引

  • go-shiori/shiori 使用 Go 构建的简单书签管理器

  • json-iterator/go 高性能 100% 兼容Go的“encoding/json”直接替代品

  • go-delve/delve Go 编程语言的调试器。

  • talkgo/night Go 夜读|通过 bilibili 在线直播的方式分享 Go 相关的技术话题,每天大家在微信/telegram/Slack 上及时沟通交流编程技术话题。

  • senghoo/golang-design-pattern 设计模式 Go实现-《研磨设计模式》读书笔记

  • unknwon/the-way-to-go_ZH_CN 《The Way to Go》中文译本,中文正式名《Go 入门指南》

  • inancgumus/learngo 1000+ 手工制作的go示例、练习和测验。 通过修复 1000+ 个小程序来学习 Go。

  • halfrost/LeetCode-Go LeetCode by Go 的解决方案,100% 测试覆盖率,运行时击败 100% / LeetCode 题解

  • traefik/yaegi 另一位优雅的Go解释器。它为 Go 运行时之上的嵌入式解释器或交互式 shell 中的可执行 Go 脚本和插件提供支持。

  • influxdata/telegraf 使用 Go 构建的插件驱动的服务器代理,用于收集和报告指标。

  • johnkerl/miller Miller 就像 awk、sed、剪切、连接和排序的名称索引数据,如 CSV、TSV 和表格 JSON。

  • antonmedv/fx Go的终端 JSON 查看器和处理器

  • fatih/vim-go 该插件增加了对 Vim 的 Go 语言支持

  • sirupsen/logrus 用于 Go 的结构化、可插拔日志记录。

  • go-vgo/robotgo RobotGo、Go Native 跨平台 RPA 和 GUI 自动化@vcaesar

  • therecipe/qt Go(Golang)的Qt绑定,支持Windows / macOS / Linux / FreeBSD / Android / iOS / Sailfish OS / Raspberry Pi / AsteroidOS / Ubuntu Touch / JavaScript / WebAssembly

  • xxjwxc/uber_go_guide_cn Uber 是一家美国硅谷的科技公司,也是 Go 语言的早期 adopter。其开源了很多 golang 项目,诸如被 Gopher 圈熟知的 zap、jaeger 等。2018 年年末 Uber 将内部的 Go 风格规范 开源到 GitHub,经过一年的积累和更新,该规范已经初具规模,并受到广大 Gopher 的关注。本文是该规范的中文版本。本版本会根据原版实时更新。

Java 程序设计

  • akullpp/awesome-java Java 编程语言的优秀框架、库和软件的精选列表。

  • jobbole/awesome-java-cn Java资源大全中文版,包括开发库、开发工具、网站、博客、微信、微博等,由伯乐在线持续更新。

  • itwanger/toBeBetterJavaer Java学习指南,内容涵盖Java基础、并发编程、虚拟机、企业级开发、面试等核心知识点。

  • alibaba/p3c 阿里巴巴Java编码指南,该指南整合了阿里巴巴集团技术团队多年来的最佳编程实践。大量的 Java 编程团队对跨项目的代码质量提出了苛刻的要求,因为我们鼓励重用和更好地理解彼此的程序。我们过去见过很多编程问题。例如,有缺陷的数据库表结构和索引设计可能会导致软件架构缺陷和性能风险。另一个例子是令人困惑的代码结构难以维护。此外,未经身份验证的易受攻击的代码容易受到黑客攻击。为了解决这类问题,我们为阿里巴巴的Java开发人员编写了本文档。

  • Snailclimb/JavaGuide 「Java学习+面试指南」一份涵盖大部分 Java 程序员所需要掌握的核心知识。准备 Java 面试,首选 JavaGuide!

  • doocs/advanced-java 互联网 Java 工程师进阶知识完全扫盲:涵盖高并发、分布式、高可用、微服务、海量数据处理等领域知识

  • ZhongFuCheng3y/athena Java后端知识图谱 帮助Java初学者成长

  • google/guava Google Java 核心库

  • apache/dubbo Apache Dubbo 的 Java 实现。RPC 和微服务框架。

  • winterbe/java8-tutorial 现代 Java - Java 8 指南

  • AobingJava/JavaFamily 【Java面试+Java学习指南】 一份涵盖大部分Java程序员所需要掌握的核心知识。

  • ReactiveX/RxJava JVM 的反应式扩展 – 一个库,用于使用 Java VM 的可观察序列编写异步和基于事件的程序。

  • DuGuQiuBai/Java 27天成为Java大神

  • openjdk/jdk JDK主线开发

  • CodingDocs/awesome-java Github上令人敬畏的Java项目集合(非常棒的 Java 开源项目集合)。

  • aalansehaiyang/technology-talk 【大厂面试专栏】一份Java程序员需要的技术指南,这里有面试题、系统架构、职场锦囊、主流中间件等,让你成为更牛的自己!

  • fuzhengwei/CodeGuide 多年从事一线互联网 Java 开发的学习历程技术汇总,旨在为大家提供一个清晰详细的学习教程,侧重点更倾向编写Java核心内容。

  • dromara/Sa-Token 史上功能最全的Java权限认证框架!目前已集成——登录认证、权限认证、分布式Session会话、微服务网关鉴权、单点登录、OAuth2.0、踢人下线、Redis集成、前后台分离、记住我模式、模拟他人账号、临时身份切换、账号封禁、多账号认证体系、注解式鉴权、路由拦截式鉴权、花式token生成、自动续签、同端互斥登录、会话治理、密码加密、jwt集成、Spring集成、WebFlux集成...

  • hollischuang/toBeTopJavaer Java工程师成神之路

  • dromara/hutool 功能丰富且易用的Java工具库,通过诸多实用工具类的使用,旨在帮助开发者快速、便捷地完成各类开发任务。 这些封装的工具涵盖了字符串、数字、集合、编码、日期、文件、IO、加密、数据库JDBC、JSON、HTTP客户端等一系列操作, 可以满足各种不同的开发需求。

  • crossoverJie/JCSprout Java Core Sprout:基本、并发、算法

  • alibaba/easyexcel 快速、简洁、解决大文件内存溢出的java处理Excel工具

  • mybatis/mybatis-3 MyBatis SQL 映射器框架使关系数据库与面向对象的应用程序更容易使用。MyBatis 使用 XML 描述符或注解将对象与存储过程或 SQL 语句耦合。简单性是 MyBatis 数据映射器相对于对象关系映射工具的最大优势。

  • brettwooldridge/HikariCP “零开销”生产就绪型 JDBC 连接池。该库大约为 130Kb,非常轻巧。

  • dianping/cat CAT 作为服务端项目基础组件,提供了 Java, C/C++, Node.js, Python, Go 等多语言客户端,已经在美团点评的基础架构中间件框架(MVC框架,RPC框架,数据库框架,缓存框架等,消息队列,配置系统等)深度集成,为美团点评各业务线提供系统丰富的性能指标、健康状况、实时告警等。

  • GoogleContainerTools/jib 无需 Docker 守护程序即可为您的 Java 应用构建优化的 Docker 和 OCI 映像,而无需深入了解 Docker 最佳实践。

  • https://github.com/plantuml/plantuml 从文本描述生成 UML 图。PlantUML 是一个java组件,允许您通过简单的文本描述创建各种 UML 图。从序列图到部署图等,PlantUML 提供了一种创建复杂系统的可视化表示的简单方法。支持的图表类型:时序图、用例图、类图、对象图、活动图、旧语法、组件图、部署图、状态图、时序图、JSON 数据、YAML 数据、EBNF(扩展的 Backus-Naur 形式)、正则表达式、网络图 (nwdiag)、Salt(线框图形界面或UI模型)、Archimate 图、SDL(规范和描述语言)、Ditaa 图、甘特图、年表图、思维导图、WBS(工作分解结构)、数学符号(AsciiMath、JLaTeXMath)、信息工程(IE)图、实体关系(ER)图

  • zxing/zxing ZXing (“Zebra Crossing”) 适用于 Java、Android 的条码扫描库

  • yangchong211/YCBlogs 技术博客笔记大汇总,包括Java基础,线程,并发,数据结构;Android技术博客等等;常用设计模式;常见的算法;网络协议知识点;部分flutter笔记;还包括平时开发中遇到的bug汇总,收集了大量的面试题

  • Col-E/Recaf 易于使用的现代 Java 字节码编辑器,它抽象出了 Java 程序的复杂性

  • qunarcorp/bistoury 去哪儿网的java应用生产问题诊断工具,提供一站式诊断方案

  • iluwatar/java-design-patterns 用 Java 实现的设计模式

  • lingcoder/OnJava8 《On Java 8》中文版

  • alibaba/arthas 阿里巴巴开源的 Java 诊断工具。允许开发人员解决Java应用程序的生产问题,而无需修改代码或重新启动服务器。

  • LinShunKang/MyPerf4J 高性能 Java APM。由 ASM 提供支持。试试吧。

  • andreabergia/rjvm 一个用 Rust 编写的小型 JVM。学习项目

  • alibaba/fastjson Java 库,可用于将 Java 对象转换为其 JSON 表示形式。它还可用于将 JSON 字符串转换为等效的 Java 对象。Fastjson 可以处理任意 Java 对象,包括您没有源代码的预先存在的对象。

  • alibaba/fastjson2 性能出色的 Java JSON 库。和FASTJSON 1相比,性能有非常大的提升,解决了autoType功能因为兼容和白名单的安全性问题。

  • gradle/gradle 一款构建工具,专注于构建自动化和对多语言开发的支持。如果您在任何平台上构建、测试、发布和部署软件,Gradle 提供了一个灵活的模型,可以支持从编译和打包代码到发布网站的整个开发生命周期。Gradle 旨在支持跨多种语言和平台(包括 Java、Scala、Android、Kotlin、C/C++ 和 Groovy)的构建自动化,并与开发工具和持续集成服务器(包括 Eclipse、IntelliJ 和 Jenkins)紧密集成。

  • eclipse-vertx/vert.x 用于在 JVM 上构建响应式应用程序的工具包

  • quarkusio/quarkus 云原生 (Linux) 容器优先框架,用于编写 Java 应用程序。容器优先:占用空间最小的 Java 应用程序,最适合在容器中运行。云原生:在 Kubernetes 等环境中采用 12 因素架构。统一命令式和响应式:将非阻塞式和命令式开发风格引入一个编程模型。基于标准:基于您喜欢和使用的标准和框架(RESTEasy 和 JAX-RS、Hibernate ORM 和 JPA、Netty、Eclipse Vert.x、Eclipse MicroProfile、Apache Camel......微服务优先:为 Java 应用程序带来闪电般的快速启动时间和代码周转。Developer Joy:以开发为中心的体验,毫不妥协,让您的出色应用立即栩栩如生。

  • kunal-kushwaha/DSA-Bootcamp-Java 包括 WeMakeDevs 的 Java 数据结构和算法 + 面试准备训练营的代码示例、作业和注释。

  • mockito/mockito 最流行的模拟框架,用于用 Java 编写的单元测试

  • jwtk/jjwt 用于在 JVM 和 Android 上创建和验证 JSON Web 令牌 (JWT) 和 JSON Web 密钥 (JWK)。

  • apache/shenyu Apache ShenYu 是一个用于服务代理、协议转换和 API 治理的 Java 原生 API 网关。适用于所有微服务的可扩展、高性能、响应式 API 网关解决方案。

Android 应用

  • android/architecture-samples 展示了开发 Android 应用的不同体系结构方法。在它的不同分支中,你会发现相同的应用(一个 TODO 应用程序)的实现略有不同。

  • KotlinBy/awesome-kotlin 精选的 Kotlin 相关内容列表 灵感来自 awesome-java。

  • Genymobile/scrcpy 通过USB(或通过TCP / IP)连接的Android设备的显示和控制

  • futurice/android-best-practices 遵循这些准则,避免重新发明轮子。在 Futurice 中从 Android 开发人员那里学到的经验教训。如果你对 iOS 或 Windows Phone 开发感兴趣,请务必同时查看我们的 iOS 良好做法和 Windows 应用开发最佳做法文档。

  • gkd-kit/gkd 基于无障碍+高级选择器+订阅规则的自定义屏幕点击 Android APP

  • amitshekhariitbhu/android-interview-questions 您的 Android 面试备忘单 - Android 面试问题和答案

  • ashishb/android-security-awesome 与 Android 安全相关的资源集合。工具、学术/研究/出版物/书籍、漏洞利用/漏洞/缺陷

  • barry-ran/QtScrcpy Android实时显示控制软件

  • openstf/minitouch 最小的Android多点触控事件生成器。

  • android/architecture-components-samples Android 体系结构组件示例。

  • android/compose-samples 包含一组单独的 Android Studio 项目,可帮助您了解 Android 中的 Compose。每个示例都演示了不同的用例、复杂程度和 API。

  • android/sunflower 一款园艺应用,演示了将基于视图的应用迁移到 Jetpack Compose 的 Android 开发最佳实践。

  • mzlogin/awesome-adb ADB 用法大全。ADB,即 Android Debug Bridge,它是 Android 开发/测试人员不可替代的强大工具,也是 Android 设备玩家的好玩具。

  • android/nowinandroid 完全使用 Kotlin 和 Jetpack Compose 构建的全功能 Android 应用

  • coil-kt/coil 适用于 Android 和 Compose Multiplatform 的图像加载。由 Kotlin 协程支持的 Android 图像加载库。快速:Coil 执行许多优化,包括内存和磁盘缓存、对内存中的图像进行下采样、自动暂停/取消请求等。轻量级:Coil 将 ~2000 个方法添加到您的 APK(适用于已使用 OkHttp 和 Coroutines 的应用),这与 Picasso 相当,但明显少于 Glide 和 Fresco。易于使用:Coil 的 API 利用了 Kotlin 的语言功能,实现了简单和最小的样板。现代:Coil 是 Kotlin 优先的,使用现代库,包括 Coroutines、OkHttp、Okio 和 AndroidX 生命周期。

  • android/uamp 实现跨多种外形规格运行的音频媒体应用,并在 Android 手机、平板电脑、Android Auto、Android Wear、Android TV、Google Cast 设备和 Google Assistant 上提供一致的用户体验。

  • mikepenz/MaterialDrawer 灵活、易于使用、多合一的抽屉库,适用于您的 Android 项目。现在采用材料 2 设计的全新设计。

  • material-components/material-components-android 适用于 Android 的模块化和可自定义的 Material Design UI 组件

  • bumptech/glide 适用于 Android 的图像加载和缓存库,专注于平滑滚动

  • Yalantis/uCrop 适用于 Android 的图像裁剪库

  • LuckSiege/PictureSelector Android平台的PictureSelector,支持从相册中获取图片、视频、音频和照片、剪切(单张图片或多张图片剪切)、压缩、主题自定义配置等功能,并支持动态访问和适用于Android 5.0+系统的开源图片选择框架

  • Blankj/AndroidUtilCode 功能强大且易于使用的Android库。该库封装了 Android 开发中常用的函数,这些函数具有完整的演示和单元测试。通过使用其封装的 API,可以大大提高开发效率。

  • yuliskov/SmartTube 适用于运行 Android 操作系统的机顶盒和电视的高级播放器

  • waydroid/waydroid 基于容器在GNU/Linux 系统上启动完整的 Android 系统。

  • pppscn/SmsForwarder 短信转发器——监控Android手机短信、来电、APP通知,并根据指定规则转发到其他手机。包括主动控制服务端与客户端,让你轻松远程发短信、查短信、查通话、查话簿、查电量等。

  • wasabeef/awesome-android-ui 一个很棒的Android UI / UX库的精选列表。

  • JStumpp/awesome-android 一个精选的 Android 软件包和资源列表。

  • amitshekhariitbhu/Android-Debug-Database 用于调试 android 数据库和共享首选项的库 - 让调试再次变得伟大

  • Trinea/android-open-project Android 开源项目分类汇总

  • Freelander/Android_Data 一些安卓学习资料,希望能帮你学习安卓开发。

  • Tencent/tinker Android 的热修复解决方案库,支持 dex、库和资源更新,无需重新安装 apk。

  • Tamsiree/RxTool Android开发人员不得不收集的工具类集合 | 支付宝支付 | 微信支付(统一下单) | 微信分享 | Zip4j压缩 | 一键集成UCrop选择圆形头像 | 一键集成二维码和条形码的扫描与生成 | 常用Dialog | WebView的封装可播放视频 | 仿斗鱼滑动验证码 | Toast封装 | 震动 | GPS | Location定位 | 图片缩放 | Exif 图片添加地理位置信息(经纬度) | 蛛网等级 | 颜色选择器 | ArcGis | VTPK

  • gyf-dev/ImmersionBar android 4.4以上沉浸式状态栏和沉浸式导航栏管理,适配横竖屏切换、刘海屏、软键盘弹出等问题,可以修改状态栏字体颜色和导航栏图标颜色,以及不可修改字体颜色手机的适配,适用于Activity、Fragment、DialogFragment、Dialog,PopupWindow

  • Tencent/QMUI_Android 用于辅助快速搭建一个具备基本设计还原效果的 Android 项目,同时利用自身提供的丰富控件及兼容处理,让开发者能专注于业务需求而无需耗费精力在基础代码的设计上。不管是新项目的创建,或是已有项目的维护,均可使开发效率和项目质量得到大幅度提升。

  • open-android/Android GitHub上最火的Android开源项目,所有开源项目都有详细资料和配套视频

  • ReVanced/revanced-manager Android 应用程序,它使用 ReVanced Patcher 来添加、删除和修改 Android 应用程序中的现有功能。

  • orhanobut/logger 简单、漂亮、功能强大的 android 记录器

  • JessYanCoding/AndroidAutoSize 今日头条屏幕适配方案终极版,一个极低成本的 Android 屏幕适配方案

  • bilibili/ijkplayer 基于 FFmpeg n3.4 的 Android/iOS 视频播放器,支持 MediaCodec、VideoToolbox。

  • square/leakcanary 适用于 Android 的内存泄漏检测库。

  • codepath/android_guides 面向 Android 开发人员的广泛开源指南

  • gedoor/legado 一款适用于 Android 的免费开源小说阅读器。

  • tachiyomiorg/tachiyomi 适用于 Android 的免费开源漫画阅读器。

  • scwang90/SmartRefreshLayout 下拉刷新、上拉加载、二级刷新、淘宝二楼、RefreshLayout、OverScroll,Android智能下拉刷新框架,支持越界回弹、越界拖动,具有极强的扩展性,集成了几十种炫酷的Header和 Footer。

  • CymChad/BaseRecyclerViewAdapterHelper 功能强大且灵活的 RecyclerAdapter。RecyclerView是Android中用于显示大量数据的控件,它比传统的ListView更加灵活和高效。

  • google/ExoPlayer 适用于 Android 的可扩展媒体播放器

  • clearw5/Auto.js Android上基于JS的面向编程学习与效率提升的代码开发平台。

  • tbruyelle/RxPermissions 由 RxJava2 提供支持的 Android 运行时权限

  • jfeinstein10/SlidingMenu 可让您轻松创建带有滑入式菜单的应用。可以在您的 Android 应用程序中使用它,前提是您引用此项目并将许可证包含在您的应用中。

  • asLody/VirtualApp 运行于Android系统的沙盒产品,可以理解为轻量级的“Android虚拟机”。其产品形态为高可扩展,可定制的集成SDK,您可以基于VA或者使用VA定制开发各种看似不可能完成的项目。VA目前被广泛应用于APP多开、小游戏合集、手游加速器、手游租号、手游手柄免激活、VR程序移植、区块链、移动办公安全、军队政府数据隔离、手机模拟信息、脚本自动化、插件化开发、无感知热更新、云控等技术领域。Github上代码已在2017年12月份停止更新,商业版代码在持续更新中

  • android/ndk-samples 包含集成了 Android Studio C++ 的 Android NDK 示例。

  • google/flexbox-layout 将 CSS Flexible Box Layout Module 的类似功能带到了 Android。

  • Kotlin/anko Kotlin 库,它使 Android 应用程序开发更快、更容易。它使您的代码简洁易读,并让您忘记适用于 Java 的 Android SDK 的粗糙边缘。read-only.

  • afollestad/material-dialogs 美观、流畅且可扩展的 Kotlin 和 Android 对话框 API。

  • android10/Android-CleanArchitecture 示例应用程序,是我写的一系列博客文章的一部分,介绍了如何使用 Uncle Bob 的干净架构方法构建 android 应用程序。

  • android-hacker/VirtualXposed 一个简单的应用程序,无需root即可使用Xposed,解锁引导加载程序或修改系统映像等。

  • hdodenhof/CircleImageView 快速循环的 ImageView 非常适合个人资料图像。

  • alibaba/ARouter 帮助 Android App 进行组件化改造的路由框架

  • openstf/stf 从浏览器控制和管理 Android 设备。

  • 0x192/universal-android-debloater 用 Rust 编写的跨平台 GUI 使用 ADB 对非 root 的 Android 设备进行消胀。改善您的隐私、安全性和设备电池寿命。

  • androidannotations/androidannotations. 快速的Android开发。易于维护。已弃用。不会再进行任何开发。

  • zhihu/Matisse 为 Android 精心设计的本地图像和视频选择器

  • googlesamples/easypermissions 一个包装库,用于在面向 Android M 或更高版本时简化基本系统权限逻辑。

  • wasabeef/glide-transformations Android 转换库,为 Glide 提供各种图像转换。

  • daimajia/AndroidViewAnimations 可爱的视图动画集合。

  • wasabeef/recyclerview-animators 一个 Android 动画库,可轻松将 itemanimator 添加到 RecyclerView 项目。

  • android-async-http/android-async-http 基于 Apache 的 HttpClient 库构建的基于回调的异步 Android Http 客户端。

  • permissions-dispatcher/PermissionsDispatcher 用于处理 Android 运行时权限的声明性 API。

  • xiaojieonly/Ehviewer_CN_SXJ ehviewer,用爱发电,快乐前行

  • alibaba/vlayout RecyclerView 的强大 LayoutManager 扩展,它为 RecyclerView 提供了一组布局。使其能够处理同一 recyclerview 中的网格、列表和其他布局时的复杂情况。

  • ktorio/ktor 在 Kotlin 中以最小的工作量快速创建连接应用程序的框架

  • JetBrains/Exposed 轻量级 SQL 库,位于 Kotlin 语言的 JDBC 驱动程序之上。Exposed 有两种类型的数据库访问:类型安全的 SQL 包装 DSL 和轻量级数据访问对象 (DAO)。

  • InsertKoinIO/koin 用于 Kotlin 和 Kotlin 多平台的实用轻量级依赖注入框架

  • Kotlin/kotlinx.coroutines 对具有多平台支持的 Kotlin 协程的库支持。

  • Kotlin/kotlinx.serialization Kotlin 序列化由编译器插件组成,该插件为可序列化类生成访问者代码、具有核心序列化 API 的运行时库以及具有各种序列化格式的支持库。

  • youlookwhat/CloudReader 云阅:一款基于网易云音乐UI,使用玩Android Api,Retrofit2 + RxJava2 + Room + MVVM-databinding架构开发的Android客户端

编辑器

  • vim/vim 老式UNIX编辑器Vi的大幅改进版本。添加了许多新功能:多级撤消、语法突出显示、命令行历史记录、在线帮助、拼写检查、文件名完成、块操作、脚本语言等。还有一个GUI可用。Vi 兼容性仍然保持不变。

  • coder/code-server 浏览器中的 VS 代码编辑器

  • microsoft/vscode 微软开源的程序开发工具和编辑器

  • neoclide/coc.nvim 让您的 Vim/Neovim 像 VS Code 一样智能

  • amix/vimrc 在过去的 10 年里,我一直在使用和调整 Vim。这个配置是最终的 vimrc(或者至少是我的版本)。有两个版本:基本:如果你想要一些小的东西,只需将 basic.vim 复制到你的 ~/.vimrc 中,你就会有一个很好的基本设置。The Awesome:包括大量有用的插件、配色方案和配置

  • ajaxorg/ace 用JS编写的独立代码编辑器。我们的目标是创建一个基于浏览器的编辑器,以匹配和扩展现有本机编辑器(如TextMate,Vim或Eclipse)的功能,可用性和性能。它可以很容易地嵌入到任何网页或JavaScript应用程序中。Ace是作为Cloud9 IDE的主要编辑器和Mozilla Skywriter(Bespin)项目的继任者开发的。

  • VSCodium/vscodium 没有微软品牌/遥测/许可的vscode代码二进制版本

  • quilljs/quill 为兼容性和可扩展性而构建的现代所见即所得编辑器。

  • microsoft/monaco-editor 基于浏览器的代码编辑器。VSCode功能齐全编辑器。

  • ianstormtaylor/slate 一个完全可定制的框架,用于构建富文本编辑器。

  • helix-editor/helix 受 Kakoune / Neovim 启发的编辑器,用 Rust 编写。编辑模型很大程度上基于 Kakoune;在开发过程中,同意Kakoune的大部分设计决策。

  • codex-team/editor.js 具有干净 JSON 输出的块式编辑器

  • notable/notable 基于 Markdown 的笔记应用程序,并不糟糕。特征:笔记是用 GitHub Flavored Markdown 编写的,您还可以编写 KaTeX 表达式、美人鱼图等等,请查看我们完整的 Markdown 备忘单。Notable 还为您提供了一个非常强大的 Markdown 编辑器,它实际上与 VS Code 使用的编辑器相同,因此内置了多光标、小地图和一流的语法突出显示等功能。笔记和附件只是存储在您的磁盘上,这非常便携且功能强大:您可以使用自己喜欢的编辑器编辑笔记,通过Dropbox同步它们,在它们上运行Git,运行基于正则表达式的搜索并替换它们等。还提供深色主题。将来还将添加对自定义主题的支持。禅宗模式提供简约的编辑和阅读体验,隐藏所有不必要的内容。

  • laurent22/joplin 安全的笔记和待办事项应用程序,具有适用于 Windows、macOS、Linux、Android 和 iOS 的同步功能。免费的开源笔记和待办事项应用程序,可以处理大量组织到笔记本中的笔记。笔记是可搜索的,可以直接从应用程序或您自己的文本编辑器中复制、标记和修改。注释采用 Markdown 格式。

  • zyedidia/micro 现代且直观的基于终端的文本编辑器。旨在通过易于安装和使用成为 nano 编辑器的继承者。

  • wangeditor-team/wangEditor 开源 Web 富文本编辑器,开箱即用,配置简单。支持 JS Vue React 。

  • CodeEditApp/CodeEdit 适用于 macOS 的 CodeEdit 应用程序 – 提升您的代码编辑体验。开源,永久免费。

  • fastai/nbdev 编写、测试、记录和分发软件包和技术文章 — 所有这些都在一个地方,您的笔记本上。

  • benweet/stackedit 基于 PageDown 的全功能开源 Markdown 编辑器,Stack Overflow 和其他 Stack Exchange 站点使用的 Markdown 库。

  • purocean/yn 高度可扩展的 Markdown 编辑器。版本控制、AI Copilot、思维导图、文档加密、代码片段运行、集成终端、图表嵌入、HTML小程序、Reveal.js、插件和宏替换。

  • nhn/tui.editor Markdown 所见即所得编辑器。 GFM 标准 + 图表和 UML 可扩展。

  • SpaceVim/SpaceVim 社区驱动的模块化 vim/neovim 发行版

  • NvChad/NvChad 超快的 Neovim 框架提供可靠的默认设置和漂亮的 UI,增强您的 neovim 体验。

  • notepad-plus-plus/notepad-plus-plus Notepad++ 文本编辑器官方仓库

  • ueberdosis/tiptap 为web开发人员准备的无头编辑器框架

  • syl20bnr/spacemacs 社区驱动的Emacs发行版 - 最好的编辑器既不是Emacs也不是Vim,而是Emacs Vim!

  • eclipse-theia/theia 一个用 TypeScript 实现的云和桌面 IDE 框架。

  • yabwe/medium-editor Medium.com 所见即所得编辑器克隆。使用 contenteditable API 实现富文本解决方案。

  • lapce/lapce 用 Rust 编写的闪电般快速且功能强大的代码编辑器

  • xi-editor/xi-editor 一个现代编辑器,后端用 Rust 编写。

  • judasn/IntelliJ-IDEA-Tutorial IntelliJ IDEA 简体中文专题教程,对于语言开发学习者我是非常建议你使用 IntelliJ IDEA,因为一些代码格式、命名规范在 IntelliJ IDEA 下都是有良好的提示,对于我们所处的输入法下的中文全角符号也可以得到快速发现。

  • atom/atom  21 世纪的可破解文本编辑器,基于 Electron 构建,并基于我们喜欢的编辑器的一切。我们将其设计为可深度定制,但使用默认配置仍然可以使用。

  • DaveJarvis/keenwrite Java的Markdown编辑器,具有实时预览,字符串插值和公式

  • marktext/marktext 简单优雅的markdown编辑器,适用于 Linux、mac 和 Win。

  • facebook/lexical 可扩展的 JS Web 文本编辑器框架,强调可靠、可访问性和性能。

  • ranger/ranger 受 VIM 启发的控制台文件管理器

  • antirez/kilo 小于 1000 LOC 的文本编辑器,具有语法突出显示和搜索功能。

  • LunarVim/LunarVim Neovim 的 IDE,具有合理的默认值。完全免费,由社区驱动。

  • microsoft/language-server-protocol 语言服务器协议 (LSP) 定义了编辑器或 IDE 与提供语言功能(如自动完成、转到定义、查找所有引用等)的语言服务器之间使用的协议。语言服务器索引格式(LSIF,发音类似于“else if”)的目标是在开发工具或 Web UI 中支持丰富的代码导航,而无需源代码的本地副本。

  • nvim-telescope/telescope.nvim 查找、筛选、预览、拾取。所有 lua,无时无刻不在。高度可扩展的列表模糊查找器。建立在核心的最新 neovim 强大功能之上。望远镜以模块化为中心,允许轻松定制。

  • AstroNvim/AstroNvim 美观且功能丰富的 neovim 配置,可扩展且易于使用,并带有一组很棒的插件

  • iggredible/Learn-Vim 学习 Vim 和 Vimscript 并不难。这是您正在寻找的指南

  • rockerBOO/awesome-neovim eovim 插件的集合

  • VundleVim/Vundle.vim Vim bundle 的缩写,是一个 Vim 插件管理器。

  • powerline/powerline Powerline是vim的状态线插件,并为其他几个应用程序提供状态线和提示,包括zsh,bash,tmux,IPython,Awesome和Qtile。

  • mhinz/vim-galore Vim 从入门到精通 Eric Wong / Vim 从入门到精通 · GitLab

  • doomemacs/doomemacs GNU Emacs 的配置框架,专为 Emacs 破产老手量身定制,他们希望框架中的框架更少,包管理器有一点稳定性(和可重复性),以及手动配置的性能(或更好)。它可以成为您自己配置的基础,也可以成为 Emacs 爱好者了解更多关于我们最喜欢的操作系统的资源。

  • viatsko/awesome-vscode 精选的令人愉快的 VS Code 包和资源列表。

  • Laverna/laverna  JavaScript 笔记应用程序,具有 Markdown 编辑器和加密支持。把它看作是Evernote的开源替代品。

  • textmate/textmate 适用于 macOS 10.12 或更高版本的图形文本编辑器

  • xournalpp/xournalpp 支持 PDF 注释的手写笔记软件。用 C++ 和 GTK3 编写,支持 Linux、macOS 和 Windows 10。支持来自 Wacom 数位板等设备的笔输入。

  • JetBrains/intellij-community 帮助您从源代码构建 IntelliJ IDEA 社区版,这是 IntelliJ 平台开发的基础。

终端

  • awesome-lists/awesome-bash 精选的令人愉快的 Bash 脚本和资源列表。

  • alebcay/awesome-shell 很棒的命令行框架、工具包、指南和小玩意的精选列表。

  • vinayak-mehta/present 基于终端的演示工具,具有颜色和效果。

  • willmcgugan/rich 一个终端内富文本和美化的python库。

  • davidbrochart/nbterm 在终端中查看、编辑、执行Jupyter笔记。

  • kovidgoyal/kitty 跨平台、快速、功能丰富、基于 GPU 的终端

  • Eugeny/tabby 一个更现代的终端

  • nushell/nushell 一种新型终端。从 PowerShell、函数式编程语言和现代 CLI 工具等项目中汲取灵感。 Nu 不是将文件和数据视为原始文本流,而是将每个输入视为具有结构的东西。

  • dylanaraps/pure-bash-bible 记录仅使用内置 bash 功能执行各种任务的常见和鲜为人知的方法。使用这本圣经中的片段可以帮助从脚本中删除不需要的依赖项,并且在大多数情况下使它们更快。我在开发 neofetch、pxltrm 和其他小型项目时遇到了这些技巧,并发现了一些技巧。

  • yudai/gotty 将您的终端共享为 Web 应用程序

  • alacritty/alacritty 一个跨平台的 OpenGL 终端模拟器。

  • mvdan/sh Go写的具有 bash 支持的 shell 解析器、格式化程序和解释器;包括 SHFMT。SHELL分析器、格式化程序和解释器。支持 POSIX Shell、Bash 和 mksh。需要 Go 1.19 或更高版本。

  • mbadolato/iTerm2-Color-Schemes 超过 250 种 iTerm/iTerm2 的终端配色方案/主题。包括终端,Konsole,PuTTY,Xresources,XRDB,Remmina,Termite,XFCE,Tilda,FreeBSD VT,Terminator,Kitty,MobaXterm,LXTerminal,Microsoft的Windows终端,Visual Studio,Alacritty的端口

  • zsh-users/zsh-syntax-highlighting shell zsh 提供语法高亮显示。它允许在 zsh 提示符下将命令键入到交互式终端中时突出显示命令。这有助于在运行命令之前查看命令,尤其是在捕获语法错误时。

  • casey/just 一个命令运行器,保存和运行特定于项目的命令的便捷方法。

  • asciinema/asciinema 轻松记录终端会话,并在终端和 Web 浏览器中重播它们。

  • faressoft/terminalizer 录制您的终端并生成动画 gif 图像或共享网络播放器

  • microsoft/terminal 新的Windows终端和原始Windows控制台主机

  • vercel/hyper 基于网络技术的终端,目标是为命令行界面用户创建基于开放 Web 标准构建的美观且可扩展的体验。一开始,我们的重点将主要放在速度、稳定性和为扩展作者开发正确的 API 上。

  • xtermjs/xterm.js 用 TypeScript 编写的前端组件,它允许应用程序在浏览器中为其用户提供功能齐全的终端。它被 VS Code、Hyper 和 Theia 等流行项目使用。

  • enquirer/enquirer 时尚的 CLI 提示,用户友好、直观且易于创建。

  • wez/wezterm @wez 编写Rust 实现的 GPU 加速跨平台终端仿真器和多路复用器

  • unixorn/awesome-zsh-plugins ZSH 框架、插件、主题和教程的集合。

  • warpdotdev/Warp 基于 Rust 的现代终端,内置了 AI,因此您和您的团队可以更快地构建出色的软件。速度极快的现代基于 Rust 的 GPU 加速终端,旨在提高您和您的团队的工作效率。

  • zellij-org/zellij 面向开发人员、面向运营人员和任何喜欢终端的人的工作空间。类似的程序有时被称为“终端多路复用器”。

  • termux/termux-app 适用于 Android 操作系统的终端模拟器应用程序,可通过各种软件包进行扩展。适用于 Android 的终端模拟器,其环境类似于 Linux 环境。 无需Root或设置即可使用。 Termux 会自动进行最小安装 - 使用 APT 包管理器即可获得其他软件包。

  • termux/termux-packages 为 Termux Android 应用程序构建包的脚本和补丁。

  • gnachman/iTerm2 Mac OS X 的终端模拟器,可以做一些令人惊奇的事情。

  • kingToolbox/WindTerm 专业的跨平台SSH/Sftp/Shell/Telnet/串口终端。

  • tmuxinator/tmuxinator 轻松管理复杂的 tmux 会话

  • junegunn/fzf 通用的命令行模糊查找器。用于命令行的交互式 Unix 过滤器,可以与任何列表一起使用;文件、命令历史记录、进程、主机名、书签、git 提交等。

  • charmbracelet/vhs CLI 录像机

  • ibraheemdev/modern-unix 常见 unix 命令的现代/更快/更健全的替代方案的集合。

  • withfig/autocomplete 当您键入时,Fig 会在您现有的终端中弹出子命令、选项和上下文相关参数。

  • PowerShell/PowerShell 一个跨平台(Windows、Linux 和 macOS)自动化和配置工具/框架,可与现有工具配合使用,并针对处理结构化数据(例如 JSON、CSV、XML 等)、REST API 和对象模型进行了优化。它包括命令行 shell、关联的脚本语言和用于处理 cmdlet 的框架。

  • zsh-users/zsh-autosuggestions 像Fish一样快速/不显眼的 zsh 自动建议。

  • cmderdev/cmder 出于对 Windows 上缺乏可用的控制台模拟器的挫败感而创建的。它基于 ConEmu,对配置进行了重大改革,带有 Monokai 配色方案、惊人的叮当声(通过叮当声完成进一步增强)和自定义提示布局。

  • jarun/nnn 功能齐全的终端文件管理器。它很小,几乎是 0 配置,而且速度快得令人难以置信。nnn 可以分析磁盘使用情况、批量重命名、启动应用程序和选择文件。插件存储库有大量的插件来进一步扩展功能,例如实时预览、(取消)挂载磁盘、查找和列表、文件/目录差异、上传文件。

  • charmbracelet/gum 一款令人着迷的 shell 脚本工具,无需编写任何代码就能利用 Bubbles 和 Lip Gloss 的功能在脚本和别名中发挥作用。

  • xonsh/xonsh Python驱动的跨平台Unix shell

  • starship/starship 适用于任何 shell 的最小、极快且可无限自定义的提示符

  • shelljs/shelljs Node.js 的可移植 Unix shell 命令

  • sqshq/sampler 用于 shell 命令执行、可视化和警报的工具。使用简单的 YAML 文件进行配置。

  • GitSquared/edex-ui 跨平台、可定制的科幻终端模拟器,有高级监控和触摸支持。

  • herrbischoff/awesome-macos-command-line 使用 macOS 终端 shell 做很棒的事情。

  • Bash-it/bash-it Bash 3.2+ 的社区 Bash 命令和脚本的集合。(还有 oh-my-zsh)包括自动完成、主题、别名、自定义函数等等。Bash-it 提供了一个坚实的框架,用于在日常工作中使用、开发和维护 shell 脚本和自定义命令。如果您经常使用 Bourne Again Shell (Bash),并且一直在寻找一种简单的方法来控制所有这些漂亮的小脚本和别名,那么 Bash-it 适合您!

  • sorin-ionescu/prezto Zsh 的配置框架;它通过合理的默认值、别名、函数、自动完成和提示主题丰富了命令行界面环境。

  • ClementTsang/bottom 用于终端的可定制的跨平台图形化进程/系统监视器。支持 Linux、macOS 和 Windows。灵感来自 gtop、gotop 和 htop。特征:图形可视化小部件,CPU 使用率随时间推移,处于平均和每核水平,RAM 和交换使用情况随时间推移,网络 I/O 使用情况随时间的变化,支持放大/缩小显示的当前时间间隔。用于显示以下信息的小部件:磁盘容量/使用情况,温度传感器,电池使用情况,一个进程小部件,用于显示、排序和搜索有关进程的信息,以及支持:Kill信号,树模式,对 Linux、macOS 和 Windows 的跨平台支持,未来计划推出更多支持。可自定义的行为,可通过命令行选项或配置文件进行控制,例如:自定义和内置颜色主题、自定义小组件行为、更改小部件的布局、过滤掉某些小部件中的条目。其他一些好东西,比如:受 htop 启发的基本模式、扩展,只关注一个小部件

  • fish-shell/fish-shell 用户友好的命令行 shell。包括语法高亮显示、键入时自动建议和花哨的选项卡补全等功能,无需配置即可工作。

  • spaceship-prompt/spaceship-prompt 简约、强大且高度可定制的 Zsh 提示符

  • atuinsh/atuin 将现有的 shell 历史记录替换为 SQLite 数据库,并记录命令的其他上下文。此外,它还通过 Atuin 服务器提供机器之间历史记录的可选和完全加密同步。

  • ajeetdsouza/zoxide 更智能的 cd 命令。灵感来自 Z 和 AutoJump。

  • sindresorhus/pure 漂亮、最小、快速的 ZSH 提示符

  • direnv/direnv 整理您的 .profile。它使用一项新功能来增强现有 shell,该功能可以根据当前目录加载和卸载环境变量。

  • ish-app/ish 适用于 iOS 的 Linux shell

  • oh-my-fish/oh-my-fish Oh My Fish 提供了核心基础设施,允许您安装扩展或修改 shell 外观的软件包。它快速、可扩展且易于使用。

  • dylanaraps/neofetch 用 bash 3.2+ 编写的命令行系统信息工具

  • JanDeDobbeleer/oh-my-posh 最可定制和低延迟的跨平台/shell 提示渲染器

  • Powerlevel9k/powerlevel9k 用于构建美观且功能强大的 CLI 的工具,专为您定制。P9k 对 CLI UX 产生了重大影响,P10k 现在延续了它的传统。

  • liquidprompt/liquidprompt 功能齐全且精心设计的 Bash & Zsh 自适应提示

  • dunwu/linux-tutorial Linux教程,主要内容:Linux 命令、Linux 系统运维、软件运维、精选常用Shell脚本

  • brenns10/lsh C 语言中 shell 的简单实现,它是我网站上教程的主题。它演示了 shell 工作原理的基础知识。即:读取、解析、分叉、执行和等待。由于其目的是演示(不是功能完整性,甚至不适合随意使用),因此它有许多局限性

  • wtfutil/wtf 您终端的个人信息仪表板,可让您一目了然地访问您非常重要但不经常需要的统计信息和数据。

  • NixOS/nix 强大的包管理器,适用于 Linux 和其他 Unix 系统,它使包管理可靠且可重现。

  • claudiodangelis/qrcp 通过扫描二维码,通过 wifi 将文件从您的计算机传输到您的移动设备,而无需离开终端

知识管理 wiki知识库

  • logseq/logseq 一个知识管理和协作平台。它侧重于隐私、寿命和用户控制。Logseq 提供了一系列用于知识管理、协作、PDF 注释和任务管理的强大工具,支持多种文件格式,包括 Markdown 和组织模式,以及用于组织和构建笔记的各种功能。

  • AppFlowy-IO/AppFlowy Notion 的开源替代品。您负责您的数据和定制。使用 Flutter 和 Rust 构建。

  • toeverything/AFFiNE 可以不止有 Notion 和 Miro。 AFFiNE 是下一代知识库,它将规划、分类和创建结合在一起。隐私至上、开源、可定制且随时可用。

  • Reamd7/notion-zh_CN notion知识库的汉化脚本

  • siyuan-note/siyuan 思源是本地首创的个人知识管理系统,支持细粒度块级引用和Markdown所见即所得。

  • mattermost/focalboard Trello、Notion 和 Asana 的开源、自托管替代品。

  • haiwen/seafile 高性能文件同步和共享,还具有 Markdown 所见即所得编辑、Wiki、文件标签等知识管理功能。

  • requarks/wiki 维基.js |一个基于 Node.js 构建的现代且强大的 wiki 应用程序

  • BookStackApp/BookStack 使用 PHP 和 Laravel 构建的创建文档/wiki 内容的平台

  • facebook/docusaurus 易于维护的开源文档网站。

  • foambubble/foam VSCode的个人知识管理和共享系统

  • gollum/gollum 一个简单的、基于 Git 的 wiki,带有一个漂亮的 API 和本地前端。

  • outline/outline 成长团队最快的知识库。美观、实时协作、功能丰富且兼容降价。

  • zadam/trilium 使用 Trilium Notes 建立您的个人知识库

  • siyuan-note/siyuan 国内个人知识管理系统,支持细粒度块级引用和Markdown。

计算机编程 数据结构与算法

  • EbookFoundation/free-programming-books 免费提供的编程书籍

  • ossu/computer-science 计算机科学免费自学教育之路!

  • practical-tutorials/project-based-learning 编程教程列表,有抱负的软件开发人员可以在其中学习如何从头开始构建应用程序。这些教程分为不同的主要编程语言。教程可能涉及多种技术和语言。

  • kdeldycke/awesome-falsehood 程序员相信的谎言 Awesome 的精选清单。谬误是你最初认为是真的想法,但实际上,它被证明是错误的。

  • wangzheng0822/algo 数据结构和算法必知必会的50个代码实现

  • justjavac/free-programming-books-zh_CN 免费的计算机编程类中文书籍

  • wolverinn/Waking-Up 计算机基础(计算机网络/操作系统/数据库/Git...)面试问题全面总结,包含详细的follow-up question以及答案;全部采用【问题+追问+答案】的形式,即拿即用,直击互联网大厂面试;可用于模拟面试、面试前复习、短期内快速备战面试

  • ZachGoldberg/Startup-CTO-Handbook 涵盖领导力、管理和技术主题的书,面向软件工程团队的领导者

  • washam/coding-interview-university 成为软件工程师的完整计算机学习计划。

  • DeathKing/Learning-SICP MIT视频公开课《计算机程序的构造和解释》中文化项目及课程学习资料搜集。

  • weartist/computer_book_list 综合了豆瓣,goodreads综合评分的计算机书籍书单

  • csseky/cskaoyan 提供计算机考研和软件工程考研专业的各个学校 考研真题

  • 1c7/Crash-Course-Computer-Science-Chinese 计算机速成课 | Crash Course 字幕组 (全40集 2018-5-1 精校完成)

  • jeffgerickson/algorithms 杰夫·埃里克森的算法书、笔记等。杰夫·埃里克森(Jeff Erickson)是伊利诺伊大学厄巴纳-香槟分校的计算机科学教授;这本书基于他自 1998 年以来在那里教授的算法课程。

  • chubin/cheat.sh 统一访问世界上最好的社区驱动的备忘单存储库。涵盖 56 种编程语言、多种 DBMS 和 1000 多个最重要的 UNIX/Linux 命令。提供对世界上最好的社区驱动的备忘单存储库的访问,与 StackOverflow 相当。随处可用,无需安装,但可以安装以供离线使用。

  • FreeCodeCampChina/freecodecamp.cn FCC中国开源代码库和课程。学习编码并帮助非营利组织。

  • izackwu/TeachYourselfCS-CN TeachYourselfCS 的中文翻译

  • freeCodeCamp/freeCodeCamp 开源代码库和课程。免费学习编码。

  • forthespada/CS-Books 超过1000本的计算机经典书籍、个人笔记资料以及本人在各平台发表文章中所涉及的资源等。书籍资源包括C/C++、Java、Python、Go语言、数据结构与算法、操作系统、后端架构、计算机系统知识、数据库、计算机网络、设计模式、前端、汇编以及校招社招各种面经

  • arthurspk/guiadevbrasil 一个广泛的信息指南,其中包含来自各个领域的大量内容,以帮助、添加知识和回答问题,在本指南中,您将找到任何与技术相关的职业所需的一切。

  • youngyangyang04/leetcode-master 《代码随想录》LeetCode 刷题攻略:200道经典题目刷题顺序,共60w字的详细图解,视频难点剖析,50余张思维导图,支持C++,Java,Python,Go,JavaScript等多语言版本,从此算法学习不再迷茫

  • MisterBooo/LeetCodeAnimation 用动画的形式呈现解LeetCode题目的思路

  • OpenGenus/cosmos Cosmos 是您一生中会遇到和使用的每个算法和数据结构的个人离线集合。这提供了各种语言的解决方案,包括 C 、C++ 、Java 、JavaScript、Swift、Python、Go等。这项工作由一个由数百人组成的社区维护,是一项大规模的协作努力,旨在将现成的编码知识带到离线状态。cosmos 的高级结构:人工智能、回溯、位操作、元胞自动机、压缩算法 、计算几何、密码学、数据结构、设计模式、分而治之、动态规划、图形算法、贪婪算法、数学算法、联网、数值分析、在线挑战、操作系统、量子算法、随机算法、搜索、选择、排序、平方根分解、字符串算法、未分类。每种类型都有数百个问题,解决方案以多种语言进行,包括 C 、 C++ 、 Java Python Go 等。

  • krahets/hello-algo 《Hello 算法》:动画图解、一键运行的数据结构与算法教程,支持 Java, C++, Python, Go, JS, TS, C#, Swift, Rust, Dart, Zig 等语言。

  • geekxh/hello-algorithm 针对小白的算法训练 | 包括四部分:①.大厂面经 ②.力扣图解 ③.千本开源电子书 ④.百张技术思维导图

  • liuxinyu95/AlgoXY 介绍了基本函数算法和数据结构,并提供了 120 个练习和答案。

  • youngyangyang04/leetcode-master 《代码随想录》LeetCode 刷题攻略:200道经典题目刷题顺序,共60w字的详细图解,视频难点剖析,50余张思维导图,支持C++,Java,Python,Go,JavaScript等多语言版本,从此算法学习不再迷茫

  • doocs/leetcode 本项目包含 LeetCode、《剑指 Offer(第 2 版)》、《剑指 Offer(专项突击版)》、《程序员面试金典(第 6 版)》等题目的相关题解。所有题解均由多种编程语言实现,包括但不限于:Java、Python、C++、Go、TypeScript、Rust

  • Developer-Y/cs-video-courses 带有视频讲座的计算机科学课程列表。

  • ForrestKnight/open-source-cs 来自麻省理工学院、斯坦福和普林斯顿等知名大学的精选免费课程列表,与本科计算机科学学位相同的要求,减去通识教育。

  • lnishan/awesome-competitive-programming 竞争性编程、算法和数据结构资源的精选列表

  • lk-geimfari/awesomo 用各种语言编写的很酷的开源项目。

  • leachim6/hello-world 在每种计算机语言中的Hello world。

  • QSCTech/zju-icicles 浙江大学课程攻略共享计划

  • williamfiset/Algorithms 算法和数据结构是高效代码和良好软件设计的基础。创建和设计优秀的算法是成为模范程序员的必要条件。此存储库的目标是演示如何以最简单、最优雅的方式正确实现常见的数据结构和算法。

  • AkashSingh3031/The-Complete-FAANG-Preparation 包含所有 DSA(数据结构、算法、Love Babbar Bhaiya 的 450 个 DSA、FAANG 问题)、技术主题(OS + DBMS + SQL + CN + OOP)理论+问题、FAANG 面试问题和其他内容(编程 MCQ、谜题、能力、推理)。用于演示的编程语言是C++,Python

  • xitu/gold-miner 翻译优质互联网技术文章的社区,文章来源为 掘金 上的英文分享文章。内容覆盖区块链、人工智能、Android、iOS、前端、后端、设计、产品、算法和其他等领域,以及各大型优质 官方文档及手册,读者为热爱新技术的新锐开发者。

  • 7-sevens/Developer-Books 存储库:开发人员书籍列表

  • yangshun/tech-interview-handbook 为繁忙的软件工程师精心策划的编码面试材料

  • girliemac/a-picture-is-worth-a-1000-words 用简单的涂鸦来描述复杂的事情!包括:算法、web、机器学习、Git、HTTP 状态等

  • algorithm-visualizer 代码算法的可视化交互式在线平台。

  • NotFound9/interviewGuide 《大厂面试指北》—包括Java、JVM、数据库、mysql、网络、算法、数据结构、操作系统、设计模式、系统设计、框架原理。

  • kdn251/interviews 获得这份工作需要知道的一切,包括面试、数据结构、算法、计算机书籍等

  • chefyuan/algorithm-base 一位酷爱做饭的程序员,立志用动画将算法说的通俗易懂。

  • imarvinle/awesome-cs-books 经典编程书籍大全,涵盖:计算机系统与网络、系统架构、算法与数据结构、前端开发、后端开发、移动开发、数据库、测试、项目与团队、程序员职业修炼、求职面试等

  • xiaolincoder/CS-Base 图解计算机网络、操作系统、计算机组成、数据库,共 1000 张图 + 50 万字,破除晦涩难懂的计算机基础知识

  • InterviewMap/CS-Interview-Knowledge-Map 建立最佳面试地图。目前的内容包括JS、网络、浏览器相关、性能优化、安全性、框架、Git、数据结构、算法等。

  • DopplerHQ/awesome-interview-questions 精心策划的令人敬畏的计算机编程面试问题列表列表。

  • Kristories/awesome-guidelines 精选的高质量编码风格约定和标准列表。

  • azl397985856/leetcode leetcode题解,记录自己的leetcode解题之路。

  • CyC2018/CS-Notes 技术面试必备基础知识、Leetcode、计算机操作系统、计算机网络、系统设计

  • kamranahmedse/developer-roadmap 交互式路线图、指南和其他教育内容,以帮助开发人员在他们的职业生涯中成长。包括:前端、后端、开发运营、计算机科学、质量检查、软件架构师、软件设计和架构路、JavaScript、TypeScript、React、Vue 、Angular、Node.js、GraphQL、安卓、Flutter、Python、Go、Java、Spring Boot、设计系统、DBA、区块链、ASP.NET、系统设计、Kubernetes

  • LeCoupa/awesome-cheatsheets 流行编程语言、框架和开发工具的精彩备忘单。它们在一个文件中包含您应该知道的所有内容。

  • mtdvio/every-programmer-should-know 每个软件开发人员都应该知道的(主要是)技术知识的集合

  • resumejob/interview-questions Interview Questions for Google, Amazon, Apple, etc. 根据超过 2000 篇真实面经整理的腾讯,阿里,字节跳动,Shopee,美团,滴滴高频面试题

  • charlax/professional-programming 程序员的全栈资源集合。

  • papers-we-love/papers-we-love 来自计算机科学界的论文可供阅读和讨论。

  • labuladong/fucking-algorithm 共 60 多篇原创文章,都是基于 LeetCode 的题目,涵盖了所有题型和技巧,而且一定要做到举一反三,通俗易懂,绝不是简单的代码堆砌,后面有目录。

  • prakhar1989/awesome-courses 令人敬畏的 CS 课程,这些课程提供高质量的材料,即免费在线提供作业、讲座、笔记、阅读材料和考试。

  • XiangLinPro/IT_book 收藏这些年来看过或者听过的一些不错的常用的上千本书籍,没准你想找的书就在这里呢,包含了互联网行业大多数书籍和面试经验题目等等。有人工智能系列(常用深度学习框架TensorFlow、pytorch、keras。NLP、机器学习,深度学习等等),大数据系列(Spark,Hadoop,Scala,kafka等),程序员必修系列(C、C++、java、数据结构、linux,设计模式、数据库等等)

  • JaeYeopHan/Interview_Question_for_Beginner 为那些开始学习编程的人编写的技术面试指南。祝你一切顺利。

  • dipakkr/A-to-Z-Resources-for-Students 当我在大学时,由于缺乏意识,我错过了很多机会,如黑客马拉松、会议、实习、研讨会和许多全球活动。我不希望新兴开发者和我一样受苦。因此,我和周围的其他一些开发人员为学生收集了一份资源清单。如果你在上大学,大学毕业生,或者刚开始做开发人员,你一定要去看看!

  • TheAlgorithms/JavaScript 在 JavaScript 中为初学者实现的算法和数据结构,遵循最佳实践。

  • xtaci/algorithms C++中的算法和数据结构。

  • TheAlgorithms/Go 在 Go 中为初学者实现的算法和数据结构,遵循最佳实践。

  • trekhleb/javascript-algorithms 用 JavaScript 实现的算法和数据结构,带有解释和进一步阅读的链接

  • MTrajK/coding-problems 各种编码/算法问题的解决方案以及许多用于学习算法和数据结构的python资源

  • donnemartin/interactive-coding-challenges 120+ 交互式 Python 编码面试挑战(算法和数据结构)。包括 Anki 抽认卡。

  • compiler-explorer/compiler-explorer 一个交互式编译器探索网站。在 C、C++、C#、F#、Rust、Go、D、Haskell、Swift、Pascal、ispc、Python、Java 或其他 30 多种支持的语言中编辑代码,并查看代码在实际编译后的样子时间。每种语言都支持多个编译器,可以使用许多不同的工具和可视化,并且 UI 布局是可配置

  • 3b1b/manim 用于精确编程动画的引擎,专为创建解释性数学视频而设计。

  • apple/swift Swift 是一种高性能的系统编程语言。它具有简洁现代的语法,提供对现有 C 和 Objective-C 代码和框架的无缝访问,并且默认情况下是内存安全的。

  • ruby/ruby 一种解释型面向对象的编程语言,通常用于 Web 开发。它还提供了许多脚本功能来处理纯文本和序列化文件,或管理系统任务。它简单、直接且可扩展。

  • nim-lang/Nim 静态类型的编译系统编程语言。它结合了来自Python,Ada和Modula等成熟语言的成功概念。它的设计侧重于效率、表现力和优雅(按优先级顺序)。

  • bbatsov/clojure-style-guide Clojure编程语言的社区编码风格指南

  • unisonweb/unison 现代静态纯函数式语言,使用单个程序描述整个分布式系统。

  • typelead/eta Eta编程语言,JVM上Haskell的一种方言

  • koka-lang/koka Koka 语言编译器和解释器

  • gleam-lang/gleam 用于构建类型安全、可扩展系统的友好语言。它可以编译为Erlang(或JS),并与其他BEAM语言(如Erlang,Elixir和LFE)具有直接的互操作。

  • [NASM 程序设计 · 语雀](NASM 程序设计 · 语雀)

  • ziglang/zig 通用编程语言和工具链,用于维护健壮、最佳和可重用的软件。

  • enso-org/enso 一种屡获殊荣的交互式编程语言,具有双重视觉和文本表示。它是一个跨越整个堆栈的工具,从高级可视化和通信到后端服务的细节,所有这些都使用一种语言。

  • wren-lang/wren Wren编程语言。Wren 是一种小型、快速、基于类的并发脚本语言。想想 Smalltalk 在一个 Lua 大小的包中,带有一点 Erlang,并用熟悉的现代语法包裹起来。

  • red/red 受 Rebol 强烈启发的下一代编程语言,但由于其本机代码编译器,从系统编程到高级脚本和跨平台反应式 GUI,具有更广泛的使用领域,同时提供对并发的现代支持,所有这些都在一个零安装、配置、 ~1MB 文件中

  • JetBrains/kotlin 开源的静态类型编程语言,由 JetBrains 和开源贡献者支持和开发。

  • halide/Halide 一种用于快速、可移植数据并行计算的语言。Halide不是一种独立的编程语言,而是嵌入在C++中。这意味着您编写C++代码,使用 Halide 的 C++ API 构建 Halide 管道的内存中表示形式。然后,可以将此表示形式编译为对象文件,或者对其进行 JIT 编译并在同一进程中运行它。Halide 还提供了一个 Python 绑定,该绑定完全支持在没有C++的情况下编写嵌入在 Python 中的 Halide。

  • GitHubDaily/GitHubDaily 坚持分享 GitHub 上高质量、有趣实用的开源技术教程、开发者工具、编程网站、技术资讯。

  • HaxeFoundation/haxe 可让您轻松构建面向许多主流平台的跨平台工具和应用程序。Haxe 工具包包括:Haxe 编程语言,一种现代、高级、严格类型的编程语言、Haxe 交叉编译器,适用于许多目标的最先进的闪电般的编译器、Haxe 标准库,一个完整的跨平台通用功能库

  • crystal-lang/crystal 一种编程语言,具有以下目标:具有类似于 Ruby 的语法(但与它的兼容性不是目标)。静态类型检查,但不必指定变量或方法参数的类型。能够通过在 Crystal 中编写绑定来调用 C 代码。具有编译时评估和代码生成,以避免样板代码。编译为高效的本机代码。

  • greyireland/algorithm-pattern 算法模板,最科学的刷题方式,最快速的刷题路径,你值得拥有~

  • Sairyss/domain-driven-hexagon 了解领域驱动设计、软件架构、设计模式和最佳实践。包含代码示例

  • iamshuaidi/CS-Book 计算机类常用电子书整理,并且附带下载链接,包括Java,Python,Linux,Go,C,C++,数据结构与算法,人工智能,计算机基础,面试,设计模式,数据库,前端等书籍

  • Ebazhanov/linkedin-skill-assessments-quizzes LinkedIn 答案 2023 技能评估的完整参考(aws-lambda、rest-api、javascript、react、git、html、jquery、mongodb、java、Go、python、机器学习、power-point) LinkedIn excel 测试 lösungen, LinkedIn 机器学习测试 LinkedIn 测试问题和答案

  • hackjutsu/Lepton 由 GitHub Gist 提供支持的精益代码片段管理器

  • gyoogle/tech-interview-for-developer 新开发者专业知识与技术访谈百科全书

  • afatcoder/LeetcodeTop 汇总各大互联网公司容易考察的高频leetcode题

  • haoel/leetcode LeetCode 问题的解决方案

  • gluon-lang/gluon 一种用 Rust 编写的静态、类型推断和可嵌入语言。专为应用程序嵌入而设计。

游戏

  • raysan5/raylib 一个简单易用的视频游戏编程库

  • ValveSoftware/Proton 用于 Steam 客户端的工具,它允许 Windows 独有的游戏在 Linux 操作系统上运行。它使用 Wine 来促进这一点。

  • rwv/chinese-dos-games 中文 DOS 游戏

  • wesnoth/wesnoth 一款高度奇幻题材的开源回合制策略游戏。

  • lxgr-linux/pokete 基于终端的口袋妖怪类游戏

  • pygame/pygame 免费的开源 python 编程语言库,用于制作基于优秀 SDL 库构建的游戏等多媒体应用程序。C、Python、原生、OpenGL。

  • Grimmys/rpg_tactical_fantasy_game pygame中的战术回合制游戏项目,开放支持

  • GDQuest/godot-open-rpg 通过这个开源 RPG 演示学习创建回合制战斗游戏

  • deepmind/mujoco 多关节动力学与接触。通用物理模拟器。

  • keenon/nimblephysics Nimble:深度学习的物理引擎

  • TastSong/CrazyCar 网络联机游戏解决方案---Unity制作的联机赛车游戏,服务端为SpringBoot + Mybatis;后台为Vue + Element;游戏端采用QFramework框架,支持KCP和WebSocket网络(商用级)

  • clear-code-projects/Zelda 用 Python 构建一个塞尔达风格的游戏

  • pmgl/microstudio 免费、开源的在线游戏引擎 nodejs

  • OpenRCT2/OpenRCT2 《过山车大亨 2 🎢》的C++开源重新实现

  • flareteam/flare-game 使用 FLARE 引擎的奇幻动作角色扮演游戏

  • jynew/jynew 开源武侠RPG游戏开发框架 使用Unity引擎重制并致敬经典游戏《金庸群侠传》DOS版

  • XorTroll/Goldleaf Nintendo Switch 游戏机的多用途自制工具。

  • Ryujinx/Ryujinx 用 C# 编写的实验性 Nintendo Switch 游戏机 模拟器

  • godotengine/godot 一个功能丰富的跨平台游戏引擎,用于从统一界面创建 2D 和 3D 游戏。它提供了一套完善的常用工具,让用户可以专注于制作游戏,而无需重新发明轮子。游戏可以一键导出到多个平台,包括主要的桌面平台(Linux、macOS、Windows)、移动平台(Android、iOS),以及基于 Web 的平台和控制台。

  • ellisonleao/magictools 游戏开发资源列表。

  • libgdx/libgdx 桌面/安卓/HTML5/iOS Java游戏开发框架

  • screeps/screeps 用于编写游戏 Screeps 的独立服务器。Screeps 是一款面向程序员的 MMO RTS 沙盒游戏,其中核心机制是为您的单位 AI 编程。你通过编写 JavaScript 来控制你的殖民地,这些 JavaScript 在由与你同等的其他玩家填充的单一持久世界中 24/7 全天候运行。

  • BabylonJS/Babylon.js 功能强大、美观、简单且开放的游戏和渲染引擎,包含在一个友好的 JavaScript 框架中。

  • leereilly/games 在 GitHub 上找到的开源游戏和游戏相关项目列表 - 老式文本冒险、教育游戏、8 位平台游戏、基于浏览器的游戏、独立游戏、GameJam 项目、商业游戏的附加组件/地图/黑客/插件、库、框架、引擎,应有尽有。

  • cocos2d/cocos2d-x 开源、跨平台的游戏开发工具,被全球数百万开发者使用。它的核心已经发展成为 Cocos Creator 1.x 和 2.x 的基础。用于构建 2D 游戏、交互式书籍、演示和其他图形应用程序。它基于 cocos2d-iphone,但它没有使用 Objective-C,而是使用 C++。它适用于 iOS、Android、macOS、Windows 和 Linux。

  • OpenRA/OpenRA 早期Westwood游戏的开源实时战略游戏引擎,例如使用SDL和OpenGL用C#编写的《命令与征服:红色警戒》。

  • AbyssEngine/AbyssEngine 游戏引擎,旨在运行类似于 2000 年风格的 ARPG 游戏,例如暗黑破坏神 II。该存储库提供了核心引擎以及 OpenDiablo2,这是使用该引擎对暗黑破坏神 II 的开源重新实现。

  • MonoGame/MonoGame 简单而强大的 .NET 框架,用于使用 C# 编程语言为台式电脑、视频游戏机和移动设备创建游戏。它已成功用于创建《愤怒的街道 4》、《Carrion》、《Celeste》、《星露谷物语》等游戏。

  • boardgameio/boardgame.io 使用 JavaScript 创建回合制游戏的引擎。编写简单的函数来描述在进行特定移动时游戏状态如何变化。这会自动转换为具有在线多人游戏功能的可玩游戏,而无需您编写任何网络或存储代码。

  • minetest/minetest 开源体素游戏引擎,易于修改和游戏创建。

  • Anuken/Mindustry 自动化塔防RTS,用Java编写。

  • hrydgard/ppsspp Android、Win、Mac 和 Linux 的 PSP 模拟器,用 C++ 编写。

  • aseprite/aseprite 动画精灵编辑器和像素艺术工具(Windows、macOS、Linux),主要特点是:精灵由层和帧组成,作为独立的概念。支持颜色配置文件和不同的颜色模式:RGBA、索引(最多 256 种颜色的调色板)、灰度。动画设施,实时预览和洋葱皮。将动画导出/导入到/从精灵表、GIF 文件或 PNG 文件序列(以及 FLC、FLI、JPG、BMP、PCX、TGA)中导出/导入动画。支持多个编辑器。用于组织工作的图层组,以及用于转描的参考图层。像素艺术特定工具,如像素完美手绘模式、着色墨水、自定义画笔、轮廓、宽像素等。其他特殊绘图工具,如压力敏感度、对称工具、描边和填充选择、渐变。平铺模式可用于绘制图案和纹理。同时转换多个帧/图层。Lua 脚本功能。CLI - 用于自动执行任务的命令行界面。快速参考/备忘单键盘快捷键(可自定义的按键和鼠标滚轮)。重新打开关闭的文件并在崩溃时恢复数据。每个操作的撤消/重做,并支持非线性撤消。

  • hajimehoshi/ebiten Go 编程语言的开源游戏引擎。Ebitengine 的简单 API 允许您快速轻松地开发可跨多个平台部署的 2D 游戏。

  • skypjack/entt 游戏与现代 C++ 的结合 - 快速可靠的实体组件系统 (ECS) 等等。仅标头,小巧且易于使用的游戏编程库,以及更多用现代 C++ 编写的库。

  • playcanvas/engine 基于 WebGL 和 glTF 构建的快速轻量级 JavaScript 游戏引擎

  • google/filament 基于物理的实时渲染引擎,适用于 Android、iOS、Windows、Linux、macOS 和 WebGL2

  • HabitRPG/habitica 一个免费的习惯养成及生产力应用,让你“游戏人生”。游戏里的奖惩措施能激励你完成任务,还有一个强大的互动社区给你完成任务的好建议。Habitica能够帮助你达成目标,变得健康,勤奋,快乐。

  • mapeditor/tiled 通用的图块地图编辑器,适用于所有基于图块的游戏,例如 RPG、平台游戏或 Breakout 克隆游戏

  • ppy/osu 一款免费获胜的节奏游戏。节奏只需点击一下即可!

  • PavelDoGreat/WebGL-Fluid-Simulation 在浏览器中玩液体(即使在移动设备上也有效)

  • ange-yaghi/engine-sim 内燃机模拟器,可生成逼真的音频。

  • lucoiso/UEHttpGPT 虚幻引擎插件,通过异步 REST 请求促进与 OpenAI 基于 GPT 的服务(ChatGPT 和 DALL-E),使开发人员可以轻松地与这些服务进行通信。

  • miloyip/game-programmer 游戏程序员的学习路径

  • BeyondDimension/SteamTools 开源跨平台的多功能 Steam 工具箱。此工具的大部分功能都是需要您下载安装 Steam 才能使用。功能:网络加速、账号切换、库存游戏、游戏工具。

  • liyucheng09/ChatGPT_Agent 由 ChatGPT 代理提供支持的游戏演示

  • fogleman/Craft 使用现代 OpenGL(着色器)用 C 语言编写的简单 Minecraft 克隆。

  • rapiz1/DungeonRush 受 Snake 启发的开源游戏,用纯 C 语言编写,带有 SDL

  • tobspr-games/shapez.io  Steam 上的一款开源基地建设游戏,灵感来自异星工厂

  • hiloteam/Hilo 阿里巴巴集团开发的跨端 HTML5 游戏开发解决方案。它可以帮助开发人员在几分钟内方便地构建 HTML5 游戏。

  • 4ian/GDevelop 功能齐全的无代码开源游戏开发软件。您可以为移动设备、桌面设备和 Web 构建游戏。GDevelop 快速且易于使用:游戏逻辑是使用直观且强大的基于事件的系统构建的。

  • azerothcore/azerothcore-wotlk 开源游戏服务器应用程序和框架,专为托管大型多人在线角色扮演游戏 (MMORPG) 而设计。它基于流行的 MMORPG 魔兽世界 (WoW),旨在重现 3.3.5a 补丁中原始游戏的游戏体验。原始代码基于 MaNGOS、TrinityCore 和 SunwellCore,此后进行了广泛的开发,以提高游戏的稳定性、游戏机制和模块化。AC 也已经成长为一个社区驱动的项目,拥有大量的贡献者和开发人员。它是用 C++ 编写的,为创建模仿官方魔兽世界服务器的机制和行为的私人服务器提供了坚实的基础。

  • diasurgical/devilutionX 适用于现代操作系统的暗黑破坏神构建,DevilutionX 是暗黑破坏神和地狱火的一个端口,它致力于使游戏运行变得简单,同时提供引擎改进、错误修复和一些可选的生活质量功能。

  • diasurgical/devilution 暗黑破坏神下放 - 1996 年电脑游戏背后的魔法

  • egametang/ET Unity3D 客户端和 C# 服务器框架

  • yairm210/Unciv 使用 LibGDX 制作的 《 文明V 》Civ V 的开源、以可修改性为重点的 Android 和桌面重制版

  • colyseus/colyseus 权威的 Node.js 多人游戏框架,其 SDK 可用于 Web、Unity、Defold、Haxe、Cocos 和 Construct3。该项目的重点是为实时和回合制游戏提供可同步的数据结构、匹配以及服务器端和客户端的易用性。

其他

  • torvalds/linux Linux内核源码树

  • ruanyf/weekly 科技爱好者周刊,每周五发布

  • public-apis/public-apis 一个免费API的集合列表,可用于软件和Web开发

  • donnemartin/system-design-primer 了解如何设计大型系统。准备系统设计面试。包括 Anki 抽认卡。

  • Anduin2017/HowToCook 程序员在家做饭方法指南。

  • kuchin/awesome-cto 为初创公司首席技术官精心策划的、有主见的资源清单

  • bregman-arie/devops-exercises 包含有关各种技术主题的问题和练习,有时与 DevOps 和 SRE 相关

  • luong-komorebi/Awesome-Linux-Software 收集了对任何用户/开发者都觉得超赞的 Linux 应用软件。

  • easychen/howto-make-more-money 程序员如何优雅的挣零花钱

  • resumejob/awesome-resume 程序员简历例句,简历模版

  • kamranahmedse/design-patterns-for-humans 对设计模式的超简化解释

  • google/styleguide 谷歌风格指南 每个主要的开源项目都有自己的风格指南:一组关于如何为该项目编写代码的约定(有时是任意的)。当其中的所有代码都采用一致的风格时,理解大型代码库会容易得多。

  • gotenberg/gotenberg 提供了一个开发人员友好的API,可以与Chromium和LibreOffice等强大的工具进行交互,以将多种文档格式(HTML,Markdown,Word,Excel等)转换为PDF文件等等!

  • Wechat-ggGitHub/Awesome-GitHub-Repo 收集GitHub高质量、有趣的开源项目。

  • jnv/lists 在 GitHub 和其他地方策划的列表(列表)的最终列表

  • jaywcjlove/awesome-mac 收集了各种类别的出色 macOS 软件。

  • florinpop17/app-ideas 一系列应用创意,可用于提高您的编码技能。

  • jaywcjlove/linux-command Linux命令大全搜索,包含手册、详解、学习、搜集。

  • NickeManarin/ScreenToGif 允许您记录屏幕的选定区域,编辑并将其保存为 gif 或视频。需要 .NET 6 桌面运行时(或更高版本)。

  • mifi/lossless-cut 无损视频/音频编辑的瑞士军刀。跨平台 FFmpeg GUI,用于对视频、音频、字幕和其他相关媒体文件进行极其快速和无损的操作。

  • MunGell/awesome-for-beginners 很棒的初学者友好项目列表。

  • ixinzhi/loving-books 恋爱指南

  • lTbgykio/Books-Free-Books 免费书籍汇总。目录:Web 开发、系统管理、编程语言、数据库、软件开发、人工智能、数学理论、其他

  • sindresorhus/awesome 关于各种有趣主题的精彩列表

  • coder2gwy/coder2gwy 互联网首份程序员考公指南,由3位已经进入体制内的前大厂程序员联合献上。

  • modichirag/flowpm TensorFlow中的粒子网格模拟N体宇宙学模拟

  • bennettfeely/bennett ztext 易于实现的3D网页排版。适用于每种字体。

  • jlevy/the-art-of-command-line 熟练使用命令行是一项经常被忽视或被认为是晦涩难懂的技能,但它以明显和微妙的方式提高了您作为工程师的灵活性和生产力。这是一些关于使用命令行的笔记和技巧,我们发现在 Linux 上工作时很有用。有些技巧是基本的,有些则相当具体、复杂或晦涩难懂。这个页面不长,但如果你能使用和回忆这里的所有项目,你就会知道很多。

  • dxx/react-bilibili 高仿B站web移动端

  • alyssaxuu/flowy 创建具有流程图功能的 WebApps 成为一项极其简单的任务。 通过将库实施到您的项目中,几分钟内构建自动化软件、思维导图或简单的编程平台。

  • nondanee/UnblockNeteaseMusic 解锁网易云音乐客户端变灰歌曲

  • opensumi/core 帮助您快速构建云或桌面 IDE 产品。

  • xiangyuecn/Recorder html5 js 录音 mp3 wav ogg webm amr 格式,支持pc和Android、iOS部分浏览器、Hybrid App(提供Android iOS App源码)、微信

  • SocialSisterYi/bilibili-API-collect 哔哩哔哩-API收集整理

  • dblalock/bolt 矩阵和向量运算速度提高 10 倍

  • TheZoraiz/ascii-image-converter 将图像转换为 ascii 艺术并在控制台上打印它们。

  • jina-ai/jina 一个神经搜索框架,它使任何人都可以在几分钟内构建 SOTA 和可扩展的深度学习搜索应用程序。可扩展的索引、查询、理解任何数据:视频、图像、长/短文本、音乐、源代码、PDF 等。

  • dedupeio/dedupe 机器学习对结构化数据快速执行模糊匹配、去重和实体解析。

  • Alinshans/MyTinySTL 实现了大部分STL中的容器与函数,但仍存在许多bug。

  • rspivak/lsbasi 让我们构建一个简单的解释器

  • pi-hole/pi-hole 通过您自己的 Linux 硬件进行全网广告拦截,Pi-hole® 是一个DNS 漏洞,无需安装任何客户端软件即可保护您的设备免受不需要的内容的侵害。

  • antlr/antlr4 ANTLR(另一种语言识别工具)是一个强大的解析器生成器,用于读取、处理、执行或翻译结构化文本或二进制文件。

  • ptitSeb/box86 Box86 - Linux 用户空间 x86 仿真器,针对 ARM Linux 设备

  • ptitSeb/box64 Box64 Linux 用户空间 x86_64 仿真器,针对 ARM64 Linux 设备

  • lxgw/LxgwWenKai 基于 FONTWORKS 出品字体 Klee One 改造的开源中文字体。

  • EastWorld/wechat-app-mall 微信小程序商城,微信小程序微店

  • jgraph/drawio-desktop 基于Electron图表和白板桌面,包装了核心draw.io编辑器。

  • microapp-store/flash-waimai 仿饿了么外卖平台,包括手机端,后台管理, api服务

  • PureDarwin/PureDarwin Darwin 是 macOS 的开源核心,PureDarwin 是一个社区项目,旨在将 Darwin 扩展为一个完整的、可用的操作系统。

  • sunym1993/flash-linux0.11-talk 像小说一样品读 Linux 0.11 核心代码

  • clouddreamteam_admin/cloud-dream 微信小程序—餐饮点餐商城,是针对餐饮行业推出的一套完整的餐饮解决方案,实现了用户在线点餐下单、外卖、叫号排队、支付、配送等功能,完美的使餐饮行业更高效便捷!

  • HC小区业主版: hc智慧家园小程序 HC小区开源项目的一个分支项目,主要给业主使用,其中包括缴物业费,缴停车费,投诉建议,家庭成员维护,房屋保修 房屋出租,公告查看,小区圈等功能。

  • modood/Administrative-divisions-of-China 中华人民共和国行政区划:省级(省份)、 地级(城市)、 县级(区县)、 乡级(乡镇街道)、 村级(村委会居委会) ,中国省市区镇村二级三级四级五级联动地址数据。

  • H5-Dooring/dooringx 快速高效搭建可视化拖拽平台

  • polybar/polybar 快速且易于使用的状态栏

  • videolan/vlc 自由和开源的媒体播放器和多媒体引擎,专注于播放所有内容,并在任何地方运行。VLC 可以播放大多数多媒体文件、光盘、流、设备,还能够将流转换、编码、流式传输和操作为多种格式。

  • easychen/lean-side-bussiness 精益副业:程序员如何优雅地做副业

  • fanmingming/live 一个国内可直连的直播源分享项目 永久免费 直连访问 完整开源 不含广告 完善的台标 直播源支持IPv4/IPv6双栈访问

  • penpot/penpot 开源设计和原型平台

  • binwiederhier/ntfy 使用 PUT/POST 将推送通知发送到您的手机或桌面

  • charmbracelet/vhs 集测试和演示 CLI 于一身的视频记录仪,它会根据你的指令生成相关的操作视频。

  • microsoft/fluentui-emoji 来自 Microsoft 的一组熟悉、友好和现代的表情符号

  • Wox-launcher/Wox Windows 启动器,Alfred 和 Launchy 的替代品。

  • excalidraw/excalidraw 用于素描手绘图的虚拟白板 ->立即使用

  • Splode/pomotroid 简单且视觉上令人愉悦的番茄钟计时器。

  • jigish/slate MacOS上类似 Divvy 和 SizeUp 的窗口管理应用程序。

  • deiv/driftnet 监视网络流量,并选择和显示 JPEG 和 GIF 图像显示

  • immersive-translate/immersive-translate 沉浸式双语网页翻译扩展

  • yetone/openai-translator 基于 ChatGPT API 的划词翻译插件和跨平台桌面端应用

  • jserv/shecc 从头开始构建,针对 32 位 Arm 和 RISC-V 架构,作为 C 语言子集的自编译编译器。

  • nocodb/nocodb 开源 Airtable 替代方案 将任何 MySQL、PostgreSQL、SQL Server、SQLite 和 MariaDB 变成智能电子表格。

  • freembook.com 书籍查询网页,可查询:书号 书名 SS号 DX号

  • sharkdp/bat 一只长着翅膀的 cat(1) 命令的克隆体。功能:语法高亮、显示不可打印的字符、文件串联。

  • BurntSushi/ripgrep 在尊重您的 gitignore 的同时递归地搜索目录以查找正则表达式模式,优势速度快。

  • meilisearch/meilisearch 闪电般快速的搜索引擎,可以毫不费力地融入您的应用程序、网站和工作流程。

  • sharkdp/fd “find”查找的简单、快速和用户友好的替代方法

  • mermaid-js/mermaid 从文本生成流程图或序列图等图表

  • ansible/ansible 一个极其简单的 IT 自动化平台,可让您的应用程序和系统更易于部署和维护。自动化从代码部署到网络配置再到云管理的一切,使用接近简单英语的语言,使用 SSH,无需在远程系统上安装代理。

  • ansible/awx AWX 提供基于 Web 的用户界面、REST API 和基于 Ansible 构建的任务引擎。它是红帽 Ansible 自动化平台的上游项目之一。

  • home-assistant/core 将本地控制和隐私放在首位的开源家庭自动化。

  • ventoy/Ventoy 用于为 ISO/WIM/IMG/VHD(x)/EFI 文件创建可启动 USB 驱动器

  • microsoft/PowerToys Microsoft PowerToys 是一组实用程序,供高级用户调整和简化 Windows 体验以提高工作效率。

  • airbnb/lottie-android 在 Android 和 iOS、Web 和 React Native 上原生渲染 After Effects 动画

  • pomber/git-history 从任何 git 存储库快速浏览文件的历史记录

  • RelaxedJS/ReLaXed 使用 Web 技术创建 PDF 文档

  • tianshiyeben/wgcloud Linux运维监控工具,支持系统硬件信息,内存,cpu,温度,磁盘空间及IO,硬盘smart,系统负载,网络流量等监控,服务接口,大屏展示,拓扑图,进程监控,端口监控,docker监控,文件防篡改,日志监控,数据可视化,web ssh,堡垒机,指令下发批量执行,Linux面板(探针),SNMP,故障告警

  • AdnanHodzic/auto-cpufreq 适用于 Linux 的自动 CPU 速度和功耗优化器

  • AppImage/AppImageKit 将桌面应用程序打包为在常见的基于 Linux 的操作系统上运行的 AppImages,例如 RHEL、CentOS、openSUSE、SLED、Ubuntu、Fedora、debian 及其衍生产品。

  • CopyTranslator/CopyTranslator 基于复制和翻译的外语阅读和翻译助手。

  • geekcompany/ResumeSample 程序员简历模板系列

  • wenyan-lang/wenyan 文言文編程語言

  • yourtion/30dayMakeOS 《30天自制操作系统》源码中文版。自己制作一个操作系统(OSASK)的过程

  • typst/typst 一个新的基于标记的排版系统,功能强大且易于学习。

  • LemmyNet/lemmy 一个联邦宇宙的链接聚合器。 类似于 Reddit、Lobste.rs 或 Hacker News 等网站:您订阅您所感兴趣的社群,发布链接和讨论,然后对它们进行投票和评论。 Lemmy 不仅仅是 reddit 的替代品;它是一个由不同人和组织运营的相互关联的社群网络,所有这些社群结合起来创建一个充满您最喜欢的新闻、文章和迷因的独立且个性化的首页。

  • bnb/awesome-hyper 令人愉快的CLI超级插件、主题和资源

  • hackerkid/Mind-Expanding-Books 思维扩展书籍 每个人都应该读的书!

  • heynickc/awesome-ddd 域驱动设计 (DDD)、命令查询责任分离 (CQRS)、事件溯源和事件风暴资源的精选列表

  • rShetty/awesome-podcasts 软件工程师的重要播客列表

  • terkelg/awesome-creative-coding 创意编码:生成艺术,数据可视化,交互设计,资源。

  • immich-app/immich 直接从您的手机进行自托管照片和视频备份解决方案。

  • SwifterSwift/SwifterSwift 包含 500 多个原生 Swift 扩展的便捷集合,可提高您的工作效率。

  • agarrharr/awesome-cli-apps 命令行应用的精选列表

  • asdf-vm/asdf 可扩展的版本管理器,支持Ruby,Node.js,Elixir,Erlang等

  • lunatic-solutions/lunatic 用于快速、健壮和可扩展的服务器端应用程序的通用运行时。它的灵感来自 Erlang,可以从任何编译到 WebAssembly 的语言中使用。

  • rusterlium/rustler 用于创建 Erlang NIF 函数的安全rust桥

  • ergo-services/ergo 一个基于参与者的框架,具有网络透明度,用于使用 Golang 中的 Erlang/OTP 技术和设计模式创建事件驱动的架构。零依赖关系。

  • vlang/v 简单、快速、安全、编译的语言,用于开发可维护的软件。在 <1 秒内编译自身,零库依赖性。支持自动 C => V 转换。

  • FFmpeg/FFmpeg 用于处理多媒体内容(如音频、视频、字幕和相关元数据)的库和工具的集合。

  • mpv-player/mpv 命令行的免费(如自由)媒体播放器。它支持多种媒体文件格式、音频和视频编解码器以及字幕类型。

  • google/flatbuffers 跨平台序列化库,旨在实现最大的内存效率。它允许您直接访问序列化数据,而无需先解析/解压缩它,同时仍然具有很好的向前/向后兼容性。

  • ggreer/the_silver_searcher 类似于 ack 的代码搜索工具,但速度更快。

  • hluk/CopyQ 一款高级剪贴板管理器,具有强大的编辑和脚本功能。特征:支持 Linux、Windows 和 OS X 10.15+;存储文本、HTML、图像和任何其他自定义格式;快速浏览和筛选剪贴板历史记录中的项目;在选项卡中对项目进行排序、创建、编辑、删除、复制/粘贴、拖放项目;为项目添加注释和标签;具有可自定义命令的系统范围的键盘快捷键;使用键盘快捷键、从托盘或从主窗口粘贴项目;完全可定制的外观;高级命令行界面和脚本;忽略从指定窗口复制或包含指定文本的剪贴板;支持带有键盘快捷键的简单类似 Vim 的编辑器

  • koekeishiya/yabai 基于二进制空间分区的macOS平铺窗口管理器

  • the1812/Bilibili-Evolved 强大的哔哩哔哩增强脚本

  • lyswhut/lx-music-desktop 一个基于 electron 的音乐软件

  • iina/iina 适用于 macOS 的现代视频播放器。

  • sparanoid/chinese-copywriting-guidelines 統一中文文案、排版的相關用法,降低團隊成員之間的溝通成本,增強網站氣質。

  • awesomedata/awesome-public-datasets 以主题为中心的总部开放数据集列表。

  • geekan/HowToLiveLonger 程序员延寿指南

  • koreader/koreader 支持PDF,DjVu,EPUB,FB2和更多格式的电子书阅读器应用程序,可在Cervantes,Kindle,Kobo,PocketBook和Android设备上运行

  • typst/typst 一个新的基于标记的排版系统,功能强大且易于学习。

  • phodal/github GitHub 漫游指南——一本关于如何在 Github 上构建一个好项目的中文电子书。探索用户的行为。找到一些感兴趣的东西。

  • lowlighter/metrics 信息图表生成器,具有30+插件和300+选项,可显示您的GitHub帐户的统计信息并将其呈现为SVG,Markdown,PDF或JSON

  • anuraghazra/github-readme-stats 动态生成的 github 自述文件的统计信息

  • liu673cn/box TVbox开源版(空壳-自行配置)。通过导入特点资源接口,解析各类爬虫源、XP源、采集源等。完全无任何限制,也无任何广告。

  • 521xueweihan/GitHub520 让你“爱”上 GitHub,解决访问时图裂、加载慢的问题。(无需安装)

  • zijie0/HumanSystemOptimization 健康学习到150岁 - 人体系统调优不完全指南

  • wmjordan/PDFPatcher PDF工具箱,可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档,探查文档结构,提取图片、转成图片等等

  • QuestPDF/QuestPDF 用于PDF文档生成的现代开源.NET库。提供全面的布局引擎,由简洁且可发现的 C# Fluent API 提供支持。轻松生成 PDF 报告、发票、导出等。

  • PHPOffice/PHPWord 用于读写文字处理文档的纯 PHP 库

  • wuxingsanren/wildcat-vip-account 每天分享最新的百度网盘SVIP、迅雷超级会员、手机话费折扣充值、霸王餐免费吃VIP(美团、饿了么、大众点评、肯德基、麦当劳、星巴克)、饿了么超级会员、美团外卖会员&红包券、爱奇艺VIP会员、腾讯视频VIP、优酷VIP会员、哔哩哔哩大会员、百度文库VIP、QQ音乐VIP、网易云黑胶VIP、喜马拉雅VIP、樊登读书会VIP、千图网VIP、包图网VIP、摄图网VIP、CSDN下载VIP、天眼查VIP、苹果ID等等各类VIP帐号,随取随用,完全免费,绝无套路,同时提供:百度文库VIP下载、图库素材VIP下载、学术文献VIP下载(知网维普万方读秀龙源超星、英文数据库、法律数据库、医学数据库、金融数据库)、全网视频VIP解析、全网音乐MP3免费听及下载、微信域名拦截检测API

  • houshanren/hangzhou_house_knowledge 2017年买房经历总结出来的买房购房知识分享给大家,希望对大家有所帮助。买房不易,且买且珍惜。

  • The-Run-Philosophy-Organization/run 润学全球官方指定GITHUB,整理润学宗旨、纲领、理论和各类润之实例;解决为什么润,润去哪里,怎么润三大问题; 并成为新中国人的核心宗教,核心信念。

  • google/zx Bash 很棒,但是当涉及到编写更复杂的脚本时,许多人更喜欢更方便的编程语言。JavaScript 是一个完美的选择,但 Node.js 标准库在使用之前需要额外的麻烦。该 zx 包提供了有用的包装器 child_process ,转义参数并给出合理的默认值。

  • LibreOffice/core 只读 LibreOffice 核心存储库

  • romkatv/powerlevel10k Zsh的主题。强调速度、灵活性和开箱即用的体验。

  • dwmkerr/hacker-laws 开发人员会发现有用的定律,理论,原则和模式。

  • drduh/macOS-Security-and-Privacy-Guide macOS 上保护和改善隐私的指南

  • mxgmn/WaveFunctionCollapse 在量子力学思想的帮助下,从单个示例生成位图和瓦片图

  • bazelbuild/bazel 快速、可扩展、多语言和可扩展的构建系统。构建和测试Java,C++,Android,iOS,Go和各种其他语言平台。

  • Fechin/reference 为开发人员共享快速参考备忘单。

  • MichaelMure/git-bug 嵌入在 git 中的分布式、离线优先错误跟踪器,带有桥接器

  • SnapKit/SnapKit 一款DSL,可在iOS和OS X上轻松实现自动布局。

  • Ftindy/IPTV-URL 本项目直播源均搜集自互联网,完全免费公开分享

  • imDazui/Tvlist-awesome-m3u-m3u8 直播源相关资源汇总 IPTV、M3U

  • asdf-vm/asdf 可扩展的版本管理器,支持Ruby,Node.js,Elixir,Erlang等

  • SwiftGGTeam/the-swift-programming-language-in-chinese 中文版 Apple 官方 Swift 教程《The Swift Programming Language》

  • AlDanial/cloc 对许多编程语言中源代码的空白行、注释行和物理行进行计数

  • brndnmtthws/conky 适用于X,Wayland和其他东西的轻量级系统监视器

  • formulahendry/955.WLB 955 不加班的公司名单 - 工作 955,work–life balance (工作与生活的平衡)

  • pjialin/py12306 12306购票助手,支持集群,多账号,多任务以及 Web 页面管理

  • Morganamilo/paru 功能丰富的 AUR 助手,Arch 用户仓库(Arch User Repository)。它是针对基于 Arch 的 Linux 发行版用户的社区驱动的仓库

  • Homebrew/homebrew-core MacOS(或 Linux)的软件包管理器。 通过它,我们可以方便的对Mac上的各种软件进行管理,如:安装、更新、查看、搜索、卸载等。

  • Homebrew/brew macOS(或 Linux)缺少的包管理器

  • microsoft/winget-cli WinGet 是 Windows Package Manager。该项目包括一个CLI(命令行界面),PowerShell模块和一个COM(组件对象模型)API。

  • CocoaPods/CocoaPods CocoaPods 管理 Xcode 项目的依赖项。

  • renovatebot/renovate 自动依赖项更新。多平台和多语言。适合您工作流程的通用依赖项更新工具。

  • webpro/awesome-dotfiles dotfiles 资源的精选列表。有些文章或工具可能看起来很旧或过时,但这通常意味着它们经过了实战考验并且已经成熟。随时提出新的文章、项目或工具!

  • shimohq/chinese-programmer-wrong-pronunciation 中国程序员易发音错误单词

  • vsouza/awesome-ios 令人敬畏的iOS生态系统的精选列表,包括Objective-C和Swift项目。

  • iCHAIT/awesome-macOS 适用于 macOS 的精彩应用程序、软件、工具和闪亮事物的精选列表。

  • nikitavoloboev/my-mac 我在 macOS 上使用的应用/工具

  • serhii-londar/open-source-mac-os-apps 适用于 macOS 的开源应用程序列表很棒。此列表包含许多本机和跨平台应用程序。

  • mikefarah/yq 可移植的命令行 YAML、JSON、XML、CSV、TOML 和属性处理器

  • symless/synergy-core Synergy的开源核心,跨平台键盘和鼠标共享工具(Windows,macOS,Linux)

  • posquit0/Awesome-CV LaTeX 模板,适用于您出色的工作申请

  • billryan/resume 优雅的 \LaTeX\ 简历模板,用 \XeLaTeX 编译。

  • abhisheknaiidu/awesome-github-profile-readme 很棒的GitHub个人自述文件

  • matiassingers/awesome-readme 精选的精彩自述文件列表,精美的自述文件中的元素包括但不限于:图像、屏幕截图、GIF、文本格式等。

  • thangchung/awesome-dotnet-core 很棒的 .NET Core、工具、框架软件的集合

  • quozd/awesome-dotnet 很棒的 .NET 库、工具、框架和软件的集合。

  • desktop/desktop 开源的基于Electron的GitHub应用程序。它是用TypeScript编写的,并使用React。

  • gztchan/awesome-design 专注于收集高质量的资源和工具,可供UI / UX设计师在日常工作中使用。

  • markets/awesome-ruby 由社区驱动的分类集合,包含令人敬畏的 Ruby 库、工具、框架和软件。构建现代应用程序和 Web 应用程序的基本 Ruby。

  • jesseduffield/lazygit 用于 git 命令的简单终端 UI

  • acmesh-official/acme.sh 实现 ACME 客户端协议(使用 ACME 协议来验证您对给定域名的控制权并向您颁发证书。)的纯 Unix shell 脚本

  • zh-google-styleguide/zh-google-styleguide Google 开源项目风格指南 (中文版)

  • ByteByteGoHq/system-design-101 使用视觉效果和简单术语解释复杂的系统(通信协议、CI/CD、数据库、缓存、微服务架构、支付系统、DevOps、云服务等)。帮助您准备系统设计面试。

  • protocolbuffers/protobuf Protocol Buffers(又名 protobuf)是 Google 用于序列化结构化数据的中立语言、平台中立、可扩展的机制。您可以在 protobuf 的文档中了解更多信息。

  • WeNeedHome/SummaryOfLoanSuspension 全国各省市停贷通知汇总

  • gotgit/gotgithub 一本关于 GitHub 的开源电子书(中文版)

  • hmemcpy/milewski-ctfp-pdf Bartosz Milewski的“程序员范畴理论”非官方PDF和LaTeX来源。主要讲解了各种各样的范畴概念在编程中的体现和应用,对理解范畴论在计算机领域的应用有非常好的学习价值。

  • ty4z2008/Qix 机器学习、深度学习、PostgreSQL、分布式系统、Node.js、Golang

  • lukasz-madon/awesome-remote-job 精彩的远程作业和资源的精选列表。

  • reactos/reactos 一个免费的Windows兼容操作系统,旨在开发一个高质量的操作系统,该操作系统与为Microsoft® Windows™ NT系列操作系统(NT4,2000,XP,2003,Vista,7)编写的应用程序和驱动程序兼容。

  • 0xAX/linux-insides 关于 linux 内核的一点点,目标很简单 - 分享我对 linux 内核内部的适度知识,并帮助对 linux 内核内部和其他低级主题感兴趣的人。

  • icopy-site/awesome-cn 从github 各类 awesome list 通过爬虫聚合而来

  • Xfennec/progress Linux 工具显示 cp、mv、dd 等的进度。(以前称为 CV)

  • grafana/pyroscope 连续分析平台。调试性能问题,细化到一行代码。开源的连续分析平台。它将帮助您:查找代码中的性能问题和瓶颈、使用高基数标记/标签来分析应用程序、解决 CPU 使用率过高的问题、追踪内存泄漏、了解应用程序的调用树、自动检测代码以将分析数据链接到跟踪。

  • lichess-org/lila 永远免费、无广告和开源的国际象棋服务器

  • microsoft/wslg 使适用于 Linux 的 Windows 子系统能够包括对 Wayland 和 X 服务器相关方案的支持

  • vygr/ChrysaLisp 64 位、MIMD、多 CPU、多线程、多核、多用户并行操作系统,具有 GUI、终端、OO 汇编器、类库、C 脚本编译器、Lisp 解释器、调试器、分析器、矢量字体引擎等功能。它支持 x64、Riscv64 和 Arm64 的 MacOS、Windows 和 Linux,并最终将转向裸机。它还允许对各种网络拓扑进行建模,并使用ChrysaLib hub_nodes加入异构主机网络。它有一个虚拟的CPU指令集和一个强大的对象和类系统,用于汇编程序和高级语言。它具有功能级动态绑定和加载功能,以及一个命令终端,该终端具有熟悉的管道式命令行应用程序界面。还提供了一个类似 Common Lisp 的解释器。

  • babashka/babashka 用于脚本编写的原生、快速启动的 Clojure 解释器

  • tonsky/FiraCode 带有编程连字的免费等宽字体。程序员使用大量符号,通常使用多个字符进行编码。对于人脑来说,像 或 <= := 这样的 -> 序列是单个逻辑标记,即使它们在屏幕上包含两个或三个字符。您的眼睛花费非零的能量来扫描、解析多个字符并将其连接成一个逻辑字符。Fira Code 是一种免费的等宽字体,包含用于常见编程多字符组合的连字。这只是一个字体呈现功能:底层代码保持 ASCII 兼容。这有助于更快地阅读和理解代码。一些频繁的序列,如 .. 或 // ,连字允许我们校正间距。

  • github/gitignore 有用的 .gitignore 模板的集合

  • 996icu/996.ICU 996.ICU 指的是“996工作,在ICU生病”,这是中国开发人员中具有讽刺意味的说法,这意味着遵循“996”工作时间表,你就有可能进入ICU(重症监护室)。由 IT 从业者发起的一项计划。我们欢迎来自其他领域和其他国家的人加入讨论。我们坚决维护劳动法,要求用人单位尊重劳动者的合法权益。

  • bayandin/awesome-awesomeness 一个精心策划的令人敬畏的令人敬畏的清单。

  • languagetool-org/languagetool 开源校对软件,适用于英语、西班牙语、法语、德语、葡萄牙语、波兰语、荷兰语和其他 20 多种语言。它发现了许多简单的拼写检查器无法检测到的错误。

  • ldqk/Masuit.Tools C#万能工具库,码数吐司库,包含一些常用的操作类,大都是静态类,加密解密,反射操作,权重随机筛选算法,分布式短id,表达式树,linq扩展,文件压缩,多线程下载,硬件信息,字符串扩展方法,日期时间扩展操作,中国农历,大文件拷贝,图像裁剪,验证码,断点续传,集合扩展、Excel导出。

  • ovity/octotree 浏览器扩展,可增强 GitHub 代码审查和探索。

  • kelseyhightower/nocode 编写安全可靠的应用的最佳方式。什么都不写;不部署。

  • SFTtech/openage 一个志愿者项目,旨在创建《帝国时代》、《帝国时代 II》(高清版)和《星球大战:银河战场》中使用的精灵引擎的免费引擎克隆,可与 OpenMW、OpenRA、OpenSAGE、OpenTTD 和 OpenRCT2 等项目相媲美。

  • assimp/assimp 用于将各种 3D 文件格式加载为共享的内存格式。它支持 40 多种文件格式进行导入,并支持越来越多的文件格式进行导出。

  • firstcontributions/first-contributions 旨在简化和指导初学者做出首次贡献的方式。

  • ShareX/ShareX 免费的开源程序,可让您捕获或记录屏幕的任何区域,只需按一下键即可共享。它还允许将图像、文本或其他类型的文件上传到您可以选择的许多受支持的目的地。

  • dkhamsing/open-source-ios-apps 开源 iOS 、 iPadOS watchOS 和 tvOS 应用程序的协作列表

  • openfarmcc/OpenFarm 免费和开放的农业和园艺知识数据库。你可以种植任何东西

  • github/opensource.guide 为想要学习如何运行开源项目和为开源项目做出贡献的个人、社区和公司提供的资源集合。由 GitHub 创建和策划,以及来自外部社区审阅者的意见,但它们并非 GitHub 产品所独有。

  • MaaAssistantArknights/MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!|Arknights日常任务的一键式工具,支持所有客户。

  • tldr-pages/tldr 社区维护的命令行工具帮助页面的集合,旨在成为传统手册页的更简单、更易上手的补充。

  • DovAmir/awesome-design-patterns 与软件和体系结构相关的设计模式的精选列表。软件设计模式 - 在软件设计中给定上下文中,针对常见问题的通用、可重用的解决方案。它是有关如何解决可在许多不同情况下使用的问题的描述或模板。

  • byoungd/English-level-up-tips 学习英语的高级指南,可能会使您受益匪浅。离谱的英语学习指南。

  • SerenityOS/serenity 用于 x86-64 计算机的图形类 Unix 操作系统。一封写给 90 年代用户界面的情书,具有自定义的类 Unix 核心。它通过从其他各种系统中窃取美丽的想法来真诚地奉承。目标是将 1990 年代后期生产力软件的美学与 2000 年代后期 *nix 的高级用户可访问性结合起来。

  • jaywcjlove/linux-command Linux命令大全搜索工具,内容包含Linux命令手册、详解、学习、搜集。

  • ryanhanwu/How-To-Ask-Questions-The-Smart-Way 本文原文由知名 Hacker Eric S. Raymond 所撰寫,教你如何正確的提出技術問題並獲得你滿意的答案。

  • remoteintech/remote-jobs 科技行业远程工作友好型公司(工作)列表。

  • timqian/chinese-independent-blogs 中文独立博客列表

  • hehonghui/awesome-english-ebooks 经济学人(含音频)、纽约客、卫报、连线、大西洋月刊等英语杂志免费下载,支持epub、mobi、pdf格式, 每周更新

  • gleitz/howdoi 通过命令行立即得到编码答案

  • brendangregg/FlameGraph 堆栈跟踪可视化工具,单击一个框以仅将火焰图缩放到此堆栈帧。要搜索并突出显示与正则表达式匹配的所有堆栈帧,请单击右上角的搜索按钮或按 Ctrl-F。默认情况下,搜索区分大小写,但可以通过按 Ctrl-I 或单击右上角的 ic 按钮来切换。

  • Homebrew/homebrew-cask 用于管理以二进制文件形式分发的 macOS 应用程序的 CLI 工作流

  • jellyfin/jellyfin 自由软件媒体系统。Jellyfin 使您能够收集、管理和流式传输您的媒体。在您的系统上运行 Jellyfin 服务器,并访问领先的免费软件娱乐系统,包括花里胡哨的功能。

  • chubin/wttr.in 查看天气的正确方法

  • muesli/duf 磁盘使用/免费实用程序 - 更好的“df”替代品

  • dotnet/roslyn .NET 编译器为 C# 和 Visual Basic 语言提供丰富的代码分析 API。

  • koel/koel 有效的个人音乐流媒体服务器。在客户端用 Vue 编写,在服务器端用 Laravel 编写。针对 Web 开发人员,采用一些更现代的 Web 技术来完成其工作。

  • SimplifyJobs/Summer2024-Internships Pitt CSC和Simplify的 2024 年夏季技术实习

  • kanaka/mal 受 Clojure 启发的 Lisp 解释器

  • rubocop/ruby-style-guide 社区驱动的 Ruby 编码风格指南

  • rbenv/rbenv 类 Unix 系统上 Ruby 编程语言的版本管理器工具。它对于在同一台机器上的多个 Ruby 版本之间切换以及确保您正在处理的每个项目始终在正确的 Ruby 版本上运行非常有用。

  • frank-lam/fullstack-tutorial fullstack tutorial 2022,后台技术栈/架构师之路/全栈开发社区,春招/秋招/校招/面试

  • kovidgoyal/calibre 电子书管理器。它可以查看、转换、编辑和编目所有主要电子书格式的电子书。它还可以与电子书阅读器设备通信。它可以上网并获取您书籍的元数据。它可以下载报纸并将其转换为电子书,以方便阅读。它是跨平台的

  • cloudcommunity/Free-Certifications 精选的免费课程和认证列表。

  • nusr/hacker-laws-zh 对开发人员有用的定律、理论、原则和模式。

  • flameshot-org/flameshot 功能强大且易于使用的屏幕截图软件。

  • dandavison/delta 用于 git、diff 和 grep 输出的语法突出显示

  • qarmin/czkawka 多功能应用程序,用于查找重复项、空文件夹、类似图像等。

  • lib-pku/libpku 贵校大学课程各种资料民间整理

  • tuteng/Best-websites-a-programmer-should-visit-zh 程序员应该访问的最佳网站

  • denisidoro/navi 用于命令行的交互式备查表工具

  • RealKai42/qwerty-learner 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件

  • zbezj/HEU_KMS_Activator 基于MDL论坛的KMS 服务端模拟环境“KMS Server Emulator”而制作的一款简洁高效的 KMS 激活工具。

  • TGSAN/CMWTAT_Digital_Edition CloudMoe Windows 10/11 激活工具包获得数字许可证,这是 GitHub 中最好的开源 Win 10/11 激活器。GitHub 上最棒的开源 Win10/Win11 数字权利(数字许可证)激活工具!

  • Hammerspoon/hammerspoon 使用 Lua 实现功能惊人的强大 macOS 桌面自动化

  • scala/scala Scala 2 编译器和标准库。

  • lampepfl/dotty Scala 3 编译器,也称为 Dotty。

  • dortania/OpenCore-Legacy-Patcher 围绕 Acidanthera 的 OpenCorePkg 和 Lilu 展开,用于在受支持和不支持的 Mac 上运行和解锁 macOS 中的功能。

  • rxhanson/Rectangle macOS 上使用键盘快捷键和贴靠区域移动窗口和调整窗口大小

  • NVIDIA/open-gpu-kernel-modules NVIDIA Linux 开放 GPU 内核模块源

  • 1c7/chinese-independent-developer 中国独立开发者项目表,分享大家都在做什么

  • k88hudson/git-flight-rules git 的飞行规则,Git 程序员指南

  • gulpjs/gulp 一个工具包,可帮助您在开发工作流程中自动执行痛苦或耗时的任务。与平台无关 - 集成内置于所有主要 IDE 中,人们正在将 gulp 与 PHP、.NET、Node.js、Java 和其他平台一起使用。强大的生态系统 - 使用 npm 模块做任何你想做的事情 + 超过 3000 个精选插件用于流式文件转换.

  • BoostIO/BoostNote-App 一种文档驱动的项目管理工具,可最大限度地提高远程 DevOps 团队的速度。

  • Sitoi/dailycheckin 基于Docker/青龙面板/群晖的每日签到脚本(支持多账号使用)签到列表: |爱奇艺|全民K歌|有道云笔记|百度贴吧|Bilibili|V2EX|AcFun|什么值得买|阿里云盘|i茅台申购|小米运动|百度搜索资源平台|恩山论坛|奥拉星

  • xiaolai/everyone-can-use-english 不要再 “学” 英语,你就该 “用” 英语

  • files-community/Files 构建适用于 Windows 的最佳文件管理器

  • hellzerg/optimizer 高级配置实用程序,旨在增强您在 Windows 上的隐私和安全性。强烈建议在全新安装 Windows 后使用此工具,以实现最大的隐私和安全优势。根据您的 Windows 版本,Optimizer 还可以帮助您应用特定的系统调整。

  • microsoft/calculator Windows 计算器:Windows 附带的简单而强大的计算器

  • joelparkerhenderson/architecture-decision-record 用于软件规划、IT 领导和模板文档的架构决策记录 (ADR) 示例

  • github-linguist/linguist 用于检测 blob 语言、忽略二进制文件或供应商文件、禁止显示差异中生成的文件以及生成语言细分图。

  • auris/awesome-scala 社区驱动的有用 Scala 库、框架和软件列表。

  • Awesome-HarmonyOS/HarmonyOS 华为鸿蒙操作系统。

  • MaterialDesignInXAML/MaterialDesignInXamlToolkit Google 的 Material Design in XAML & WPF, for C# & VB.Net.

  • ardalis/CleanArchitecture Clean Architecture 解决方案模板:具有 ASP.NET Core 的 Clean Architecture 的起点

  • kgrzybek/modular-monolith-with-ddd 采用领域驱动设计方法的全模块化整体式应用程序。

  • Igglybuff/awesome-piracy 精选的令人敬畏的warez和盗版链接列表

  • Tencent/xLua C#(Unity、.Net、Mono)的 lua 编程解决方案,它支持 android、ios、windows、linux、osx 等。

  • jordansissel/fpm Effing 包管理!为多个平台(deb、rpm 等)构建软件包非常轻松和合理。

  • alexandresanlim/Badges4-README.md-Profile 使用这些惊人的徽章改善您的 README.md 个人资料。

  • StylishThemes/GitHub-Dark 深色 GitHub 风格

  • trimstray/test-your-sysadmin-skills Linux 系统管理员测试问题和答案的集合。通过这些 Q/A 测试您在不同领域的知识和技能。

  • matheusfelipeog/beautiful-docs 我喜欢文档。如果您使用/正在编写供多个人使用和使用的代码,那么您也应该喜欢它。文档和其他资源将决定项目的成功与否。你希望开发越开放和协作,文档就越重要。

  • docmirror/dev-sidecar 开发者边车,github打不开,github加速,git clone加速,git release下载加速,stackoverflow加速

  • conwnet/github1s 一秒钟使用 VS Code 读取 GitHub 代码。

  • libgit2/libgit2 可在应用程序中使用的 Git 的跨平台、可链接库实现。Git 核心方法的可移植、纯 C 实现,作为具有可靠 API 的可链接库提供,允许将 Git 功能构建到您的应用程序中。Rugged (Ruby)、LibGit2Sharp (.NET)、pygit2 (Python) 和 NodeGit (Node) 等语言绑定允许您使用自己喜欢的语言构建 Git 工具。

  • DevToys-app/DevToys 开发人员的瑞士军刀。DevToys 帮助完成日常开发任务,例如格式化 JSON、比较文本和测试正则表达式。

  • tipsy/profile-summary-for-github 用于可视化 GitHub 状态的工具。

  • mono/mono 软件平台,旨在让开发人员轻松创建跨平台应用程序。它是 Microsoft 的 .NET Framework 的开源实现,基于 C# 和公共语言运行库的 ECMA 标准。

  • digitalarchive.wilsoncenter.org 威尔逊中心数字档案馆是一个资源,学生、研究人员和专家可以在这里访问来自世界各地政府和组织的曾经的秘密文件。数字档案馆由威尔逊中心的历史和公共政策项目建造和维护,包含来自世界各地档案馆的解密历史资料,包括外交电报、高层通信、会议记录、情报估计等。由于其中大部分信息都有英文翻译,这些历史文献丰富了国际学术、历史教育和关于重要全球问题和挑战的公共政策辩论。历史与公共政策计划致力于从世界各地的存储库中公开 20 世纪和 21 世纪国际历史的主要来源记录,促进基于这些记录的学术研究,并使用这些材料为课堂、公共和政策辩论提供背景关于全球事务。

end

Open Source Agenda is not affiliated with "Mystars" Project. README Source: wuwenjie1992/StarrySky

Open Source Agenda Badge

Open Source Agenda Rating