7月月报 | luxinfeng’s home

type

Post

status

Draft

date

Jul 6, 2024

summary

slug

category

password

URL

icon

智谱发布了CodeGeeX4，开源了CodeGeeX4-ALL-9B

1、具有代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力 2、目前10B参数以下模型中性能最强 3、128K 上下文 4、实现了Function Call的代码大模型 5、支持本地模式 GitHub: github.com/THUDM/CodeGeeX4

OPENAI创始人谈话

将Embedding模型量化，提升处理速度

https://lightning.ai/lightning-ai/studios/rag-40x-faster-using-binary-quantization

LLM路由模块

并非所有的任务都需要 GPT-4！LLM 最权威评估榜单维护者开源 RouteLLM🔥 同时开放 Demo、数据集和评测框架👍 - 根据任务的难易实现自动路由 LLM，在 MMLU 上实现降低 45% 的成本，同时保持 95% 的 GPT-4 级别的性能！- 兼容 OpenAI GPT 的 API 数据结构设计

https://github.com/lm-sys/RouteLLM

让我们来搞一个GPT-2

https://youtu.be/l8pRSuU81PU?si=Zwr0zT7p6MU2mJEn

The O-one ：一个创新的开源语言模型计算机

1、语音交互：允许用户通过简单的推按操作与设备进行对话，完成询问、指令下达等任务。 2、日程和活动管理：可以远程访问你的电脑设备查询天气、查看日程、添加活动至日历，并自动发送活动相关信息。 3、邮件与文件处理：能够访问你的邮件，管理邮件，例如自动发送包含指定文件的邮件给特定联系人 4、学习新技能：通过用户指导，O1可以学会新的操作技能，如发送Slack消息等。 5、自动化工作流：监控邮件，自动处理和转发信息，如发票详情等。最牛皮的是，O-one是开源的，他们公布了代码、CAD图纸、以及其他信息，你完全可以自己做一个。

GitHub地址：https://github.com/OpenInterpreter/01

吴恩达提出新的翻译Agent

支持语气，区域，基于词汇表确保术语一致性，在部分场景 BLEU 优于很多商业翻译产品，Prompt + Workflow 设计非常值得学习

GitHub地址：https://github.com/andrewyng/translation-agent

最强 Terminal AI 结对编程助手 - aider 开源

1. No Agent，而是交互式 AI 参与，实用级的水平2. 与 Git 工作流整合，支持主流编程语音 JS/Python/Rust🦀3. 支持语音识别和主流 LLM

GitHub地址：https://github.com/paul-gauthier/aider

AutoCoder：超越GPT-4和GPT-4o的代码模型

基于DeepSeeker-Coder底座，训练数据是 AI交互数据和外部执行验证组成的多轮对话，支持安装外部代码解释器，在Human Eval基准测试pass@1中超越GPT-4 Turbo和GPT-4o

GitHub地址：https://github.com/bin123apple/AutoCoder

Phi-3/Phi-3 Mini

微软更新了Phi-3 Mini系列，对4K和128K上下文模型检查点都进行了更新，加强JSON处理能力，并显著提高了Python、C++、Rust和Typescript的代码理解能力，增强了后期训练，改进了多轮指令跟踪。此外，更新版本支持 <|system|> 标签，改进了推理和长上下文理解。Phi-3是微软发布的自研小尺寸模型，能够在手机上运行，同时保持与大型模型如Mixtral 8x7B和GPT-3.5相媲美的性能。

GraphRAG

GraphRAG是微软最新开源的一种新型检索增强生成(RAG)方法，通过结合知识图谱和图数据库技术来增强传统RAG的能力。它的核心特点包括利用LLMs生成知识图谱、实时调用图谱数据进行检索、两阶段索引构建、全局理解能力。特别是在处理大规模数据集的全局性问题时，在答案的全面性和多样性方面显著优于传统RAG方法。

finetune-embedding

finetune-embedding是一个用于RAG的嵌入微调项目，通过合成数据来改善模型性能。项目提供了一系列Jupyter笔记本，指导用户如何生成合成数据集、微调开源嵌入模型，并评估微调后的模型。实验对象是金融领域的PDF文档，结果表明微调嵌入模型可以显著提高检索性能。

OpenVINO

OpenVINO是一款由英特尔开发的开源工具包，用于优化和部署AI推理。它采用"一次编写，随处部署"的方法，通过推理优化提升计算机视觉、自动语音识别、LLM等众多任务的深度学习性能。支持使TensorFlow、PyTorch等主流框架训练的模型，可轻松转换和部署模型。它可减少资源需求，高效部署于从边缘到云的各种平台。

agentUniverse

agentUniverse是一个基于大型语言模型的多Agent框架，提供了构建单个Agent的所有基本组件，并具备多Agent协作机制，允许开发者构建和定制多Agent协作模式。开发者可以轻松构建多Agent应用，并从不同技术和业务领域分享模式实践。框架将附带几种在真实业务场景中被证明有效的多Agent协作模式，并将在未来不断丰富。

BigCodeBench

BigCodeBench是一个用于评估大型语言模型（LLM）在实际编程任务中的编码能力的基准测试。它专注于类似HumanEval的函数级代码生成任务，但包含更复杂的指令和多样的函数调用。BigCodeBench提供了一个Python包，包含数据集、生成脚本和评估脚本，基于EvalPlus框架构建，旨在加速代码智能研究。

用 Sentence Transformers v3 训练和微调嵌入模型

Sentence Transformers是一个 Python 库，用于使用和训练各种应用的嵌入模型，例如检索增强生成 (RAG)、语义搜索、语义文本相似度、释义挖掘 (paraphrase mining) 等等。其 3.0 版本的更新是该工程自创建以来最大的一次，引入了一种新的训练方法。在这篇博客中，我将向你展示如何使用它来微调 Sentence Transformer 模型，以提高它们在特定任务上的性能。你也可以使用这种方法从头开始训练新的 Sentence Transformer 模型。

介绍链接：https://mp.weixin.qq.com/s/y_ytGcJUUdJN0xsVTnuulQ

vLLM

vLLM是一个用于大型语言模型（LLM）的高吞吐量和内存高效的推理与服务引擎。它具备最先进的服务吞吐量、高效的注意力键值内存管理、连续批处理请求、快速模型执行、量化优化和灵活易用的特点。vLLM支持主流开源模型，提供高吞吐量服务、分布式推理、流式输出。

Marker

Marker是一个能够快速且高精度地将PDF文档转换为Markdown格式的工具。它支持多种文档类型，特别优化了书籍和科学论文的转换。Marker支持所有语言，能够去除页眉页脚等杂项，格式化表格和代码块，提取并保存图片，大多数方程式能转换为LaTeX格式。它可以在GPU、CPU或MPS上运行。

RankRAG

英伟达又在 RAG 领域整了个大活！🔥，RankRAG 来了！无需微调，利用基于 Llama3 的 Retrieve-Rerank-Generate 流程，在 9 个知识密集型基准测试中明显优于 GPT-4⚡️ - 整合 Rank 能力，高效选择召回的上下文，提高性能保持效率- 适配不同的 Embedding 检索器

MoA（Mixture of Agents）混合 Agents 架构

真算法创新！⚡️知名的 AI 计算提供商@togethercompute搞了个 MoA（Mixture of Agents）混合 Agents 架构，在 AlpacaEval2.0 上力压 GPT-4o 7.6% 🔥，目前已经开源，短时间飙升 1.9K Star 🌟 - 混合小模型 as agent 解决复杂问题- Groq GQ 加速做调度和聚合，摊平时间成本

https://github.com/togethercomputer/MoA

ebook to chatml conversion

ebook-to-chatml-conversion 是一个多轮对话数据集制作工具，可以将电子书（.txt或.epub格式）转换为基于对话的ChatML格式化群聊的工具。该格式可用于创建数据集。脚本使用koboldcpp进行GBNF语法处理，以及alpaca用于所有提示，这些可以在prompts.py中看到。脚本与7B模型配合使用效果不错，但需要一些编辑。通过编辑config.yaml，可以使用任何所需的上下文大小（4096、8192或甚至32K上下文大小），但建议使用8192+上下文。

RAG 2.0 新范式来了

RAGFlow 0.8 版本正式发布 Agentic Workflow，基于有环图为 RAG 引入带反思的 Agent 能力 - 支持以 RAG 为中心的 7+ Workflow 节点构建 Agentic RAG- 支持 HR、ChatBOT、客户支持等场景模板- 支持第三方 Tool 如搜索等场景

https://github.com/infiniflow/ragflow

PDF-Extract-Kit 07.15

PDF-Extract-Kit 是一个高质量的PDF内容提取工具包，旨在解决从PDF中提取高质量内容的难题。该项目将PDF内容提取任务分解为多个组件，包括布局检测、公式检测、公式识别和光学字符识别。通过使用LayoutLMv3模型进行区域检测，YOLOv8进行公式检测，UniMERNet进行公式识别，以及PaddleOCR进行文本识别，PDF-Extract-Kit能够在各种类型的文档中实现精确的检测效果。

BM25S

BM25S 是一个用纯 Python 实现的 BM25 超快速库，利用 Scipy 稀疏矩阵来存储预先计算的文档分数。该库旨在提高查询时的评分速度，相比于流行的库（如 Elasticsearch），在单线程环境下性能提升了数倍。BM25 是一种广泛使用的文本检索排名函数，是搜索服务的核心组件。

Cradle

Cradle是昆仑万维联合北京智源等开源的AI框架，不仅能玩多种商业游戏，还能操作各种软件应用。在这个全新的通用计算机控制框架加持下，AI Agent无需训练便能像人一样直接控制键盘鼠标，不依赖任何内部API，实现任意开闭源软件交互。通过在标准化的通用环境中提供强大的推理能力、自我改进和技能管理，支持Agent完成任何计算任务，且对环境要求极低。

LLM Graph Builder

LLM Graph Builder是Neo4j开源的基于LLM提取知识图谱的生成器，可以把非结构化数据，PDF、文档、文本、YouTube视频、网页等转换成存储在 Neo4j 中的知识图谱。LLM Graph Builder利用大模型OpenAI、Gemini 、Llama3、Diffbot、Claude、Qwen等从非结构化数据中提取节点、关系及其属性（可自定义要提取的关系、节点）。

mllm

mllm 是一个快速轻量的多模态大语言模型推理引擎，专为移动和边缘设备设计。它采用纯 C/C++ 实现，无需依赖项，支持 ARM NEON 和 x86 AVX2，并提供 4 位和 6 位整数量化。mllm 能在设备端实现智能个人助手、基于文本的图像检索和屏幕视觉问答等功能，保障数据隐私。

观点1

引用的话语

观点2

引用的话语

🤗 总结归纳

总结文章的内容

📎 参考文章

一些引用

引用文章

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~

😀

这里写文章的前言：一个简单的开头,简述这篇文章讨论的问题、目标、人物、背景是什么？并简述你给出的答案。

可以说说你的故事：阻碍、努力、结果成果，意外与转折