📅 2025-01-14
Google AI产品Gemini的API有很多免费额度,而且兼容OpenAI API,我也开始使用了它的API了。
免费额度
#
从免费额度上看Google还算慷慨, gemini-1.5-flash
每天1500次请求也足够个人学习使用。
模型名称 | 简介 | 免费层级限制 |
---|
gemini-1.5-flash | 速度最快的多模态模型,在各种重复性任务中表现出色,有100万的上下文窗口 | 15RPM, 1 million TPM, 1500RPD |
gemini-1.5-flash-8b | 最小的模型,适用于对智能要求不高的场景,100万上下文窗口 | 15RPM, 1 million TPM, 1500RPD |
gemini-1.5-pro | 下一代模型,200万上下文窗口,已经生产可用 | 2RPM, 32000TPM, 50RPD |
gemini-1.0-pro | 第一代模型仅提供文本和图像推理,生产可用 | 15RPM, 32000TPM, 1500RPD |
text-embedding-004 | 文本嵌入模型 | 1500RPM |
- RPM - requests per minute
- TPM - tokens per minute
- RPD requests per day
开通Gemini API
#
Gemini API的开通方式,是在Googlle AI Studio中申请API Key。
...📅 2025-01-07
原文: Agents, 作者: Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic
正是推理(reasoning)、逻辑(logic)以及与生成式AI模型相连接的外部信息访问能力的结合,才催生了智能体的概念。
1.引言
#
人类擅长复杂的模式识别,但常借助书籍、谷歌搜索或计算器等工具补充知识再做判断。类似地,生成式AI模型也能通过训练使用工具,访问实时信息或提供实际操作建议。例如,模型可利用数据库检索工具访问客户购买历史等信息,生成定制化推荐;或根据用户查询,通过API调用发送邮件或完成金融交易。为此,模型不仅需访问外部工具,还需自主规划和执行任务。推理、逻辑和与生成式AI模型相关的外部信息访问共同构成了智能体的概念,即超越生成式AI模型独立能力的程序。本文将详述这些及相关方面。
...📅 2024-11-04
TGI简介
#
Text Generation Inference(TGI)是一个用于部署和提供大型语言模型(LLMs)服务的工具包。TGI支持高性能文本生成,适用于最受欢迎的开源大语言模型,包括Llama、Falcon、StarCoder、BLOOM、GPT-NeoX和T5。
...📅 2024-10-21
TEI简介
#
Text Embeddings Inference(TEI)是一个全面的工具包,旨在高效地部署和服务开源文本嵌入模型。它支持对最流行的模型进行高性能提取,包括FlagEmbedding、Ember、GTE和E5。
TEI提供多种功能,旨在优化部署过程并提高整体性能。
...📅 2024-10-21
在RAG中,Rerank是一种对初步检索到的多个候选文档进行重新评分和排序的技术,确保生成模型基于最相关的文档生成回答。通过Rerank,可以剔除不相关的文档,优化检索结果,提高生成模型的准确性和回答质量。这一步对提升生成结果的相关性和减少无关信息至关重要。
...📅 2024-10-13
1.LangChain Runnable介绍
#
LangChain的Runnable对象是一种协议(protocol),它简化创建自定义链(chain)的过程。Runable是使用LangChain开发LLM应用程序的开发人员必须学习的一种抽象。
使用Ruanable协议可以将一系列的任务串联起来,将一个调用的输出作为输入提供给下一个,形成一个完整的流程。
...📅 2024-10-08
实验环境
#
- OS: Ubuntu 24.04
- Python: 3.11
- GPU: NVIDIA GeForce RTX 4090 (2个)
- CUDA Version: 12.6
vLLM安装
#
见“使用pip安装vLLM”
模型下载
#
预先使用huggingface-cli
下载Qwen/Qwen2.5-14B-Instruct
。
Qwen2.5-14B-Instruct部署
#
启动为兼容OpenAI的API服务。
...📅 2024-09-19
ell是一个全新的开发大语言模型应用框架。
ell的官方文档里将自己称为"大语言模型编程库", “ell是一个轻量级的提示工程库,将提示(prompt)视为函数”。
现在面向LLM的编程框架层出不穷,LangChain几乎为我们封装了所有,但是有些过于重了。ell的特点是"轻量化"。
...📅 2024-08-18
本文是基于OpenAI官方Cookbook中的《How to call functions with chat models》学习笔记。
通过OpenAI的Chat Completions API,结合自定义函数,可以打造更智能、更强大的对话代理。我们将详细介绍如何利用tools参数定义函数规范,并通过实际案例演示如何让模型生成符合规范的函数参数,从而实现与外部数据的交互。当前在function calling使用过程中可能遇到的问题,如模型对系统提示的遵循程度,这很大程度上是由模型能力决定。
...📅 2024-08-18
函数调用是OpenAI的 GPT-4 和 GPT-3.5 Turbo 模型的一项高级功能,它允许模型根据用户的指示决定是否调用特定的函数,并以结构化的形式返回信息,而不仅仅是提供文本回答。这种将大型语言模型与外部工具和API整合的能力,大大增强了模型的应用潜力。
例如,大模型本身无法获取实时天气信息,因为它没有实时数据功能。但通过函数调用,AI可以与外部系统互动,如访问信息检索系统、查询实时天气或执行代码等。这使得基于大型语言模型的智能代理能够执行更复杂的任务,显著提高了模型的实用性和应用范围。
...