Embedding
词嵌入是捕捉文本语义含义的文本向量表示。它们通过文本嵌入模型创建,并允许我们在向量空间中考虑文本,使我们能够执行诸如语义搜索之类的任务,在该任务中,我们寻找在向量空间中最相似的文本片段。
BedrockEmbeddings
用于加载Amazon Bedrock的嵌入模型。(仅在亚马逊 US/CAN AZ提供)
参数:
credentials_profile_name:在~/.aws/credentials或~/.aws/config文件中的配置文件名,指定访问密钥或角色信息。如果未指定,则使用默认凭证配置文件,或者如果在EC2实例上,则使用IMDS的凭证。有关更多详情,请参见AWS文档。
model_id:调用的模型ID,例如amazon.titan-embed-text-v1,相当于list-foundation-models api中的modelId属性。
endpoint_url:如果您不想默认使用us-east-1端点,则需要此参数。
region_name:AWS区域,例如us-west-2。如果这里未提供,则回退到AWS_DEFAULT_REGION环境变量或~/.aws/config中指定的区域。
OpenAIEmbeddings
用于加载OpenAI的嵌入模型。
参数:
chunk_size:确定处理嵌入的每个文本块的最大大小。如果任何传入的文本块超过chunk_size字符,它将在嵌入之前被分割成多个大小为chunk_size或更小的块——默认为1000。
deployment:用于指定文本嵌入模型的部署名称或标识符。当提供部署时,这在用户拥有具有不同配置或版本的同一模型的多个部署时很有用——默认为text-embedding-ada-002。
embedding_ctx_length:此参数确定文本嵌入模型的最大上下文长度。它指定模型在为一段文本生成嵌入时考虑的令牌数量——默认为8191(这意味着模型在生成嵌入时将考虑多达8191个令牌)。
max_retries:确定如果模型提供商从其API返回错误时重试请求的最大次数——默认为6。
model:定义要使用哪个预训练的文本嵌入模型——默认为text-embedding-ada-002。
openai_api_base:指代用于配置连接到Azure OpenAI服务的API的基本URL。基本URL可以在Azure门户中的用户Azure OpenAI资源下找到。
openai_api_key:用于认证并授权访问OpenAI服务。
openai_api_type:用于指定使用的OpenAI API类型,可以是常规OpenAI API或Azure OpenAI API。此参数允许OpenAIEmbeddings类连接到适当的API服务。
openai_api_version:用于指定使用的OpenAI API的版本。此参数允许OpenAIEmbeddings类连接到OpenAI API服务的适当版本。
openai_organization:用于指定与OpenAI API密钥关联的组织。如果未提供,则使用与API密钥关联的默认组织。
openai_proxy:代理可以更好地预算和管理进行OpenAI API调用的成本,包括更多关于定价的透明度。
request_timeout:用于指定生成给定文本的嵌入时,等待OpenAI API响应的最大时间,以毫秒计。
tiktoken_model_name:用于计算文档中的令牌数量,以将它们限制在某个限制以下。默认情况下,当设置为None时,这将与嵌入模型名称相同。
WestGenesisEmbeddings
用于加载WestGenesis的嵌入模型。
base_url:WestGenesisEmbeddings的基本URL——默认为http://localhost:11434。
temperature:调节文本生成中随机性的程度。应为非负值——默认为0。
Last updated