Vector Embedding 是由 AI 模型(例如大型语言模型 LLM)生成的,它会根据不同的算法生成高维度的向量数据,代表着数据的不同特征,这些特征代表了数据的不同维度。 例如,对于文本,这些特征可能包括词汇、语法、语义、情感、情绪、主题、上下文等。 对于音频,这些特征可能包括音调、节奏、音高、音色、音量、语音、音乐等。
开放模型:
- FlagEmbedding/智源 BGE(BAAI General Embedding,是一款用于生成语义向量的开源模型,特别适用于中英文语义检索、推荐系统、数据挖掘等领域。
- M3E(Moka Massive Mixed Embedding)
- all-MiniLM-L6-v2