Baymax's Blog

《机器学习》——聚类

聚类任务 聚类是无监督学习任务,样本的标记信息未知,聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇,聚类仅能自动形成簇结构,不一定具有明确的概念语义 聚类既可以作为一个单独过程,寻找数据内在的分布结构,也可作为其他任务的前驱过程 输入样本集包含m个无标记样本,聚类为每个样本生成一个簇标记,聚类结果可用一串簇标记向量表示 性能度量 聚类的性能度量大致分为两...

LLM开发者教程——LLM系统

语言模型 大语言模型(LLM)是通过预测下一个词的监督学习方式进行训练的。具体来说,首先准备一个包含数百亿甚至更多词的大规模文本数据集。然后,可以从这些文本中提取句子或句子片段作为模型输入。模型会根据当前输入预测下一个词的概率分布。通过不断比较模型预测和实际的下一个词,并更新模型参数最小化两者差异,语言模型逐步掌握了语言的规律,学会了预测下一个词 LLM主要可以分为两类 基础语言模型(...

LLM开发者教程——提示词工程

提示词设计原则 在LLM开发中,通常将LLM的输入称为Prompt,将LLM的输出称为Completion 提示词(Prompt)设计的两个关键原则 编写清晰、具体的指令 给予模型充足的思考时间 编写清晰、具体的指令 通常,使用更长、更复杂的prompt会取得更好的效果,因为复杂的prompt中包含了更丰富的上下文信息 在编写prompt时,有以下编写技巧 ...