Evaluation #
评估是评定基于LLM的应用程序性能和效果的过程。它包括根据一组预定义的标准或基准测试模型的响应,以确保其达到预期的质量标准并实现预定目标。这个过程对于构建可靠的应用程序至关重要。
LangSmith通过以下几种方式帮助完成这一过程:
- 通过其跟踪和注释功能,简化了数据集的创建和管理
- 提供一个评估框架,帮助你定义指标并在数据集上运行应用程序
- 允许你跟踪结果随时间的变化,并自动定期运行评估程序或将其作为CI/Code的一部分
想了解更多,请查看这份LangSmith指南。