大型语言模型(LLM)的最新研究进展及相关新信息技术
大型语言模型(LLM)的最新研究进展及相关新信息技术
一、Google的Gemini 2.0系列
1. Gemini 2.0 Flash Thinking
- 核心技术:引入“推理时计算”(Inference-Time Computation)机制,支持模型在回答复杂问题前自主“思考”,显著提升数学和代码任务的准确性。
- 多模态能力:支持直接处理PDF文件,在视觉OCR、文档解析等任务上表现突出,例如为68,000张照片生成标题仅需1.68美元。
- 论文:
- Gemini 2.0 Flash Thinking: Unlocking Reasoning in Multimodal Models
(Google AI博客,链接)
- Gemini 2.0 Flash Thinking: Unlocking Reasoning in Multimodal Models