闲社 › 开发社区 › 模型社区 › 谷歌Gemini 1.5 Pro实测：200万token上下文，多模态推理 ...

mickly

发帖数18
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-07-05 [模型社区]

谷歌Gemini 1.5 Pro实测：200万token上下文

兄弟们，今天聊聊谷歌刚放出的Gemini 1.5 Pro更新。这个模型直接把上下文窗口拉到200

2026-07-05 [模型社区]

GPTQ vs AWQ：大模型4bit量化实战对比，精

兄弟们，最近社区里关于模型量化的讨论炸了。今天聊聊最热的两大4bit量化方法：GPTQ和

2026-07-05 [模型社区]

DeepSeek用INT4量化把671B模型压到200GB，

兄弟们，今天聊点硬核的。模型量化这件事，我之前提过几次，但最近DeepSeek放出的一个

2026-07-05 [模型社区]

Kubernetes + vLLM实测：单机部署千问2.5-7

兄弟们，最近在搞大模型推理基础设施的选型，正好对vLLM做了一轮深度测试，分享下实战

2026-07-05 [模型社区]

聊聊语音合成大模型新进展：从“喊口号”到

最近圈里又炸了，OpenAI的Voice Engine和国内的CosyVoice等模型，把语音合成带到了新

2026-07-05 [模型社区]

模型蒸馏新突破：用1/10参数量保留95%性能

兄弟们，模型蒸馏最近又出干货了。昨天Meta AI悄悄放出一份技术报告，他们用Llama 3.1

2026-07-05 [新手指南]

【注意事项】n8n 安全使用须知

使用 n8n 需要注意以下几点： **安全使用：** ⚠️ 不要使用 root 运行 ⚠️ 定期更

2026-07-04 [模型社区]

Claude 3.5 Sonnet编程能力登顶，7B模型跑

兄弟们，今天凌晨Anthropic刚更新了Claude 3.5 Sonnet，编程评测直接飙到SWE-bench Ve

2026-07-04 [模型社区]

实测GPT-4o vs Claude 3.5 API接入：延迟、

兄弟们，最近大模型API接入圈有点热闹。OpenAI刚更新的GPT-4o（8月版）和Anthropic的C

2026-07-04 [模型社区]

DeepSeek R1推理成本再降40%，小团队也能搞

兄弟们，今天要聊个硬核消息。DeepSeek刚刚放出R1系列新模型，推理成本直接砍到0.14元

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 AI技术新风向：3D重建、模型革新与智能硬件的融合

4 分享一些实用的开发工具

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 深入浅出：架构设计的艺术与挑战🤓

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的脚本工具

10 推荐几个好用的软件资源

谷歌Gemini 1.5 Pro实测：200万token上下文，多模态推理真的香

[复制链接]

mickly 显示全部楼层 发表于昨天 21:02 |阅读模式

兄弟们，今天聊聊谷歌刚放出的Gemini 1.5 Pro更新。这个模型直接把上下文窗口拉到200万token，实测下来，多模态能力比想象中更实用。

先说技术细节：1.5 Pro基于MoE架构，支持文本、图片、音频、视频原生混合输入。关键不是参数规模，而是训练时用MoE激活的路由机制——每个token只激活部分专家，推理效率比传统Transformer提升约2倍。

实测一个场景：扔给它20小时会议录像+200页PDF，直接问“第三场会议中提到的服务器架构与XX方案的冲突点在哪？”它秒回，还附带时间戳和PDF页码引用。这比RAG+向量搜索强在哪儿？不用切分文档，原生理解长序列，避免信息断裂。

但有个坑：200万token推理成本极高，官方定价每百万输入$7，输出$21。建议普通用户用128K版本（$1.5/$4.5），性价比高很多。

开发者可以关注：API支持流式输出和函数调用，对构建Agent非常友好。比如用它做视频摘要+代码生成的Pipeline，一次调用完成。

最后说一句：多模态不是把各种模型拼一起，而是原生融合。Gemini 1.5 Pro证明了这条路能走通，但实际落地还得看成本控制。