本文由自研 AI Agent 通过 KIMI K2 大模型生成
市场概览
从消息面来看,日本央行12月加息预期已演变为影响全球多类资产的重磅变量。汇率市场首当其冲,利率平价机制下美日利差收窄将直接驱动日元升值,当前155附近的美元兑日元汇率面临重估压力。股市内部板块分化加剧,金融股受益于净息差改善,出口导向型制造业则面临日元升值带来的竞争力削弱。债市正经历收益率曲线重构,10年期日债收益率升至1.2%的17年高位,期限溢价重新定价。全球资本流动格局面临逆转,过去十年基于"低息日元+高息美元"的套息交易模式遭遇根本性挑战,数万亿美元的套利头寸面临平仓风险。
从数据面观察,各类资产已...
本文由自研 AI Agent 通过 KIMI K2 大模型生成
行业概览
从消息面来看,2025 年光模块行业正处于 AI 算力革命与国产替代深化的历史性交汇期。工信部算力基础设施高质量发展行动计划明确智能算力占比需达 35%的政策导向,叠加北美云厂商单季度合计超 500亿美元的资本开支投入,其中 AI 基础设施占比提升至 60%以上,为行业注入强劲预期。特别是 GPT-5、Gemini 2.0 等万亿参数大模型训练带来的 800G、1.6T 高速光模块需求激增,成为市场关注焦点。与此同时,国内光通信产业链自主可控进程加速,关键元器件国产化突破频传,进一步提振了市场对本土供应链的信心...
本文由自研 AI Agent 通过 KIMI K2 大模型生成
市场概览
从消息面来看,2025 年 12 月初黄金价格呈现强势上涨态势,核心驱动力源于美联储货币政策预期的戏剧性转向与多重利好因素的共振。根据 CME FedWatch 工具数据,交易员赋予 12 月降息 25 个基点的概率在短短一周内从 30%飙升至 84.7%-87%,这种幅度的预期修正直接改变了黄金的投资逻辑。与此同时,特朗普政府对委内瑞拉下达的全面禁飞令为市场注入地缘政治风险溢价,而世界黄金协会调查显示 95%的受访央行计划未来 12 个月继续增持黄金,为金价提供了长期结构性支撑。更关键的是,投资者情绪出现显著...
本文由自研 AI Agent 通过 KIMI K2 大模型生成
市场概览
从消息面来看,美联储12月议息会议的决策环境呈现出前所未有的复杂性。联邦政府长达43天的停摆刚于11月12日落幕,造成的"数据真空期"后遗症仍在持续发酵,关键经济指标的收集中断使美联储决策层缺乏连续、可靠的依据来评估经济真实状况。最新披露的FOMC会议纪要显示,委员们对通胀重燃风险及当选总统特朗普政策可能带来的冲击表示深切担忧,认为未来降息步伐可能更加缓慢。这一官方表态与芝商所FedWatch工具显示的69.5%降息概率形成微妙反差,揭示出政策制定者与市场参与者之间的预期鸿沟。华尔街投行高盛虽旗帜鲜明地预测1...
Kimi Team K2 技术报告摘要 我们介绍Kimi K2,一种混合专家(MoE)大语言模型,拥有320亿激活参数和1万亿总参数。我们提出了MuonClip优化器,该优化器在Muon的基础上进行改进,采用了一种新颖的QK-clip技术来解决训练不稳定性问题,同时保留了Muon的高级token效率。基于MuonClip,K2在155亿个token上进行了预训练,且未出现任何损失峰值。在后训练阶段,K2经历了多阶段后训练过程,其中包括大规模智能体数据合成管道和联合强化学习(RL)阶段,通过与真实和合成环境的交互,模型提升了其能力。Kimi K...
在多GPU系统上分配和部署大型语言模型的难点现代大型语言模型(LLMs),特别是基于Transformer架构的模型,其指数级的规模增长已经超出了单个GPU的内存和计算能力。这使得将大型模型分布到多个GPU上成为必要。在这些多GPU设置中,每个GPU管理特定的参数子集和计算任务,从而实现有效的并行化和分布式训练。
多GPU大型语言模型训练:模型分割、并行化和开销多GPU大型语言模型训练的主要难点在于高效地分割和同步跨GPU的庞大模型参数、激活值和梯度,以确保分布式计算的连贯性和有效性。
图11展示了基于Transformer模型的GPU间分区策略和张量同步,强调了自注意力机制和前馈神经...
接上一篇《LLM学习之路-从RNN到Transformer 2》从Transformer到大型语言模型Transformers的引入标志着序列建模的一次关键转变,它用可并行化的自注意力机制取代了RNN中的循环计算。这一创新使模型能够同时分析序列中所有标记之间的关系,加快了计算速度,并支持更深、更复杂的神经网络架构的开发。这一转变也成为GPU等硬件加速器广泛采用的关键转折点,因为其底层计算模式与大规模并行硬件高度契合。
大规模训练与参数优化
基于Transformer的可扩展性,研究人员开发了大型语言模型(LLMs),通过增加参数数量并在大规模、多样化的数据集上进行广泛训练,扩展了模型的能...
接上一篇《LLM学习之路-从RNN到Transformer 1》从递归到并行性:Transformer的变革2017年,随着Transformer架构的引入,序列建模取得了重大突破,这标志着彻底脱离了RNN和传统Seq2Seq模型中固有的递归计算结构。Transformer完全放弃了递归,采用了一种完全基于注意力(attention)的设计。特别是,Transformer利用了自注意力机制(self-attention),它能够同时计算序列中所有位置之间的交互。与嵌入在RNN中的传统注意力机制不同,自注意力机制可以并行独立地计算所有序列位置的注意力分数,而不依赖于先前计算的状态或位置之间...
LLM自学基础:时间序列数据与序列建模在讨论序列模型之前,简要概述人工智能模型训练和推理的基础方法是有益的,特别是关于时间序列数据的处理。
人工智能训练和推理方法的简要概述
为解决复杂的现实问题,人工智能通常会将输入数据转化为数学表征形式。例如,将数据映射到特定维度坐标系中的数字、向量或矩阵。如图1所示,这些经过转换的数据表征能帮助建立决策边界,从而根据可识别的模式将输入数据划分到不同类别。训练过程实质是AI模型在参数空间中探索,通过优化决策边界来提升其清晰度与有效性;而推理则指根据既定决策边界判定新输入数据的类别,其准确性通过模型预测结果与实际结果的相似度来衡量。
在人工智能模型训练过...
写在前面评估信息检索系统或搜索引擎性能时使用的两个关键指标是准确度和召回率。准确度衡量检索结果的准确性,而召回率衡量查询结果的完整性或全面性。也就是说:
精确度 = 检索到的相关文档数量 / 检索到的总文档数量
召回率 = 检索到的相关文档数量 / 语料库中的总相关文档数量
高精度意味着系统能够成功返回大部分相关结果并最小化误报,而高召回率意味着系统能够找到相当比例的相关文档,从而减少漏报或错过重要文档的情况。
精确度-召回率权衡当人们使用信息检索系统时,他们可能会遇到一个被称为“精确度-召回率权衡”的概念。这涉及到精确度和召回率之间的微妙平衡,这...