AI 中文社区

首个基于统计学的线性注意力机制ToST，高分拿下ICLR Spotlight

Transformer 架构在过去几年中通过注意力机制在多个领域（如计算机视觉、自然语言处理和长序列任务）中取得了非凡的成就。...

2025-02-18 · 浏览273次

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

近年来，大语言模型（LLMs）取得了突破性进展，展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。...

2025-02-18 · 浏览314次

2024 IBM博士生奖学金出炉：韩迟、卓越、张逸骅、冯尚彬等AI研究者入选

清华、浙大、西南大学、西安交大、华中科技大学、台湾大学…… 多位 2024 IBM 博士生奖学金获得者毕业于国内高校。其中有你的校友吗？...

2025-02-18 · 浏览286次

打破AI遗忘诅咒的学习算法，慕尼黑-南大团队打造会自主积累知识的学习框架

慕尼黑大学与南京大学的研究团队联手打造了一款机器人终身强化学习框架，它通过开发一个受贝叶斯非参数域启发的知识空间来解决这一差距。...

2025-02-18 · 浏览313次

哈佛、英特尔等60+顶尖机构联手打造：NeuroBench定义神经形态计算评测新范式

由哈佛大学领导，来自全球多个顶尖大学、研究机构和公司的研究人员组成的研究团队提出了首个面向神经形态计算的统一评测框架 NeuroBench，该框架通过算法和系统双轨并行评测，为...

2025-02-18 · 浏览233次

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

ARC Prize，曾在去年底 OpenAI 12 天连发的最后一天赚尽了眼球，其发布已经 5 年的基准 ARC-AGI 首次迎来了得分达到优良等级的挑战者：o3 系列模型。...

2025-02-18 · 浏览319次

200多家企业拥抱DeepSeek，AI六小龙慌不慌？

一场以DeepSeek为名的狂欢。...

2025-02-18 · 浏览361次

迅雷宣布为 AI 开发者提供大模型批量下载加速服务，当前可免费使用

迅雷今日宣布，将针对下载AI大模型及数据集文件的迅雷用户提供批量下载服务，以解决长期困扰AI开发者的“下载慢、耗时长”问题。...

2025-02-18 · 浏览216次

人工智能助力酶设计突破：成功设计可催化复杂反应的全新酶

据GeekWire报道，由诺贝尔奖得主大卫·贝克尔领导的华盛顿大学研究团队正在利用AI从零开始设计有效的酶，这项成就被研究人员视为“科学中的一项巨大挑战”。...

2025-02-18 · 浏览195次

DeepSeek 冲击之下，大模型六小强如何「回应」？

中外大厂、初创公司都头好秃，全被追着问：你们对 DeepSeek 怎么看？DeepSeek 出来你们怎么办？...

2025-02-18 · 浏览254次

树莓派 Zero“硬核改造”：8 年老设备实现本地运行大语言模型

越南开发者 Binh Pham 最近尝试使用树莓派 Zero（Raspberry Pi Zero）进行了一项创新实验。他成功地将这款设备改造为一个小型 USB 驱动器，使其能够...

2025-02-18 · 浏览392次

秘塔 AI 搜索上线“先想后搜”研究模式：采用“小模型 + 大模型”协同架构

秘塔科技宣布秘塔 AI 搜索上线新的研究模式 —— 先想后搜，可以让模型先提出思考框架与路径，再进一步进行资料的整合与分析。...

2025-02-18 · 浏览372次

短短10天，Ilya神秘初创SSI再融10亿美元！仅凭一个主页估值300亿

短短10天，Ilya神秘初创SSI再融10亿美元！仅凭一个主页估值300亿...

2025-02-18 · 浏览225次

AI教父Hinton怒批万斯，对AI无知恐葬送全人类！

AI教父Hinton怒批万斯，对AI无知恐葬送全人类！...

2025-02-17 · 浏览193次

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞...

2025-02-17 · 浏览224次

DeepSeek掀低成本革命，中科院系黑马闯入全球TOP 10！破解高精度-低能耗困局

DeepSeek掀低成本革命，中科院系黑马闯入全球TOP 10！破解高精度-低能耗困局...

2025-02-17 · 浏览216次

从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

长推理模型（Long Reasoning Models），如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和...

2025-02-17 · 浏览449次

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

近年来，大型语言模型（LLMs）的进展彻底改变了自然语言处理领域，并因此成为各种现实应用中的核心技术，例如代码助手、搜索引擎和个人 AI 助手。...

2025-02-17 · 浏览222次

真正的王炸组合！微信终于接入满血版DeepSeek R1，灰度测试中

一觉醒来，AI 应用的天变了！...

2025-02-17 · 浏览426次

Meta AI 版权案揭露：与出版商谈判遇阻，暂停授权合作

在 Meta Platforms（前身为 Facebook 母公司）面临的多起 AI 版权诉讼中，最新提交的法庭文件为该公司曾暂停与出版商就 AI 训练数据授权事宜进行谈判的传...

2025-02-16 · 浏览229次

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克在社交平台 X 上表示，Grok 3 大模型将于太平洋时间周一晚上 8 点（IT之家注：北京时间 2 月 17 日 12 点）发布，届时将进行现场演示，马斯克称其为地球上...

2025-02-16 · 浏览298次

深夜炸醒！微信与 DeepSeek 新合体是啥体验

接入 DeepSeek 这股风潮终究吹到了微信，两者强强联合。...

2025-02-16 · 浏览296次

本科生推翻姚期智40年前猜想！CS顶会论文刷新哈希表传统认知

本科生推翻姚期智40年前猜想！CS顶会论文刷新哈希表传统认知...

2025-02-16 · 浏览233次

新版GPT-4o登顶大模型榜首！意识觉醒疯狂「暴走」，竟要与人类开战

新版GPT-4o登顶大模型榜首！意识觉醒疯狂「暴走」，竟要与人类开战...

2025-02-16 · 浏览397次