AI应用进展和演化
1-1. 在输给AlphaGo「阿尔法狗」8年之后:曾经的围棋界传奇依然没能走出那段至暗时刻…
AlphaGo的胜利「是人工智能历史上的分水岭时刻」,也是李世石人生的一个「分水岭」,那次载入史册的失败让李世石的整个世界都坍塌了,但他正在用另一种方式重建着自己的世界,同时给予更多人一个忠告——该如何面对人工智能「无所不在」时的未来。 他发表了许多关于人工智能的演讲,以自己的亲身经历告诫人们不要低估技术进步,在未来更多的人机博弈中不打无准备之战。自从失败后,李世石就成了人工智能的痴迷者,密切地关注着人工智能带来的一个又一个突破。在他看来,人工智能可能会取代一些工作,但也可能创造一些工作。在谈到人工智能与围棋时,他说,「重要的是要记住,是人类既创造了围棋,也设计了掌握围棋的人工智能系统。」
https://www.163.com/dy/article/J750P83O0511ABV6.html
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721100993-2024-07-16_d13719e4fa39f044b461b9a533446034_1.jpeg)
2016年,韩国棋手李世石1:4落败DeepMind最强围棋Al——AlphaGo
1-2. 亚马逊推出了一款人工智能购物助手:Rufus 帮助用户进行购物决策,这一举措旨在提升用户的购物体验和效率
经过数月的测试,亚马逊今天向所有美国客户推出了其生成式人工智能购物助手Rufus。这个对话式购物助手旨在帮助客户节省时间并做出更明智的购买决策。Rufus现已在亚马逊购物应用中上线,恰逢Prime Day(7月16日至17日)。 Rufus可以回答有关产品的具体问题,如产品是否易于维护以及其材质。此外,它还能提供产品推荐和比较,以及产品更新。客户还可以通过Rufus跟踪包裹和查看过去的订单。Rufus甚至能帮助客户解决与购物无关的问题,如制作蛋奶酥或举办夏季派对需要什么。
https://xiaohu.ai/p/11289
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101003-2024-07-16_c59521e2bcf7760e0f33108c14fc2938_2.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101003-2024-07-16_57df9023d57575761d08d973e4db84a5_3.jpeg)
1-3. 阿里达摩院的寻光AI视频创作平台即将开放:现在可申请内测
阿里达摩院推出了一站式 AI 视频创作平台—— 寻光。官方表示,该平台旨在通过 AI 技术使视频创作更简单、高效,其集成了剧本创作、分镜设计、视频素材编辑等关键步骤,创作者可以从构思到成品,在该平台上完成视频创作全过程。 内测地址:https://xunguang.damo-vision.com/
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101011-2024-07-16_6fe5cc976ca2606f4607ec6887d1da01_4.jpeg)
1-4. LMMs-Lab 团队与新加坡南洋理工大学发布7B最强长视频模型 :LongVA视频理解超千帧,霸榜多个榜单
现有的 LMMs 在处理长视频时面临的一个主要挑战是视觉 token 数量过多。 作者团队首次在多模态领域提出长上下文迁移(Long Context Transfer),这一技术使得多模态大模型(LMMs)能够在不进行长视频训练的情况下,处理和理解超长视频。
具体做法是,通过长文本数据训练语言模型,然后利用短图像数据进行模态对齐。他们的新模型 LongVA 能够处理 2000 帧或者超过 20 万个视觉 token, 在视频理解榜单 Video-MME 上实现了 7B 规模的 SoTA。
在最新的长视频 MLVU 榜单上, LongVA 更是仅次于 GPT4-o 的最强模型!
https://www.jiqizhixin.com/articles/2024-07-15-7
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101021-2024-07-16_f9bed5b2cbd2f13fa7cdbfb29e24ae1c_5.jpeg)
LongVA和各类LMM算法效果对比
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101030-2024-07-16_297c156341b8c86208f71fcd17bb1c2e_6.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101037-2024-07-16_4e6679139fb9ace87b8656ae4ba37ca9_7.jpeg)
在智源联合北邮、北大和浙大等多所高校推出的 MLVU 测试中, LongVA 更是仅次于 GPT-4o, 位列最强的开源模型。
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101045-2024-07-16_2383c09aa146da76a6bce711a9bab19c_8.jpeg)
论文名称:Long Context Transfer from Language to Vision
论文地址:https://arxiv.org/pdf/2406.16852
1-5. MotionClone:无需训练,一键克隆视频运动
本文提出了名为 MotionClone 的新框架,MotionClone 引入了主成分时序注意力运动指导机制 (Primary temporal-attention guidance),仅利用时序注意力中的主要成分来对视频生成进行稀疏指导,从而过滤噪声和细微运动信息的负面影响,实现运动在文本指定的新场景下的有效克隆。 给定任意的参考视频,能够在不进行模型训练或微调的情况下提取对应的运动信息;这种运动信息可以直接和文本提示一起指导新视频的生成,实现具有定制化运动的文本生成视频 (text2video)。
https://www.jiqizhixin.com/articles/2024-07-15-11
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101053-2024-07-16_5b7841efba776c346a704c973bcc1d03_9.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101062-2024-07-16_77d311f06d580f94a0dec50694d68857_10.gif)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101069-2024-07-16_16c2137b481cef1c2883eda52b4a1bba_11.jpeg)
1-6. NEXA AI团队联合MIT-IBM发布 端侧设备AI代理优化框架:高效达到领域内准确率97%
提出了一种高效的设备端计划-行动框架,将计划和行动执行分为两个组件:一个优化用于边缘设备的计划代理,或称为 Octo-planner,以及一个使用 Octopus 模型执行函数的行动代理。 Octo-planner 首先通过将任务分解为一系列子步骤来响应用户查询,然后由 Octopus 行动代理执行这些子步骤。为了优化资源受限设备上的性能,采用模型微调而不是上下文学习,减少计算成本和能耗,同时提高响应时间。
精心整理的数据集上微调 Phi-3 Mini 模型,在域内测试环境中实现了 97% 的成功率。
https://www.jiqizhixin.com/articles/2024-07-15-2
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101077-2024-07-16_77d35750dd84bcaabcbebaa5a1ef2fdd_12.jpeg)
模型交换展示图
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101084-2024-07-16_11703ea02c9932d82754e6acb7239b61_13.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101091-2024-07-16_c277db8d80564a608b76a2f62f4c51eb_14.jpeg)
论文名称:Octo-planner: On-device Language Model for Planner-Action Agents
论文地址:https://arxiv.org/pdf/2406.18082
1-7. 人工智能赋能产业融通发展论坛:赋能场景落地
中国石化胜利油田分享了在油田场景的智能化尝试。胜利油田数改智转的目标是建设智能油田,目前处在 1.0 时代以自动化为核心,未来将向 2.0 时代智能化发展,包括全链条智能决策和一体化协同。 百度智能云推出的“甄知”产品重塑了企业知识管理范式,“客悦”产品革新了智能客服能力,“曦灵”数字人产品基于大模型重构后,2D、3D 数字人效果更拟真,并且大幅降低了数字人制作成本和时间,在营销和销售场景有着广泛的应用前景。”
中电昱创将人工智能与电力行业融合,通过智能化前端设备和 AI 后端平台形成边端结合架构,以提升运维效率、降低成本、保障安全,推动电力行业智能化发展。
https://www.jiqizhixin.com/articles/2024-07-15-10
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101107-2024-07-16_feb147e9bb469e28fc928271bd303558_16.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101107-2024-07-16_19b6464f65bf48ca78a619b72275d693_17.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101108-2024-07-16_5b7dc6bb1b855046c9dcf65b4e27a69c_15.jpeg)
1-8. AI加持重塑会议新体验 :BOE C100系列智慧一体机新品发布
京东方(BOE)近日发布了C100系列智慧一体机,这款产品融合了多模态AI交互与大模型技术,为人机协同带来了全新变革,提供了高效、便捷、安全的会议体验,在生产效力、用户体验、信息安全和视觉美学等方面均有显著提升。 C100系列智慧一体机搭配了全新推出的AI智能笔,这款笔集成了语音唤醒、快捷批注、翻页控制等功能,实现了一体化书写与控制。
http://www.xinhuanet.com/tech/20240715/ad3a56a0b8fb4f0587dbd0ef767c9955/c.html?sid_for_share=80217_3
1-9. UIUC无Agent方案轻松解决SWE-bench真实编程问题:登顶开源AI软件工程师榜首,超过所有开源 Agent 解决方案,几乎达到 SWE Bench Lite 最高水平(27%)
伊利诺伊大学香槟分校(UIUC)张令明老师团队提出了 OpenAutoCoder-Agentless,一个简单高效并且完全开源的无 Agent 方案,仅需 $0.34 就能解决一个真实的 GitHub issue。 Agentless 在短短几天内在 GitHub 上已经吸引了超过 300 GitHub Star,并登上了 DAIR.AI 每周最热 ML 论文榜单前三。
AWS 研究科学家 Leo Boytsov 表示:“Agentless 框架表现优异,超过所有开源 Agent 解决方案,几乎达到 SWE Bench Lite 最高水平(27%)。它以显著更低成本击败所有开源方案。”
https://www.jiqizhixin.com/articles/2024-07-15-12
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101117-2024-07-16_292901e2a136ce629032fbef62785b6e_18.jpeg)
Agentless 与现有的 AI Software Agent 进行了比较,其中包括最先进的开源和商业 / 闭源项目。Agentless 可以以更低的成本超越所有现有的开源 Software Agent
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101124-2024-07-16_1aafce6fd63e1f865e08a4df665a85e5_19.jpeg)
Agentless 解决了 27.33% 的问题,是开源方案中最高的,并且解决每个问题平均仅需 $0.29,在所有问题上(包括能解决和未解决的)平均只需要约 $0.34
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101131-2024-07-16_01627d845907bfc10886d8f99872975d_20.jpeg)
论文名称:AGENTLESS : Demystifying LLM-based Software Engineering Agents
论文地址:https://huggingface.co/papers/2407.01489
1-10. 清华研究组发布通用材料大模型 DeepH:实现超精准预测
过去,业界广泛使用密度泛函理论 (DFT) 来研究材料电子结构和性质。然而,DFT 的计算成本极高,通常只能用于研究小尺寸的材料系统。 近日,来自清华大学物理系的徐勇、段文晖研究组成功利用其原创的 DeepH 方法,通过将 DFT 的复杂性封装在一个神经网络中,发展出 DeepH 通用材料模型,并展示了一种构建「材料大模型」的可行方案。
在数据集的所有结构中,大约 80% 的材料结构具有小于平均值 (2.2 meV) 的平均绝对误差。只有 34 个结构(约占测试集的 1.4%)的平均绝对误差超过 10meV,说明该模型对主流结构有良好预测精度。
https://juejin.cn/post/7391694596692230194
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101138-2024-07-16_34468f74054a51c53a30e9873baa5c4e_21.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101150-2024-07-16_08927861c396795c5a87f460e26da262_22.jpeg)
论文名称:Universal materials model of deep-learning density functional theory Hamiltonian
论文地址:https://doi.org/10.1016/j.scib.2024.06.011
1-11. AI对蛋白、抗体复合物进行无监督优化:登Science,药物亲和力增加37倍
斯坦福大学的科学家开发了一种基于机器学习的新方法,可以更快、更准确地预测导致更好抗体药物的分子变化。 研究人员将蛋白质骨架的 3D 结构与基于氨基酸序列的大型语言模型相结合,能够在几分钟内找到罕见且理想的突变。
研究表明,增强蛋白质结构主干坐标的通用蛋白质语言模型可以指导不同蛋白质的进化,而无需对单个功能任务进行建模。
通过这种方法,该团队筛选了约 30 种用于治疗严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 感染的两种治疗性临床抗体的变体。同时,研究人员对 BQ.1.1 和 XBB.1.5 抗体逃逸病毒变体的中和作用分别提高了 25 倍,亲和力提高了 37 倍。
https://www.jiqizhixin.com/articles/2024-07-15-17
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101158-2024-07-16_c0a1880d07da60e40acb06510f6fb073_23.jpeg)
论文名称:Unsupervised evolution of protein and antibody complexes with a structure-informed language model
论文链接:https://www.science.org/doi/10.1126/science.adk8946
AI大模型算法和峰会
2-1. OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服
近日,OpenAI 安全系统团队负责人 Lilian Weng 更新了博客,介绍了近年来在理解、检测和克服 LLM 幻觉方面的诸多研究成果。 幻觉检测:检索增强式评估、基于采样的检测、对未知知识进行校准、间接查询
反幻觉方法:RAG → 编辑和归因、动作链、针对归因进行微调、针对事实性进行微调、采样方法
https://www.jiqizhixin.com/articles/2024-07-15-5
2-2. 由佐治亚理工EIC实验室与Nvidia公司联合举办的LLM4HWDesign@ICCAD 2024大赛正式启动:7月底报名截止
此次比赛旨在推动大语言模型(LLM)在辅助硬件设计中的性能,诚邀各界精英踊跃参与,共同探索自动化数据生成、收集、清洗和标注的方法,构建一个开源、大规模、高质量的硬件代码数据集,实现LLM辅助硬件设计领域的革命性变革。 第一名:每队1张RTX 4080 GPU + 2000美元
第二名:每队1张RTX 4080 GPU + 1000美元
第三名:每队1张RTX 4070 GPU + 500美元报名及更多信息:注册截止日期为7月30日。
https://www.jiqizhixin.com/articles/2024-07-15
2-3. DeepMind提出了PEER:可以将专家数量扩展到百万数量级,利用率近100% 挑战MoE极限
MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。 最近,谷歌DeepMind提出了全新的策略PEER(Parameter Efficient Expert Retrieval)可将MoE扩展到百万个专家,还不会增加计算成本。
作者推断,模型容量持续改进将带来具有高粒度的LLM,即包括大量微型专家的模型。除了能带来更高效扩展,增加专家数量还有另外一层好处——终身学习。
之前研究表明,通过简单添加新专家并进行适当正则化,MoE模型就可以适应连续的数据流。
https://www.163.com/dy/article/J750PGB60511ABV6.html
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101168-2024-07-16_7c059fa5b9bf2acbc53f6f2a89d5ea96_24.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101175-2024-07-16_ea9b3166f79b08cd01bfc4fe57778474_25.jpeg)
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101183-2024-07-16_4c29d2dc525ace7918917c4a03c34beb_26.jpeg)
论文名称:Mixture of A Million Experts
论文地址:https://arxiv.org/abs/2407.04153
AI基础设施方面(含硬件、数据)
3-1. 英伟达:增加对台积电投片量25%
7 月 15 日,供应链传出消息,台积电近期准备开始生产英伟达最新Blackwell平台构架绘图处理器,英伟达因需求强劲,增加对台积电投片量25%。
英伟达Blackwell 架构 GPU 配备 2080 亿个电晶体,采用台积电 4 纳米制程制造。目前,亚马逊、戴尔、谷歌、Meta、微软等国际大厂都将导入英伟达 Blackwell 架构 GPU 打造 AI 服务器。https://m.yicai.com/news/102191306.html
3-2. 台积电将于下周开始试生产2nm芯片:明年开启量产
全球第一大半导体代工厂台积电的市值在本周一度超过1万亿美元。科技巨头英伟达在人工智能浪潮中一路高歌猛进,成为全球市值最高的公司之一。一荣俱荣,英伟达的供应商和上游合作伙伴也乘势而起。 就在最近,这家苹果和英伟达的芯片制造商——台积电(TSMC),市值短暂突破1万亿美元大关,成为亚洲之首,高达英特尔的6.5倍!
台积电计划从2nm工艺开始应用全栅极(GAA)技术,预计将提高性能和能效,此外还计划引入背面供电(BSPR)技术。
2024年上半年,全球99%的人工智能半导体由台积电生产;今年下半年,预计将有更多的AI和高性能计算(HPC)半导体采用台积电的3nm和5nm工艺量产。
https://www.163.com/dy/article/J750O8N80511ABV6.html
3-3. PyTorch团队首发技术路线图:AI领域用Python开发必备,近百页文档披露2024下半年发展方向
根据Assembly AI 2021年的统计数据,HuggingFace上最受欢迎的top 30模型都能在PyTorch上运行,有92%的模型是PyTorch专有的,这个占比让包括TensorFlow在内的一众竞争对手都望尘莫及。 这些文件基本就是PyTorch团队内部的文档和工作规划,删减掉了一些内容就发布出来成为路线图,其中涉及PyTorch的如下几个方面:- 核心库与核心性能- 分布式- torchune、Torchrec、TorchVision- PyTorch Edge- 数据加载(DataLoading)- 编译器核心及部署- 开发者基础设施
https://www.163.com/dy/article/J750OPPC0511ABV6.html
![AI早报 24年07月16日](http://ai-bots.com.cn/wp-content/uploads/2024/07/1721101197-2024-07-16_832633c1167d831d3eebb822a9d0735f_27.jpeg)
项目地址:https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226
AI政策管理
4-1. 金杜律师事务所:欧盟《人工智能法案》对中国企业出海的影响
随着2024年5月21日欧盟理事会正式批准欧盟《人工智能法案》(Artificial Intelligence Act,“《AI法案》”)[1],这部历时三年的法案,走完欧盟立法进程。 欧盟《人工智能法案》8月1日生效,学校、工作场所不得使用AI识别系统。该法案被普遍认为是全球首部对人工智能领域进行全面监管的法律,对于欧盟乃至世界都具有里程碑意义。
https://www.kwm.com/cn/zh/insights/latest-thinking/eu-ai-act-and-impacts-on-chinese-enterprises-going-overseas.html