AI早报 24年07月16日

AIGC最新资讯1年前 (2024)更新 AiBots

236 0 0

AI应用进展和演化

1-1. 腾讯元宝首发3D生成应用：一张图即可生成3D角色

只需一张照片，便能迅速打造独一无二的3D角色。7 月 16 日，记者获悉，腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂”玩法，腾讯元宝也是首个拥有打印级3D生成能力的通用大模型App。

腾讯元宝APP发布时，就围绕工作效率场景、日常生活等场景提供了丰富的应用，并有创建个人智能体等个性化体验，“3D角色梦工厂”则将大模型生成技术和3D应用结合，进一步创新了元宝的独特玩法。通过“3D角色梦工厂”，只需上传一张五官清晰的正面头像，并选择不同角色模版，就能迅速生成个人3D角色。

生成后的角色可以进行360度全方位查看，可以保存3D角色模型文件，还可以生成3D打印链接。

https://www.qbitai.com/2024/07/166982.html

注：直接在“腾讯元宝”APP中搜索“3D角色梦工厂”即可体验：

1-2. VLM在最基础的视觉任务上集体“失明”翻车：视力测试惨败，GPT-4o、Claude 3.5全都不及格

最新一轮的语言模型，如GPT-4o和Gemini 1.5 Pro，在发布时都被定义为「原生多模态」，能够理解图像、音频、文本等多种形式的输入

奥本大学和阿尔伯塔大学的研究人员在一系列非常简单的视觉任务上测试了4个当今最先进的多模态模型，发现结果并不如人意。论文合著者Anh Nguye特别强调，「我们的七项任务非常简单，人类的表现准确率可达100%」。

这项研究的意义在于，让我们对VLM过于「拟人化」的营销策略祛魅。如果我们听信科技巨头的营销话术，可能会真认为视觉大模型能够「看到」。但只需要进行几个小测试，我们就能轻易发现VLM和人类的本质区别。它被「拟人化」，其实正凸显了其非人的本质。

https://www.163.com/dy/article/J77K74J60511ABV6.html

当图中有五个环时，模型都能100%正确；一旦多一个环，VLM则完全摸不着头脑了

论文地址：https://arxiv.org/pdf/2407.06581

论文名称：Vision language models are blind

1-3. 大模型集体“失智”：9.11和9.9哪个大，几乎全翻车了

一觉醒来，一众响当当的大模型开始认为“9.11>9.9”了？

发现这个问题的是Riley Goodside，有史以来第一个全职提示词工程师。他目前是硅谷独角兽Scale AI的高级提示工程师。

由于大模型以token方式来理解文字，当9.11被拆成“9”、“小数点”和“11”三部分时，11确实比9大。

由于OpenAI使用的Tokenizer开源，可以用来观察大模型是如何理解这个问题：9和小数点分别被分配为“24”和“13”，小数点后的9同样也是“24”，而11被分配到“994”。所以使用这种tokenizer方法的大模型会认为9.11更大，其实是认为11大于9。

https://www.qbitai.com/2024/07/166995.html

ChatGPT先答错经过提示后正确

1-4. 中国的食品饮料巨头康师傅百饮：正在用AI加速招聘“打工人”，无效面试率大幅下降，复试通过率90%

企业数智化软件及服务提供商“用友”在官网发布消息称，它与康师傅百饮达成了合作，后者引入基于用友企业服务大模型YonGPT的AI面试。

根据介绍，康师傅百饮“业务代表”岗位的初筛环节几乎全部交由AI完成，AI可以对符合要求的候选人自动发起面试邀约，并结合岗位需求生成面试题目，综合考察候选人的胜任力、沟通能力等；面试结束后，为HR提供了一份客观、标准统一的评估报告。

康师傅百饮表示，“得益于AI面试，企业对候选人的基本情况有了更为全面且深入的了解。AI面试背后依托的强大模型能够持续精准地匹配人才画像，因此无效面试的发生概率大幅下降，数据显示，通过AI面试后的候选人，复试通过率高达90%。”

https://m.jiemian.com/article/11420183.html?sid_for_share=80217_3

1-5. 一站式云服务平台SiliconCloud：上线两款免费Embedding模型BGE-Large

SiliconCloud上线Embedding模型BAAI/bge-large-zh-v1.5、BAAI/bge-large-en-v1.5，支持最大token长度均为512 token。目前，这两款模型可免费使用。

语义向量模型（Embedding Model）是语言模型生态体系中重要组成部分，被应用于大语言模型检索增强（RAG）、搜索、推荐、问答等应用场景，它将自然形式数据样本（如语言、代码、图片、音视频）转化为向量（即连续的数字序列），并用向量间“距离”衡量数据之间的“相关性” 。
智源发布的开源可商用中英文语义向量模型BGE保持了同等参数量级模型中的最小向量维度，使用成本更低。

公众号：undefined

undefined

模型地址：https://siliconflow.cn/models#models

1-6. 英国高校研究团队：AI模型可快速可靠进行心脏健康评估，提速200倍

近日，英国东安格利亚大学、谢菲尔德大学和利兹大学的团队共同开发出一种智能计算机模型。该模型利用人工智能（AI）分析心脏磁共振成像（MRI）检查结果，不仅能为患者提供快速可靠的心脏健康评估，还能显著节省时间和资源。

研究指出，这个AI模型能够精确测定心脏腔室的大小和功能，其结果与医生分析的结果相当，但速度要快得多。传统的标准手动MRI分析可能需要45分钟或更长时间，而新的AI模型只需几秒钟即可完成同样的任务。近日，这项AI技术已经发表在《欧洲放射学实验杂志》上。

用于训练AI模型来源于814名患者的回顾性观察研究数据；为确保模型结果准确，研究团队还使用了另外101名患者的扫描和数据进行测试。

https://www.eet-china.com/news/202407161220.html

1-7. LG 新能源将使用 AI 为客户设计电池单元：大大简化流程，一天就能搞定

韩国电池供应商 LG 新能源 (LG Energy Solution) 将采用人工智能 (AI) 技术为客户设计电池。得益于此，LG 新能源能够在一天之内设计出根据客户规格定制的电池单元。

LG 新能源的 AI 电池设计系统基于该公司过去 30 年的数据，在 100,000 个设计案例中进行了训练。LG 新能源的一位代表表示，公司的人工智能电池设计系统可以确保客户快速且一致地获得高质量的电池设计方案，“这项技术的最大优势在于，无论设计人员的熟练程度如何，都能以一致的水平和速度完成电池设计。”

以往，电池单元设计需要多次迭代才能满足客户的规格要求，而人工智能电池设计系统将大大简化这一流程。

https://m.d1ev.com/newsflash/237723

1-8. AI探矿：运用AI技术找到了一个超级铜矿，发现量足以生产 1 亿块电动汽车电池！

美国加州一公司KoBold Metals运用AI技术找到了一个超级铜矿，发现量足以生产 1 亿块电动汽车电池！

而在此之前，这家公司就因其手握人工智能和能源勘探两大热门技术，吸引来了一众大佬纷纷扎堆投资，其中就包括盖茨、奥特曼、贝索斯、马云、孙正义…

KoBold Metals的专家团队搜集了海量的地质数据，先为矿床定位提供了丰富的信息基础，然后利用算法分析数据，预测可能蕴藏矿床的区域。
然后用飞机和卫星搭载的雷达，对预测区域进行详细的遥感勘测，将得到的数据与先前的地质数据相结合，形成一个综合的数据集，再将这些综合数据输入到AI系统中进行深入分析，从而最终确认矿床的精确位置

https://www.qbitai.com/2024/07/167327.html

1-9. 微软为 Excel 等研发新大语言模型Spreadsheet LLM:性能较常规方案提高 25.6%，词元使用成本降低 96%

SpreadsheetLLM 就是专门为电子表格应用而设计的 AI 模型，微软还研发了 SheetCompressor（压缩电子表格），让 SpreadsheetLLM 能够更好地理解、处理电子表格数据。SpreadsheetLLM 模型主要由 3 个模块组成：基于结构锚的压缩、反向索引转换和数据格式感知聚合。

SpreadsheetLLM 大大提高了电子表格表检测任务的性能，在 GPT4 的情境学习设置中，比普通方法高出 25.6%；使用词元（token）的成本降低了 96%，并能提供更好的处理结果。

https://www.ithome.com/0/782/030.htm

1-10. 剑桥大学科学家联合开发一种预测痴呆症的新方法：准确率高达80%，诊断时间可提前9年

该研究团队利用来自400多名患者的认知测试和结构性MRI扫描数据，建立了AI-ML算法模型。随后，在另外1500名来自不同国家的患者数据中，测试该AI-ML模型方法效力，结果显示82%的准确预测阿尔茨海默病的进展。

相比目前临床常用辅助诊断方法和工具，这种AI-ML算法提高准确率约三倍，显著减少了医生误诊的可能性。

此外，该AI-ML模型还能够将患者分为症状稳定、缓慢进展和快速进展三类，从而帮助医生和家属更好地规划治疗和居家监测和护理策略。

研究人员希望未来可以将该AI-ML模型扩展应用于其他形式的痴呆症，并结合更多数据类型，如血液测试标记物，进一步提高预测率和疾病诊断精确度。

https://m.thepaper.cn/newsDetail_forward_28084331?sid_for_share=80217_3

参考论文：Unsupervised multimodal modeling of cognitive and brain health trajectories for early dementia prediction

论文地址：https://www.nature.com/articles/s41598-024-60914-w

AI大模型算法和峰会

2-1. 神经网络架构「殊途同归」？ICML 2024论文：模型不同，但学习内容相同

深度神经网络有多种规模和架构，大家普遍认为这会影响到模型学习到的抽象表示。

然而，UCL两位学者发表在ICML 2024上第一篇论文推导出了一种理论，能够有效地概括复杂、大型模型架构中的表征学习动态，发现了其中「丰富」且「惰性」的特征。在模型足够灵活时，某些网络行为就能在不同架构中广泛存在。

这篇论文的主要贡献在于引入了一种等效理论，能够表达不同神经网络架构中动态学习过程的通用部分，并且已经展现出结构化的表征。

https://www.163.com/dy/article/J77K7TSG0511ABV6.html

论文在两点数据集上训练了不同架构的神经网络，并将实际的学习动态与等效理论的数值解进行比较

放到MNIST这样更大的数据集上，跟踪两个数据点的学习动态，等效理论依旧成立

论文名称：When Representations Align: Universality in Representation Learning Dynamics

论文地址：https://arxiv.org/abs/2402.09142

2-2. 抛弃视觉编码器：这个「原生版」多模态大模型也能媲美主流方法，可处理任意长宽比的图像

当前的视觉语言模型（VLM）通常依赖视觉编码器（Vision Encoder, VE）来提取视觉特征，再结合用户指令传入大语言模型（LLM）进行处理和回答，主要挑战在于视觉编码器和大语言模型的训练分离。

智源研究院视觉团队推出了新一代无编码器的视觉语言模型 EVE。通过精细化的训练策略和额外的视觉监督，EVE 将视觉 – 语言表征、对齐和推理整合到统一的纯解码器架构中。

打破了主流的多模态模型的固定范式，去除视觉编码器，可处理任意图像长宽比。在多个视觉语言基准测试中显著优于同类型的 Fuyu-8B 模型，并接近主流的基于视觉编码器的视觉语言架构。

https://www.jiqizhixin.com/articles/2024-07-16-2

通过高效的训练策略，可以实现无编码器的 EVE 与带编码器基础的视觉语言模型取得相当的性能，从根本上解决主流模型在输入尺寸灵活性、部署效率和模态容量匹配方面的问题。

论文名称：Unveiling Encoder-Free Vision-Language Models

论文地址: https://arxiv.org/abs/2406.11832

2-3. Elastic & 阿里云：将于7月27日举办AI 搜索 Tech Day

与技术大咖面对面，共享下午茶时光，探讨 AI 搜索的未来发展。加入我们，体验由 AI 驱动的搜索新技术，拓展视野，共享知识。

时间：7月27日 14:00-17:30

地点：上海外滩·野小白

https://segmentfault.com/a/1190000045064647

2-4. 2024年快应用开发者大会：将在8月8日聚焦AI洞见未来

2024快应用开发者大会将以“快意无界,与AI同行”为主题,于2024年8月8日在北京望京凯悦酒店隆重开幕。

快应用联盟于2018年成立,由OPPO、小米、vivo、华为、荣耀、努比亚、联想、魅族、中兴等终端厂商组成(以上排名不分先后,快应用联盟于2021年改名为快应用生态分会),大会由快应用生态分会主办,秘书处玩咖欢聚承办,届时来自各厂商的大咖们将汇聚一堂,共同聚焦炙手可热的AI话题,从场景入口、产品能力等不同维度探讨快应用2.0结合AI技术的创新升级,以及在多终端互通后AI技术如何释放更大效能等前瞻性议题。

https://www.51cto.com/article/792801.html

2-5. 7月12-14日，由中国电子学会主办的2024网络空间安全学术大会在西安举办：“人工智能安全测评平台AIcert”荣获中国电子学会“2024网络空间安全学术大会优秀案例”

人工智能安全评测平台，平台集多层面全栈威胁感知、多维度安全评估、模型自动化安全评测等先进技术，具备针对AI系统的多层面全方位全栈安全评测能力。

AIcert平台对AI系统的数据、模型、算法、框架、系统等层面实现全栈安全评测，从鲁棒性、可用性、可解释性等六大维度对系统安全进行评估，并在此基础上实现基于群体智能的动态安全防御增强。

为应对生成式大模型安全挑战，AIcert平台从训练数据安全、生成内容安全、问题拒答情况、模型内生安全四大维度评测国内外35个开源模型的安全性，并与电子技术标准化研究院等合作单位公布了首期大模型安全评测榜单，促进人工智能安全领域技术交流与共享。

https://icsr.zju.edu.cn/2024/0716/c70144a2946306/page.htm?sid_for_share=80217_3

2-6. 2024SaaS遇见AI大模型创新大赛（以下简称“大赛”）：全国20强总决赛以“发现AI的力量”为主题，在苏州举办

大赛共吸引了 100+ 项目参与，通过一个月的四场初赛选拔，最终20个项目进入决赛。来自SaaS 和 AI 领域头部企业CEO、CTO、产研VP、CIO、投资人等200+观众现场观摩决赛。

一等奖 RAGFIow：来自英飞流(上海)信息科技有限公司。RAGFlow，下一代 RAG 2.0 基础设施和 LLM 最佳伴侣，帮助企业从纷繁的数据中找到答案。

二等奖千行平台：来自昇启科技，千行平台，是端到端自动驾驶开发平台。

三等奖陈列指挥官：来自玄武云科技控股有限公司。玄武云·陈列指挥官，可以分析终端门店照片数据，自动生成门店评分及门店报告，帮助品牌商打造完美门店。

https://mbd.baidu.com/ma/s/C85Hi4HL

AI基础设施方面（含硬件、数据）

3-1. AI大爆发催生巨大散热需求：高算力需求拉动AI服务器放量，芯片级散热高增长可期

伴随着数据中心算力需求的不断提高，其高耗能性带来的散热问题也变得更加严峻。

根据DeepTech数据，当电子设备温度过高时，工作性能会大幅度衰减，当芯片的工作温度靠近70-80℃ 时，温度每升高2℃，芯片的性能会降低约10%，超过55%的电子设备失效形式都是温度过高引起的。

目前，数据中心的散热产品可以分为芯片级、服务器级、机柜级和机房级四个层级，四个层级的散热器件或设备共同作用、相互配合才能起到最佳的整体散热效果。

中国数据中心主要设备能耗占比中，制冷耗电占比(约43%)位居第二，仅次于IT设备自身能耗占比(约45%)。

https://mq.mbd.baidu.com/r/1mzLRqOHnGM?f=cp&rs=2346711181&ruk=1PJuPlec4ZGlYTqNPEAXQw&u=f6f9a5256de04657&sid_for_share=80217_3

3-2. 在AMD卡上模拟CUDA：原版程序直接编译运行

英国一家初创公司，推出了针对AMD的CUDA程序编译工具，而且免费商用。该工具名为SCALE，开发者给它的定位是一个GPGPU（通用GPU）编程工具包。

工具一经发布就引发了网友们的广泛热议，并登顶了HackerNews热榜。

目前已有大模型框架llama-cpp等9个程序通过测试，实现了正常运行。
与其他实现方式不同，SCALE直接模拟CUDA工具包的安装，不需要转换成其他语言就能源到源地完成编译。
因此，像内联PTX这种英伟达专用的中间语言，SCALE同样能够提供支持

https://www.qbitai.com/2024/07/167301.html