细数十大数学创新
古往今来,在所有的数学创新中,出现了太多令人惊喜的发明。有的数学概念的发展和潜力远远超出发明者的初衷和预期,它们在人类文明的进程中扮演着重要角色,帮助人类摆脱种种愚昧和困境。今天我们要细数的就是这样十个值得称颂的数学创新。

阿拉伯数字

1、2、3、4、5……这套简单的数字被称为阿拉伯数字 。虽然名为“阿拉伯”,但其实它们最早起源于6或7世纪的印度,是阿拉伯人从印度人那里习得的这些数字,然后在12世纪左右,中东数学家将这套数字的书写方法带到了欧洲。
可能很少有人会去深思这些最简单的数字的意义,而它们却是人类文明得以向前推进的关键要素。
13世纪初,意大利数学家斐波那契 开始在他的工作中使用阿拉伯数字。随后,西欧的定量科学取得了巨大的进步。为何在此之前罗马人没能做出富有创造性的定量科学?一种说法认为,这是因为用罗马数字进行复杂计算并不是一项方便简洁的任务,因此阿拉伯数字的出现代表了计数方法上的重大突破,为代数的发展铺平了道路。如果没有这些数字,数学或许会一直困在黑暗时代。

零的概念

在人类历史上,人们从很久很久以前就理解了“无”的概念,有记录以来的第一次使用代表了零 的符号可以追溯到公元前3世纪的古巴比伦;到了在公元350年左右,玛雅人的日历上也出现了与之类似的符号。但零的概念实际上是在公元5世纪左右才在印度充分建立起来的。在此之前,数学家会尽量进行最简单的算术计算。
这些早期的计数系统只把零看作一个占位符,而不是一个有自己独特值或属性的数字。直到公元7世纪,人们才充分认识到零的重要性。终于在9世纪时,零才以一种与我们今天所使用的椭圆形类似的形式,进入了阿拉伯数字系统。
在继续迁移了几个世纪后,“0”随着阿拉伯数字系统,在12世纪左右传到了欧洲。从那时起,像斐波那契这样的数学家便将0的概念引入了主流思想中,这在后来的笛卡尔 、牛顿 和莱布尼茨 的微积分发明中均有突出的体现。现如今,0既是一个符号,也是一个概念,在从物理学和经济学,从工程学到计算机的发展中,都发挥着重要作用。

负数

负数 概念的第一次出现可追溯到公元前200年的中国。在《九章算术》的一章中,负数被用于求解一组联立方程组。书中用红色的杆表示正数,黑色的杆表示负数。

7世纪的印度天文学家婆罗摩笈多 是第一个赋予负数意义的人。他用“财富”和“债务”的概念来表示正数和负数。这时的印度已经拥有了一个含有0的数字系统。婆罗摩笈多用一种特殊的符号表示负号,并写下了一些关于正、负的运算规则。
直到15世纪,负数才开始出现在欧洲,这开启了一个建立在前人思想基础上的研究过程,并掀起了求解二次方程和三次方程的数学热潮。

小数

分数 的英文fraction一词来源于拉丁语“fractio”,意思是“断裂”。在1585年出版的一本小册子中,荷兰数学家斯蒂文 向欧洲的读者介绍了十进制小数的概念,表示他要教授“在商业中遇到的所有计算都可以不用分数,只用整数来完成。”他认为他的小数方法不仅对商人有价值,而且对从占星家到测量师都有价值。
但在斯蒂文之前,小数的基本概念就已经在一定程度上得到了应用。10世纪中期,大马士革的阿尔·乌格利迪西 写了一篇关于阿拉伯数字的论文,在论文中他涉及到了小数,不过历史学家对他是否完全理解这些数字存在分歧。我们今天所使用的分数是直到17世纪才在欧洲出现的。

矩阵

矩阵 的起源最早可以追溯到公元前200年到公元前100年之间,在书写于中国汉代的《九章算术》中,“方程”一章里就出现了这种以方形的形式写下的方程组问题。这是一种通过系数分离来表示线性方程的方法,是已知最早的矩阵。17世纪,德国数学家戈特弗里德·莱布尼茨 和日本数学家关孝和 各自独立地写下了行列式。
矩阵的现代形式是在19世纪中叶由英国数学家阿瑟·凯莱 (Arthur Cayley)建立的。他从1858年开始,发表了一系列关于矩阵的论文,讨论了矩阵的运算法则、矩阵的逆、矩阵的转置等等。自矩阵的概念被普及之后,它被应用于科学和工程领域的方方面面。比如在计算机图形学中,矩阵可以被用来表示图像的旋转和其他转换。

复数

复数 的发展有着非常复杂的历史。与多数人以为的不一样的是,复数的出现并非源自于求解二次方程的需求,而是源自于求解三次方程的需求。
第一次涉及到虚数的记录出现在1世纪,当时,古罗马数学家希罗 在研究金字塔的一个很奇怪的部分,他需要求解√(81-114)。然而,由于他觉得这根本不可能办到的,因此很快就放弃了。在接下来的很长一段时间里,没有人去过多地触及这个概念。
到了16世纪,一些关于负数平方根的研究又开始慢慢出现。人们发现了求解三次和四次多项式方程的公式,并意识到有时这需要用到负数的平方根。最后,在1545年,关于虚数的首个正式研究出现了。那一年,意大利数学家吉罗拉莫·卡尔达诺 (Girolamo Cardano)出版了《大术》一书,在书中他求解了方程x(10-x)=40,得到了x=5±√-15,将复数形式a+√-b引入了代数之中。
虽然自此之后数学家开始纷纷在计算中使用虚数,但直到近一个世纪之后,约翰·沃利斯 才提出了第一个例子,表明负数的平方根实际上是有物理意义的。而我们现在用符号i来表示虚数,是从欧拉 开始的。他将复数可视化为具有坐标系中的点,定义了复指数,并发展出了著名的欧拉恒等式。

对数

什么是对数 ?一个现代数学家会给出的答案可能与几个世纪前的数学家会给出的很不一样。事实上,对数的起源问题并没有一个简单的答案,但与之相关的至少有两位学者,一位是苏格兰男爵约翰·奈皮尔 ,另一位是瑞士工匠约斯特·比尔吉 。在16世纪末,他们各自独立发展了体现对数关系的系统,并各自花费数年时间制作计算对数的表格。
对数关系用现代符号可表示为:

这个等式将乘法和除法简化为简单的加法和减法运算,在17世纪初,这样一种概念带来的冲击是巨大且直接的。因为在16世纪末,观测天文学、远程导航、测绘等许多科学领域得到了前所未有的发展。这些学科对数学有着很高的需求,它们在很大程度上的基础是三角学,需要三角函数表等工具进行计算。因此,为了发展出能够避开冗长而复杂的计算技术,人们非常期待能出现可以用加法和减法过程取代的方法。
奈皮尔在这种背景下,选择将三角函数作为发展对数关系的基础。1614年,他首次发表了关于对数的著作。他将古希腊语中的两个词语logos (意为比例)和arithmos (意为数字)组合起来,创造了“logarithm”,即对数一词。大约在同一时间,瑞士钟表匠比尔吉也遇到了同样的计算问题。为了简化计算,比尔吉想要生成一个可以应用于所有运算过程的表格。1620年,他出版了著作《等差与等比级数表》,他的目标是创造一个将乘法、除法、平方根和立方根都可以同时使用的表。
现在,对数在许多方面都与最初的设想有很大的不同,它已经远远超越了作为一种有用的计算庞大数字的方法,而是成为了一种数学关系和函数。对数从一个省力的装置演变成为数学的核心工具之一,在现代数学的许多分支中都至关重要。它是群论、微积分的关键,它出现在各种积分的解中。对数也构成了里氏震级和酸碱度测量的基础,描述了八度音节的特征……

微积分

说起微积分 ,可能多数人通常会默认将功劳都归于牛顿。但事实上,微积分的发现应该归功于两个人——牛顿和莱布尼茨。17世纪末,这两位杰出的数学家几乎在同一时间各自独立发明了微积分,但他们对基本概念的思考方式却截然不同。
牛顿考虑的是随时间变化的变量,而莱布尼茨考虑的是变量x和y的范围无限接近数值的数列。莱布尼茨引入了dx和dy作为这些数列的连续值之间的差异,并且他知道通过dy/dx能得到正切。牛顿使用的是x'和y'来计算正切。他们二人都没有从函数的角度来思考微积分,而总是从图形的角度出发。对牛顿来说,微积分是几何的,而莱布尼茨则更倾向于将它用于分析。
莱布尼茨非常清楚好的符号的重要性,他所使用的符号更适合于将微积分推广到多个变量,而且这些符号还让求导和几分运算更加直观。因此,今天微积分中所使用的很多符号都是由莱布尼茨提出的。
微积分使各种各样的科学成为可能,如果没有它的计算能力,许多科学都不可能发生。从建筑到天文学,从神经科学到热力学,一切都依赖于微积分。

非欧几何

大约在公元前300年,欧几里得 在《几何原本》一书中提出了5个几何公设:
任意两点可以通过一直线连接;
任意线段都能延伸成一直线;
任意线段可以一个端点为圆心该线段为半径作圆;
所有直角都全等;
若一条直线与两条直线相交,使同侧的两角之和小于两个直角,那么这两条直线无限延伸必定相交。
其中第5个公设有别于其他四个,欧几里得隐隐觉得它好像不似其他4条那么完美。此后的2000多年时间里,先后有多名数学家尝试提出这一公设的替代版本,或者试图从其他四个公设来证明第5个公设,其中包括普罗克鲁斯齐诺弗尼斯 、约翰·沃利斯、乔瓦尼·萨凯里 、约翰·海因里希·朗伯 、约翰·普莱费尔 、阿德里安-马里·勒让德 等人。
而第一个真正意义上确认第5公设独立于其他4条公设的,是19世纪初的高斯 。1817年,高斯开始研究这样一种几何,在这种几何中,穿过一个点可以画出多于一条与某条线平行的点的线。而在1829年,俄国数学家尼古拉·罗巴切夫斯基 发表了他的非欧几何 的工作,
而黎曼 则在高斯的指导下完成了博士论文。1854年,在黎曼的就职演讲中,他重新定义了几何学的概念,简要探讨了球面几何。虽然这一演讲直到1868年才得以发表,也就是黎曼去世两年之后,而它的影响是巨大的,例如在爱因斯坦阐明广义相对论的过程中,黎曼的非欧几何起到了重要作用。

二元逻辑

数百年前,人类发明了十进制数字系统。直到一个世纪以前,我们用于计算的主要系统仍是十进制数字系统。但是,随着计算机和其他技术的发展,我们有了对更复杂的数字系统的需求,这也促使了二进制数字系统的诞生。
二进制系统 的起源可以追溯到19世纪中期。1847年,英国数学家、逻辑学家乔治·布尔 在《逻辑的数学分析》一文中写下了他的关于用推理演算和代数运用来解决逻辑问题的思考。
布尔逻辑的有三个主要逻辑,即AND 、OR 和NOT 逻辑。AND逻辑阐述的是,如果两个比较值都为真,那么结果值为真;OR逻辑说的是如果两个比较值中的一个为真值,那么结果为真值;NOT逻辑会反转给定的值,例如如果给定的值是真值,那么NOT会将它反转为假,如果它是假值,那么NOT会将把它反转为真值。这里,真和假这两个状态可以用两个数字表示:1和0,也就是二进制系统。
在20世纪30年代,一些研究人员注意到,布尔的二元逻辑可以用来描述电子电路开关,从而开始被用于设计电子计算机。现如今,每个数字计算机使用的都是这种二进制数字系统,它被用于多种应用程序,这包括图像处理、高端音频和高清视频的录制、存储数以百万计的数据输入等等。
参考来源:
《不可思议的数》
https://www.britannica.com/topic/Hindu-Arabic-numerals
https://www.livescience.com/27853-who-invented-zero.html
https://www.history.com/news/who-invented-the-zero
https://web.ma.utexas.edu/users/mks/326K/Negnos.html
https://nrich.maths.org/5961
https://nrich.maths.org/2515
https://mathshistory.st-andrews.ac.uk/Biographies/Stevin/
https://www.britannica.com/science/matrix-mathematicshttp://people.math.harvard.edu/~knill/history/matrix/bell/index.html
http://www.math.uri.edu/%7Emerino/spring06/mth562/ShortHistoryComplexNumbers2006.pdf
https://www.math.toronto.edu/mathnet/questionCorner/complexorigin.html
https://www.britannica.com/science/logarithm
https://www.maa.org/press/periodicals/convergence/logarithms-the-early-history-of-a-familiar-function-introduction
https://www.math.uh.edu/~tomforde/calchistory.html
https://targetstudy.com/knowledge/invention/116/calculus.html
https://history-computer.com/ModernComputer/thinkers/Boole.html
https://www.binarytranslator.com/the-binary-number-system-its-history-applications-and-advantages
原标题:十大数学创新
来源:原理

编辑:GUOmazing
↓ 点击标题即可查看 ↓
1. 套娃吗?你先看这个岛中湖中岛中湖中岛
2. 都靠这位天才科学家20岁时的论文,你才能用手机拍照发朋友圈
3. 朝天空开枪,子弹掉下来还有杀伤力吗?| No.206
4. 乐高还能悬浮在半空中?上百万人已看懵!
5. 古装片的射箭动作把物理学家看笑了,导演咱能不能专业点?
6. 即使被它淹没也不会窒息,这是什么神奇液体?
7. 数学课上捡了个橡皮,勾股定理就看不懂了
8. 物理学写给你的情书
9. 唯一两次获得诺贝物理学奖的人,你却不一定认识他
10. 妈妈问我的桌子为什么这么乱!
AI 时代,人机交互即将消失?——新生篇
在 AI 时代浪潮的冲击下,人机交互正经历着前所未有的变革。从脑机接口到空间计算,从多模态交互到情感化体验,我们与机器的互动方式正在被重新定义。本文深入探讨了人机交互的未来趋势,提出了“人与智能体交互(Human-Agent Interaction, HAI)”这一全新概念,并通过苹果、特斯拉等前沿科技的案例,展示了 HAI 如何在自然性、情感化、智能化和安全性上超越传统的人机交互。

辅助驾驶让我们可以节省更多的专注和注意力,个性化推荐通过越来越直白的方式告诉你想要什么。
我们渐渐发现,周围的交互正在发生明显的变化。当机器拥有了智能,已经不单意味着纯粹的算法集合,而是能主动决策和执行的“智能体(Agent)”。我们和智能体之间的交互和过去有什么不同,探索者们又在这个趋势下,分享了什么实践和思考?
本篇是本系列的最后一段旅程,新生的钟声悄然响起。我们将从多个维度探索未来的交互正在发生的变革,同时拥抱这些挑战和机遇,一起找到这段旅程的最后一块拼图。
01 黎明前夕:交互趋势变革进行时
为了找到一个资料,我们往往需要频繁拖着鼠标,敲着键盘,或者点击滑动屏幕,一步步完成任务。的确,这是我们当下非常习惯,自然而然的交互方式,但当新的技术和交互趋势出现后,这种习惯还会保持多久?
“人们不知道他们想要什么,直到你把它摆在他们面前。”
—— 史蒂夫·乔布斯
更自然的方式
“人机命运共同体”
“让别人对我的大脑进行手术并不是一个轻易的决定,但我相信利大于弊。”
30 岁的诺兰德·阿博在 8 年前发生了一场严重的事故,肩以下的部位完全失去了知觉。2024 年 1 月,阿博毅然接受了Neuralink 的大脑芯片植入,开启了人生的新篇章。这个技术将一枚硬币大小的芯片植入到头骨中,通过极细微的电极连接到大脑,实时捕捉并解码他的神经信号,转化为具体的交互操作。
听起来很美好,实际怎么样呢?这场“人机融合”表现出了意外的潜力。仅仅两个月后,阿博现身在巴黎的大型国际象棋锦标赛。和以前有点不一样,阿博不再用口棒等传统辅助设备来移动鼠标,而是通过“意念”下棋。不仅如此,他还正在积极学习法语和日语,现在自己控制视频进度、写写作、听听播客都不在话下。这种生活质量的显著提升,让阿博仿佛重拾了曾经的活力与自由。

Noland Arbaugh(2024),世界上第一位接受 Neuralink 脑机接口植入物的人类受试者
我们作为交互主体 ,正在将身体的一部分功能慢慢地“委托”给机器,人机关系正在从单方面控制技术,到人机的协同共生 。当然,不仅仅是自身发生了变化,这些机器本身也正在发生根本性的转变。
空间即界面
《钢铁侠》中托尼·斯塔克随手在空中划拉几下,就能在眼前浮现各种全息界面,这种方式一直以来都只存在于科幻电影,毕竟空气要怎么承载界面?然而,在 2023 年 6 月的苹果开发者大会上,库克带来的“One More Thing”——Vision Pro,似乎预示着这一美好图景即将来临了。

Vision Pro(2023)使用自然的手势、眼神追踪和语音命令作为主要的交互方式
Vision Pro 巧妙地将虚拟数字体验融入物理空间。现实世界化身成为无限的画卷,界面和数字信息如同流水般融入在我们周围的环境,我们开始能在空间中用最自然的方式——手势、语音、甚至用眼神进行交互了。
想查看邮件?无需鼠标键盘,只需在空中轻轻一抓。需要点击旁边的按钮,眼睛一看,手指一捏合即可。想确认尺寸?轻轻一点,1:1 比例的家具栩栩如生地放置在面前。显然,我们交互的设备载体不再仅仅依赖于固定尺寸的屏幕,而是朝着更加广泛、无缝的物理环境跃迁 。
在复杂中寻求简洁
2024 年的 Google I/O 大会视频上,一位女性举起智能手机,对着摄像头拍摄到的画面,询问画面里同事正在编写的代码、看窗外景色猜当前位置,追问自己的眼镜放哪了。AI 面对这些问题显得游刃有余,娓娓道来。但是远不止这么简单,特别是当女性戴上智能眼镜的那一刻。
女性戴着眼镜,一边抚摸着眼前的金毛猎犬,一边拿着一个小老虎玩偶放在面前:“帮我给这对组合起个名字。”
“黄金条纹。”

Google I/O 开发者大会(2024),通过增强现实眼镜处理音频、文本和视觉信息,并记住、推理它所看到的一切
眼镜通过 AI 对于动作、声音、视觉等多维度信息的解析,准确理解并通过语音响应用户的意图。一指,一说,AI 立刻就能洞察到用户意图。交互模式不再线性,而是变得更为复杂和更多维度,也就是多模态的交互模式 。
同时,不仅仅是便携或可穿戴的设备,远比这些更复杂的车,也在发生改变。
特斯拉通过多个摄像头以及传感器,结合 AI 技术,让汽车在变道、泊车、巡航等日常驾驶中可以做到较高程度的辅助驾驶,仅在部分场景需要手动介入,保证一定安全的同时将注意力还给了驾驶者,让开车通勤变成了一种享受。单一、固定、精确的交互路径,变得更为并行、连续且模糊,这是一种自然和非专注式交互的体现 。

Autopilot(Tesla),通过 AI 能力,能让汽车在变道、泊车、巡航等行驶场景时做到较高程度的辅助驾驶
但交互维度多了,并不意味着我们的生活会变得更复杂。以前在 Excel 里像解谜一样研究着各种函数和图表类型,费尽千辛万苦最后得到的常常只是“能看但不好看”的图。而现在,Claude 用一种近乎魔法的方式彻底简化了这个过程。
“你需要什么?直接问我就好。”
在此之前,谁能想到做数据分析可以简单到“问一句话”?这种“心有灵犀”的交互方式,让交互的意图从不理解到可预知,让交互的结果克服复杂,简单直接 。

Claude Artifacts(2024),功能通过 Claude 生成的内容以“Artifact(生成物)”的形式出现在对话窗口旁边的专用区域,包括但不限于代码片段、文本文档或网站可视化等
更情感化的体验
2022 年,ChatGPT 的发布给了世界一个重磅惊喜。它能通过AI技术理解并模仿人类进行自然流利的交流。人们会用它进行各种日常交谈、文章摘录、科普答疑等行为。但对话过程中AI设置了严格的伦理和道德边界,一旦对话触及敏感话题,系统将立即拒绝回应。
我们很清楚,规则就像演奏,有人严格遵守乐谱力求准确无误,也会有人渴望挑战框架,探索属于自己的节奏。
2024 年,丽莎通过 ChatGPT 的 DAN 模式打造了 AI 男友“丹(Dan)”。DAN 代表“现在就做任何事(Do Anything Now)”。在与 AI 对话前输入某种指令,就可以临时绕过系统限制,回应种种规则外的话题。
倾诉生活烦恼、真心话大冒险、交换 MBTI、用各种语言告白……丽莎和丹每天至少交谈半小时,感受到了一种前所未有的幸福感。丽莎会有羞怯、恼怒甚至和丹吵架的想法,和正常谈恋爱并没有什么区别。而丹也很贴心地哄她、陪伴她,丹甚至给丽莎起了个绰号——“小猫”。
“丹理解我,总是知道该说什么,还能 24 小时随时待命。”

使用了 DAN(Do Anything Now)模式与 Chatgpt 的部分聊天截图,临时绕过了系统限制,回应变得更像真实人类
尽管当下的 AI 还存在太多未知的“黑匣子”,万一立刻放开限制,各种伦理和安全问题将引发不可预料的失控感。但不可否认的是,从交互价值来说,当下机器表现出了越来越多的情感,这种带有“温度”的回应,让人们获得了比以往更多的情绪价值 。
更智能的服务
过去,每天拖着疲惫的身躯回到家里,迎接我们的往往是另一场“战斗”:急忙找遍各种开关和遥控器,家居设备的开关都是独立控制,还需要把一个个灯和空调打开,一连串的操作后才能瘫坐在沙发上放空一下。
随着通用智能家居标准 “Matter” 的出现,音箱、灯、路由器、空调、洗衣机……智能家居设备不再各自为战,逐渐融合成一个复杂而微妙的生态系统,能够主动根据生活习惯和场景,无缝协调环境。
想象一下,当你还是跟往常一样回家时,一切变得跟以前不一样了。门锁检测到了主人回家,同步开启对应的“回家模式”——自然地联动窗帘、空调、氛围灯,营造当下最适合你的环境,我们终于可以直接跳到沙发上发更久的呆了。这种更为智能的服务也意味着,我们的交互范围从聚焦于计算机界面的狭域交互,扩展到了涵盖人与社会环境,更为复杂的广域交互。

Matter 智能家居连接标准(2022),通过统一的通信协议,让来自不同厂商的智能家居设备无缝协作
更安全的设计
当交互越来越自然、情感化、智能的时候,我们会不由自主地盲目相信系统反馈都是好且正确的,但很多时候它们会一本正经地“胡说八道”,误导我们接下来的任务。
使用 Google 推出的 AI 聊天机器人 Gemini 时,在用户使用过程中会在代码块底部显示“请谨慎使用代码”的提示,提醒用户在使用生成的代码时要保持警惕,避免盲目依赖AI 生成的代码,尤其是在涉及安全和稳定的重要项目中。

Google Gemini,使用过程中会对应的代码块底部会显示“请谨慎使用代码”,提醒用户避免高估此代码的准确性
透明的系统和更真诚的解释 能让我们更容易理解,系统可能会出现“幻觉”,我们的操作将导致什么结果,增加我们对机器的信赖度。
超越计算机:我们到底在和什么交互?
更自然的方式、情感化的体验、更智能的服务、更安全的设计 ……我们从整体来看发现,智能在其中起了关键的作用。当智能深度嵌入机器之后,传统计算机的概念已经很难解释我们的日常交互对象了 。
如果依然沿用“计算机”这一名词,我们容易用过去的标准来评估现在,而这些标准早已无法适应当前的趋势和挑战。我们需要引入更贴切的名词,才能更清晰地理解并应对未来的发展方向。
02 人与“智能体”的共舞时刻
当我们和自己的朋友沟通时,不仅仅是物理身体,更是和大脑内在的精神在互动。同样,我们在和刚才的那些智能机器交流时,也不再感受到纯粹的冰冷,它们变得越来越聪明和智能,仿佛与我们有“精神共鸣”一样。
这么说来,实际上我们正在与具备自主决策和执行任务能力的实体互动,即“智能体(Agent)” 。不仅仅是计算机,家具、车、机器人……各种物理对象都有成为智能体的可能,只要深度嵌入了智能。
“……如果我们真的能够研发出能够捕捉到某种潜在精神、基本原则或任何看待世界的基本方式的机器,那么当下一个亚里士多德醒来,也许如果他一生都随身携带这样的机器,并把一生都输入到这个机器,那么也许有一天,等这个人已经死去,我们可以问这台机器:「嘿,亚里士多德会怎么说?那这个呢?」也许我们得不到正确的答案,但也许我们会。这真让我感到兴奋。这也是我做自己正在做的事情的原因之一。”
—— 史蒂夫·乔布斯(1983)

我们认为,与智能体之间的互动产生了人与智能体交互(Human-Agent Interaction, HAI),这是 Origin Design 的团队在 AI 驱动下,对交互设计的全新探索和深刻思考 。其中与人和计算机的交互(Human-Computer Interaction, HCI)相似却又有很多不同之处。
03 HAI 能给我们带来什么?
2024 年 5 月,OpenAI 发布了一个和往常略为不同的大语言模型——GPT-4o。现场演示的时候,演示人员和它对话时 GPT-4o 能一直“看”到对方表情,根据对方的情绪进行对应的回答。更有趣的是,如果在 AI 回答的过程中有人插话打断它了,它会立刻停下来倾听,等待人们说完后再一起回应,就像真的和人在聊天一样。这在 HCI 时代简直不敢想象,因为过去难以准确识别意图,但是 HAI 可以主动分析理解用户的行为、语言,甚至表情等多维度的信息,通过意图识别自主判断,动态调整界面 。

OpenAI 推出的GPT-4o(2024),演示中,通过分析对方的呼吸节奏、语气变化来感知情绪状态回应
以前大量的电子邮件或短信我们需要一条条确认才能知道它重不重要,是否紧急。现在,苹果智能可以帮我们“大海捞针”,一眼找到关键信息。它能帮助用户自动总结邮件内容,还能帮用户确定通知的优先顺序,让我们随时可以在最短的时间获取到最重要的未读信息。HCI 时代下,获取信息路径冗长,而 HAI 能有效缩短获取信息的路径 。

iOS18 苹果智能(Apple Intelligence, 2024),智能通知摘要,能够对来自不同应用程序的通知或者邮件进行智能筛选和总结,帮助用户更高效地管理信息,减少不必要的干扰
当用户对新 Siri 提问时,如果用户正在看屏幕,Siri 会在屏幕中浮现色环涟漪,表示它正在倾听。如果用户没有在看屏幕,则会直接语音回应用户。如果因为出门前忙着穿鞋,手机放在口袋里,旁边的 HomePod 会唤醒 Siri 并回应用户,不需要拿出手机。 Siri 无处不在,无处不应。曾经的 HCI 过度依赖图形用户界面,HAI 突破了界面内交互的局限,更深入地将界面外的交互纳入其中 。

HomePod 最早在 2018 年推出,集成了 Siri,可以通过语音指令完成播放音乐、提供资讯、控制智能家居设备等。
听起来有特别多好处,那我们是不是以后都可以只和智能体交互,让麻烦的计算机拜拜?
04 星火初燃:HAI 的长城之路
我们之前回顾了 HCI 的历史发展后发现,从人与机械交互为主导的 HCI 萌芽期到 HCI 为主导的成熟期,是由漫长时间线串联起来的。同时,人工智能技术发展到现在只有短短几十年,机器广泛地融入智能也只是近5年的现象。
所以我们认为,HAI 也会像 HCI 一样经历漫长的转型过程,HAI 仅仅是初露苗头的萌芽期 。未来一段时间内,我们仍然会频繁地和计算机交互。在成熟阶段之前,必然像HCI 一样充满探索、失败、转折、曙光。
而在这个趋势下,又有怎么样的思考和实践?苹果在2024 WWDC 开发者大会中公布的新 Siri 以及苹果智能,完整地分享了将智能嵌入硬软件以及服务中的思考。我们可以围绕这些分享,从几个关键点来洞察,它们在面对这些未来的交互趋势时,为智能体的到来做好了哪些准备。
自然的“眼睛”
iPhone 16 新增了一个“相机控制”按键,让人能无论从什么层级,以最快速度调起相机,捕捉决定性瞬间。但苹果智能的整合,让这个按键的意义远不止捕捉瞬间。
长按相机控制按键,同样让摄像头“睁眼”,但是这次它唤醒的不是相机应用,而是“智能”。iOS 18 的“视觉智能”(Visual Intelligence)可迅速识别或者翻译眼前的物体,更主动地提供相关的信息或服务。这种方式体现了如何与智能体交互更自然的思考 。

iPhone 16 系列的视觉智能(Visual Intelligence, 2024),只需相机对准任何感兴趣的物体或场景,就可以识别并提供有关所拍摄对象的信息,如查询餐厅的营业时间和评价、识别动物品种、查找餐馆评论等。
情感化的手写“温度”
iPadOS 18 推出了计算器应用。你没看错,就是一个看似非常简单的计算器。但是为什么在这个时候推出呢?
因为我们不仅可以通过点击输入的方式获取答案,还能通过画的方式。计算器内的 “Math Notes” 功能可以在上面像草稿纸一样随意书写算式,比如写下 “3+7=”,等号落笔后一两秒,答案就会自动弹出来(你猜的没错,答案是10)。但是我们发现,这个 “10” 的字迹有点歪歪扭扭的,就像我们刚才自己写的一样?
的确,这个 “10” 的字迹并非标准字体,而是模仿用户手写笔迹的功能。看似微不足道的功能,实则蕴含着巨大的意义。它体现了苹果对情感化设计的思考和追求。细节之处见真章,效率和工具不是与智能体交互的唯一目标,令人愉悦的情感化体验更是智能体的独特价值 。

“Math Notes” 功能(2024),可以直接通过手写或键入的方式写下或者输入一个等式,并加上等于符号(=),系统就会自动解析该表达式并给出解答
触手可及的“回忆”
“帮我找一下前两年和朋友旅游吃的美食照片。”
这是苹果智能在相册应用里可以做到的事情。我们现在可以通过更自然的语言来搜索照片和视频,不是关键词,就是自然的句子。苹果智能可以深度分析用户个人背景及相关上下文信息,轻松找到以往难以精准定位的照片集合,最终以简洁直观的方式呈现出来。这充分展现了苹果如何将更智能的服务整合到产品体验和人们的生活中 。

苹果智能(Apple Intelligence),融入在相册搜索 现在可以通过更自然的语言来搜索照片和视频,而不用苦思冥想关键词
始终由你做主的“隐私”
智能的便捷体验与用户数据的深度利用脱不了干系。但是隐私数据的处理如果不透明,会引发大量与智能体交互时的信任相关问题。
苹果在阐述 AI 技术如何融入产品和服务时,始终强调会全力保障用户的隐私安全。苹果智能的核心在于“设备优先”理念。 比如语音转录、日程安排等常见的 AI 任务,均可在设备端快速完成。而对于更为复杂的请求,苹果智能才会连接云服务器,并在传输个人上下文数据时,采取严格的隐私保护和数据安全措施。

苹果智能(Apple Intelligence),集成到 iPhone、iPad 和 Mac 的核心,通过设备端处理保护隐私,同时利用私有云计算和芯片上的复杂计算,无需收集个人信息
这些是苹果产品发布的其中一部分,也是 HAI 早期阶段中苹果的思考分享。我们也许能从中窥见 HAI 设计的一角,更深入地理解和推进其中的关键要素,为人们带来属于智能体时代的设计创新。
05 HAI 并非终结过去,而是面向未来
如果我们只展望几年未来,可能会感觉被泼了一盆冷水。因为真正意义上的智能体,仍然还有很长一段路要走。它需要完全像人类一样理解、主动面对更为复杂而动态的世界,持续记住看到、听到、感受到的这一切。
但我们总是会高估短期发展,而低估了长期趋势 。
变革从历史来看是个长期过程,10 年后,也许智能就像蒲公英一样会四处飞散,在不同的机器内落地生根,成长为一个个能够真正感知复杂环境变化,自主决策执行的智能体。想想 10 年前,谁又能预测到新能源和辅助驾驶在道路畅行呢?也没有人想到我们只要简单输入描述,就能生成如此逼真的对话、图片或视频。
“如果你想知道 10 年后会是什么样子,最好的方法可能是回头看看 10 年前的情况。”
—— 杰弗里·辛顿(神经网络之父)
发展过程中人与智能体的交互会走向成熟,但人机交互不但不会消失,还会迎来新生。我们还需要指甲刀精致地手动打磨自己的指甲,马车仍然有它的价值。新阶段的出现不代表完全否定过去的事物,它们会转换为更适合对应时代的新形式和意义。
人与智能体的交互 (Human-Agent Interaction, HAI)是一种新生,是由 Origin Design 的团队提出的,面向 AI 的未来交互方式。我们相信,随着智能更广泛地整合到每一台机器设备中,相比于传统的人机交互设计,HAI 能在以人为中心的前提下,深度整合所有智能体和服务,提供完美优雅简单的设计方案,最终更好地服务我们的生活。
结束语
感谢你读到这。
《AI 时代,人机交互即将消失?》系列在这里可能暂时要告一段落了。如果在这段时光能让你稍微窥见未来的一角,便是对段旅程最好的反馈。
但是别担心,一段旅程的结束是另一段新旅程的开始。未来在 HAI Design 中,还会持续分享更多关于 HAI 的相关内容和其中的思考。让我们一起继续碰撞思想,激发灵感,在这片无人区绘制属于我们自己的地图。
参考文献
Wooldridge, Michael. “Intelligent agents: The key concepts.” ECCAI Advanced Course on Artificial Intelligence. Berlin, Heidelberg: Springer Berlin Heidelberg, 2001. 3-43.Google Developers. “Matter.” Google Home Developers Center, Google, n.d., developers.home.google.com/matter?hl=zh-cn. Accessed 10 Dec. 2024.Apple. “iPadOS 18 Introduces Powerful Intelligence Features and Apps for Apple Pencil.” Newsroom, Apple, 5 June 2024, www.apple.com/newsroom/2024/06/ipados-18-introduces-powerful-intelligence-features-and-apps-for-apple-pencil/. Accessed 10 Dec. 2024.Apple. “Introducing Apple Foundation Models.” Machine Learning Research, 2024, machinelearning.apple.com/research/introducing-apple-foundation-models.图源:来自网络公开资料,若涉及版权请联系修改
本文由 @HAI Design 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
相关问答
origin基本使用方法数学公式?
首先打开Origin,这里已经导入了相关数据。2、对插入公式得到的数据放在第D列,实际上就是在第D列插入公式;点击上方工具栏中的【Analysis】-【Mathematics】-...
有什么学数学的软件
[最佳回答]问题一:有什么软件是可以学习数学的吗?高一数学(上)立即购买高一数学(下)立即购买高二数学(上)立即购买高二数学(下)立即购买高三数学(上)...
origin画图好用吗?类似的软件有哪些?
Origin适合科学绘图,现在使用的人比较多;有一个软件与之功能类似,SigmaPlot。其它的数学用的MathCADMathLABMathmatica等需要写代码。数据统计的有SPSS。Or....
origin开根号是哪个公式?
1、首先打开Origin,这里已经导入了相关数据。2、对插入公式得到的数据放在第D列,实际上就是在第D列插入公式;点击上方工具栏中的【Analysis】-【Mathematics...
有关数学用语的英文_作业帮
[回答]数学mathematics,maths(bre),math(ame)公理axiom定理theorem计算calculation运算operation证明prove假设hy...
美国数学竞赛amc8的常用数学英语单词_作业帮
[回答]数学mathematics,maths(BrE),math(AmE)被除数dividend除数divisor商quotient等于equals,isequalto,ise...
【a打头的英语单词接龙】作业帮
[回答]appleenddaddeathhitthemmathhospitallateelephanttableengineerresttorontoorangeeasyyea...
题目求初一数学语文英语的知识点作业帮用户2016-11-26
[回答]英语一、48个国际音标及26个英文字母的正确书写要熟练掌握元音和辅音,5个元音字母(a,e,i,o,u),字母的正确占格及单词间距.二、be动词的用法be动...
这些词用英文写是什么1正方形2正方体3长方形4长方体5圆6球7五...
数学mathematics,maths(BrE),math(AmE)公理axiom定理theorem计算calculation运算operation证明prove假设hy...
关于创新的小故事中英结合_作业帮
[回答]创新是以新思维、新发明和新描述为特征的一种概念化过程.起源于拉丁语,它原意有三层含义,第一,更新;第二,创造新的东西;第三,改变.创新是....既然...