逻辑

分类音乐,语言,图像,文本和基因组

数据压缩算法自动对所有类型的文件进行分类。

Jean-Paul Delahaye 对于Science N°317
本文保留用于科学用户
当你重复一个你刚刚告诉你的故事时,你不会再现它相同,但在你所说的和听到的东西之间,很多点对应,并且在大多数情况下,故事一致:初始版本和初始版本和再现版本具有强大的常见内容。这种“信息中的常见内容”的概念似乎是不精确的,并且想象很差,即可以制定一般定义,甚至小于一个可以与数字相关联。然而,利用数学家和计算机科学家今天通过实施一个简单的想法从一个从理论中汲取的一个简单的想法取得了成功,其数学家认为它不适用。

在1990年十年中,从可逆的同情开始,Charles Bennett周围的理论家团队发明了信息距离,取决于信息中的常见内容。它是1998年由Lille的基本计算机实验室的生物信息学团队使用,分类遗传序列:两个字符套件之间的信息距离 AB 由最短程序的大小定义为转换的最短程序 ABB 在A.不久之后,由Amsterdam大学的研究人员在Paul Vitanyi周围的研究人员中占据了这种方法 - 以相似距离的名称完善和简化。今天,这个想法的成功涉及众多域名。更令人惊讶的是,该方法的最新版本易于实现,并通过公共领域软件适应各种问题。

相似距离应用于语言,音乐件,文本(尤其是字母链),图像和天文数据的分类。软件 findfraud. 操作员这一距离允许您识别复制的学生:您输入全班作业的作业的文本,该算法告诉您嫌疑人,然后判断标记的相似性是否过度并惩罚抄袭。这也适用于音乐和文学作品,正如我们所看到的那样。

数据压缩

使用数据压缩算法获得了常见信息内容的数字测量:最佳是使用的算法,更精细将是所获得的分类。这些算法通过利用我们将详细阐述的公式提供两个对象的常见内容的值,因为它是压缩分类概念的核心。

我们选择压缩算法 C其中,如果可能的话,我们知道它有效地在我们想要分类的数据上(文本,音乐分区,序列DNA ......)。这种压缩算法必须没有损失,这意味着如果 C,应用于字符 A,制作了压缩套件 B,然后申请 B 解压缩机 vs, 我们将重建A.算法 Gzip, 众所周知的微型计算机用户是这种压缩算法,可用于任何计算机文件。有一个众多的其他人,一些专门从事基因组序列文件,其他在声音,图像或电影文件中。

压缩机 C 选择,它应用于要分类的数据,并测量由算法压缩的版本的长度 C 应用于 一个,到bab (在 其次是 b)。这些长度对应于三个数字 C(a),c(b),c(ab) 这表明信息中的信息 A, 的 B 而且 ab 我们检查差异{它) + C(b) 出租车)}。

计算时 出租车),通用的信息 AB 只计算一次:当压缩后时 A他压缩了 B,压缩机消除了已有的冗余信息。特定于的信息 A 和那些具体的人 B 因此被计算一次 出租车)。另一方面,当一个人分开时 它)C(b),我们将重新确定特定于的信息 A,一旦特定于信息 B 以及相同的信息的两倍 AB (计算时一次 它) 计算时一次 C(b)

计算差异{它) + C(b) 出租车)被简化,事实仍然只有一个术语:常见内容 A B.否则说,当我们压缩时,节省空间会得到 ab 与单独的削减相比一次 A,和 B,是一种常见内容的衡量信息 AB.

然后,我们定义序列之间的相似距离 A 和B.如果 C(b)它),之间的距离 AB 值得: D(a,b) = 1 – {)+ C(b) - c(ab)}/它) ;如果 它)C(b), 她要 : D(a,b) = D(a,b) = 1 – {)+ C(b) - c(ab)}/ c(b)。

出现在公式中的分母是标准化因子,只在处理数据时才能发挥重要作用 A B 尺寸非常不同。数量 D(a,b) 在0到1之间,有数学家呼叫距离的属性:

D(a,b) = 0如果且仅当 A = B. ;

d(a,b)= d(b,a) (对称);

d(a,b)≤d(a,c) + d(C, B) (三角不等式)。

使用常规的压缩机,其中一些属性仅是真实的,但这并不是很严重,在解释数量方面的要点 D(a,b)。是的 A B 是不相关的(例如两个随机电池序列或面部,或不同语言的两个链接文本),然后是信息中的常见内容 A et B 为零, c(ab)= c(a)+ C(b) 所以 D(a,b) = 1,距离的最大值。另一方面,如果 A = B, 所以 它) = 出租车) = C(b) 所以 D(a,b) = 0.

因此,更常见的内容 AB 很大,较小的是距离 D(a,b) ;更多序列 AB 是独立的(没有相关),更多 D(a,b) 批准的1.相关性可能是本质上的统计学或基于所使用的压缩机的常见序列的存在。

深刻的理论理由

通过解释我们刚刚完成的相似距离,点可能出现神秘或模糊。它是什么信息?通过更改压缩算法,结果更改:常见信息内容变量是吗?谈论信息和常见内容信息是什么证明的?

这些问题的答案是在数学考虑的数学考虑因素,允许在20世纪60年代出生在数学逻辑和理论计算的边界的算法的信息(或Kolmogorov的复杂性理论)。考虑到完美的压缩方法,我们检查的是严格的意义。然后,它的信息是一系列字符的算法信息,定义为生成它的最小程序的大小。更多细节在文章中 测量的复杂性 在特别问题(2003年12月) 科学 致力于复杂性。

ALAS,完美的压缩方法(由理论提到)是所展示它们不可编程的理想方法:无算法永远不会允许计算算法信息理论的最佳压缩!因此,使用特定和不完美的压缩方法是不可避免的。依赖于特定压缩机的定义相似距离 C 只是一个明确无法访问的数学概念的近似版本。

理论框架使得可以知道相似性的距离是“通用”:在其理想版本中,它不能错过两个人物套件所拥有的任何相似性。基于真正的压缩机的版本没有理想版本的巨大属性,但如果压缩机很好,距离 D(a,b) 将是理想的相似距离的令人满意的方法。在这种情况下,实践的理由是启发式:理论方法被证明良好的事实表明它的近似版本也是如此!它仍然可以确保所有这些都正常工作。

给定压缩机的相似距离为所有对象产生相互距离表以进行分类。想象四个物体 A B C D 分类。使用压缩机为我们提供了值 d(a,b),d(a,c),d(a,d),d(b,c),d(b,d),d(c,d)。如何处理这些数据?

很明显,如果我们成功地放置在几何平面上的四个点,以便他们的距离在通常的意义上是那些计算的,我们将有一个有趣的表示关系之间的关系 A,B,C D因此,以及不同对象的信息中的常见内容。我们将一目了然地看到近乎或遥远的物体。事实证明,这种提供很少可能。肯定要根据提前给出的一组距离(并检查上面列出的属性),将自己放在维度空间3中3.更一般来说 n,它需要一个尺寸的空间 不是 - 1. Si n 超过5,我们不会看到太多!怎么做 ?

解释距离

此类地区表的解释问题已经出现。特别是在生物学中,在各种过程中,在各种过程中,遗传序列之间的距离在遗传序列之间计算我们然后寻求可视化。遗传学中使用的距离的一个例子是版本距离:之间的版本距离 AB 是发布操作的最小次数(删除字符,插入字符的字符或字符突变)必须从 A 到达 B.

因此,生物学家制定了制造可视化的方法; Paul Vitanyi和Rudi Circalax完善了其中一个,以便可视化通过压缩计算的距离表。此方法中解释的方法导致绘制数据的树 AB 在近距离分支 D(a,b) 小,数据在远程分支时 D(a,b) 很高。

计算这些树是一个微妙的算法问题,一个完全代表所有数据的树上并不总是成功 D(a,b),d(a,c), 等等。一系列 Q 评估与初始数据相关的轴的质量,从而使得可以知道一个人是否必须对他具有很大的信心,或者仅考虑其作为序列信息中公共容器的近似指标 A,B,C, 等等。

在遗传序列的情况下,所产生的植物学被解释为提示的树木,我们正在谈论系统发育树。但是,当一个分类没有预期关系的对象时,所获得的植物学也可以被视为分层分组。

因此,压缩分类方法在三个阶段进行。

(在) 将选择的压缩算法应用于所有字符套件来分类 A,B,C, 等等。和所有双套房 ab,AC,BC, 等等。

(b) 使用相似距离公式,它给出了0到1之间的数字阵列: D(a,b),d(a,c),d(b,c), 等等。

(vs) 树的构造允许各地表的整体可视化并通过分层分组进行分类 A,B,C, 等等。这三个完全自动化的步骤导致,当一切顺利时,表示物体相似之处的图表 A,B,C, 等等。

语言的分类

不同语言树的发展是关注语言学家的关注,当然,许多分析和讨论当然是对象。他用作相似距离方法的测试。 P.Vitanyi及其员工的经验中,他们试图建立52个主要的印欧语言的分类树。从翻译开始 人权宣言 在52种语言中的每一个中,它们都留下了自动方法,引导了开发树的所有工作。获得的树基本上与语言学家一致,这是非常好的,因为这些数学家和计算机科学家在语言学中没有特殊的能力,并且它最终已经使用了语言之间跟踪相似之处的所有工作的压缩算法。

作者

在语言领域,进行了另一种经验。从5名文本从5名文本开始,研究人员检查了作家的语言特征是否会允许压缩方法正确整合作者。结果非常令人满意,因为自动树根据其作者与文本相关联,除了略微流离失所的托尔斯泰工作。由于叠加的翻译方式,由同一作品的英语翻译的相同分类提供了更少的效果。

从多米尼克·拉布伯获得了基于常见的两种文字词汇的距离,似乎支持这个想法,过去的几次辩护,那个康尼尔将是一些莫里耶的作者,如果不是全部。这项工作现在存在争议。由于相似性的距离,确认或相反,可以获得Dominique Labbe的结论的错误,可能允许争议冷静下来(见 http://www.upmfgrenoble.fr/cerat/Recherche/PagesPerso/Labbe )

音乐

在音乐场中,压缩分类方法也产生了意外结果。从格式编码的音乐块开始 正午 (乐器数字接口), 研究人员由36张音乐的标准化文件组成。标准化包括每首歌曲生产钢琴版本,它本身确定数据文件(在八个二进制数字上编码的数字序列)。如果没有这种标准化,这是一个纯粹的信息提取,没有任何作用;所以没有希望通过压缩机获得良好的分类结果 mp3 (这是一个损失的压缩机,禁止的方法是什么)。从音乐件中阐述的数字文件被委托到自动压缩分类方法,这导致树木。这些符合每个人都根据他们的音乐相似之处分类碎片的东西。

遗传序列

在遗传学领域,获得的结果更令人印象深刻和有用,因为与语言学,音乐或文学领域不同,我们对序列没有直观地了解树木而无需帮助。可用的数据群众不会停止生长,没有人可以用手对待它们。

没有压缩,通过组合手动和算法方法获得系统发育分类。首先,我们对我们想要分类的序列进行对齐。这包括将序列放置在大型桌子中以每行的序列的速率进行比较,然后在必要的情况下,将类似的部件布置在序列内部的白色空间。如果某些部件不良好,则抑制它们,因此忽略了一部分遗传信息。序列片之间的排列,在改变序列时,已知在改变序列时常见的序列是不用于执行这些对准。最常见的是,这项工作是使用专用对准算法进行的,然后通过手工精制,这需要几个小时的专家工作。获得对齐,“版本距离”类型的距离 (看上面) 用于获得地区表。最后,树是生产的。这项工作通常仅涵盖基因;因此,每个基因提供系统发育轴,这些树木并不总是兼容。

通过压缩方法,一切都更简单。不需要序列的先前对准,并且避免了由于序列提示删除引起的信息丢失。可以比较含有若干基因的序列,甚至整个染色体,没有任何专家进行干预。序列片之间的排列用压缩算法处理,并且在给出最终轴的地区表中考虑这些运动的存在。

因此,完全自动化的压缩方法用于产生来自不同物种的完全线粒体基因组的胎盘哺乳动物的系统发育树。通过自动方法获得的轴符合专家主要录取的树。这是一个值得注意的成功,因为没有特定知识,并且通过实施不需要任何人类干预的方法,压缩技术可获得被认为细腻的系统发生。特别是在病毒序列上的其他测试 SRAS. 确认对压缩分类方法的系统发育领域的兴趣。

抄袭,链条

我们在开始时讨论的故事之间的相似性,寻找抄袭,对信件链的研究(作为他们从一个人的循环到另一个人的流通,如生物生物进化),这一切都是基于常见内容的搜索通过压缩分类技术可以处理文本之间的信息。软件 findfraud. 来自Steven de Rooij的互联网地址: http://homepages.cwi.nl/~rooij/findfraud/ 。它将允许您测试压缩分类的想法。

课程

实验进行了理论来源很多希望的方法实际上能够适应各种背景。关于这些成功需要一些备注。

如果压缩分类算法使得可以通常和方法分类 特设 直到今天在每个特定区域之前使用的是,它们包含来自几十年的数据压缩研究的丰富的专业知识。这本诀窍突然掌握了分类问题的服务。情况与上半年开发的电子技术相媲美 XX.e 世纪以建造无线电设备和电话网络,在1940年代,发现它也可以用于制造机器来计算。突然间,一个强大的技术正在为我们没有思考相关的新问题,并以较低的成本,惊人的结果快速生产。当然,由于一旦发现其有用性而发展的电子产品,并且适应它所带来的特定问题,将来将改善压缩分类方法。

该区域的结果确认了算法的信息的深度,这些信息概览了一种显着锐化的概念工具,这些工具表明了实用方法。甚至接近不可思议的性(没有理论毫无疑问),我们知道如何提取有用的想法。在算法中,任何想法都很好地做任何原点和最抽象的理论有时会揭示自己很好的鼓舞人身。

压缩分类方法不幸的是,表现得像一个黑色盒子:复杂的计算由压缩机进行,这些压缩机会产生捐赠的结果而不解释。最简单的压缩机无法提取计算对比较数据的常见内容进行准确信息不是不可能进行准确的信息:巴赫音乐的碎片是特征的吗?压缩机关闭的两个基因组之间的相似性是什么?等等。今天的工作很少在这个方向上进行了,但毫无疑问,应该加深它,并且他们将为通过压缩分类方法计算的裸露的结果提供有价值的补充,例如推出项目。

数学家引用算术作为理论的一个例子,即我们只开发了对遇到的结果的美丽和迷恋,其中包括加密,突然在IT和电信最具体的问题中突然揭示。今天为了捍卫他们的纪律,数学家可以增加算法的信息理论,从摘要考虑通用计算器,刚刚表明它导致有效和优雅的软件工具。

订阅和ACC.édez à plus de 20 ans d'archives !

12号éros + 4 hors-série
在纸张版本+ numérique

+ ACC.ès illimité à plus de 20 ans d'archives

我是'abonne

订阅和ACC.édez à plus de 20 ans d'archives !

12号éros + 4 hors-série
在纸张版本+ numérique

+ ACC.ès illimité à plus de 20 ans d'archives

我是'abonne

我们的上一篇出版物

回到顶部