F.32. seg

Ce module code le type de données seg pour représenter des segments de ligne ou des intervalles de nombres à virgule flottante. seg peut représenter l'incertitude des points extrèmes d'un intervalle, ce qui le rend particulièrement utile pour représenter des mesures de laboratoires.

F.32.1. Explications

La géométrie des mesures est habituellement plus complexe qu'un point dans un continuum numérique. Une mesure est habituellement un segment de ce continuum avec des limites non définissables. Les mesures apparaissent comme des intervalles à cause de ce côté incertain et du hasard, ainsi qu'à cause du fait que la valeur mesurée peut naturellement être un intervalle indiquant certaines conditions comme une échelle de température pour la stabilité d'une protéine.

En utilisant le bon sens, il apparaît plus agréable de stocker de telles données sous la forme d'intervalle, plutôt que sous la forme d'une paire de nombres. En pratique, c'est même plus efficace dans la plupart des applications.

En allant plus loin, le côté souple des limites suggère que l'utilisation des types de données numériques traditionnels amène en fait une certaine perte d'informations. Pensez à ceci : votre instrument lit 6.50, et vous saisissez cette valeur dans la base de données. Qu'obtenez-vous en la récupérant ? Regardez :

test=> select 6.50 :: float8 as "pH";
 pH
---
6.5
(1 row)
   

Dans le monde des mesures, 6.50 n'est pas identique à 6.5. La différence pourrait même être critique. Les personnes ayant réalisé l'expérience écrivent habituellement (et publient) les chiffres qu'ils connaissent. 6.50 est en fait un intervalle incertain compris dans un intervalle plus grand et encore plus incertain, 6.5, le point central étant (probablement) la seule fonctionnalité commune qu'ils partagent. Nous ne voulons pas que de telles différences de données apparaissent de façon identique.

La conclusion ? il est agréable d'avoir un type de données spécial qui peut enregistrer les limites d'un intervalle avec une précision variable arbitraire. Variable dans le sens où chaque élément de données enregistre sa propre précision.

Vérifiez ceci :

test=> select '6.25 .. 6.50'::seg as "pH";
          pH
------------
6.25 .. 6.50
(1 row)
   

F.32.2. Syntaxe

La représentation externe d'un intervalle se forme en utilisant un ou deux nombres à virgule flottante joint par l'opérateur d'échelle (.. ou ...). Sinon, il peut être spécifié comme un point central plus ou moins une déviation. Des indicateurs optionels (<, > et ~) peuvent aussi être stockés. (Néanmoins, ces indicateurs sont ignorés par la logique interne.) Tableau F.25, « Représentations externes de seg » donne un aperçu des représentations autorisées ; Tableau F.26, « Exemples d'entrées valides de type seg » montre quelques exemples.

Dans Tableau F.25, « Représentations externes de seg », x, y et delta dénotent des nombres à virgule flottante. x et y, mais pas delta, peuvent être précédés par un indicateur de certitude :

Tableau F.25. Représentations externes de seg

x Valeur seule (intervalle de longueur zéro)
x .. y Intervalle de x à y
x (+-) delta Intervalle de x - delta à x + delta
x .. Intervalle ouvert avec une limite inférieure x
.. x Intervalle ouvert avec une limite supérieure x

Tableau F.26. Exemples d'entrées valides de type seg

5.0 Crée un segment de longueur zéro (un point si vous préférez)
~5.0 Crée un segment de taille nulle et enregistre ~ dans les données. ~ est ignoré par les opérations seg mais conservé en commentaire.
<5.0 Crée un point à 5.0. < est ignoré mais conservé en commentaire.
>5.0 Crée un point à 5.0. > est ignoré mais conservé en commentaire.
5(+-)0.3 Crée un intervalle 4.7 .. 5.3. Notez que la notation (+-) n'est pas conservée.
50 .. Tout ce qui supérieur ou égal à 50
.. 0 Tout ce qui est inférieur ou égal à 0
1.5e-2 .. 2E-2 Crée un intervalle 0.015 .. 0.02
1 ... 2 Identifique à 1...2, ou 1 .. 2, ou 1..2 (les espaces autour de l'opérateur d'échelle sont ignorés)

Comme ... est largement utilisé dans les sources de données, il est autorisé comme autre orthographe possible de ... Malheureusement, ceci crée une ambiguité pour l'analyseur : la limite supérieure dans 0...23 est 23 ou 0.23. Ceci se résout en réclamant au moins un chiffre avant le point décimal dans tous les nombres de type seg.

Comme vérification, seg rejette les intervalles dont la limite inférieure est supérieure à la limite supérieure, par exemple 5 .. 2.

F.32.3. Précision

Les valeurs seg sont stockés en interne sous la forme de paires de nombres en virgule flottante de 32 bits. Cela signifie que les nombres avec plus de sept chiffres significatifs sont tronqués.

Les nombres avec moins ou avec exactement sept chiffres significatifs conservent leur précision originale. C'est-à-dire que, si votre requête renvoie 0.00, vous serez sûr que les zéros qui suivent ne sont pas des conséquences du formatage : elles reflètent la précision de la donnée originale. Le nombre de zéro au début n'affectent pas la précision : deux chiffres significatifs sont considérés pour la valeur 0.0067.

F.32.4. Utilisation

Le module seg inclut une classe d'opérateur pour les index GiST dans le cas des valeurs seg. Les opérateurs supportés par la classe d'opérateur GiST are shown in Tableau F.27, « Opérateurs GiST du type Seg ».

Tableau F.27. Opérateurs GiST du type Seg

Opérateur Description
[a, b] << [c, d] [a, b] est entièrement à gauche de [c, d]. Autrement dit, [a, b] << [c, d] est vérifié si b < c
[a, b] >> [c, d] [a, b] est entièrement à droite de [c, d]. Autrement dit, [a, b] >> [c, d] est vérifié si a > d
[a, b] &< [c, d] Couvre une partie ou est à gauche de -- Cela se lit mieux de cette façon « ne s'étend pas à droite de ». C'est vrai quand b <= d.
[a, b] &> [c, d] Couvre une partie ou est à droite de -- Cela se lit mieux de cette façon « ne s'étend pas à gauche de ». C'est vrai quand a >= c.
[a, b] = [c, d] Identique à -- Les segments [a, b] et [c, d] sont identiques, autrement dit a == b et c == d.
[a, b] && [c, d] Les segments [a, b] et [c, d] se chevauchent en partie.
[a, b] @> [c, d] Le segment [a, b] contient le segment [c, d], autrement dit a <= c et b >= d
[a, b] <@ [c, d] Le segment [a, b] est contenu dans [c, d], autrement dit a >= c et b <= d.

(Avant PostgreSQL 8.2, les opérateurs de contenance @> et <@ étaient appelés respectivement @ et ~. Ces noms sont toujours disponibles mais sont déclarés obsolètes et seront supprimés un jour. Notez que les anciens noms sont inversés par rapport à la convention suivie par les types de données géométriques !)

Les opérateurs B-tree standard sont aussi fournis, par exemple :

Opérateur Description
[a, b] < [c, d] Plus petit que
[a, b] > [c, d] Plus grand que

Ces opérateurs n'ont pas vraiment de sens sauf en ce qui concerne le tri. Ces opérateurs comparent en premier (a) à (c) et, s'ils sont égaux, comparent (b) à (d). Cela fait un bon tri dans la plupart des cas, ce qui est utile si vous voulez utiliser ORDER BY avec ce type.

F.32.5. Notes

Pour des exemples d'utilisation, voir les tests de régression sql/seg.sql.

Le mécanisme qui convertit (+-) en échelles standards n'est pas entièrement précis pour déterminer le nombre de chiffres significatifs pour les limites. Par exemple, si vous ajoutez un chiffre supplémentaire à la limite basse si l'intervalle résultat inclut une puissance de dix :

postgres=> select '10(+-)1'::seg as seg;
      seg
---------
9.0 .. 11             -- should be: 9 .. 11
   

La performance d'un index R-tree peut dépendre largement de l'ordre des valeurs en entrée. Il pourrait être très utile de trier la table en entrée sur la colonne seg ; voir le script sort-segments.pl pour un exemple.

F.32.6. Crédits

Auteur original : Gene Selkov, Jr. , Mathematics and Computer Science Division, Argonne National Laboratory.

Mes remerciements vont principalement au professeur Joe Hellerstein (http://db.cs.berkeley.edu/jmh/) pour avoir élucidé l'idée centrale de GiST (http://gist.cs.berkeley.edu/). Mes remerciements aussi aux développeurs de PostgreSQL pour m'avoir permis de créer mon propre monde et de pouvoir y vivre sans pertubation. Argonne Lab et le département américain de l'énergie ont aussi toute ma gratitude pour les années de support dans ma recherche sur les bases de données.