##@cooked comments # -*- coding: utf-8 mode: sh -*- vim:sw=4:sts=4:et:ai:si:sta:fenc=utf-8 ## fonctions pour awk ##@cooked nocomments ##@require base uprovide awk urequire base __AWKDEF_HELP="\ Les variables données en arguments sont définies dans une section BEGIN{}. Si une valeur ne ressemble pas à une définition de variable, l'analyse des variables s'arrête et le reste des arguments est inséré tel quel. Normalement, les variables définies sont scalaires, avec une syntaxe de la forme name=value pour une chaine, ou name:int=value pour une valeur entière. Dans la forme name=value, si la valeur ne contient que des chiffres, alors elle est considérée comme entière. Il est aussi possible d'utiliser la syntaxe awk_array[@]=bash_array pour initialiser le tableau awk_array, qui contiendra toute les valeurs du tableau nommé bash_array, avec les indices de 1 à N, N étant le nombre d'éléments du tableau bash_array. La variable awk_array_count est aussi initialisée, et contient le nombre d'éléments du tableau. La syntaxe simplifiée array[@] est équivalente à array[@]=array Il existe une autre syntaxe 'awk_array[@]=<' qui permet de spécifier les valeurs du tableau, une par ligne, e.g: $'values[@]=<\nvalue1\nvalue2' pour un tableau values qui contiendra deux valeurs: value1 et value2 Les fonctions suivantes sont définies: quote_value(s) quoter une valeur pour le shell. la valeur est entourée de quotes, e.g: quote_value(\"here, \\\"there\\\" and 'everywhere'.\") --> 'here, \"there\" and '\\''everywhere'\\''.' quoted_values() quoter les valeurs \$1..\$NF pour les passer comme argument sur la ligne de commande avec eval. e.g.: print \"mycmd \" quoted_values() La ligne qui est affichée pourra être évaluée avec eval dans le shell. quote_subrepl(s) quoter une valeur pour l'argument r des fonctions sub() et gsub(). Les caractères suivants sont mis en échappement: \\ & quote_grep(s) quoter une valeur pour un pattern *simple* de grep. Les caractères suivants sont mis en échappement: \\ . [ ^ \$ * quote_egrep(s) quoter une valeur pour un pattern *étendu* de grep. Les caractères suivants sont mis en échappement: \\ . [ ^ \$ ? + * ( ) | { quote_sql(s) quoter une valeur pour un script sql. la valeur est entourée de quotes, e.g: quote_sql(\"hello'there\") --> 'hello''there' unquote_mysqlcsv(s) Analyser une valeur exportée de MySQL avec mysqlcsv. Les transformations suivantes sont effectuées: \\n --> \\t --> \\0 --> \\\\ --> \\ mkindices(values, indices) créer le tableau indices qui contient les indices du tableau values, de 1 à N, et retourner la valeur N. Il faudra utiliser les valeurs de cette manière: count = mkindices(values, indices) for (i = 1; i <= count; i++) { value = values[indices[i]] ... } cette fonction nécessite gnuawk array_new(dest) créer un nouveau tableau vide dest array_newsize(dest, size) créer un nouveau tableau de taille size, rempli de chaines vides array_copy(dest, src) faire une copie d'un tableau. Cette fonction nécessite gnuawk, puisqu'elle utilise mkindices(). array_getlastindex(src) Retourner l'index du dernier élément du tableau src array_add(dest, value) Ajouter un élément dans dest, avec l'index array_getlastindex(dest)+1 array_deli(dest, i) Supprimer l'élément d'index i dans le tableau dest. Les index des éléments après i sont corrigés en conséquence. Cette fonction assume que les indices du tableau commencent à 1 et n'ont pas de \"trous\". Si i==0, cette fonction est un NOP. array_del(dest, value[, ignoreCase]) Supprimer *tous* les éléments du tableau dest dont la valeur est value. Les indexes des valeurs sont trouvées avec key_index(), puis les valeurs sont supprimées avec array_deli() ignoreCase permet de spécifier que la recherche de la valeur se fait en ignorant la casse. array_extend(dest, src) Ajouter les éléments de src dans dest, en commençant avec l'index array_getlastindex(dest)+1 array_fill(dest) remplir le tableau avec \$1..\$NF array_getline(src) avec le tableau array contenant N éléments, initialise \$1..\$N avec les valeurs du tableau array_appendline(src) avec le tableau array contenant N éléments, initialise \$(NF+1)..\$(NF+N) avec les valeurs du tableau in_array(value, values[, ignoreCase]) tester si le tableau values contient la valeur value, en ne tenant éventuellement pas compte de la casse. key_index(value, values[, ignoreCase]) trouver l'index de value dans le tableau values, en ne tenant éventuellement pas compte de la casse. Retourner 0 si la valeur n'a pas été trouvée array2s(values, prefix, sep, suffix, noindices) convertir un tableau en chaine pour affichage. attention! les valeurs sont affichés dans un ordre arbitraire. noindices, s'il vaut 1, supprime l'affichage des indices du tableau. prefix (qui vaut par défaut \"[\") est ajouté avant la chaine, suffix (qui vaut par défaut \"]\") après, et sep (qui vaut par défaut \",\") est utilisé pour séparer chaque valeur. array2so(values, prefix, sep, suffix, noindices) convertir un tableau en chaine pour affichage. Les valeurs sont affichés dans l'ordre du tableau. Cette fonction nécessite gnuawk, puisqu'elle utilise mkindices(). noindices, s'il vaut 1, supprime l'affichage des indices du tableau. prefix est ajouté avant la chaine, suffix après, et sep (qui vaut par défaut \",\") est utilisé pour séparer chaque valeur. array_join(values, sep, prefix, suffix) convertir un tableau en chaine pour affichage. Les valeurs sont affichés dans l'ordre du tableau. Cette fonction nécessite gnuawk, puisqu'elle utilise mkindices(). Il n'y a pas de valeur par défaut pour sep, prefix et suffix. printto(s, output) en fonction de la valeur de output, afficher la chaine s sur la destination spécifiée. output est de la forme... faire.... \"\" print s \"dest\" print s >\"dest\" \">dest\" print s >\"dest\" \">>dest\" print s >>\"dest\" XXX les formes suivantes sont désactivées pour le moment: \"|dest\" print s |\"dest\" \"|&dest\" print s |&\"dest\" find_line(input, field, value) retourner la première ligne du fichier input dont le champ \$field vaut value. Retourner une chaine vide si la ligne n'a pas été trouvée. merge_line(input, field, key) équivaut à: \$0 = \$0 FS find_line(input, field, \$key) La ligne courante n'est pas modifiée si la ligne correspondante dans input n'est pas trouvée. array_parsecsv2(fields, line, nbfields, colsep, qchar, echar) array_parsecsv(fields, line, nbfields[, colsep, qchar, echar]) analyser une ligne au format csv, et initialiser le tableau fields aux valeurs des champs trouvés. Si nbfields est spécifié, c'est le nombre de champs minimum que doit avoir le tableau résultat. Le tableau est complété avec des chaines vides au besoin. Le tableau commence à l'index 1. Consulter array_formatcsv2 pour la signification de colsep, qchar et echar. array_parsecsv(fields, line, nbfields) est équivalent à array_parsecsv2(fields, line, nbfields, ",", "\"", "") parsecsv(line) équivaut à: array_parsecsv(fields, line) array_getline(fields) getlinecsv(file) obtient une ligne par getline, l'analyse, puis initialise \$1..\$N avec les valeurs trouvées. equivaut à: getline parsecsv(\$0) Si file est spécifié, utiliser 'getline "$tmpleft" # faire le fichier de travail pour rfile local tmpright ac_set_tmpfile tmpright "" __mergecsv_right "" __MERGECSV_DEBUG <"$rfile" awkrun -f \ padding="$padding" padlen:int="$padlen" \ parse_headers:int="$parse_headers" ignore_case:int="$ignore_case" \ rskip:int="$rskip" rkey="$rkey" \ "$__AWKCSV_FUNCTIONS"' NR <= rskip { next } parse_headers && do_once("parse-headers") { array_parsecsv(HEADERS, $0) rkey = geth(rkey) if (!rkey) rkey = 1 next } { oline = $0 parsecsv($0) keyvalue = substr($rkey, 1, padlen) if (ignore_case) keyvalue = tolower(keyvalue) print keyvalue substr(padding, 1, padlen - length(keyvalue)) "2" oline } ' | csort -su >"$tmpright" # calculer les options de post-traitement case "$select" in none|n|"") select=none;; inner-join|inner|join|j) select=inner-join;; left-join|left|l) select=left-join;; right-join|right|r) select=right-join;; left-only|lo) select=left-only;; right-only|ro) select=right-only;; *) ewarn "$select: valeur de --select invalide. Elle sera ignorée" select=none ;; esac if [ "$postproc" == "auto" ]; then case "$select" in left-only) lkeepf="*"; rkeepf=""; postproc=1;; right-only) lkeepf=""; rkeepf="*"; postproc=1;; *) lkeepf="*"; rkeepf="*"; postproc=;; esac fi if [ -n "$postproc" ]; then if [ "$lkeepf" == "--NOT-SET--" ]; then case "$select" in right-only) lkeepf=;; *) lkeepf="*";; esac fi if [ "$rkeepf" == "--NOT-SET--" ]; then case "$select" in left-only) rkeepf=;; *) rkeepf="*";; esac fi local -a tmpfields fields local field src dest if [ -n "$lcopyf" ]; then array_split tmpfields "$lcopyf" , fields=() for field in "${tmpfields[@]}"; do splitpair "$field" dest src [ -n "$src" ] || src="$dest" array_add fields "$dest:$src" done lcopyf="$(array_join fields ,)" fi if [ -n "$rcopyf" ]; then array_split tmpfields "$rcopyf" , fields=() for field in "${tmpfields[@]}"; do splitpair "$field" dest src [ -n "$src" ] || src="$dest" array_add fields "$dest:$src" done rcopyf="$(array_join fields ,)" fi if [ "$lskipf" == "*" ]; then lskipf= lkeepf= fi if [ -n "$lskipf" ]; then [ "$lkeepf" == "*" ] && lkeepf="$lheaders" array_split fields "$lkeepf" , array_split tmpfields "$lskipf" , for field in "${tmpfields[@]}"; do array_del fields "$field" done lkeepf="$(array_join fields ,)" fi if [ "$rskipf" == "*" ]; then rskipf= rkeepf= fi if [ -n "$rskipf" ]; then [ "$rkeepf" == "*" ] && rkeepf="$rheaders" array_split fields "$rkeepf" , array_split tmpfields "$rskipf" , for field in "${tmpfields[@]}"; do array_del fields "$field" done rkeepf="$(array_join fields ,)" fi fi local -a lcopyfs rcopyfs lkeepfs rkeepfs array_split lcopyfs "$lcopyf" , array_split rcopyfs "$rcopyf" , array_split lkeepfs "$lkeepf" , array_split rkeepfs "$rkeepf" , # fusionner les deux fichiers local tmpmerged ac_set_tmpfile tmpmerged "" __mergecsv_merged "" __MERGECSV_DEBUG csort -s -k 1,$(($padlen + 1)) "$tmpleft" "$tmpright" >"$tmpmerged" <"$tmpmerged" awkrun -f \ padlen:int="$padlen" \ parse_headers:int="$parse_headers" ignore_case:int="$ignore_case" \ lheaderscsv="$lheaders" lkey="$lkey" lprefix="$lprefix" \ rheaderscsv="$rheaders" rkey="$rkey" rprefix="$rprefix" \ select="$select" postproc:int="$postproc" \ lcopyfs[@] rcopyfs[@] \ lkeepfs[@] rkeepfs[@] \ "$__AWKCSV_FUNCTIONS"' function lgeth(field, nbfields, i) { nbfields = array_len(lheaders) if (int(field) == field) { field = int(field) if (field >= 1 && field <= nbfields) return field else return 0 } field = tolower(field) for (i = 1; i <= nbfields; i++) { if (field == tolower(lheaders[i])) { return i } } return 0 } function rgeth(field, nbfields, i) { nbfields = array_len(rheaders) if (int(field) == field) { field = int(field) if (field >= 1 && field <= nbfields) return field else return 0 } field = tolower(field) for (i = 1; i <= nbfields; i++) { if (field == tolower(rheaders[i])) { return i } } return 0 } function copyf(lfields, rfields, i, fs, vs, l, r) { for (i = 1; i <= lcopyfs_count; i++) { fs = lcopyfs[i] match(fs, /(.*):(.*)/, vs) l = vs[1]; l = lgeth(l) r = vs[2]; r = rgeth(r) if (l && r) { lfields[l] = rfields[r] } } for (i = 1; i <= rcopyfs_count; i++) { fs = rcopyfs[i] match(fs, /(.*):(.*)/, vs) l = vs[2]; l = lgeth(l) r = vs[1]; r = rgeth(r) if (l && r) { rfields[r] = lfields[l] } } } function keepf(lfields, rfields, i) { for (i = lskipfs_count; i >= 1; i--) { array_deli(lfields, lskipfs[i]) } for (i = rskipfs_count; i >= 1; i--) { array_deli(rfields, rskipfs[i]) } } function printmerged(lline, rline, nocopy, linecsv, tmplinecsv) { if (lline != "") array_parsecsv(lfields, lline, array_len(lheaders)) else array_newsize(lfields, array_len(lheaders)) if (rline != "") array_parsecsv(rfields, rline, array_len(rheaders)) else array_newsize(rfields, array_len(rheaders)) if (postproc) { if (!nocopy) copyf(lfields, rfields) keepf(lfields, rfields) } linecsv = array_formatcsv(lfields) tmplinecsv = array_formatcsv(rfields) if (tmplinecsv != "") { if (linecsv != "") linecsv = linecsv "," linecsv = linecsv tmplinecsv } print linecsv } BEGIN { if (parse_headers) { array_parsecsv(lheaders, lheaderscsv) lheaders_count = array_len(lheaders) if (lprefix != "") { for (i = 1; i <= lheaders_count; i++) { lheaders[i] = lprefix lheaders[i] } lheaderscsv = array_formatcsv(lheaders) } lkey = lgeth(lkey) if (!lkey) lkey = 1 array_parsecsv(rheaders, rheaderscsv) rheaders_count = array_len(rheaders) if (rprefix != "") { for (i = 1; i <= rheaders_count; i++) { rheaders[i] = rprefix rheaders[i] } rheaderscsv = array_formatcsv(rheaders) } rkey = rgeth(rkey) if (!rkey) rkey = 1 } LEFT = 1 RIGHT = 2 hasleft = 0 # quelle sélection effectuer? selectjoin = select ~ /none|inner-join|left-join|right-join/ selectleft = select ~ /none|left-join|left-only/ selectright = select ~ /none|right-join|right-only/ # liste des indexes de champs a supprimer array_new(lskipfs) if (!in_array("*", lkeepfs)) { for (i = 1; i <= lheaders_count; i++) { field = lheaders[i] if (!in_array(field, lkeepfs)) { fieldi = lgeth(field) if (i != 0) array_add(lskipfs, fieldi) } } asort(lskipfs) } lskipfs_count = array_len(lskipfs) array_new(rskipfs) if (!in_array("*", rkeepfs)) { for (i = 1; i <= rheaders_count; i++) { field = rheaders[i] if (!in_array(field, rkeepfs)) { fieldi = rgeth(field) if (i != 0) array_add(rskipfs, fieldi) } } asort(rskipfs) } rskipfs_count = array_len(rskipfs) if (parse_headers) { # afficher les en-têtes après traitement de lkeepfs et rkeepfs, parce que # printmerged() a besoin de lskipfs et rskipfs printmerged(lheaderscsv, rheaderscsv, 1) } } function readleft() { lprefix = substr($0, 1, padlen) lwhich = substr($0, padlen + 1, 1) if (lwhich == "1") lwhich = LEFT; else lwhich = RIGHT lline = substr($0, padlen + 2) hasleft = 1 } function readright() { rprefix = substr($0, 1, padlen) rwhich = substr($0, padlen + 1, 1) if (rwhich == "1") rwhich = LEFT; else rwhich = RIGHT rline = substr($0, padlen + 2) } function right2left() { lprefix = rprefix lwhich = rwhich lline = rline hasleft = 1 } !hasleft { readleft() next } { readright() if (lprefix == rprefix && lwhich == LEFT && rwhich == RIGHT) { if (selectjoin) printmerged(lline, rline) hasleft = 0 next } else { if (lwhich == LEFT && selectleft) { printmerged(lline, "") } else if (lwhich == RIGHT && selectright) { printmerged("", lline) } right2left() next } } END { if (hasleft) { if (lwhich == LEFT && selectleft) { printmerged(lline, "") } else if (lwhich == RIGHT && selectright) { printmerged("", lline) } } } ' ac_clean "$tmpleft" "$tmpright" "$tmpmerged" return 0 } function cmergecsv() { LANG=C lmergecsv "$@"; } function mergecsv() { LANG=C lmergecsv "$@"; } ################################################################################ __SORTCSV_HELP="\ Trier un fichier csv sur la valeur d'un champ --skip nblines Sauter nblines au début du flux -h, --parse-headers Lire la liste des champs à partir de la première ligne non ignorée des flux. Si cette option est spécifiée (ce qui est le cas par défaut), le champ spécifié avec l'option -k peut être le nom effectif du champ. Sinon, le champ ne peut être que numérique. --numkeys Ne pas analyser la première ligne pour les noms des champs. Les champs spécifiés ne peuvent être que numériques. -k, --key FIELD Spécifier le champ utilisé pour le tri. Si --parse-headers n'est pas spécifié, cette valeur doit être numérique. La valeur par défaut est 1. --no-headers Ne pas afficher les en-têtes en sortie. -n, --numeric-sort Comparer selon la valeur numérique du champ -i, -f, --ignore-case Comparer sans tenir compte de la casse -r, --reverse Inverser l'ordre de tri -s, --stable Stabiliser le tri en inhibant la comparaison de dernier recours -u, --unique Ne garder que la première occurence de plusieurs entrées identiques rencontrées. Note: la correspondance se fait sur toute l'entrée, pas uniquement sur la valeur de la clé. -o, --output OUTPUT Ecrire le résultat dans OUTPUT au lieu de la sortie standard" : "${__SORTCSV_DEBUG:=}" function lsortcsv() { # Trier le fichier csv $1. La clé du tri est spécifiée par l'option -k et # vaut 1 par défaut. Les valeurs des clés ne doivent pas faire plus de 64 # caractères de long. eval "$(utools_local)" local skip=0 parse_headers=auto key=1 show_headers=1 local numeric_sort= ignore_case= reverse_sort= stable_sort= unique_sort= output= parse_opts "${PRETTYOPTS[@]}" \ --skip: skip= \ -h,--parse-headers parse_headers=1 \ --numkeys parse_headers= \ -k:,--key: key= \ --no-headers show_headers= \ --show-headers show_headers=1 \ -n,--numeric-sort numeric_sort=1 \ -i,-f,--ignore-case ignore_case=1 \ -r,--reverse reverse_sort=1 \ -s,--stable stable_sort=1 \ -u,--unique unique_sort=1 \ -o:,--output: output= \ @ args -- "$@" && set -- "${args[@]}" || die "$args" local input="$1" if [ -z "$input" -o "$input" == "-" ]; then input=/dev/stdin elif [ ! -f "$input" ]; then eerror "$input: fichier introuvable" return 1 fi local padding="----------------------------------------------------------------" local padlen=${#padding} local headers local -a tmpfiles [ "$parse_headers" == "auto" ] && parse_headers=1 if [ -n "$parse_headers" -a -z "$headers" ]; then if [ "$input" == /dev/stdin ]; then # Si on lit depuis stdin, il faut faire une copie du flux dans un # fichier temporaire pour calculer les en-têtes local tmpinput ac_set_tmpfile tmpinput "" __sortcsv_input0 "" __SORTCSV_DEBUG array_add tmpfiles "$tmpinput" cat >"$tmpinput" input="$tmpinput" fi headers="$(<"$input" awkrun skip:int="$skip" 'NR <= skip { next } { print; exit }')" fi # faire le fichier de travail local tmpinput ac_set_tmpfile tmpinput "" __sortcsv_input "" __SORTCSV_DEBUG array_add tmpfiles "$tmpinput" <"$input" >"$tmpinput" awkrun -f \ padding="$padding" padlen:int="$padlen" \ skip:int="$skip" parse_headers:int="$parse_headers" \ key="$key" \ "$__AWKCSV_FUNCTIONS"' NR <= skip { next } parse_headers && do_once("parse-headers") { array_parsecsv(HEADERS, $0) key = geth(key) if (!key) key = 1 next } { oline = $0 parsecsv($0) keyvalue = substr($key, 1, padlen) print keyvalue substr(padding, 1, padlen - length(keyvalue)) oline } ' # trier le fichier de travail local tmpsorted ac_set_tmpfile tmpsorted "" __sortcsv_sorted "" __SORTCSV_DEBUG array_add tmpfiles "$tmpsorted" args=(# arguments de sort ${numeric_sort:+-n} ${ignore_case:+-f} ${reverse_sort:+-r} ${stable_sort:+-s} ${unique_sort:+-u} ) csort -k 1,$(($padlen + 1)) "${args[@]}" <"$tmpinput" >"$tmpsorted" # résultat [ -n "$output" ] || output=/dev/stdout <"$tmpsorted" >"$output" awkrun -f \ padlen:int="$padlen" \ headerscsv="$headers" show_headers:int="$show_headers" \ ' BEGIN { if (show_headers) print headerscsv } { print substr($0, padlen + 1) } ' ac_clean "${tmpfiles[@]}" return 0 } function csortcsv() { LANG=C lsortcsv "$@"; } function sortcsv() { LANG=C lsortcsv "$@"; }