2013-08-27 15:14:44 +04:00
|
|
|
#!/bin/bash
|
|
|
|
# -*- coding: utf-8 mode: sh -*- vim:sw=4:sts=4:et:ai:si:sta:fenc=utf-8
|
2014-10-12 21:51:38 +04:00
|
|
|
source "$(dirname "$0")/lib/ulib/ulib" || exit 1
|
|
|
|
urequire DEFAULTS
|
2013-08-27 15:14:44 +04:00
|
|
|
|
|
|
|
function display_help() {
|
2014-10-12 21:53:08 +04:00
|
|
|
uecho "$scriptname: convertir un fichier ou les fichiers d'un répertoire
|
2013-08-27 15:14:44 +04:00
|
|
|
|
|
|
|
USAGE
|
2015-08-06 14:29:09 +04:00
|
|
|
$scriptname -f FILE [cmds...]
|
|
|
|
$scriptname FILE [cmds...]
|
2014-10-12 21:51:38 +04:00
|
|
|
|
2016-02-29 20:34:45 +04:00
|
|
|
Une ou plusieurs commandes peuvent être spécifiées, séparées par //
|
2014-10-12 21:58:14 +04:00
|
|
|
La commande par défaut est 'lf'
|
2015-01-09 10:24:09 +04:00
|
|
|
Si des commandes utilisant des options sont utilisées, penser à séparer les
|
|
|
|
options de $scriptname avec --
|
2013-08-27 15:14:44 +04:00
|
|
|
|
|
|
|
OPTIONS
|
2014-10-12 21:51:38 +04:00
|
|
|
-N, --detect-always
|
|
|
|
Pour la commande conv, ne pas optimiser le calcul de l'encoding. Cette
|
|
|
|
option n'est valide que si src_enc n'est pas spécifié. On assume que
|
|
|
|
tous les fichiers n'ont pas le même encoding: l'encoding src_enc est
|
|
|
|
donc recalculé à chaque fois.
|
|
|
|
-r, --reverse
|
2014-10-12 21:54:38 +04:00
|
|
|
Pour la commande conv, inverser src_enc et dest_enc, qui doivent être
|
|
|
|
tous les deux spécifiés.
|
2014-11-06 07:16:36 +04:00
|
|
|
-f, --file FILE
|
2015-08-06 14:29:09 +04:00
|
|
|
Spécifier le fichier ou le répertoire concerné par la conversion. Les
|
|
|
|
aliases -d et --dir sont aussi reconnus.
|
|
|
|
Si cette option n'est pas spécifiée, le premier argument est considéré
|
|
|
|
comme le nom du fichier ou du répertoire à convertir. Par défaut,
|
|
|
|
convertir l'entrée standard.
|
|
|
|
Si un répertoire est spécifié, tous les fichiers de ce répertoire et de
|
|
|
|
ses sous-répertoires sont recherchés de façon récursive, sans limite de
|
|
|
|
profondeur. Ensuite, chacun de ces fichiers est converti.
|
|
|
|
--show-cmd
|
|
|
|
Afficher la commande qui serait exécutée
|
2013-08-27 15:14:44 +04:00
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
COMMANDES
|
2014-10-13 08:42:09 +04:00
|
|
|
c, conv dest_enc [src_enc]
|
2014-10-12 21:51:38 +04:00
|
|
|
Convertir le fichier dans un autre encoding.
|
|
|
|
dest_enc est l'encoding destination. Il doit être spécifié.
|
|
|
|
src_enc est l'encoding source. S'il n'est pas spécifié ou vaut 'detect',
|
|
|
|
il est autodétecté.
|
2014-11-06 08:06:57 +04:00
|
|
|
U, utf8 [src_enc]
|
2014-10-12 21:51:38 +04:00
|
|
|
Equivalent à conv utf8 src_enc
|
2014-11-06 08:06:57 +04:00
|
|
|
L, latin1 [src_enc]
|
2014-10-12 21:51:38 +04:00
|
|
|
Equivalent à conv latin1 src_enc
|
|
|
|
lf
|
|
|
|
crlf
|
|
|
|
cr
|
|
|
|
Convertir respectivement les caractères de fin de ligne en LF, CR/LF ou CR
|
2014-10-22 11:43:56 +04:00
|
|
|
lc, latin1compat
|
|
|
|
Transformer certains caratères UTF-8 en équivalents qui existent en Latin1
|
2014-11-06 07:16:36 +04:00
|
|
|
na, noaccents
|
2015-01-09 10:24:09 +04:00
|
|
|
Transformer les caractères accentués en caractères non accentués
|
|
|
|
sort [-u]
|
|
|
|
Trier le fichier avec la commande sort. Attention! Il ne faut utiliser
|
|
|
|
que les options de sort qui agissent sur un flux e.g. -u pour trier les
|
|
|
|
lignes de façon unique."
|
2014-10-12 21:51:38 +04:00
|
|
|
}
|
2013-08-27 15:14:44 +04:00
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
function detect_enc() {
|
2014-10-12 22:15:33 +04:00
|
|
|
local enc
|
2014-10-12 21:51:38 +04:00
|
|
|
if [ -f "$1" ]; then
|
2014-10-12 22:15:33 +04:00
|
|
|
setx enc="$scriptdir/lib/pywrapper" uencdetect.py -f "$1"
|
2014-10-12 21:51:38 +04:00
|
|
|
elif [ -d "$1" ]; then
|
|
|
|
local -a files
|
|
|
|
setx -a files=evalp find "$1" -type f // head -n1
|
|
|
|
if [ ${#files[*]} -gt 0 ]; then
|
2014-10-12 22:15:33 +04:00
|
|
|
setx enc="$scriptdir/lib/pywrapper" uencdetect.py -f "${files[0]}"
|
2014-10-12 21:51:38 +04:00
|
|
|
fi
|
|
|
|
fi
|
2014-10-12 22:15:33 +04:00
|
|
|
[ -n "$enc" ] || enc=Unknown
|
|
|
|
echo "$enc"
|
|
|
|
[ "$enc" != Unknown ]
|
2014-10-12 21:51:38 +04:00
|
|
|
}
|
2013-08-27 15:14:44 +04:00
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
function before_parse_cmd() {
|
|
|
|
case "$1" in
|
2014-10-13 08:42:09 +04:00
|
|
|
conv|c)
|
2014-10-12 21:51:38 +04:00
|
|
|
if [ -n "$OPTIMIZE_CONV" ]; then
|
|
|
|
local to="$2"
|
|
|
|
[ -n "$to" ] && setx CONV_TO=__norm_encoding "$to"
|
2013-08-27 15:14:44 +04:00
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
local from="${3:-detect}"
|
|
|
|
if [ "$from" == "detect" ]; then
|
2014-10-12 22:15:33 +04:00
|
|
|
if ! setx from=detect_enc "$FILE"; then
|
2014-10-12 21:51:38 +04:00
|
|
|
echo "$FILE: Impossible de détecter l'encoding"
|
|
|
|
return 1
|
|
|
|
fi
|
|
|
|
fi
|
|
|
|
[ -n "$from" ] && setx CONV_FROM=__norm_encoding "$from"
|
|
|
|
OPTIMIZE_CONV=
|
|
|
|
fi
|
|
|
|
;;
|
|
|
|
esac
|
2013-08-27 15:14:44 +04:00
|
|
|
}
|
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
function iconv_detect() {
|
|
|
|
local to="$1"; shift
|
|
|
|
local from
|
2014-10-12 22:15:33 +04:00
|
|
|
if setx from=detect_enc "$FILE"; then
|
2014-10-12 21:51:38 +04:00
|
|
|
if [ -n "$REVERSE_CONV" ]; then
|
|
|
|
local tmp="$to"
|
|
|
|
to="$from"
|
|
|
|
from="$tmp"
|
2013-08-27 15:14:44 +04:00
|
|
|
fi
|
2014-10-12 21:51:38 +04:00
|
|
|
iconv -f "$from" -t "$to" "$@"
|
|
|
|
return 0
|
2014-10-12 22:15:33 +04:00
|
|
|
else
|
|
|
|
cat
|
|
|
|
return 1
|
2014-10-12 21:51:38 +04:00
|
|
|
fi
|
|
|
|
}
|
|
|
|
|
|
|
|
function parse_cmd() {
|
|
|
|
local cmd="$1"; shift
|
|
|
|
local -a args
|
|
|
|
case "$cmd" in
|
2014-11-06 08:06:57 +04:00
|
|
|
utf8|U) parse_cmd conv utf8 "$@";;
|
|
|
|
latin1|L) parse_cmd conv latin1 "$@";;
|
2014-10-13 08:42:09 +04:00
|
|
|
conv|c)
|
2014-10-12 21:51:38 +04:00
|
|
|
local to="$CONV_TO" from="$CONV_FROM"
|
|
|
|
[ -n "$to" ] || to="$1"; shift
|
|
|
|
[ -f "$from" ] || from="${1:-detect}"; shift
|
|
|
|
|
|
|
|
if [ -z "$to" ]; then
|
|
|
|
echo "conv: vous devez spécifier l'encoding destination"
|
|
|
|
return 1
|
2013-08-27 15:14:44 +04:00
|
|
|
fi
|
2014-10-12 21:51:38 +04:00
|
|
|
setx to=__norm_encoding "$to"
|
|
|
|
if [ "$from" == "detect" ]; then
|
|
|
|
qvals iconv_detect "$to" "$@"
|
|
|
|
else
|
|
|
|
setx from=__norm_encoding "$from"
|
|
|
|
if [ "$from" == "$to" ]; then
|
|
|
|
echo "Une conversion de $from à $to n'a pas de sens. Veuillez re-essayer avec -N si nécessaire."
|
|
|
|
return 1
|
|
|
|
fi
|
|
|
|
if [ -n "$REVERSE_CONV" ]; then
|
|
|
|
local tmp="$to"
|
|
|
|
to="$from"
|
|
|
|
from="$tmp"
|
|
|
|
fi
|
|
|
|
qvals iconv -f "$from" -t "$to" "$@"
|
2013-08-27 15:14:44 +04:00
|
|
|
fi
|
2014-10-12 21:51:38 +04:00
|
|
|
;;
|
|
|
|
lf) echo _nl2lf;;
|
|
|
|
crlf) echo _nl2crlf;;
|
|
|
|
cr) echo _nl2cr;;
|
2014-10-22 11:43:56 +04:00
|
|
|
latin1compat|lc) echo _latin1compat;;
|
2014-11-06 07:16:36 +04:00
|
|
|
noaccents|na|fixchars|fc) echo _noaccents;;
|
2015-01-09 10:24:09 +04:00
|
|
|
sort) qvals sort "$@";;
|
2014-10-12 21:51:38 +04:00
|
|
|
*)
|
|
|
|
echo "$cmd: commande invalide"
|
|
|
|
return 1
|
|
|
|
;;
|
|
|
|
esac
|
|
|
|
return 0
|
2013-08-27 15:14:44 +04:00
|
|
|
}
|
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
function ffconv() {
|
|
|
|
local tmp="$FILE.tmp.$$"
|
|
|
|
autoclean "$tmp"
|
|
|
|
|
|
|
|
ebegin "$FILE"
|
|
|
|
if eval "$CMD" <"$FILE" >"$tmp"; then
|
|
|
|
(cat "$tmp" >"$FILE"; edot $? "replace $FILE")
|
2013-08-27 15:14:44 +04:00
|
|
|
fi
|
2014-10-12 21:51:38 +04:00
|
|
|
(rm "$tmp"; edot $? "remove temp")
|
|
|
|
eend
|
2013-08-27 15:14:44 +04:00
|
|
|
}
|
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
CONV_FROM=
|
|
|
|
CONV_TO=
|
2014-11-06 07:16:36 +04:00
|
|
|
OPTIMIZE_CONV=1
|
|
|
|
REVERSE_CONV=
|
|
|
|
FILE=
|
|
|
|
show_cmd=
|
2014-11-06 07:23:42 +04:00
|
|
|
parse_opts "${PRETTYOPTS[@]}" \
|
2014-10-12 21:51:38 +04:00
|
|
|
--help '$exit_with display_help' \
|
|
|
|
-N,--detect-always OPTIMIZE_CONV= \
|
|
|
|
-r,--reverse REVERSE_CONV=1 \
|
2014-11-06 07:16:36 +04:00
|
|
|
-f:,--file:,-d:,--dir: FILE= \
|
|
|
|
--show-cmd show_cmd=1 \
|
2014-10-12 21:51:38 +04:00
|
|
|
@ args -- "$@" && set -- "${args[@]}" || die "$args"
|
|
|
|
|
2015-08-06 14:29:09 +04:00
|
|
|
if [ -z "$FILE" ]; then
|
|
|
|
FILE="${1:--}"
|
|
|
|
shift
|
|
|
|
fi
|
2014-10-12 21:51:38 +04:00
|
|
|
[ "$FILE" == - ] && FILE=/dev/stdin
|
|
|
|
if [ "$FILE" != /dev/stdin ]; then
|
|
|
|
[ -e "$FILE" ] || die "$FILE: fichier introuvable"
|
|
|
|
fi
|
2013-08-27 15:14:44 +04:00
|
|
|
|
2014-10-12 21:51:38 +04:00
|
|
|
[ $# -gt 0 ] || set -- lf # commande par défaut
|
|
|
|
|
|
|
|
CMD= # la commande finale à lancer pour convertir le flux
|
|
|
|
while [ $# -gt 0 ]; do
|
|
|
|
args=()
|
|
|
|
while [ $# -gt 0 ]; do
|
|
|
|
arg="$1"; shift
|
|
|
|
if [ "$arg" == // ]; then
|
|
|
|
break
|
|
|
|
elif [ "${arg%//}" != "$arg" ]; then
|
|
|
|
local tmp="${arg%//}"
|
|
|
|
if [ -z "${tmp//\\/}" ]; then
|
|
|
|
arg="${arg#\\}"
|
|
|
|
fi
|
|
|
|
fi
|
|
|
|
args=("${args[@]}" "$arg")
|
|
|
|
done
|
|
|
|
|
|
|
|
if [ ${#args[*]} -gt 0 ]; then
|
|
|
|
before_parse_cmd "${args[@]}"
|
|
|
|
setx cmd=parse_cmd "${args[@]}" || die "$cmd"
|
|
|
|
if [ "$FILE" == /dev/stdin ]; then
|
|
|
|
# pas de suivi pour /dev/stdin
|
|
|
|
CMD="${CMD:+$CMD | }$cmd"
|
|
|
|
else
|
|
|
|
CMD="${CMD:+$CMD | }($cmd; edot \$? $cmd)"
|
|
|
|
fi
|
2013-08-27 15:14:44 +04:00
|
|
|
fi
|
2014-10-12 21:51:38 +04:00
|
|
|
done
|
|
|
|
|
2014-11-06 07:16:36 +04:00
|
|
|
if [ -n "$show_cmd" ]; then
|
|
|
|
echo "$CMD"
|
|
|
|
elif [ "$FILE" == /dev/stdin ]; then
|
2014-10-12 21:51:38 +04:00
|
|
|
eval "$CMD"
|
|
|
|
elif [ -f "$FILE" ]; then
|
|
|
|
ffconv
|
|
|
|
elif [ -d "$FILE" ]; then
|
|
|
|
setx -a files=find "$FILE" -type f
|
|
|
|
for FILE in "${files[@]}"; do
|
|
|
|
ffconv
|
2013-08-27 15:14:44 +04:00
|
|
|
done
|
2014-10-12 21:51:38 +04:00
|
|
|
else
|
|
|
|
die "$FILE: fichier invalide"
|
2013-08-27 15:14:44 +04:00
|
|
|
fi
|