2014
Data munging in Perl 6 vs Perl 5
案例學習: 生成成績報告單
example.txt
STDOUT
Peter B
Celine A-
Zsófia B+
Jo?o F
Maryam B+
秀英 B-
Finn D+
Aarav A
Emma F
Omar B
輸出報告單:
Zsófia's grade: B+
List of students with a failing grade:
Jo?o, Emma
Distribution of grades by letter:
A: 2 students
B: 5 students
D: 1 student
F: 2 students
example.txt 是一個文本文件, 每行一個學生姓名和分數(shù)效五,中間用空格分割据德。
我們希望我們的腳本能解析這樣的文件并打印含有如下信息的報告:
學生名為 “Zsófia”的成績
所有不及格學生的名字 (i.e. worse than D-),
根據(jù)字母( 不帶 +/- ) 把成績分組办桨。得到學生成績的分布僵驰。
讓我們一步步來:
Part 1: 樣板
Perl 5
#!/usr/bin/env perluse warnings;
use strict;use feature 'say';
use utf8;
binmode STDOUT, ':utf8';
Perl 6
#!/usr/bin/env perl6
在 Perl 6 中所有這些都為我們做好了就斤。
Part 2: 讀取并解析輸入
Perl 5
open my $fh, '<:utf8', "grades.txt"
or die "Failed to open file: $!";
my %grade;
while (<$fh>) {
m/^(\w+) \s+ ([A-F][+-]?)$/x
or die "Can't parse line '$_'";
$grade{$1} = $2;
};
Perl 6
my %grade = "grades.txt".IO.lines.map: {
m:s/^(\w+) (<[A..F]><[+-]>?)$/
or die "Can't parse line '$_'";
~$0 => ~$1
};
在 Perl 6 中充边, 對文件名字符串調(diào)用 .IO 方法會返回一個代表文件系統(tǒng)路徑的對象庸推, 我們可以繼續(xù)在這個對象上調(diào)用 .lines 方法,得到文件的所有行的一個惰性列表浇冰。 “Lazy” 意味著它只會從磁盤中按需讀取新行贬媒,當我們使用 .map 方法遍歷列表元素的時候, 這樣能使用單個賦值操作就能優(yōu)雅地初始化一個散列肘习。
我們不需要讓文件句柄識別 Unicode 际乘,也不用管文件句柄是否正確關(guān)閉, 這在 Perl 6 中都是默認發(fā)生的漂佩。
.method: ... 語法也可以寫為 .method(...), 前者使 map 看起來更像一個 block 語句脖含,并減少了括號凌亂。
:s (“sigspace”) 正則修飾符使解析 tokens 間的空白更優(yōu)雅投蝉。 但 Perl 6 中的字符類比 Perl 5 復雜了一丟丟养葵。
正則捕獲結(jié)果變量($0, $1, …) 返回一個完整的 Match 對象 - 它為復雜使用場景增加了很多靈活性, 但是這里我們只想保留字符串瘩缆, 所以使用 ~ 前置操作符字符串化了匹配對象关拒。
Part 3: 查看數(shù)據(jù)的特定項
Perl 5
say "Zsófia's grade: $grade{Zsófia}";
Perl 6
say "Zsófia's grade: %grade<Zsófia>";
Perl 6 總是把散列中的 { }
中的東西解析為表達式, 使用 < >
表示字面值庸娱。
Part 4: 過濾數(shù)據(jù)
Perl 5
say "List of students with a failing grade:";
say " " . join ", ", grep { $grade{$_} ge "E" } keys %grade;
Perl 6
say "List of students with a failing grade:";
say " " ~ %grade.grep(*.value ge "E")?.key.join(", ");
Perl 6 中允許我們按執(zhí)行順序把一些列方法寫為鏈式操作着绊。有一個重要區(qū)別:Perl 6 能讓我們直接遍歷散列的項, 散列中每一項都是一個 Pair 對象(Pair 對象能使用 .key 和.value 方法)涌韩。
The *
Whatever star 用于定義一個簡單的回調(diào)畔柔,而不用寫一個花括號塊。
The ?.
hyper operator 用于對 .grep 返回的 Pairs 的每個 Pair 上調(diào)用 一次 .key 方法臣樱,得出姓名列表
Part 5: 從數(shù)據(jù)中創(chuàng)建頻率分布
Perl 5
say "Distribution of grades by letter:";
my %freq;
$freq{substr $grade{$_}, 0, 1}++ for keys %grade;
say " $_: $freq{$_} student".($freq{$_} != 1 ? "s" : "") for sort keys %freq;
Perl 6
say "Distribution of grades by letter:";
say " {.key}: {+.value} student{"s" if .value != 1}"
for %grade.classify(*.value.comb[0]).sort(*.key);
計數(shù)和分組實在太常見了靶擦, Perl 6 提供了 .classify
方法腮考。
classify 方法里需要指定要分組的項(這里是 代表 %grade
條目的 Pair 對象 ), 這些項應該根據(jù)什么規(guī)則進行分組(這里是根據(jù)第一個字母的值玄捕, 它代表分數(shù)(沒有 +/-))踩蔚。
這生成一個匿名的散列,散列的值是匿名數(shù)組枚粘。
%("B" => ["Peter" => "B", "Zsófia" => "B+", "Maryam" => "B+",
"秀英" => "B-", "Omar" => "B"], "A" => ["Celine" => "A-", "Aarav" => "A"], "F" => ["Jo?o" => "F", "Emma" => "F"], "D" => ["Finn" => "D+"])
因為我們只對每組元素的個數(shù)感興趣馅闽, 我們使用 + 前置操作符數(shù)字化每個值然后打印它, 在數(shù)組前面添加 + 符號會得到數(shù)組元素的個數(shù)馍迄。
在 term 位置上一個 單獨的 .method 方法等價于 $_.method
, 意思是對當前循環(huán)變量調(diào)用該方法福也。
任意代碼的返回值能使用花括號 {} 插值到字符串中。
if 語句能被用作表達式 - 當條件為 false 時攀圈,返回空列表暴凑,然后被字符串化為空字符串。
對字符串調(diào)用不帶參數(shù)的 .comb
會生成該字符串的一個字符列表赘来。