ARFF 檔案

ARFF 檔案(屬性 - 關係檔案格式)是 Weka 中使用的資料的最常見格式。每個 ARFF 檔案必須有一個標題,描述每個資料例項應該是什麼樣的。可以使用的屬性如下:

  • 數字

實數或整數。

  • 公稱

標稱屬性必須提供一組可能的值。例如:

@ATTRIBUTE class        {Iris-setosa,Iris-versicolor,Iris-virginica}
  • 字串

允許任意字串值。通常使用 StringToWordVector 過濾器稍後處理。

  • 日期

允許指定日期。與 Java 的 SimpleDateFormat 一樣,這個日期也可以格式化; 它將預設為 ISO-8601 格式。

示例標題可以看作如下:

@RELATION iris

@ATTRIBUTE sepallength  NUMERIC
@ATTRIBUTE sepalwidth   NUMERIC
@ATTRIBUTE petallength  NUMERIC
@ATTRIBUTE petalwidth   NUMERIC
@ATTRIBUTE class        {Iris-setosa,Iris-versicolor,Iris-virginica}

在標題之後,每個例項必須列出正確的例項數; 如果例項的屬性值未知,則可以使用 ?。以下顯示了 ARFF 檔案中的例項集的示例:

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa