2007|09|10|12|
2008|01|02|03|
2009|01|05|08|11|12|
2010|01|02|03|04|09|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|06|07|08|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|05|06|07|08|09|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|

2014-06-06 「ビックデータ」は、とにかく、めちゃくちゃに面倒くさいやつなのです。 [長年日記]

私は、「ビックデータ」という言葉が好きではないのですが、最近の私は、紛れもない「ビックデータ」を扱っています。

Thought I don't like the word "big data", I have to deal with the "big data".

私が、今、取り扱っている「ビックデータ」を定義してみたいと思います。

From the viewpoint of this task, I want to define the "big data".

■エクセルで読み込もうとすると「メモリ不足」と言われて処理が止まるデータ

"Data, that stop any process, Excel, for example, by the shortage of memory

■エディタで、データ項目を編集しようとすると(以下、同文)

"Data, whenever I try to edit the data items, (same as the above)"

つまり、ビックデータとは、「パソコンで、二進も三進(にっちもさっちも)もできないデータ」と定義できる ―― と、痛感しています。

In short, I really feel that “big data" should be defined that "everybody cannot do anything in a deadlock.""

「ビックデータ」を加工する場面なんかあるのか、と問われる方もいるかもしれません。

I think that someone wonder if they should process "big data" itself.

あるんですよ。

Yes, they should.

普通のデータであればどうってないこと、

Thought there might be normal operations, as follows

例えば、日付データのフォーマットを変更したり、変な値のデータを削除したり、項目名称を変更したり ―― ビックデータは、そんなことすら、できないのです。

Changing date format, deleting odd data value, and transferring item name, it is absolutely very hard, even if it is "bid data”.

「普通の方法では、触れることもできない」

"Untouchables by normal methods"

これが、私のビッグデータの定義です。

This is my "big data" definition.

-----

一億行のデータの中の”140214”を、"2014/02/14"と変更する為や、ゴミデータを除去する為だけに、データ変換プログラムを書かなければならない。

I have to write the data transformation program in order to change "140214" to ""2014/02/14", and to delete dust data,

加えて、そのプログラムは、予想通り一発で動くことはなく、何回もデバックする必要がある。

In addition, the program cannot operate as I expect for the first time, so I should debug the program several times.

下手すると、ビックデータのせいで、そのプログラムすら、動かないことすらもある。

If the worst happens, the program cannot perform because of the "big data".

「ビックデータ」は、とにかく、めちゃくちゃに面倒くさいやつなのです。

Anyway, the complications of “big data” are beyond my description.

-----

しかし、探せばあるものです。

Fortunately, I could find the special editor that can grab more than more that 100,000,000 lines data

1億行のデータでも読み込み可能なエディタ(EmEditor)です。

The name is “EmEditor”.

一体どこの誰が、こんなニーズがあって、このようなエディタを作ったのかは不明ですが ―― とにかく助かりました。

Thought I don't know that who made it and what purpose he/she made it, I was really helped anyway.

しかし、それでも問題が完全に解決している訳でもありません。

The problem however, is not fully resolved.

このエディタで表示された、膨大な数字(数億個)の中から、目的の数字をどうやってみつけるか、という問題が残っています。

I have to resolve some remaining issues, for example, finding target values in more than 100,000,000 lines data.

「解析に入る前の段階で、『心が折れる』」 ―― これもビックデータの定義と言えそうです。

"Breaking my heart before starting the analysis" is another definition of "big data".

-----

今、私が疑問に思っているのは、

Now I am wondering that

■「ビックデータ」という言葉を使っている人の中の、一体、何パーセントが、

What ratio of persons who use the word "big data", and

■この「ビックデータ」の「絶望的な取り扱いにくさ」を理解しているのだろうか、

How they could reach to understand "desperate handling difficulty" of "big data"

ということです。

(続く)

(To be continued)