メールアドレス(半角):


バックナンバーは こちらから

AmazonEC2導入支援・株式会社リッテル

http://www.littel-ec2.com



東大助教清田陽司のHadoop講義



Hadoopセミナー

Hadoopの真価とは何なのか、
日本企業がHadoopを用いることができるのかを知る手がかりとなる、
Hadoopプロジェクトの全貌を解説した実践HadoopセミナーDVDをご紹介いたします。

Hadoop

2010年6月18日、株式会社リッテルは
Hadoopセミナーを開催いたしました。

日経BP社の「クラウドマガジン」、
技術評論社の「ソフトウェアデザイン」にて
Hadoop特集の記事を弊社スタッフが寄稿した経緯もあり、
このセミナーに多くのお問い合わせ、お申し込みをいただき、
増席したにもかかわらずおかげさまで満員御礼となりました。

今回、こちらのHadoopセミナーを録画したDVDのご案内になります。

 つづきはこちらから


2010年8月4日、ヤフー株式会社にて
『Hadoop Hack Night Vol.2』が開催されました。

弊社上席研究員の清田 陽司 東大助教が、
オープニングセクションに続く合計2時間のうち
前半のメインセクションで約30分間にわたって講演、
その後1時間にわたってパネルディスカッションを致しました。

 つづきはこちらから



▼「Think it」に Hadoop 技術の解説記事を寄稿しています。


弊社上席研究員の清田 陽司 東大助教が、
「Think it」というウェブサイトにて
「Hadoop」技術に関する記事を連載しております。

この連載では、膨大なデータ処理のニーズを抱えているユーザーや、
Hadoopを実際に利用することを検討しているユーザーを対象に、
Hadoopとは何かから、その仕組みの詳細、
既存システムに取り込む方法、ノウハウまで、
Hadoopを活用するために必要な基礎知識を解説しています。

是非ご覧になってください。

▼企業で使われるHadoop | Think IT
http://thinkit.co.jp/book/2010/06/04/1574




大量データのバッチ処理をHadoopで!


「事業規模が大きくなり、業務処理量が増え続けたので、従来のシステムの能力では限界です。
最も大きな課題は、夜間バッチ処理が夜間では終わらなくなってしまって…」

「夜間バッチ処理にはいつも7~8時間くらいはかかってます。トランザクション件数が多い日などは、
始業時刻になっても処理が終わらず昼過ぎまでかかることも…。」

「データが多い時は一回で大量オーダーはしない。バッチ処理中はほかの処理をしないなど、
システムの性能不足をユーザー側の運用でなんとか凌いでいます…」

現場からはこんな悲鳴が聞こえてきます…。

Apache Hadoop!


■このような事でお困りのことはありませんか?

・大量にあるデータのバッチ処理のスピードアップをはかりたい。
・手持ちのPOSデータ等の分析をしたい。
・ウェブクロールによる大量データを分析したい。
・毎日増え続けるlog解析を行いたい。
・大量データ処理にかかるコストを低減したい。
・大量のデータ資産があるが、現状ではバッチ処理に時間がかかるのでストレージ内に眠ったままになっている。
・Web上の情報を集めて何かソリューションを作りたいが処理量が膨大で従来の技術では対応できない。
・クラウドコンピューティングに興味があるが、具体的にどうすればいいのかわからない。
・現状のシステムではコストがかかりすぎている。

Hadoop技術を導入することで、そんな状況を劇的に改善できるかもしれません!


リッテルのHadoopソリューションであれば、数GBからテラバイトを超えるような大量のデータを
高速に編集、及び集計処理することが可能となります。

例えば、普段、インターネットにアクセスしているあなたにも心当たりがあるのではないでしょうか?
近年、特に増大している情報には、メッセージや説明文などのテキストデータがあります。

ホームページへのアクセスログには、
「誰がどのページをよく見ているか」、「どういったキーワードで検索しているか」
などの情報を、テキストデータとして蓄積しています。

このログデータを分析することで、より効果的なWEB上でのPR効果をあげていくことが可能です。

しかし、これらのテキストデータをそのままデータベースに格納したのでは、
格納したデータを分類集計することがうまくできない場合が多く、
事前にテキストデータをキーワードで分割して必要なデータのみ切り出しておくことが必要になります。

このようにデータ量の増加とともに、テキスト処理に多くの時間がかかる
ということが新たな問題としてクローズアップしています。




企業システムの構築において、
新規、保守を含めた全てのシステム開発の70%近くを占めるバッチ処理。


そのバッチ処理の構築において、このような事例があると聞いたら、驚かれるでしょうか?

▼これまで十人月以上を必要としていた、システム全体のクロス集計の修正を数分で終わらせる。

▼大規模バッチシステム上のどんな加工内容について聞かれても10分以内に即答できる。

▼たった一人の担当者で複雑な出力データの開発を担った。

▼1億レコードを処理するプロセスが問題なくリリース。

▼従来のシステム上のプロセス数の20%相当での開発が可能なり、
従来なら1000プロセスを超える大規模開発を、少人数で行うことが可能に。


-◆-     -◆-     -◆-     -◆-     -◆-     -◆-

少人数・短期間で新規プロジェクトを立ち上げ、山積している、企業のバックログの懸案を一気に解消。
さらには、新戦略をスムーズに展開する情報システムの構築が可能となります。

バッチ処理は、そんな情報システムの根幹を担っており、企業にとって
その役割は、年々増加し続けています。

最も重要なことは、こうしたソリューション(Hadoop技術に基づく大量データバッチ処理システム)
を導入するか否かによって、ビジネス戦略を現場のシステムに直ぐに反映できるかどうかの差となり、
場合によっては、競争力を失ってしまうことにも繋がってしまいます。

業務というのは、計画(Plan)→実行(Do)→検証(Check)→改善(Action)
のサイクルを繰り返すということです。
そして、そのノウハウを蓄積し、時代の変化に対応して、最善の方法を模索しながら発展していくものです。
このサイクルを如何にうまく回すのか?が他社と自社との差別化を図る際のポイントとなります。

企業戦略に関わるさまざまなニーズに対する膨大な情報を、
スピーディーかつ柔軟に処理・対処することのできる、
リッテルのHadoopソリューションは、その導入企業の大きな躍進に繋がっていくものとなります。