포럼: 公開討議 (Thread #23349)

個人由来の情報の扱い方 (2009-07-10 04:15 by token #44876)

(1)主にクライアントから取り出したデータをDashboardでどのような表現で出力するか、とか
(2)統計サーバに送信するデータをどれにするか、とか
(3)サービスが安定した後、統計サーバにデータをUPするかしないかの設定はどうするか、とか、
そういう議論を行います。

しかし、現状は(3)の議論はしません。何故なら、利用者が僅少なのと、安定供給には程遠いので現実感がありませんし、多分結論が出たとしても、他の議論に埋もれてしまうでしょうから、後で探すのが大変です。誰かが覚えていてくれて、必要になった時に提示してくれる約束になれば良いんですが。或いは、この辺の問題対応を専門にやってくれる開発者がjoinしてくれればいいんだけど・・w

Reply to #44876×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

クライアントから取り出したデータの表現方法 (2009-07-10 04:33 by token #44879)

[メッセージ#44876 へのフォロー]

> (1)主にクライアントから取り出したデータをDashboardでどのような表現で出力するか、とか
(1)に関しては、http://sourceforge.jp/forum/message.php?msg_id=44864 にあるように、個人の再生履歴は消してしまっても良さそう。個人の再生ランキングも要らなさそう。

今のところ、次のような議論になってます。
* dashboardから視覚的に隠すくらいなら、消してしまった方が良さそう。
* 個人の再生履歴データを読まないモードを用意する(読まないだけで生成はするから、後で読むモードにすればそれまでの履歴が読める)
* 個人の再生履歴データをクリアするコマンドを追加する
* 個人の再生履歴データを生成しないモードを用意する

これまでの議論をまとめると、
個人の再生履歴はあったほうがいいけど、クリアできるようにしたい、といった感じ。

また、個人情報はクライアントPCに残す、事が前提です。

----
* リストに番号をつけてしまったので、「元のメッセージを引用する」を指定してコメントしてください。そうでないとちょっと見づらくなってきました。
Reply to #44876

Reply to #44879×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: クライアントから取り出したデータの表現方法 (2009-07-10 16:56 by syuu #44891)

私としては、DHTのトラフィックとかユーザの出入りの辺りが後から検証出来るようにしておきたいんだけどな。
ユーザの意思に反しない範囲でという事になるのだろうけども。
Reply to #44879

Reply to #44891×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: クライアントから取り出したデータの表現方法 (2009-07-11 09:05 by token #44900)

話がかなり前に戻るけど、

ユーザの出入りに関しては、『最近エントリされた動画』(というかエントリ中の動画?)に絡むので、サーバで持つしかないね。ここはもう、DHTにログインしてる事から契約成立として判断しても良いと思う。まあ、予め、DHTにログインしたらどんな情報を収集されるかって事を明記しておくべきかもしれないが。

DHTのトラフィックは、『誰が何をどのように取得した』という情報を収集するのは余分だと思うな。『誰が』に関しては、特殊な役割を持つクライアントが存在してるなら、そいつの挙動を確認したいとは思うけど、全てのクライアントで同じ実装をしてるわけだから、個々を特定するような情報は無価値に思える。また、『何を』に関しても同様に特殊なファイルがあればトレースしてみたいと思うけど、そんなファイルはない訳で。なので結論としては『どのように取得したか』だけが得られれば十分だと思う。また『DHTを使った場合、どこから取得したか』というのも現状では同様に意味が無い。

ダイジェストの話が活きて来るなら、『誰が』と『何を』の情報を利用して悪性ユーザをトレースするんだけど、今のところ、ダイジェストの信憑性が曖昧なので当分無理かなぁ。
Reply to #44891

Reply to #44900×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

統計サーバに送信するデータをどれにするか (2009-07-10 04:43 by token #44880)

global情報との兼ね合いで、global entries ( 「最近エントリされた動画」)には個人由来のデータが必要です。
例えば、現在DHTにputされた動画は次のリストです、という時、ただ参照するだけなら

* sm0000
* sm9999
* smXXXX

と表示されていれば良いですが、DHTへ接続するユーザは動的なので、『誰がオンラインになってputしているか』或いは『誰が待機状態か』という情報がなければ、ゾンビが残ります。その為、global entriesを表現するには次のようなリストが必要です。

* ノードA -- sm0000, sm9999
* ノードB -- smXXXX

そして、ノードAがlogoutしたら、次のようなリストにならなくてはなりません。

* ノードB -- smXXXX

そういう理由でglobal entriesが総意で必要だと判断されるなら、各ノードの情報を統計サーバが集めなければなりません。(ノードを示す値はIP+PortをSHA1で暗号化して出力される文字列なので、実際には単なる文字の羅列です。また復元もしないので、『オンラインになっているノード』と『オンラインになっているファイル』を関連付ける為のkeyとして利用しているだけです。なので個人由来と言っても、不可逆です。)
Reply to #44876

Reply to #44880×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 個人由来の情報の扱い方 (2009-07-11 06:48 by abc #44897)

すんません…先程はとても見ずらいポストの仕方をしてしまいました…
今度からポストは変に分けないようにします。m(_ _;)m


[メッセージ#44876 へのフォロー]

> (1)主にクライアントから取り出したデータをDashboardでどのような表現で出力するか、とか
> (2)統計サーバに送信するデータをどれにするか、とか
> (3)サービスが安定した後、統計サーバにデータをUPするかしないかの設定はどうするか、とか、
> そういう議論を行います。
>
> しかし、現状は(3)の議論はしません。何故なら、利用者が僅少なのと、安定供給には程遠いので現実感がありませんし、多分結論が出たとしても、他の議論に埋もれてしまうでしょうから、後で探すのが大変です。誰かが覚えていてくれて、必要になった時に提示してくれる約束になれば良いんですが。或いは、この辺の問題対応を専門にやってくれる開発者がjoinしてくれればいいんだけど・・w

(1)の問題については、(#44879で)おっしゃった通り、個人ランキング等はいらないと思います。

・個人の再生履歴(ローカル保存の履歴データより生成。ユーザー操作による全削除が可能。)
・集団ランキング(現状通り、サーバーに送信された個人の履歴データより生成。個人的には、これは残した方が面白いと思います^^;)

上記二点が出力されていれば当面は十分だと思います。
(さらなるオモシロげな追加要素はのちのち考える方向で…)

(2)の問題については、テクニカルな問題をより多く含んでいそうですね。
いずれにせよ、前スレッドの議論を少し拡張して考える必要はありそうです。
と言いますのは、先のポスト(#44862~#44866)では「個人の視聴履歴」をもっぱら念頭に置いて考えていました。
そのため、それ以外の技術的なサーバーとピア間の通信情報(システムを稼働させるのに必要不可欠な情報群)の扱いの議論については、若干考えから抜けていました。

しかしながら、Genkidamaの動作のテクニカルな側面についてはよくわからないので、ここより以下の文は派手に間違ったこと言っちゃってるかもです(汗

[メッセージ#44880 へのフォロー]

> global情報との兼ね合いで、global entries ( 「最近エントリされた動画」)には個人由来のデータが必要です。
> 例えば、現在DHTにputされた動画は次のリストです、という時、ただ参照するだけなら
>
> * sm0000
> * sm9999
> * smXXXX
>
> と表示されていれば良いですが、DHTへ接続するユーザは動的なので、『誰がオンラインになってputしているか』或いは『誰が待機状態か』という情報がなければ、ゾンビが残ります。その為、global entriesを表現するには次のようなリストが必要です。
>
> * ノードA -- sm0000, sm9999
> * ノードB -- smXXXX
>
> そして、ノードAがlogoutしたら、次のようなリストにならなくてはなりません。
>
> * ノードB -- smXXXX
>
> そういう理由でglobal entriesが総意で必要だと判断されるなら、各ノードの情報を統計サーバが集めなければなりません。(ノードを示す値はIP+PortをSHA1で暗号化して出力される文字列なので、実際には単なる文字の羅列です。また復元もしないので、『オンラインになっているノード』と『オンラインになっているファイル』を関連付ける為のkeyとして利用しているだけです。なので個人由来と言っても、不可逆です。)
>

―まず、言葉の意味についてなんですが、
・global entries(以下、「ノード情報」と表記。)=「あるノードと、そのノードが保有する(putした)動画リストを結びつけた情報群」
ということでいいんですかね?

そして、
・この「ノード情報」は、一方向性ハッシュ関数(SHA1)によって、不可逆な状態で、サーバーに伝達される。

仮にもし、「生のIP+Port」&「putした動画リスト」がセットでサーバーに伝達されて知られるなら、そりゃもう、ダイレクトにプライバシー問題が発生しそうです。
「IPアドレスxxxって奴は、毎日ヱロ動画ばっかりみとるぞww」と、サーバー側にばっちり知られてしまうからです。

しかし[#44880]で仰られたような仕様なら、
「なんか毎日毎日エロい動画ばっか観てるな~この『ノードA』というヤツは…」といったレベルの情報は、サーバー側で採れてしまうにせよ、
その『ノードA』が具体的にどこの誰(どんなIPアドレス)かは、原理的に絶対にわからない、“地球上の誰か”ということしかわからない、ということですかね?

もしそういうことなら、とくにプライバシーの問題とはならないのではないですかね?
…というか、その情報は送らなければシステムが動かないから、送るしかないですよね(汗
一応、ユーザーを安心させるために、これらのことを一筆明示してあれば親切なのかなーくらいには思います。

(…いや、こんなこと言って、実際「大問題だぞ!」とか言われたら大変なので、ほかの方のフォローが聴きたいですm(_ _;)m )


◎(2)のまとめ:
とりあえず、「個人情報」のうち、
・視聴履歴(only for 集団統計)は、きちんとしたプライバシーポリシー明示して送信
・ノード情報(暗号化されたIP+port情報&put動画リスト)は、システムの案内を一筆明示して送信

といったところが理想的なんですかね。
Reply to #44876

Reply to #44897×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 個人由来の情報の扱い方 (2009-07-11 07:00 by abc #44898)

あ、(1)Dashboardに置く項目で、
>・個人の再生履歴(ローカル保存の履歴データより生成。ユーザー操作による全削除が可能。)
>・集団ランキング(現状通り、サーバーに送信された個人の履歴データより生成。個人的には、これは残した方が面白いと思います^^;)
に加えて、
・全体エントリー履歴
も残すといいと思います。書き忘れてました(汗
Reply to #44897

Reply to #44898×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 個人由来の情報の扱い方 (2009-07-11 09:24 by token #44901)

[メッセージ#44898 へのフォロー]

> あ、(1)Dashboardに置く項目で、
> >・個人の再生履歴(ローカル保存の履歴データより生成。ユーザー操作による全削除が可能。)
> >・集団ランキング(現状通り、サーバーに送信された個人の履歴データより生成。個人的には、これは残した方が面白いと思います^^;)

集団ランキング=全体ランキング=global rankingで良いですよね。

僕は、ここは個人由来のデータから取ってこなくとも良いと考えてます。というのも、クライアント側で再生した動画ID(sm9999とか)とどこを経由して再生したか(cache/dht/direct)は検知可能なので、その二つを回収すればランキングは作成できます。また、その二つがあれば、どこを経由して再生したかランキングを作るのも可能ですし。

むしろ、どこを経由して再生したかランキングでなければ、ランキングの意味がないとも思えます。現在のdashboardの全体ランキングは、母数がgenkidamaユーザか本家ユーザかというだけで、本家にあるランキングと意味が変わりません。方々で言われてることですが『ユーザが多くなるとネットワークが安定する』という意味を強くする為には、『DHTを経由して再生されたランキング』を明示した方が良さそうです。今のところはユーザが僅少なので、順位を競うような形にはならないでしょうけれど、統計をユーザに還元するという意味では適切だと思いますし。



> に加えて、
> ・全体エントリー履歴
> も残すといいと思います。書き忘れてました(汗
全体エントリー履歴?

エントリされた動画の履歴ですか?もしそうなら、それはゾンビ(ログアウトしたユーザがエントリしていた動画)も含む事になるので、有効なデータじゃなくなると思いますよ。
Reply to #44898

Reply to #44901×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 個人由来の情報の扱い方 (2009-07-13 17:58 by abc #44949)

[メッセージ#44901 へのフォロー]

> [メッセージ#44898 へのフォロー]
>
> > あ、(1)Dashboardに置く項目で、
> > >・個人の再生履歴(ローカル保存の履歴データより生成。ユーザー操作による全削除が可能。)
> > >・集団ランキング(現状通り、サーバーに送信された個人の履歴データより生成。個人的には、これは残した方が面白いと思います^^;)
>
> 集団ランキング=全体ランキング=global rankingで良いですよね。
>
> 僕は、ここは個人由来のデータから取ってこなくとも良いと考えてます。というのも、クライアント側で再生した動画ID(sm9999とか)とどこを経由して再生したか(cache/dht/direct)は検知可能なので、その二つを回収すればランキングは作成できます。また、その二つがあれば、どこを経由して再生したかランキングを作るのも可能ですし。
>
> むしろ、どこを経由して再生したかランキングでなければ、ランキングの意味がないとも思えます。現在のdashboardの全体ランキングは、母数がgenkidamaユーザか本家ユーザかというだけで、本家にあるランキングと意味が変わりません。方々で言われてることですが『ユーザが多くなるとネットワークが安定する』という意味を強くする為には、『DHTを経由して再生されたランキング』を明示した方が良さそうです。今のところはユーザが僅少なので、順位を競うような形にはならないでしょうけれど、統計をユーザに還元するという意味では適切だと思いますし。
>
>
>
> > に加えて、
> > ・全体エントリー履歴
> > も残すといいと思います。書き忘れてました(汗
> 全体エントリー履歴?
>
> エントリされた動画の履歴ですか?もしそうなら、それはゾンビ(ログアウトしたユーザがエントリしていた動画)も含む事になるので、有効なデータじゃなくなると思いますよ。

そうです。テキトーな言葉の使い方してすみませんorz
仰る通りで、それぞれ、
・集団ランキング=全体ランキング
・全体エントリー履歴=エントリされた動画の履歴
という意味で用いました。

> エントリされた動画の履歴ですか?もしそうなら、それはゾンビ(ログアウトしたユーザがエントリしていた動画)も含む事になるので、有効なデータじゃなくなると思いますよ。

たしかにそうです…
ただ、他の人がどんなの観てるかな~というデータを(ゾンビ・データであっても)見てるのが面白い…という私個人のセコイ楽しさだけなんでw
やっぱり、これはもう含めない方向で…(_ _);

(実装するならむしろ、
> 『DHTを経由して再生されたランキング』
等のほうが、余程意味ありますよね^^;)
Reply to #44901

Reply to #44949×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 個人由来の情報の扱い方 (2009-07-15 04:29 by token #44974)

[メッセージ#44949 へのフォロー]

> > エントリされた動画の履歴ですか?もしそうなら、それはゾンビ(ログアウトしたユーザがエントリしていた動画)も含む事になるので、有効なデータじゃなくなると思いますよ。
>
> たしかにそうです…
> ただ、他の人がどんなの観てるかな~というデータを(ゾンビ・データであっても)見てるのが面白い…という私個人のセコイ楽しさだけなんでw
> やっぱり、これはもう含めない方向で…(_ _);
>
そういう理由なら、全体経由履歴の方で見られるように出来ますよ。
こっちは本当の意味で履歴なのでゾンビとかは無いです。

それか、統計サーバと同期しない形で出力してしまうって手もありますね。
例えば、エントリされた動画リストをRSSで配信する、とか。

RSSのクライアントがどういう風にrdfを保存していくか判りませんが、
サーバ側で毎日30件ずつをRSSで配信すれば、クライアント側で昨日の30件、今日の30件は別に扱われるはずですし。
無論、その配信タイミングは議論次第で、随時更新や毎時更新や1日一回更新とかも可能でしょう。

> (実装するならむしろ、
> > 『DHTを経由して再生されたランキング』
> 等のほうが、余程意味ありますよね^^;)

Reply to #44949

Reply to #44974×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: 個人由来の情報の扱い方 (2009-07-11 11:51 by token #44902)

[メッセージ#44897 へのフォロー]

> [メッセージ#44876 へのフォロー]
>
> > (1)主にクライアントから取り出したデータをDashboardでどのような表現で出力するか、とか
> > (2)統計サーバに送信するデータをどれにするか、とか
>
> (1)の問題については、(#44879で)おっしゃった通り、個人ランキング等はいらないと思います。
>
> ・個人の再生履歴(ローカル保存の履歴データより生成。ユーザー操作による全削除が可能。)
> ・集団ランキング(現状通り、サーバーに送信された個人の履歴データより生成。個人的には、これは残した方が面白いと思います^^;)
>
> (2)の問題については、テクニカルな問題をより多く含んでいそうですね。
>
> ―まず、言葉の意味についてなんですが、
> ・global entries(以下、「ノード情報」と表記。)=「あるノードと、そのノードが保有する(putした)動画リストを結びつけた情報群」
> ということでいいんですかね?
はい、その認識であってます。


> そして、
> ・この「ノード情報」は、一方向性ハッシュ関数(SHA1)によって、不可逆な状態で、サーバーに伝達される。
>
> しかし[#44880]で仰られたような仕様なら、
> 「なんか毎日毎日エロい動画ばっか観てるな~この『ノードA』というヤツは…」といったレベルの情報は、サーバー側で採れてしまうにせよ、
> その『ノードA』が具体的にどこの誰(どんなIPアドレス)かは、原理的に絶対にわからない、“地球上の誰か”ということしかわからない、ということですかね?
>
> もしそういうことなら、とくにプライバシーの問題とはならないのではないですかね?
> …というか、その情報は送らなければシステムが動かないから、送るしかないですよね(汗
> 一応、ユーザーを安心させるために、これらのことを一筆明示してあれば親切なのかなーくらいには思います。
>
一筆というか、動作概要と収集する情報を説明するページを用意してreadmeからリンクしてやれば良さそうです。
無論、Genkidamaを利用する=収集に許諾する、という図が成り立つ形で。

> ◎(2)のまとめ:
> とりあえず、「個人情報」のうち、
> ・視聴履歴(only for 集団統計)は、きちんとしたプライバシーポリシー明示して送信
> ・ノード情報(暗号化されたIP+port情報&put動画リスト)は、システムの案内を一筆明示して送信
>
> といったところが理想的なんですかね。
プライバシーポリシーに関しては、僕は否定的です。
意思表明をしても、なんとも不透明なので。
また、法的な文書が、個人集団をどこまで縛れるか疑わしいところもあります。
なので、収集している情報とその利用先を説明した方が良さそうです。

dashboardの表現に必要な情報は僕が説明を書けますが、
良くわからないけど収集してる情報とか、今後何かに使うかもしれない情報はid:syuuが書くしかないです。

正直、『何が取れるか』だけをリスト化しておいて、必要になった時から取り始める方が良い気がしますが、
id:syuuは先に兎に角取っておく趣味のようなので、意味が解らないデータに関しては彼に丸投げします。
Reply to #44897

Reply to #44902×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login